This is an archive of the discontinued LLVM Phabricator instance.

[Thumb2][MVE] Recognise shuffle truncation patterns suitable for ARMISD::MVETRUNC
ClosedPublic

Authored by RKSimon on Jan 15 2023, 6:14 AM.

Download Raw Diff

Details

Reviewers

dmgreen
NickGuy
simon_tatham
john.brawn

Commits

rGf4f8f9f18590: [Thumb2][MVE] Recognise shuffle truncation patterns suitable for ARMISD…

Summary

I'm helping with the remaining regressions on D127115, and one of my candidate fixes caused some regressions with MVE interleaved shuffles due to poor handling of 'truncation' style shuffle masks (0,2,4,6,...).

This patch attempts to use the ARMISD::MVETRUNC node to handle these cases, based off existing code in LowerTruncate.

It handles both (0,2,4,6,...) and (1,3,5,7,....) 'top' style patterns (assuming no endian problems). I shift down the 'top' patterns - a basic search of ARM docs suggests MVE has some top/bottom truncation/narrowing instructions but I don't seem to be able to get them to be used.

NOTE: I don't know anything about MVE so this might be completely wrong :-(

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

RKSimon created this revision.Jan 15 2023, 6:14 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 15 2023, 6:14 AM

Herald added subscribers: hiraditya, kristof.beyls. · View Herald Transcript

RKSimon requested review of this revision.Jan 15 2023, 6:14 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 15 2023, 6:14 AM

Harbormaster completed remote builds in B207906: Diff 489352.Jan 15 2023, 6:43 AM

Thanks for looking at this. I was considering the changes in mve-vst3.ll from D127115 to be unimportant, the tests were just added for completeness. This looks like a nice improvement on it's own though. It does involve going via the stack which can be quite expensive, but should hopefully be cheaper overall than all the lane moves.

I think the bitcasts will be causing BE to be incorrect. Can you change them to VECTOR_REG_CAST, so that they are not dependent on the endianness?

llvm/lib/Target/ARM/ARMISelLowering.cpp
8876	Can you use VECTOR_REG_CAST instead of bitcast.

Just to be clear - its not actually to the fix the mve-vst3.ll change in the current D127115 patch - its some additional regressions we see when I make a change to fix a number of build_vector regressions - there's so much yak shaving associated with D127115 :)

Use VECTOR_REG_CAST instead of BITCAST

Harbormaster completed remote builds in B208012: Diff 489498.Jan 16 2023, 5:44 AM

RKSimon added inline comments.Jan 16 2023, 6:12 AM

llvm/test/CodeGen/Thumb2/mve-vld4.ll
288	I think if we supported trunc from wider elements (in this case vXi64 to vXi16) we'd be able to catch all of these - but the patch currently only handles truncation from double-width element types.

Thanks. LGTM

This revision is now accepted and ready to land.Jan 16 2023, 7:00 AM

This revision was landed with ongoing or failed builds.Jan 16 2023, 10:00 AM

Closed by commit rGf4f8f9f18590: [Thumb2][MVE] Recognise shuffle truncation patterns suitable for ARMISD… (authored by RKSimon). · Explain Why

This revision was automatically updated to reflect the committed changes.

RKSimon added a commit: rGf4f8f9f18590: [Thumb2][MVE] Recognise shuffle truncation patterns suitable for ARMISD….

MaskRay mentioned this in rG6052eac2a8c9: [ARM] Properly fix -Wsign-compare after D141791.Jan 16 2023, 11:57 PM

Revision Contents

Path

Size

llvm/

lib/

Target/

ARM/

ARMISelLowering.cpp

48 lines

test/

CodeGen/

Thumb2/

LowOverheadLoops/

61 lines

114 lines

38 lines

182 lines

mve-vqdmulh-minmax.ll

76 lines

mve-vqdmulh.ll

76 lines

mve-widen-narrow.ll

48 lines

Diff 489593

llvm/lib/Target/ARM/ARMISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,507 Lines • ▼ Show 20 Lines	static bool isReverseMask(ArrayRef<int> M, EVT VT) {
// Look for <15, ..., 3, -1, 1, 0>.		// Look for <15, ..., 3, -1, 1, 0>.
for (unsigned i = 0; i != NumElts; ++i)		for (unsigned i = 0; i != NumElts; ++i)
if (M[i] >= 0 && M[i] != (int) (NumElts - 1 - i))		if (M[i] >= 0 && M[i] != (int) (NumElts - 1 - i))
return false;		return false;

return true;		return true;
}		}

		static bool isTruncMask(ArrayRef<int> M, EVT VT, bool Top, bool SingleSource) {
		unsigned NumElts = VT.getVectorNumElements();
		// Make sure the mask has the right size.
		if (NumElts != M.size() \|\| (VT != MVT::v8i16 && VT != MVT::v16i8))
		return false;

		// Half-width truncation patterns (e.g. v4i32 -> v8i16):
		// !Top && SingleSource: <0, 2, 4, 6, 0, 2, 4, 6>
		// !Top && !SingleSource: <0, 2, 4, 6, 8, 10, 12, 14>
		// Top && SingleSource: <1, 3, 5, 7, 1, 3, 5, 7>
		// Top && !SingleSource: <1, 3, 5, 7, 9, 11, 13, 15>
		int Ofs = Top ? 1 : 0;
		int Upper = SingleSource ? 0 : NumElts;
		for (unsigned i = 0, e = NumElts / 2; i != e; ++i) {
		if (M[i] >= 0 && M[i] != ((i * 2) + Ofs))
		return false;
		if (M[i + e] >= 0 && M[i + e] != ((i * 2) + Ofs + Upper))
		return false;
		}
		return true;
		}

static bool isVMOVNMask(ArrayRef<int> M, EVT VT, bool Top, bool SingleSource) {		static bool isVMOVNMask(ArrayRef<int> M, EVT VT, bool Top, bool SingleSource) {
unsigned NumElts = VT.getVectorNumElements();		unsigned NumElts = VT.getVectorNumElements();
// Make sure the mask has the right size.		// Make sure the mask has the right size.
if (NumElts != M.size() \|\| (VT != MVT::v8i16 && VT != MVT::v16i8))		if (NumElts != M.size() \|\| (VT != MVT::v8i16 && VT != MVT::v16i8))
return false;		return false;

// If Top		// If Top
// Look for <0, N, 2, N+2, 4, N+4, ..>.		// Look for <0, N, 2, N+2, 4, N+4, ..>.
▲ Show 20 Lines • Show All 836 Lines • ▼ Show 20 Lines	else if (Subtarget->hasNEON() &&
return true;		return true;
else if ((VT == MVT::v8i16 \|\| VT == MVT::v8f16 \|\| VT == MVT::v16i8) &&		else if ((VT == MVT::v8i16 \|\| VT == MVT::v8f16 \|\| VT == MVT::v16i8) &&
isReverseMask(M, VT))		isReverseMask(M, VT))
return true;		return true;
else if (Subtarget->hasMVEIntegerOps() &&		else if (Subtarget->hasMVEIntegerOps() &&
(isVMOVNMask(M, VT, true, false) \|\|		(isVMOVNMask(M, VT, true, false) \|\|
isVMOVNMask(M, VT, false, false) \|\| isVMOVNMask(M, VT, true, true)))		isVMOVNMask(M, VT, false, false) \|\| isVMOVNMask(M, VT, true, true)))
return true;		return true;
		else if (Subtarget->hasMVEIntegerOps() &&
		(isTruncMask(M, VT, false, false) \|\|
		isTruncMask(M, VT, false, true) \|\|
		isTruncMask(M, VT, true, false) \|\| isTruncMask(M, VT, true, true)))
		return true;
else		else
return false;		return false;
}		}

/// GeneratePerfectShuffle - Given an entry in the perfect-shuffle table, emit		/// GeneratePerfectShuffle - Given an entry in the perfect-shuffle table, emit
/// the specified operations to build the shuffle.		/// the specified operations to build the shuffle.
static SDValue GeneratePerfectShuffle(unsigned PFEntry, SDValue LHS,		static SDValue GeneratePerfectShuffle(unsigned PFEntry, SDValue LHS,
SDValue RHS, SelectionDAG &DAG,		SDValue RHS, SelectionDAG &DAG,
▲ Show 20 Lines • Show All 456 Lines • ▼ Show 20 Lines	if (ST->hasNEON() && V1->getOpcode() == ISD::CONCAT_VECTORS && V2->isUndef()) {
SDValue Res = DAG.getNode(ShuffleOpc, dl, DAG.getVTList(SubVT, SubVT),		SDValue Res = DAG.getNode(ShuffleOpc, dl, DAG.getVTList(SubVT, SubVT),
SubV1, SubV2);		SubV1, SubV2);
return DAG.getNode(ISD::CONCAT_VECTORS, dl, VT, Res.getValue(0),		return DAG.getNode(ISD::CONCAT_VECTORS, dl, VT, Res.getValue(0),
Res.getValue(1));		Res.getValue(1));
}		}
}		}
}		}

if (ST->hasMVEIntegerOps() && EltSize <= 32)		if (ST->hasMVEIntegerOps() && EltSize <= 32) {
if (SDValue V = LowerVECTOR_SHUFFLEUsingOneOff(Op, ShuffleMask, DAG))		if (SDValue V = LowerVECTOR_SHUFFLEUsingOneOff(Op, ShuffleMask, DAG))
return V;		return V;

		for (bool Top : {false, true}) {
		for (bool SingleSource : {false, true}) {
		if (isTruncMask(ShuffleMask, VT, Top, SingleSource)) {
		MVT FromSVT = MVT::getIntegerVT(EltSize * 2);
		MVT FromVT = MVT::getVectorVT(FromSVT, ShuffleMask.size() / 2);
		SDValue Lo = DAG.getNode(ARMISD::VECTOR_REG_CAST, dl, FromVT, V1);
		dmgreenUnsubmitted Not Done Reply Inline Actions Can you use VECTOR_REG_CAST instead of bitcast. dmgreen: Can you use VECTOR_REG_CAST instead of bitcast.
		SDValue Hi = DAG.getNode(ARMISD::VECTOR_REG_CAST, dl, FromVT,
		SingleSource ? V1 : V2);
		if (Top) {
		SDValue Amt = DAG.getConstant(EltSize, dl, FromVT);
		Lo = DAG.getNode(ISD::SRL, dl, FromVT, Lo, Amt);
		Hi = DAG.getNode(ISD::SRL, dl, FromVT, Hi, Amt);
		}
		return DAG.getNode(ARMISD::MVETRUNC, dl, VT, Lo, Hi);
		}
		}
		}
		}

// If the shuffle is not directly supported and it has 4 elements, use		// If the shuffle is not directly supported and it has 4 elements, use
// the PerfectShuffle-generated table to synthesize it from other shuffles.		// the PerfectShuffle-generated table to synthesize it from other shuffles.
unsigned NumElts = VT.getVectorNumElements();		unsigned NumElts = VT.getVectorNumElements();
if (NumElts == 4) {		if (NumElts == 4) {
unsigned PFIndexes[4];		unsigned PFIndexes[4];
for (unsigned i = 0; i != 4; ++i) {		for (unsigned i = 0; i != 4; ++i) {
if (ShuffleMask[i] < 0)		if (ShuffleMask[i] < 0)
PFIndexes[i] = 8;		PFIndexes[i] = 8;
▲ Show 20 Lines • Show All 13,094 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/mve-float-loops.ll

Show First 20 Lines • Show All 1,268 Lines • ▼ Show 20 Lines	for.body: ; preds = %for.body.preheader11, %for.body
%inc = add nuw i32 %i.09, 1		%inc = add nuw i32 %i.09, 1
%exitcond = icmp eq i32 %inc, %N		%exitcond = icmp eq i32 %inc, %N
br i1 %exitcond, label %for.cond.cleanup, label %for.body		br i1 %exitcond, label %for.cond.cleanup, label %for.body
}		}

define arm_aapcs_vfpcc void @half_short_mul(ptr nocapture readonly %a, ptr nocapture readonly %b, ptr nocapture %c, i32 %N) {		define arm_aapcs_vfpcc void @half_short_mul(ptr nocapture readonly %a, ptr nocapture readonly %b, ptr nocapture %c, i32 %N) {
; CHECK-LABEL: half_short_mul:		; CHECK-LABEL: half_short_mul:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, r10, r11, lr}		; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, lr}
; CHECK-NEXT: sub sp, #4		; CHECK-NEXT: sub sp, #16
; CHECK-NEXT: cmp r3, #0		; CHECK-NEXT: cmp r3, #0
; CHECK-NEXT: beq .LBB8_8		; CHECK-NEXT: beq .LBB8_8
; CHECK-NEXT: @ %bb.1: @ %for.body.preheader		; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
		; CHECK-NEXT: mov r8, r2
		; CHECK-NEXT: mov r9, r1
; CHECK-NEXT: cmp r3, #3		; CHECK-NEXT: cmp r3, #3
; CHECK-NEXT: bhi .LBB8_3		; CHECK-NEXT: bhi .LBB8_3
; CHECK-NEXT: @ %bb.2:		; CHECK-NEXT: @ %bb.2:
; CHECK-NEXT: movs r7, #0		; CHECK-NEXT: mov.w r12, #0
; CHECK-NEXT: b .LBB8_6		; CHECK-NEXT: b .LBB8_6
; CHECK-NEXT: .LBB8_3: @ %vector.ph		; CHECK-NEXT: .LBB8_3: @ %vector.ph
; CHECK-NEXT: bic r7, r3, #3		; CHECK-NEXT: bic r12, r3, #3
; CHECK-NEXT: str r7, [sp] @ 4-byte Spill		; CHECK-NEXT: movs r6, #1
; CHECK-NEXT: subs r6, r7, #4		; CHECK-NEXT: sub.w r7, r12, #4
; CHECK-NEXT: movs r5, #1		; CHECK-NEXT: mov r1, sp
; CHECK-NEXT: mov r4, r0		; CHECK-NEXT: mov r5, r0
; CHECK-NEXT: add.w lr, r5, r6, lsr #2		; CHECK-NEXT: add.w lr, r6, r7, lsr #2
; CHECK-NEXT: mov r5, r1		; CHECK-NEXT: mov r6, r9
; CHECK-NEXT: mov r6, r2		; CHECK-NEXT: mov r7, r8
; CHECK-NEXT: .LBB8_4: @ %vector.body		; CHECK-NEXT: .LBB8_4: @ %vector.body
; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1		; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
; CHECK-NEXT: vldrh.u32 q0, [r5], #8		; CHECK-NEXT: vldrh.u32 q0, [r6], #8
; CHECK-NEXT: ldr.w r9, [r4]		; CHECK-NEXT: ldr r4, [r5]
; CHECK-NEXT: ldr.w r10, [r4, #4]		; CHECK-NEXT: ldr r2, [r5, #4]
; CHECK-NEXT: adds r4, #8		; CHECK-NEXT: adds r5, #8
; CHECK-NEXT: vmov r7, r12, d0		; CHECK-NEXT: vstrh.32 q0, [r1]
; CHECK-NEXT: vmov.32 q1[0], r9		; CHECK-NEXT: vmov.32 q1[0], r4
; CHECK-NEXT: vmov r11, r8, d1		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vmov.16 q0[0], r7		; CHECK-NEXT: vmov.32 q1[1], r2
; CHECK-NEXT: vmov.16 q0[1], r12
; CHECK-NEXT: vmov.32 q1[1], r10
; CHECK-NEXT: vmov.16 q0[2], r11
; CHECK-NEXT: vmov.16 q0[3], r8
; CHECK-NEXT: vcvt.f16.s16 q0, q0		; CHECK-NEXT: vcvt.f16.s16 q0, q0
; CHECK-NEXT: vmul.f16 q0, q1, q0		; CHECK-NEXT: vmul.f16 q0, q1, q0
; CHECK-NEXT: vcvtt.f32.f16 s3, s1		; CHECK-NEXT: vcvtt.f32.f16 s3, s1
; CHECK-NEXT: vcvtb.f32.f16 s2, s1		; CHECK-NEXT: vcvtb.f32.f16 s2, s1
; CHECK-NEXT: vcvtt.f32.f16 s1, s0		; CHECK-NEXT: vcvtt.f32.f16 s1, s0
; CHECK-NEXT: vcvtb.f32.f16 s0, s0		; CHECK-NEXT: vcvtb.f32.f16 s0, s0
; CHECK-NEXT: vstrb.8 q0, [r6], #16		; CHECK-NEXT: vstrb.8 q0, [r7], #16
; CHECK-NEXT: le lr, .LBB8_4		; CHECK-NEXT: le lr, .LBB8_4
; CHECK-NEXT: @ %bb.5: @ %middle.block		; CHECK-NEXT: @ %bb.5: @ %middle.block
; CHECK-NEXT: ldr r7, [sp] @ 4-byte Reload		; CHECK-NEXT: cmp r12, r3
; CHECK-NEXT: cmp r7, r3
; CHECK-NEXT: beq .LBB8_8		; CHECK-NEXT: beq .LBB8_8
; CHECK-NEXT: .LBB8_6: @ %for.body.preheader13		; CHECK-NEXT: .LBB8_6: @ %for.body.preheader13
; CHECK-NEXT: sub.w lr, r3, r7		; CHECK-NEXT: sub.w lr, r3, r12
; CHECK-NEXT: add.w r0, r0, r7, lsl #1		; CHECK-NEXT: add.w r0, r0, r12, lsl #1
; CHECK-NEXT: add.w r1, r1, r7, lsl #1		; CHECK-NEXT: add.w r1, r9, r12, lsl #1
; CHECK-NEXT: add.w r2, r2, r7, lsl #2		; CHECK-NEXT: add.w r2, r8, r12, lsl #2
; CHECK-NEXT: .LBB8_7: @ %for.body		; CHECK-NEXT: .LBB8_7: @ %for.body
; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1		; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
; CHECK-NEXT: ldrsh r3, [r1], #2		; CHECK-NEXT: ldrsh r3, [r1], #2
; CHECK-NEXT: vldr.16 s0, [r0]		; CHECK-NEXT: vldr.16 s0, [r0]
; CHECK-NEXT: adds r0, #2		; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vmov s2, r3		; CHECK-NEXT: vmov s2, r3
; CHECK-NEXT: vcvt.f16.s32 s2, s2		; CHECK-NEXT: vcvt.f16.s32 s2, s2
; CHECK-NEXT: vmul.f16 s0, s0, s2		; CHECK-NEXT: vmul.f16 s0, s0, s2
; CHECK-NEXT: vcvtb.f32.f16 s0, s0		; CHECK-NEXT: vcvtb.f32.f16 s0, s0
; CHECK-NEXT: vstmia r2!, {s0}		; CHECK-NEXT: vstmia r2!, {s0}
; CHECK-NEXT: le lr, .LBB8_7		; CHECK-NEXT: le lr, .LBB8_7
; CHECK-NEXT: .LBB8_8: @ %for.cond.cleanup		; CHECK-NEXT: .LBB8_8: @ %for.cond.cleanup
; CHECK-NEXT: add sp, #4		; CHECK-NEXT: add sp, #16
; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}		; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, pc}
entry:		entry:
%cmp10 = icmp eq i32 %N, 0		%cmp10 = icmp eq i32 %N, 0
br i1 %cmp10, label %for.cond.cleanup, label %for.body.preheader		br i1 %cmp10, label %for.cond.cleanup, label %for.body.preheader

for.body.preheader: ; preds = %entry		for.body.preheader: ; preds = %entry
%min.iters.check = icmp ult i32 %N, 4		%min.iters.check = icmp ult i32 %N, 4
br i1 %min.iters.check, label %for.body.preheader13, label %vector.ph		br i1 %min.iters.check, label %for.body.preheader13, label %vector.ph

▲ Show 20 Lines • Show All 524 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-shuffle.ll

	Show First 20 Lines • Show All 313 Lines • ▼ Show 20 Lines
	entry:			entry:
	%out = shufflevector <8 x i16> %src1, <8 x i16> %src2, <8 x i32> <i32 8, i32 9, i32 undef, i32 undef, i32 12, i32 3, i32 14, i32 15>			%out = shufflevector <8 x i16> %src1, <8 x i16> %src2, <8 x i32> <i32 8, i32 9, i32 undef, i32 undef, i32 12, i32 3, i32 14, i32 15>
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define arm_aapcs_vfpcc <8 x i16> @shuffle2step_i16(<16 x i16> %src) {			define arm_aapcs_vfpcc <8 x i16> @shuffle2step_i16(<16 x i16> %src) {
	; CHECK-LABEL: shuffle2step_i16:			; CHECK-LABEL: shuffle2step_i16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmovx.f16 s8, s0			; CHECK-NEXT: .pad #32
	; CHECK-NEXT: vmovx.f16 s9, s2			; CHECK-NEXT: sub sp, #32
	; CHECK-NEXT: vins.f16 s0, s1			; CHECK-NEXT: mov r0, sp
	; CHECK-NEXT: vins.f16 s2, s3			; CHECK-NEXT: vshr.u32 q2, q1, #16
	; CHECK-NEXT: vmov q3, q0			; CHECK-NEXT: vstrh.32 q2, [r0, #8]
	; CHECK-NEXT: vmovx.f16 s0, s1			; CHECK-NEXT: vshr.u32 q2, q0, #16
	; CHECK-NEXT: vins.f16 s8, s0			; CHECK-NEXT: add r1, sp, #16
	; CHECK-NEXT: vmovx.f16 s0, s3			; CHECK-NEXT: vstrh.32 q2, [r0]
	; CHECK-NEXT: vmovx.f16 s10, s4			; CHECK-NEXT: vstrh.32 q1, [r1, #8]
	; CHECK-NEXT: vins.f16 s9, s0			; CHECK-NEXT: vstrh.32 q0, [r1]
	; CHECK-NEXT: vmovx.f16 s0, s5			; CHECK-NEXT: vldrw.u32 q0, [r0]
	; CHECK-NEXT: vins.f16 s4, s5			; CHECK-NEXT: vldrw.u32 q1, [r1]
	; CHECK-NEXT: vins.f16 s10, s0			; CHECK-NEXT: vadd.i16 q0, q1, q0
	; CHECK-NEXT: vmovx.f16 s11, s6			; CHECK-NEXT: add sp, #32
	; CHECK-NEXT: vmovx.f16 s0, s7
	; CHECK-NEXT: vins.f16 s6, s7
	; CHECK-NEXT: vmov.f32 s13, s2
	; CHECK-NEXT: vins.f16 s11, s0
	; CHECK-NEXT: vmov.f32 s14, s4
	; CHECK-NEXT: vmov.f32 s15, s6
	; CHECK-NEXT: vadd.i16 q0, q3, q2
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%s1 = shufflevector <16 x i16> %src, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>			%s1 = shufflevector <16 x i16> %src, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
	%s2 = shufflevector <16 x i16> %src, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>			%s2 = shufflevector <16 x i16> %src, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
	%r = add <8 x i16> %s1, %s2			%r = add <8 x i16> %s1, %s2
	ret <8 x i16> %r			ret <8 x i16> %r
	}			}

	▲ Show 20 Lines • Show All 259 Lines • ▼ Show 20 Lines
	entry:			entry:
	%out = shufflevector <16 x i8> %src1, <16 x i8> %src2, <16 x i32> <i32 undef, i32 2, i32 2, i32 3, i32 undef, i32 5, i32 6, i32 7, i32 undef, i32 9, i32 10, i32 11, i32 undef, i32 13, i32 14, i32 15>			%out = shufflevector <16 x i8> %src1, <16 x i8> %src2, <16 x i32> <i32 undef, i32 2, i32 2, i32 3, i32 undef, i32 5, i32 6, i32 7, i32 undef, i32 9, i32 10, i32 11, i32 undef, i32 13, i32 14, i32 15>
	ret <16 x i8> %out			ret <16 x i8> %out
	}			}

	define arm_aapcs_vfpcc <16 x i8> @shuffle2step_i8(<32 x i8> %src) {			define arm_aapcs_vfpcc <16 x i8> @shuffle2step_i8(<32 x i8> %src) {
	; CHECK-LABEL: shuffle2step_i8:			; CHECK-LABEL: shuffle2step_i8:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov.u8 r0, q0[0]			; CHECK-NEXT: .pad #32
	; CHECK-NEXT: vmov.8 q2[0], r0			; CHECK-NEXT: sub sp, #32
	; CHECK-NEXT: vmov.u8 r0, q0[2]			; CHECK-NEXT: mov r0, sp
	; CHECK-NEXT: vmov.8 q2[1], r0			; CHECK-NEXT: vshr.u16 q2, q1, #8
	; CHECK-NEXT: vmov.u8 r0, q0[4]			; CHECK-NEXT: vstrb.16 q2, [r0, #8]
	; CHECK-NEXT: vmov.8 q2[2], r0			; CHECK-NEXT: vshr.u16 q2, q0, #8
	; CHECK-NEXT: vmov.u8 r0, q0[6]			; CHECK-NEXT: add r1, sp, #16
	; CHECK-NEXT: vmov.8 q2[3], r0			; CHECK-NEXT: vstrb.16 q2, [r0]
	; CHECK-NEXT: vmov.u8 r0, q0[8]			; CHECK-NEXT: vstrb.16 q1, [r1, #8]
	; CHECK-NEXT: vmov.8 q2[4], r0			; CHECK-NEXT: vstrb.16 q0, [r1]
	; CHECK-NEXT: vmov.u8 r0, q0[10]			; CHECK-NEXT: vldrw.u32 q0, [r0]
	; CHECK-NEXT: vmov.8 q2[5], r0			; CHECK-NEXT: vldrw.u32 q1, [r1]
	; CHECK-NEXT: vmov.u8 r0, q0[12]			; CHECK-NEXT: vadd.i8 q0, q1, q0
	; CHECK-NEXT: vmov.8 q2[6], r0			; CHECK-NEXT: add sp, #32
	; CHECK-NEXT: vmov.u8 r0, q0[14]
	; CHECK-NEXT: vmov.8 q2[7], r0
	; CHECK-NEXT: vmov.u8 r0, q1[0]
	; CHECK-NEXT: vmov.8 q2[8], r0
	; CHECK-NEXT: vmov.u8 r0, q1[2]
	; CHECK-NEXT: vmov.8 q2[9], r0
	; CHECK-NEXT: vmov.u8 r0, q1[4]
	; CHECK-NEXT: vmov.8 q2[10], r0
	; CHECK-NEXT: vmov.u8 r0, q1[6]
	; CHECK-NEXT: vmov.8 q2[11], r0
	; CHECK-NEXT: vmov.u8 r0, q1[8]
	; CHECK-NEXT: vmov.8 q2[12], r0
	; CHECK-NEXT: vmov.u8 r0, q1[10]
	; CHECK-NEXT: vmov.8 q2[13], r0
	; CHECK-NEXT: vmov.u8 r0, q1[12]
	; CHECK-NEXT: vmov.8 q2[14], r0
	; CHECK-NEXT: vmov.u8 r0, q0[1]
	; CHECK-NEXT: vmov.8 q3[0], r0
	; CHECK-NEXT: vmov.u8 r0, q0[3]
	; CHECK-NEXT: vmov.8 q3[1], r0
	; CHECK-NEXT: vmov.u8 r0, q0[5]
	; CHECK-NEXT: vmov.8 q3[2], r0
	; CHECK-NEXT: vmov.u8 r0, q0[7]
	; CHECK-NEXT: vmov.8 q3[3], r0
	; CHECK-NEXT: vmov.u8 r0, q0[9]
	; CHECK-NEXT: vmov.8 q3[4], r0
	; CHECK-NEXT: vmov.u8 r0, q0[11]
	; CHECK-NEXT: vmov.8 q3[5], r0
	; CHECK-NEXT: vmov.u8 r0, q0[13]
	; CHECK-NEXT: vmov.8 q3[6], r0
	; CHECK-NEXT: vmov.u8 r0, q0[15]
	; CHECK-NEXT: vmov.8 q3[7], r0
	; CHECK-NEXT: vmov.u8 r0, q1[1]
	; CHECK-NEXT: vmov.8 q3[8], r0
	; CHECK-NEXT: vmov.u8 r0, q1[3]
	; CHECK-NEXT: vmov.8 q3[9], r0
	; CHECK-NEXT: vmov.u8 r0, q1[5]
	; CHECK-NEXT: vmov.8 q3[10], r0
	; CHECK-NEXT: vmov.u8 r0, q1[7]
	; CHECK-NEXT: vmov.8 q3[11], r0
	; CHECK-NEXT: vmov.u8 r0, q1[9]
	; CHECK-NEXT: vmov.8 q3[12], r0
	; CHECK-NEXT: vmov.u8 r0, q1[11]
	; CHECK-NEXT: vmov.8 q3[13], r0
	; CHECK-NEXT: vmov.u8 r0, q1[13]
	; CHECK-NEXT: vmov.8 q3[14], r0
	; CHECK-NEXT: vmov.u8 r0, q1[15]
	; CHECK-NEXT: vmov.8 q3[15], r0
	; CHECK-NEXT: vmov.u8 r0, q1[14]
	; CHECK-NEXT: vmov.8 q2[15], r0
	; CHECK-NEXT: vadd.i8 q0, q2, q3
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%s1 = shufflevector <32 x i8> %src, <32 x i8> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30>			%s1 = shufflevector <32 x i8> %src, <32 x i8> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30>
	%s2 = shufflevector <32 x i8> %src, <32 x i8> undef, <16 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15, i32 17, i32 19, i32 21, i32 23, i32 25, i32 27, i32 29, i32 31>			%s2 = shufflevector <32 x i8> %src, <32 x i8> undef, <16 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15, i32 17, i32 19, i32 21, i32 23, i32 25, i32 27, i32 29, i32 31>
	%r = add <16 x i8> %s1, %s2			%r = add <16 x i8> %s1, %s2
	ret <16 x i8> %r			ret <16 x i8> %r
	}			}

	▲ Show 20 Lines • Show All 1,188 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vld2.ll

Show First 20 Lines • Show All 198 Lines • ▼ Show 20 Lines	entry:
%a = add <16 x i16> %s1, %s2		%a = add <16 x i16> %s1, %s2
store <16 x i16> %a, ptr %dst		store <16 x i16> %a, ptr %dst
ret void		ret void
}		}

define void @vld2_v8i16_align1(ptr %src, ptr %dst) {		define void @vld2_v8i16_align1(ptr %src, ptr %dst) {
; CHECK-LABEL: vld2_v8i16_align1:		; CHECK-LABEL: vld2_v8i16_align1:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r0]		; CHECK-NEXT: .pad #32
; CHECK-NEXT: vldrb.u8 q2, [r0, #16]		; CHECK-NEXT: sub sp, #32
; CHECK-NEXT: vmovx.f16 s4, s0		; CHECK-NEXT: vldrb.u8 q0, [r0, #16]
; CHECK-NEXT: vmovx.f16 s6, s1		; CHECK-NEXT: add r2, sp, #16
; CHECK-NEXT: vins.f16 s4, s6		; CHECK-NEXT: vshr.u32 q1, q0, #16
; CHECK-NEXT: vmovx.f16 s5, s2		; CHECK-NEXT: vstrh.32 q1, [r2, #8]
; CHECK-NEXT: vmovx.f16 s6, s3		; CHECK-NEXT: vldrb.u8 q1, [r0]
; CHECK-NEXT: vmovx.f16 s12, s9		; CHECK-NEXT: mov r0, sp
; CHECK-NEXT: vins.f16 s5, s6		; CHECK-NEXT: vshr.u32 q2, q1, #16
; CHECK-NEXT: vmovx.f16 s6, s8		; CHECK-NEXT: vstrh.32 q2, [r2]
; CHECK-NEXT: vins.f16 s6, s12		; CHECK-NEXT: vstrh.32 q0, [r0, #8]
; CHECK-NEXT: vmovx.f16 s7, s10		; CHECK-NEXT: vstrh.32 q1, [r0]
; CHECK-NEXT: vmovx.f16 s12, s11		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vins.f16 s2, s3		; CHECK-NEXT: vldrw.u32 q1, [r0]
; CHECK-NEXT: vins.f16 s10, s11		; CHECK-NEXT: vadd.i16 q0, q1, q0
; CHECK-NEXT: vins.f16 s8, s9
; CHECK-NEXT: vins.f16 s0, s1
; CHECK-NEXT: vmov.f32 s1, s2
; CHECK-NEXT: vins.f16 s7, s12
; CHECK-NEXT: vmov.f32 s2, s8
; CHECK-NEXT: vmov.f32 s3, s10
; CHECK-NEXT: vadd.i16 q0, q0, q1
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
		; CHECK-NEXT: add sp, #32
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <16 x i16>, ptr %src, align 1		%l1 = load <16 x i16>, ptr %src, align 1
%s1 = shufflevector <16 x i16> %l1, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>		%s1 = shufflevector <16 x i16> %l1, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
%s2 = shufflevector <16 x i16> %l1, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>		%s2 = shufflevector <16 x i16> %l1, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
%a = add <8 x i16> %s1, %s2		%a = add <8 x i16> %s1, %s2
store <8 x i16> %a, ptr %dst		store <8 x i16> %a, ptr %dst
ret void		ret void
▲ Show 20 Lines • Show All 445 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vld4.ll

Show First 20 Lines • Show All 240 Lines • ▼ Show 20 Lines	entry:
%a3 = add <2 x i16> %a1, %a2		%a3 = add <2 x i16> %a1, %a2
store <2 x i16> %a3, ptr %dst		store <2 x i16> %a3, ptr %dst
ret void		ret void
}		}

define void @vld4_v4i16(ptr %src, ptr %dst) {		define void @vld4_v4i16(ptr %src, ptr %dst) {
; CHECK-LABEL: vld4_v4i16:		; CHECK-LABEL: vld4_v4i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: vpush {d8, d9}		; CHECK-NEXT: push {r4, lr}
		; CHECK-NEXT: .pad #32
		; CHECK-NEXT: sub sp, #32
; CHECK-NEXT: vldrh.u16 q0, [r0, #16]		; CHECK-NEXT: vldrh.u16 q0, [r0, #16]
		; CHECK-NEXT: mov r4, sp
		; CHECK-NEXT: vshr.u32 q1, q0, #16
		; CHECK-NEXT: vmov.u16 r3, q0[3]
		; CHECK-NEXT: vstrh.32 q1, [r4, #8]
; CHECK-NEXT: vldrh.u16 q1, [r0]		; CHECK-NEXT: vldrh.u16 q1, [r0]
; CHECK-NEXT: vmov.u16 r2, q0[3]		; CHECK-NEXT: add r0, sp, #16
; CHECK-NEXT: vmov.u16 r0, q1[3]		; CHECK-NEXT: vshr.u32 q2, q1, #16
; CHECK-NEXT: vmov q2[2], q2[0], r0, r2		; CHECK-NEXT: vmov.u16 r2, q1[3]
; CHECK-NEXT: vmov.u16 r0, q0[7]		; CHECK-NEXT: vstrh.32 q2, [r4]
; CHECK-NEXT: vmov.u16 r2, q1[7]		; CHECK-NEXT: vmov q2[2], q2[0], r2, r3
; CHECK-NEXT: vmov q2[3], q2[1], r2, r0		; CHECK-NEXT: vmov.u16 r2, q0[7]
; CHECK-NEXT: vmov.u16 r0, q0[2]		; CHECK-NEXT: vmov.u16 r3, q1[7]
; CHECK-NEXT: vmov.u16 r2, q1[2]		; CHECK-NEXT: vmov q2[3], q2[1], r3, r2
; CHECK-NEXT: vmov q3[2], q3[0], r2, r0		; CHECK-NEXT: vmov.u16 r2, q0[2]
; CHECK-NEXT: vmov.u16 r0, q0[6]		; CHECK-NEXT: vmov.u16 r3, q1[2]
; CHECK-NEXT: vmov.u16 r2, q1[6]		; CHECK-NEXT: vstrh.32 q0, [r0, #8]
; CHECK-NEXT: vmov q3[3], q3[1], r2, r0		; CHECK-NEXT: vmov q3[2], q3[0], r3, r2
; CHECK-NEXT: vmov.u16 r0, q0[0]		; CHECK-NEXT: vmov.u16 r2, q0[6]
; CHECK-NEXT: vmov.u16 r2, q1[0]		; CHECK-NEXT: vmov.u16 r3, q1[6]
; CHECK-NEXT: vadd.i32 q2, q3, q2		; CHECK-NEXT: vstrh.32 q1, [r0]
; CHECK-NEXT: vmov q3[2], q3[0], r2, r0		; CHECK-NEXT: vmov q3[3], q3[1], r3, r2
; CHECK-NEXT: vmov.u16 r0, q0[1]		; CHECK-NEXT: vldrw.u32 q1, [r4]
; CHECK-NEXT: vmov.u16 r2, q1[1]		; CHECK-NEXT: vadd.i32 q0, q3, q2
; CHECK-NEXT: vmov q4[2], q4[0], r2, r0		; CHECK-NEXT: vldrw.u32 q2, [r0]
; CHECK-NEXT: vmov.u16 r0, q0[5]		; CHECK-NEXT: vadd.i32 q1, q2, q1
; CHECK-NEXT: vmov.u16 r2, q1[5]		; CHECK-NEXT: vadd.i32 q0, q1, q0
; CHECK-NEXT: vmov q4[3], q4[1], r2, r0
; CHECK-NEXT: vmov.u16 r0, q0[4]
; CHECK-NEXT: vmov.u16 r2, q1[4]
; CHECK-NEXT: vmov q3[3], q3[1], r2, r0
; CHECK-NEXT: vadd.i32 q0, q3, q4
; CHECK-NEXT: vadd.i32 q0, q0, q2
; CHECK-NEXT: vstrh.32 q0, [r1]		; CHECK-NEXT: vstrh.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9}		; CHECK-NEXT: add sp, #32
; CHECK-NEXT: bx lr		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%l1 = load <16 x i16>, ptr %src, align 2		%l1 = load <16 x i16>, ptr %src, align 2
%s1 = shufflevector <16 x i16> %l1, <16 x i16> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>		%s1 = shufflevector <16 x i16> %l1, <16 x i16> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
%s2 = shufflevector <16 x i16> %l1, <16 x i16> undef, <4 x i32> <i32 1, i32 5, i32 9, i32 13>		%s2 = shufflevector <16 x i16> %l1, <16 x i16> undef, <4 x i32> <i32 1, i32 5, i32 9, i32 13>
%s3 = shufflevector <16 x i16> %l1, <16 x i16> undef, <4 x i32> <i32 2, i32 6, i32 10, i32 14>		%s3 = shufflevector <16 x i16> %l1, <16 x i16> undef, <4 x i32> <i32 2, i32 6, i32 10, i32 14>
%s4 = shufflevector <16 x i16> %l1, <16 x i16> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>		%s4 = shufflevector <16 x i16> %l1, <16 x i16> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions I think if we supported trunc from wider elements (in this case vXi64 to vXi16) we'd be able to catch all of these - but the patch currently only handles truncation from double-width element types. RKSimon: I think if we supported trunc from wider elements (in this case vXi64 to vXi16) we'd be able to…
%a1 = add <4 x i16> %s1, %s2		%a1 = add <4 x i16> %s1, %s2
%a2 = add <4 x i16> %s3, %s4		%a2 = add <4 x i16> %s3, %s4
%a3 = add <4 x i16> %a1, %a2		%a3 = add <4 x i16> %a1, %a2
store <4 x i16> %a3, ptr %dst		store <4 x i16> %a3, ptr %dst
ret void		ret void
}		}

define void @vld4_v8i16(ptr %src, ptr %dst) {		define void @vld4_v8i16(ptr %src, ptr %dst) {
▲ Show 20 Lines • Show All 188 Lines • ▼ Show 20 Lines	entry:
%a3 = add <4 x i8> %a1, %a2		%a3 = add <4 x i8> %a1, %a2
store <4 x i8> %a3, ptr %dst		store <4 x i8> %a3, ptr %dst
ret void		ret void
}		}

define void @vld4_v8i8(ptr %src, ptr %dst) {		define void @vld4_v8i8(ptr %src, ptr %dst) {
; CHECK-LABEL: vld4_v8i8:		; CHECK-LABEL: vld4_v8i8:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9}		; CHECK-NEXT: .pad #32
; CHECK-NEXT: vpush {d8, d9}		; CHECK-NEXT: sub sp, #32
; CHECK-NEXT: vldrb.u8 q1, [r0]
; CHECK-NEXT: vldrb.u8 q0, [r0, #16]		; CHECK-NEXT: vldrb.u8 q0, [r0, #16]
; CHECK-NEXT: vmov.u8 r2, q1[3]		; CHECK-NEXT: mov r2, sp
; CHECK-NEXT: vmov.u8 r0, q0[3]		; CHECK-NEXT: vshr.u16 q1, q0, #8
; CHECK-NEXT: vmov.16 q2[0], r2		; CHECK-NEXT: vstrb.16 q1, [r2, #8]
; CHECK-NEXT: vmov.u8 r2, q1[7]		; CHECK-NEXT: vldrb.u8 q2, [r0]
; CHECK-NEXT: vmov.16 q2[1], r2		; CHECK-NEXT: add r0, sp, #16
; CHECK-NEXT: vmov.u8 r2, q1[11]		; CHECK-NEXT: vshr.u16 q1, q2, #8
; CHECK-NEXT: vmov.16 q2[2], r2		; CHECK-NEXT: vmov.u8 r3, q2[3]
; CHECK-NEXT: vmov.u8 r2, q1[15]		; CHECK-NEXT: vstrb.16 q1, [r2]
; CHECK-NEXT: vmov.16 q2[3], r2		; CHECK-NEXT: vmov.16 q1[0], r3
; CHECK-NEXT: vmov.16 q2[4], r0		; CHECK-NEXT: vmov.u8 r3, q2[7]
; CHECK-NEXT: vmov.u8 r0, q0[7]		; CHECK-NEXT: vstrb.16 q0, [r0, #8]
; CHECK-NEXT: vmov.16 q2[5], r0		; CHECK-NEXT: vmov.16 q1[1], r3
; CHECK-NEXT: vmov.u8 r0, q0[11]		; CHECK-NEXT: vmov.u8 r3, q2[11]
; CHECK-NEXT: vmov.16 q2[6], r0		; CHECK-NEXT: vmov.16 q1[2], r3
; CHECK-NEXT: vmov.u8 r0, q0[15]		; CHECK-NEXT: vmov.u8 r3, q2[15]
; CHECK-NEXT: vmov.16 q2[7], r0		; CHECK-NEXT: vmov.16 q1[3], r3
; CHECK-NEXT: vmov.u8 r0, q1[2]		; CHECK-NEXT: vmov.u8 r3, q0[3]
; CHECK-NEXT: vmov.16 q3[0], r0		; CHECK-NEXT: vmov.16 q1[4], r3
; CHECK-NEXT: vmov.u8 r0, q1[6]		; CHECK-NEXT: vmov.u8 r3, q0[7]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q1[5], r3
; CHECK-NEXT: vmov.u8 r0, q1[10]		; CHECK-NEXT: vmov.u8 r3, q0[11]
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q1[6], r3
; CHECK-NEXT: vmov.u8 r0, q1[14]		; CHECK-NEXT: vmov.u8 r3, q0[15]
; CHECK-NEXT: vmov.16 q3[3], r0		; CHECK-NEXT: vmov.16 q1[7], r3
; CHECK-NEXT: vmov.u8 r0, q0[2]		; CHECK-NEXT: vmov.u8 r3, q2[2]
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vmov.16 q3[0], r3
; CHECK-NEXT: vmov.u8 r0, q0[6]		; CHECK-NEXT: vmov.u8 r3, q2[6]
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q3[1], r3
; CHECK-NEXT: vmov.u8 r0, q0[10]		; CHECK-NEXT: vmov.u8 r3, q2[10]
; CHECK-NEXT: vmov.16 q3[6], r0		; CHECK-NEXT: vmov.16 q3[2], r3
; CHECK-NEXT: vmov.u8 r0, q0[14]		; CHECK-NEXT: vmov.u8 r3, q2[14]
; CHECK-NEXT: vmov.16 q3[7], r0		; CHECK-NEXT: vmov.16 q3[3], r3
; CHECK-NEXT: vmov.u8 r0, q1[0]		; CHECK-NEXT: vmov.u8 r3, q0[2]
; CHECK-NEXT: vadd.i16 q2, q3, q2		; CHECK-NEXT: vmov.16 q3[4], r3
; CHECK-NEXT: vmov.16 q3[0], r0		; CHECK-NEXT: vmov.u8 r3, q0[6]
; CHECK-NEXT: vmov.u8 r0, q1[4]		; CHECK-NEXT: vmov.16 q3[5], r3
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.u8 r3, q0[10]
; CHECK-NEXT: vmov.u8 r0, q1[8]		; CHECK-NEXT: vmov.16 q3[6], r3
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.u8 r3, q0[14]
; CHECK-NEXT: vmov.u8 r0, q1[12]		; CHECK-NEXT: vstrb.16 q2, [r0]
; CHECK-NEXT: vmov.16 q3[3], r0		; CHECK-NEXT: vmov.16 q3[7], r3
; CHECK-NEXT: vmov.u8 r0, q0[0]		; CHECK-NEXT: vadd.i16 q0, q3, q1
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vmov.u8 r0, q0[4]		; CHECK-NEXT: vldrw.u32 q2, [r0]
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vadd.i16 q1, q2, q1
; CHECK-NEXT: vmov.u8 r0, q0[8]		; CHECK-NEXT: vadd.i16 q0, q1, q0
; CHECK-NEXT: vmov.16 q3[6], r0
; CHECK-NEXT: vmov.u8 r0, q1[1]
; CHECK-NEXT: vmov.16 q4[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[5]
; CHECK-NEXT: vmov.16 q4[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[9]
; CHECK-NEXT: vmov.16 q4[2], r0
; CHECK-NEXT: vmov.u8 r0, q1[13]
; CHECK-NEXT: vmov.16 q4[3], r0
; CHECK-NEXT: vmov.u8 r0, q0[1]
; CHECK-NEXT: vmov.16 q4[4], r0
; CHECK-NEXT: vmov.u8 r0, q0[5]
; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vmov.u8 r0, q0[9]
; CHECK-NEXT: vmov.16 q4[6], r0
; CHECK-NEXT: vmov.u8 r0, q0[13]
; CHECK-NEXT: vmov.16 q4[7], r0
; CHECK-NEXT: vmov.u8 r0, q0[12]
; CHECK-NEXT: vmov.16 q3[7], r0
; CHECK-NEXT: vadd.i16 q0, q3, q4
; CHECK-NEXT: vadd.i16 q0, q0, q2
; CHECK-NEXT: vstrb.16 q0, [r1]		; CHECK-NEXT: vstrb.16 q0, [r1]
; CHECK-NEXT: vpop {d8, d9}		; CHECK-NEXT: add sp, #32
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <32 x i8>, ptr %src, align 1		%l1 = load <32 x i8>, ptr %src, align 1
%s1 = shufflevector <32 x i8> %l1, <32 x i8> undef, <8 x i32> <i32 0, i32 4, i32 8, i32 12, i32 16, i32 20, i32 24, i32 28>		%s1 = shufflevector <32 x i8> %l1, <32 x i8> undef, <8 x i32> <i32 0, i32 4, i32 8, i32 12, i32 16, i32 20, i32 24, i32 28>
%s2 = shufflevector <32 x i8> %l1, <32 x i8> undef, <8 x i32> <i32 1, i32 5, i32 9, i32 13, i32 17, i32 21, i32 25, i32 29>		%s2 = shufflevector <32 x i8> %l1, <32 x i8> undef, <8 x i32> <i32 1, i32 5, i32 9, i32 13, i32 17, i32 21, i32 25, i32 29>
%s3 = shufflevector <32 x i8> %l1, <32 x i8> undef, <8 x i32> <i32 2, i32 6, i32 10, i32 14, i32 18, i32 22, i32 26, i32 30>		%s3 = shufflevector <32 x i8> %l1, <32 x i8> undef, <8 x i32> <i32 2, i32 6, i32 10, i32 14, i32 18, i32 22, i32 26, i32 30>
%s4 = shufflevector <32 x i8> %l1, <32 x i8> undef, <8 x i32> <i32 3, i32 7, i32 11, i32 15, i32 19, i32 23, i32 27, i32 31>		%s4 = shufflevector <32 x i8> %l1, <32 x i8> undef, <8 x i32> <i32 3, i32 7, i32 11, i32 15, i32 19, i32 23, i32 27, i32 31>
%a1 = add <8 x i8> %s1, %s2		%a1 = add <8 x i8> %s1, %s2
▲ Show 20 Lines • Show All 664 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vqdmulh-minmax.ll

Show First 20 Lines • Show All 141 Lines • ▼ Show 20 Lines	entry:
%l9 = call <16 x i32> @llvm.smin.v16i32(<16 x i32> %l7, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>)		%l9 = call <16 x i32> @llvm.smin.v16i32(<16 x i32> %l7, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>)
%l10 = trunc <16 x i32> %l9 to <16 x i16>		%l10 = trunc <16 x i32> %l9 to <16 x i16>
ret <16 x i16> %l10		ret <16 x i16> %l10
}		}

define arm_aapcs_vfpcc <8 x i16> @vqdmulh_v8i16_c(<8 x i16> %s0, <8 x i16> %s1) {		define arm_aapcs_vfpcc <8 x i16> @vqdmulh_v8i16_c(<8 x i16> %s0, <8 x i16> %s1) {
; CHECK-LABEL: vqdmulh_v8i16_c:		; CHECK-LABEL: vqdmulh_v8i16_c:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov q2, q0		; CHECK-NEXT: .pad #16
; CHECK-NEXT: vmov.u16 r0, q0[2]		; CHECK-NEXT: sub sp, #16
; CHECK-NEXT: vmov.u16 r1, q0[0]		; CHECK-NEXT: vmov.u16 r0, q0[6]
; CHECK-NEXT: vmov q0[2], q0[0], r1, r0		; CHECK-NEXT: vmov.u16 r1, q0[4]
; CHECK-NEXT: vmov.u16 r0, q2[3]		; CHECK-NEXT: vmov q2[2], q2[0], r1, r0
; CHECK-NEXT: vmov.u16 r1, q2[1]		; CHECK-NEXT: vmov.u16 r0, q0[7]
; CHECK-NEXT: vmov q0[3], q0[1], r1, r0		; CHECK-NEXT: vmov.u16 r1, q0[5]
; CHECK-NEXT: vmov.u16 r0, q1[2]		; CHECK-NEXT: vmov.u16 r2, q0[0]
; CHECK-NEXT: vmov.u16 r1, q1[0]		; CHECK-NEXT: vmov q2[3], q2[1], r1, r0
; CHECK-NEXT: vmov q3[2], q3[0], r1, r0
; CHECK-NEXT: vmov.u16 r0, q1[3]
; CHECK-NEXT: vmov.u16 r1, q1[1]
; CHECK-NEXT: vmov q3[3], q3[1], r1, r0
; CHECK-NEXT: vmullb.s16 q0, q3, q0
; CHECK-NEXT: vshl.i32 q0, q0, #10
; CHECK-NEXT: vshr.s32 q0, q0, #10
; CHECK-NEXT: vshr.s32 q3, q0, #15
; CHECK-NEXT: vmov r0, r1, d6
; CHECK-NEXT: vmov.16 q0[0], r0
; CHECK-NEXT: vmov.16 q0[1], r1
; CHECK-NEXT: vmov r0, r1, d7
; CHECK-NEXT: vmov.16 q0[2], r0
; CHECK-NEXT: vmov.u16 r0, q2[6]
; CHECK-NEXT: vmov.16 q0[3], r1
; CHECK-NEXT: vmov.u16 r1, q2[4]
; CHECK-NEXT: vmov q3[2], q3[0], r1, r0
; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmov.u16 r1, q2[5]
; CHECK-NEXT: vmov q3[3], q3[1], r1, r0
; CHECK-NEXT: vmov.u16 r0, q1[6]		; CHECK-NEXT: vmov.u16 r0, q1[6]
; CHECK-NEXT: vmov.u16 r1, q1[4]		; CHECK-NEXT: vmov.u16 r1, q1[4]
; CHECK-NEXT: vmov q2[2], q2[0], r1, r0		; CHECK-NEXT: vmov q3[2], q3[0], r1, r0
; CHECK-NEXT: vmov.u16 r0, q1[7]		; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vmov.u16 r1, q1[5]		; CHECK-NEXT: vmov.u16 r1, q1[5]
; CHECK-NEXT: vmov q2[3], q2[1], r1, r0		; CHECK-NEXT: vmov q3[3], q3[1], r1, r0
; CHECK-NEXT: vmullb.s16 q1, q2, q3		; CHECK-NEXT: mov r0, sp
; CHECK-NEXT: vshl.i32 q1, q1, #10		; CHECK-NEXT: vmullb.s16 q2, q3, q2
; CHECK-NEXT: vshr.s32 q1, q1, #10		; CHECK-NEXT: vmov.u16 r1, q0[2]
; CHECK-NEXT: vshr.s32 q1, q1, #15		; CHECK-NEXT: vshl.i32 q2, q2, #10
; CHECK-NEXT: vmov r0, r1, d2		; CHECK-NEXT: vshr.s32 q2, q2, #10
; CHECK-NEXT: vmov.16 q0[4], r0		; CHECK-NEXT: vshr.s32 q2, q2, #15
; CHECK-NEXT: vmov.16 q0[5], r1		; CHECK-NEXT: vstrh.32 q2, [r0, #8]
; CHECK-NEXT: vmov r0, r1, d3		; CHECK-NEXT: vmov q2[2], q2[0], r2, r1
; CHECK-NEXT: vmov.16 q0[6], r0		; CHECK-NEXT: vmov.u16 r1, q0[3]
; CHECK-NEXT: vmov.16 q0[7], r1		; CHECK-NEXT: vmov.u16 r2, q0[1]
		; CHECK-NEXT: vmov q2[3], q2[1], r2, r1
		; CHECK-NEXT: vmov.u16 r1, q1[2]
		; CHECK-NEXT: vmov.u16 r2, q1[0]
		; CHECK-NEXT: vmov q0[2], q0[0], r2, r1
		; CHECK-NEXT: vmov.u16 r1, q1[3]
		; CHECK-NEXT: vmov.u16 r2, q1[1]
		; CHECK-NEXT: vmov q0[3], q0[1], r2, r1
		; CHECK-NEXT: vmullb.s16 q0, q0, q2
		; CHECK-NEXT: vshl.i32 q0, q0, #10
		; CHECK-NEXT: vshr.s32 q0, q0, #10
		; CHECK-NEXT: vshr.s32 q0, q0, #15
		; CHECK-NEXT: vstrh.32 q0, [r0]
		; CHECK-NEXT: vldrw.u32 q0, [r0]
		; CHECK-NEXT: add sp, #16
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l2 = sext <8 x i16> %s0 to <8 x i22>		%l2 = sext <8 x i16> %s0 to <8 x i22>
%l5 = sext <8 x i16> %s1 to <8 x i22>		%l5 = sext <8 x i16> %s1 to <8 x i22>
%l6 = mul nsw <8 x i22> %l5, %l2		%l6 = mul nsw <8 x i22> %l5, %l2
%l7 = ashr <8 x i22> %l6, <i22 15, i22 15, i22 15, i22 15, i22 15, i22 15, i22 15, i22 15>		%l7 = ashr <8 x i22> %l6, <i22 15, i22 15, i22 15, i22 15, i22 15, i22 15, i22 15, i22 15>
%l9 = call <8 x i22> @llvm.smin.v8i22(<8 x i22> %l7, <8 x i22> <i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767>)		%l9 = call <8 x i22> @llvm.smin.v8i22(<8 x i22> %l7, <8 x i22> <i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767>)
%l10 = trunc <8 x i22> %l9 to <8 x i16>		%l10 = trunc <8 x i22> %l9 to <8 x i16>
▲ Show 20 Lines • Show All 302 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vqdmulh.ll

Show First 20 Lines • Show All 150 Lines • ▼ Show 20 Lines	entry:
%l9 = select <16 x i1> %l16, <16 x i32> %l7, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>		%l9 = select <16 x i1> %l16, <16 x i32> %l7, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
%l10 = trunc <16 x i32> %l9 to <16 x i16>		%l10 = trunc <16 x i32> %l9 to <16 x i16>
ret <16 x i16> %l10		ret <16 x i16> %l10
}		}

define arm_aapcs_vfpcc <8 x i16> @vqdmulh_v8i16_c(<8 x i16> %s0, <8 x i16> %s1) {		define arm_aapcs_vfpcc <8 x i16> @vqdmulh_v8i16_c(<8 x i16> %s0, <8 x i16> %s1) {
; CHECK-LABEL: vqdmulh_v8i16_c:		; CHECK-LABEL: vqdmulh_v8i16_c:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov q2, q0		; CHECK-NEXT: .pad #16
; CHECK-NEXT: vmov.u16 r0, q0[2]		; CHECK-NEXT: sub sp, #16
; CHECK-NEXT: vmov.u16 r1, q0[0]		; CHECK-NEXT: vmov.u16 r0, q0[6]
; CHECK-NEXT: vmov q0[2], q0[0], r1, r0		; CHECK-NEXT: vmov.u16 r1, q0[4]
; CHECK-NEXT: vmov.u16 r0, q2[3]		; CHECK-NEXT: vmov q2[2], q2[0], r1, r0
; CHECK-NEXT: vmov.u16 r1, q2[1]		; CHECK-NEXT: vmov.u16 r0, q0[7]
; CHECK-NEXT: vmov q0[3], q0[1], r1, r0		; CHECK-NEXT: vmov.u16 r1, q0[5]
; CHECK-NEXT: vmov.u16 r0, q1[2]		; CHECK-NEXT: vmov.u16 r2, q0[0]
; CHECK-NEXT: vmov.u16 r1, q1[0]		; CHECK-NEXT: vmov q2[3], q2[1], r1, r0
; CHECK-NEXT: vmov q3[2], q3[0], r1, r0
; CHECK-NEXT: vmov.u16 r0, q1[3]
; CHECK-NEXT: vmov.u16 r1, q1[1]
; CHECK-NEXT: vmov q3[3], q3[1], r1, r0
; CHECK-NEXT: vmullb.s16 q0, q3, q0
; CHECK-NEXT: vshl.i32 q0, q0, #10
; CHECK-NEXT: vshr.s32 q0, q0, #10
; CHECK-NEXT: vshr.s32 q3, q0, #15
; CHECK-NEXT: vmov r0, r1, d6
; CHECK-NEXT: vmov.16 q0[0], r0
; CHECK-NEXT: vmov.16 q0[1], r1
; CHECK-NEXT: vmov r0, r1, d7
; CHECK-NEXT: vmov.16 q0[2], r0
; CHECK-NEXT: vmov.u16 r0, q2[6]
; CHECK-NEXT: vmov.16 q0[3], r1
; CHECK-NEXT: vmov.u16 r1, q2[4]
; CHECK-NEXT: vmov q3[2], q3[0], r1, r0
; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmov.u16 r1, q2[5]
; CHECK-NEXT: vmov q3[3], q3[1], r1, r0
; CHECK-NEXT: vmov.u16 r0, q1[6]		; CHECK-NEXT: vmov.u16 r0, q1[6]
; CHECK-NEXT: vmov.u16 r1, q1[4]		; CHECK-NEXT: vmov.u16 r1, q1[4]
; CHECK-NEXT: vmov q2[2], q2[0], r1, r0		; CHECK-NEXT: vmov q3[2], q3[0], r1, r0
; CHECK-NEXT: vmov.u16 r0, q1[7]		; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vmov.u16 r1, q1[5]		; CHECK-NEXT: vmov.u16 r1, q1[5]
; CHECK-NEXT: vmov q2[3], q2[1], r1, r0		; CHECK-NEXT: vmov q3[3], q3[1], r1, r0
; CHECK-NEXT: vmullb.s16 q1, q2, q3		; CHECK-NEXT: mov r0, sp
; CHECK-NEXT: vshl.i32 q1, q1, #10		; CHECK-NEXT: vmullb.s16 q2, q3, q2
; CHECK-NEXT: vshr.s32 q1, q1, #10		; CHECK-NEXT: vmov.u16 r1, q0[2]
; CHECK-NEXT: vshr.s32 q1, q1, #15		; CHECK-NEXT: vshl.i32 q2, q2, #10
; CHECK-NEXT: vmov r0, r1, d2		; CHECK-NEXT: vshr.s32 q2, q2, #10
; CHECK-NEXT: vmov.16 q0[4], r0		; CHECK-NEXT: vshr.s32 q2, q2, #15
; CHECK-NEXT: vmov.16 q0[5], r1		; CHECK-NEXT: vstrh.32 q2, [r0, #8]
; CHECK-NEXT: vmov r0, r1, d3		; CHECK-NEXT: vmov q2[2], q2[0], r2, r1
; CHECK-NEXT: vmov.16 q0[6], r0		; CHECK-NEXT: vmov.u16 r1, q0[3]
; CHECK-NEXT: vmov.16 q0[7], r1		; CHECK-NEXT: vmov.u16 r2, q0[1]
		; CHECK-NEXT: vmov q2[3], q2[1], r2, r1
		; CHECK-NEXT: vmov.u16 r1, q1[2]
		; CHECK-NEXT: vmov.u16 r2, q1[0]
		; CHECK-NEXT: vmov q0[2], q0[0], r2, r1
		; CHECK-NEXT: vmov.u16 r1, q1[3]
		; CHECK-NEXT: vmov.u16 r2, q1[1]
		; CHECK-NEXT: vmov q0[3], q0[1], r2, r1
		; CHECK-NEXT: vmullb.s16 q0, q0, q2
		; CHECK-NEXT: vshl.i32 q0, q0, #10
		; CHECK-NEXT: vshr.s32 q0, q0, #10
		; CHECK-NEXT: vshr.s32 q0, q0, #15
		; CHECK-NEXT: vstrh.32 q0, [r0]
		; CHECK-NEXT: vldrw.u32 q0, [r0]
		; CHECK-NEXT: add sp, #16
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l2 = sext <8 x i16> %s0 to <8 x i22>		%l2 = sext <8 x i16> %s0 to <8 x i22>
%l5 = sext <8 x i16> %s1 to <8 x i22>		%l5 = sext <8 x i16> %s1 to <8 x i22>
%l6 = mul nsw <8 x i22> %l5, %l2		%l6 = mul nsw <8 x i22> %l5, %l2
%l7 = ashr <8 x i22> %l6, <i22 15, i22 15, i22 15, i22 15, i22 15, i22 15, i22 15, i22 15>		%l7 = ashr <8 x i22> %l6, <i22 15, i22 15, i22 15, i22 15, i22 15, i22 15, i22 15, i22 15>
%l8 = icmp slt <8 x i22> %l7, <i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767>		%l8 = icmp slt <8 x i22> %l7, <i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767>
%l9 = select <8 x i1> %l8, <8 x i22> %l7, <8 x i22> <i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767>		%l9 = select <8 x i1> %l8, <8 x i22> %l7, <8 x i22> <i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767, i22 32767>
▲ Show 20 Lines • Show All 345 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-widen-narrow.ll

Show All 39 Lines	entry:
store <8 x i8> %0, ptr %dest, align 1		store <8 x i8> %0, ptr %dest, align 1
ret void		ret void
}		}


define void @foo_int8_int32_double(ptr %dest, ptr readonly %src, i32 %n) {		define void @foo_int8_int32_double(ptr %dest, ptr readonly %src, i32 %n) {
; CHECK-LE-LABEL: foo_int8_int32_double:		; CHECK-LE-LABEL: foo_int8_int32_double:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: vldrh.u16 q1, [r1]		; CHECK-LE-NEXT: .pad #16
; CHECK-LE-NEXT: vmov r2, r3, d2		; CHECK-LE-NEXT: sub sp, #16
; CHECK-LE-NEXT: vmov.16 q0[0], r2		; CHECK-LE-NEXT: vldrh.u16 q0, [r1, #16]
; CHECK-LE-NEXT: vmov.16 q0[1], r3		; CHECK-LE-NEXT: mov r2, sp
; CHECK-LE-NEXT: vmov r2, r3, d3		; CHECK-LE-NEXT: vstrh.32 q0, [r2, #8]
; CHECK-LE-NEXT: vldrh.u16 q1, [r1, #16]		; CHECK-LE-NEXT: vldrh.u16 q0, [r1]
; CHECK-LE-NEXT: vmov.16 q0[2], r2		; CHECK-LE-NEXT: vstrh.32 q0, [r2]
; CHECK-LE-NEXT: vmov.16 q0[3], r3		; CHECK-LE-NEXT: vldrw.u32 q0, [r2]
; CHECK-LE-NEXT: vmov r1, r2, d2
; CHECK-LE-NEXT: vmov.16 q0[4], r1
; CHECK-LE-NEXT: vmov.16 q0[5], r2
; CHECK-LE-NEXT: vmov r1, r2, d3
; CHECK-LE-NEXT: vmov.16 q0[6], r1
; CHECK-LE-NEXT: vmov.16 q0[7], r2
; CHECK-LE-NEXT: vstrb.16 q0, [r0]		; CHECK-LE-NEXT: vstrb.16 q0, [r0]
		; CHECK-LE-NEXT: add sp, #16
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: foo_int8_int32_double:		; CHECK-BE-LABEL: foo_int8_int32_double:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
		; CHECK-BE-NEXT: .pad #16
		; CHECK-BE-NEXT: sub sp, #16
		; CHECK-BE-NEXT: vldrb.u8 q0, [r1, #16]
		; CHECK-BE-NEXT: mov r2, sp
		; CHECK-BE-NEXT: vrev32.8 q0, q0
		; CHECK-BE-NEXT: vstrh.32 q0, [r2, #8]
; CHECK-BE-NEXT: vldrb.u8 q0, [r1]		; CHECK-BE-NEXT: vldrb.u8 q0, [r1]
; CHECK-BE-NEXT: vrev32.8 q1, q0		; CHECK-BE-NEXT: vrev32.8 q0, q0
; CHECK-BE-NEXT: vmov r2, r3, d2		; CHECK-BE-NEXT: vstrh.32 q0, [r2]
; CHECK-BE-NEXT: vmov.16 q0[0], r2		; CHECK-BE-NEXT: vldrh.u16 q0, [r2]
; CHECK-BE-NEXT: vmov.16 q0[1], r3
; CHECK-BE-NEXT: vmov r2, r3, d3
; CHECK-BE-NEXT: vldrb.u8 q1, [r1, #16]
; CHECK-BE-NEXT: vmov.16 q0[2], r2
; CHECK-BE-NEXT: vmov.16 q0[3], r3
; CHECK-BE-NEXT: vrev32.8 q1, q1
; CHECK-BE-NEXT: vmov r1, r2, d2
; CHECK-BE-NEXT: vmov.16 q0[4], r1
; CHECK-BE-NEXT: vmov.16 q0[5], r2
; CHECK-BE-NEXT: vmov r1, r2, d3
; CHECK-BE-NEXT: vmov.16 q0[6], r1
; CHECK-BE-NEXT: vmov.16 q0[7], r2
; CHECK-BE-NEXT: vstrb.16 q0, [r0]		; CHECK-BE-NEXT: vstrb.16 q0, [r0]
		; CHECK-BE-NEXT: add sp, #16
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%wide.load = load <8 x i32>, ptr %src, align 2		%wide.load = load <8 x i32>, ptr %src, align 2
%0 = trunc <8 x i32> %wide.load to <8 x i8>		%0 = trunc <8 x i32> %wide.load to <8 x i8>
store <8 x i8> %0, ptr %dest, align 1		store <8 x i8> %0, ptr %dest, align 1
ret void		ret void
}		}

▲ Show 20 Lines • Show All 407 Lines • Show Last 20 Lines