This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/CodeGen/SelectionDAG/
-
CodeGen/
-
SelectionDAG/
-
DAGCombiner.cpp
-
test/CodeGen/
-
CodeGen/
-
ARM/
-
fp16-insert-extract.ll
-
PowerPC/
-
pr27078.ll
-
vec-itofp.ll
-
vec_conv_i16_to_fp32_elts.ll
-
vec_conv_i16_to_fp64_elts.ll
-
vec_conv_i8_to_fp32_elts.ll
-
vec_conv_i8_to_fp64_elts.ll
-
Thumb2/
-
mve-shuffle.ll
-
mve-vld3.ll
-
mve-vst3.ll
-
mve-vst4.ll
-
X86/
-
insertelement-duplicates.ll
-
oddshuffles.ll
-
pr34592.ll
-
split-extend-vector-inreg.ll
3
vector-shuffle-combining-avx512bwvl.ll

Differential D96405

[DAGCombiner] Reduce Shuffle_Vector Nodes Count
Needs ReviewPublic

Authored by mmarjieh on Feb 10 2021, 3:25 AM.

Download Raw Diff

Details

Reviewers

craig.topper
mkuper
greened
jtony
rs
stefanp
simon_tatham
RKSimon

Summary

[DAGCombiner] Reduce Shuffle_Vector Nodes Count

This patch adds a DAG combine on vector shuffles that tries to reduce
the number of shuffle vector nodes.
For example, if we have the following pattern:

Instead of generating the following nodes:
t0: v8i32 = vector_shuffle<0,5,u,u,u,u,u,u> t3, undef
t1: v8i32 = vector_shuffle<0,1,10,11,u,u,u,u> t0, t4

Combine to this node:
t2: v8i32 = vector_shuffle<0,5,10,11,u,u,u,u> t3, t4

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	150 ms	x64 windows > Clang.Driver::undefined-libs.cpp

Event Timeline

mmarjieh created this revision.Feb 10 2021, 3:25 AM

Herald added subscribers: ecnelises, pengfei, dmgreen and 2 others. · View Herald TranscriptFeb 10 2021, 3:25 AM

mmarjieh requested review of this revision.Feb 10 2021, 3:25 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 10 2021, 3:25 AM

Herald added a subscriber: llvm-commits. · View Herald Transcript

Fix typo in commit message.

mmarjieh added reviewers: RKSimon, craig.topper, mkuper, greened, jtony.Feb 10 2021, 3:36 AM

Harbormaster completed remote builds in B88608: Diff 322641.Feb 10 2021, 4:15 AM

Harbormaster completed remote builds in B88607: Diff 322640.Feb 10 2021, 4:20 AM

RKSimon added inline comments.Feb 10 2021, 6:44 AM

llvm/test/CodeGen/X86/vector-shuffle-combining-avx512bwvl.ll
115	At quick glance - this looks wrong, I'd expect this still to be the same vshufpd?

guyblank added a subscriber: guyblank.Feb 10 2021, 11:05 PM

mmarjieh added inline comments.Feb 11 2021, 1:32 AM

llvm/test/CodeGen/X86/vector-shuffle-combining-avx512bwvl.ll

115

I am not familiar with X86's ISA.
Can you explain why?
Meanwhile, I will show you the difference in the DAG after my patch:

Before this patch:
SelectionDAG has 28 nodes:

t0: ch = EntryToken
t5: v4i64,ch = load<(load 32 from `<4 x i64>* null`, align 8)> t0, Constant:i32<0>, undef:i32
t6: v4i64,ch = load<(load 32 from `<4 x i64>* undef`, align 8)> t0, undef:i32, undef:i32
    t21: ch = TokenFactor t5:1, t6:1
            t36: v8i16 = BUILD_VECTOR Constant:i16<0>, Constant:i16<0>, Constant:i16<0>, Constant:i16<0>, undef:i16, undef:i16, undef:i16, undef:i16
          t52: v2f64 = bitcast t36
        t62: v4f64 = concat_vectors t52, undef:v2f64
      t63: v4f64 = vector_shuffle<u,u,0,0> t62, undef:v4f64
            t37: v8i16 = X86ISD::VTRUNC t5
          t39: v8i16 = sign_extend_inreg t37, ValueType:ch:v8i8
        t44: v2f64 = bitcast t39
            t40: v8i16 = X86ISD::VTRUNC t6
          t41: v8i16 = sign_extend_inreg t40, ValueType:ch:v8i8
        t49: v2f64 = bitcast t41
      t59: v4f64 = concat_vectors t44, t49
    t68: v4f64 = vector_shuffle<4,6,2,3> t63, t59
    t3: i32,ch = load<(load 4 from %fixed-stack.0)> t0, FrameIndex:i32<-1>, undef:i32
  t57: ch = store<(store 32 into %ir.10, align 2)> t21, t68, t3, undef:i32
t29: ch = X86ISD::RET_FLAG t57, TargetConstant:i32<0>

After this patch:
SelectionDAG has 26 nodes:

t0: ch = EntryToken
t5: v4i64,ch = load<(load 32 from `<4 x i64>* null`, align 8)> t0, Constant:i32<0>, undef:i32
t6: v4i64,ch = load<(load 32 from `<4 x i64>* undef`, align 8)> t0, undef:i32, undef:i32
    t21: ch = TokenFactor t5:1, t6:1
            t37: v8i16 = X86ISD::VTRUNC t5
          t39: v8i16 = sign_extend_inreg t37, ValueType:ch:v8i8
        t44: v2f64 = bitcast t39
            t40: v8i16 = X86ISD::VTRUNC t6
          t41: v8i16 = sign_extend_inreg t40, ValueType:ch:v8i8
        t49: v2f64 = bitcast t41
      t59: v4f64 = concat_vectors t44, t49
          t36: v8i16 = BUILD_VECTOR Constant:i16<0>, Constant:i16<0>, Constant:i16<0>, Constant:i16<0>, undef:i16, undef:i16, undef:i16, undef:i16
        t52: v2f64 = bitcast t36
      t62: v4f64 = concat_vectors t52, undef:v2f64
    t64: v4f64 = vector_shuffle<0,2,4,4> t59, t62
    t3: i32,ch = load<(load 4 from %fixed-stack.0)> t0, FrameIndex:i32<-1>, undef:i32
  t57: ch = store<(store 32 into %ir.10, align 2)> t21, t64, t3, undef:i32
t29: ch = X86ISD::RET_FLAG t57, TargetConstant:i32<0>

RKSimon added inline comments.Feb 11 2021, 3:22 AM

llvm/test/CodeGen/X86/vector-shuffle-combining-avx512bwvl.ll
115	My mistake - I missed that we were implicitly zeroing the upper elements (xmm -> ymm) - sorry about that

mmarjieh added reviewers: rs, stefanp, simon_tatham.Feb 15 2021, 8:09 AM

Hey guys, I would appreciate it if you can review.
I think this change is beneficial for all targets, since we are reducing the number of shuffle_vector dag nodes and hence reducing code size.
Since I am not familiar with all targets, can you go over the target assembly and verify that it is beneficial for you?
I counted the number of instructions in each lit test and saw an improvement in the number of instructions.

This doesn't seem like the right direction,
i'd expect that to be a new fold to reduce shuffle count,
because if we only teach some existing fold to do this,
we'll miss such shuffle patterns that appear via other means.

Instead of reducing the number of vector_shuffle DAG nodes
in reduceBuildVecToShuffle, do this in a separate combine.

I wonder if we should be checking if the resulting shuffle is legal, i.e. see buildLegalVectorShuffle() and it's uses.

In D96405#2565621, @lebedev.ri wrote:

This doesn't seem like the right direction,
i'd expect that to be a new fold to reduce shuffle count,
because if we only teach some existing fold to do this,
we'll miss such shuffle patterns that appear via other means.

Agreed.
I added a separate combine for this.
I am still not sure what is the best DAGCombine Level to run this combine.
Currently, I run it after LegalizeDAG.
I would like to receive advice from you on when to run it.

mmarjieh retitled this revision from [DAGCombiner] Improve reduceBuildVecToShuffle Performance to [DAGCombiner] Reduce Shuffle_Vector Nodes Count.Mar 3 2021, 3:05 AM

mmarjieh edited the summary of this revision. (Show Details)

Herald added a subscriber: steven.zhang. · View Herald TranscriptMar 3 2021, 3:05 AM

mmarjieh edited the summary of this revision. (Show Details)Mar 3 2021, 3:05 AM

Harbormaster completed remote builds in B91761: Diff 327711.Mar 3 2021, 5:53 AM

In D96405#2599708, @mmarjieh wrote:

In D96405#2565621, @lebedev.ri wrote:

This doesn't seem like the right direction,
i'd expect that to be a new fold to reduce shuffle count,
because if we only teach some existing fold to do this,
we'll miss such shuffle patterns that appear via other means.

Agreed.
I added a separate combine for this.
I am still not sure what is the best DAGCombine Level to run this combine.
Currently, I run it after LegalizeDAG.
I would like to receive advice from you on when to run it.

I'm not sure VECTOR_SHUFFLE makes is to the DAGCombine after LegalizeDAG on most targets. Definitely not on X86.

If all types are legal and LegalizeVectorOps doesn't change anything, there are only 2 DAG combine runs that will happen, the very first one before LegalizeTypes and the very last one after LegalizeDAG. The other 2 DAG combiners are conditional on the previous legalizer step making changes. Given that and the X86 behavior I'm not sure you really have an option to delay it.

I'm not sure how useful this really is - we already have something very similar later in the function that uses the MergeInnerShuffle lambda - maybe we're just missing an edge case there? But as @craig.topper said we need to be careful about performing this in later legalization stages.

@mmarjieh You're probably better off moving this into PPCISelLowering.cpp and making it a PPC only shuffle combine

@RKSimon @craig.topper After investigating and trying out this combine in different DAG combine phases, I noticed that this optimization is not always beneficial for all targets.
Since this combine is beneficial in our target, I already implemented it in the target specific ISelLowering.
If we want to continue with this patch and commit it to the community, I suggest that we introduce a target hook for it.

In D96405#2658431, @mmarjieh wrote:

@RKSimon @craig.topper After investigating and trying out this combine in different DAG combine phases, I noticed that this optimization is not always beneficial for all targets.
Since this combine is beneficial in our target, I already implemented it in the target specific ISelLowering.
If we want to continue with this patch and commit it to the community, I suggest that we introduce a target hook for it.

I assume your target is out of tree? Keeping this as a generic combine with a target hook could be fine, assuming the PowerPC team accept the hook being enabled and we retain test coverage.

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

49 lines

test/

CodeGen/

ARM/

fp16-insert-extract.ll

90 lines

PowerPC/

pr27078.ll

5 lines

vec-itofp.ll

6 lines

vec_conv_i16_to_fp32_elts.ll

6 lines

vec_conv_i16_to_fp64_elts.ll

14 lines

vec_conv_i8_to_fp32_elts.ll

6 lines

vec_conv_i8_to_fp64_elts.ll

14 lines

Thumb2/

255 lines

984 lines

997 lines

55 lines

X86/

insertelement-duplicates.ll

4 lines

oddshuffles.ll

76 lines

pr34592.ll

41 lines

split-extend-vector-inreg.ll

7 lines

vector-shuffle-combining-avx512bwvl.ll

13 lines

Diff 322640

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 19,076 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::reduceBuildVecToShuffle(SDNode *N) {
for (unsigned CurSize = Shuffles.size(); CurSize > 1; CurSize /= 2) {		for (unsigned CurSize = Shuffles.size(); CurSize > 1; CurSize /= 2) {
if (CurSize % 2) {		if (CurSize % 2) {
Shuffles[CurSize] = DAG.getUNDEF(VT);		Shuffles[CurSize] = DAG.getUNDEF(VT);
CurSize++;		CurSize++;
}		}
for (unsigned In = 0, Len = CurSize / 2; In < Len; ++In) {		for (unsigned In = 0, Len = CurSize / 2; In < Len; ++In) {
int Left = 2 * In;		int Left = 2 * In;
int Right = 2 * In + 1;		int Right = 2 * In + 1;
		// Here we are creating a vector_shuffle operation between Left and Right,
		// Try to optimize the case where Left or Right (or both) is a
		// vector_shuffle operation on one operand only.
		// For example, given:
		// t0: v8i32 = vector_shuffle<0,5,u,u,u,u,u,u> t2, undef
		// t1: v8i32 = vector_shuffle<u,u,0,8,u,u,u,u> t3, t4
		// create the following vector_shuffle:
		// v8i32 = vector_shuffle<0,5,10,11,u,u,u,u> t2, t1
		bool IsOneVecShuffleLeft =
		Shuffles[Left].getOpcode() == ISD::VECTOR_SHUFFLE &&
		Shuffles[Left].getOperand(1).isUndef();
		bool IsOneVecShuffleRight =
		Shuffles[Right].getOpcode() == ISD::VECTOR_SHUFFLE &&
		Shuffles[Right].getOperand(1).isUndef();

SmallVector<int, 8> Mask(NumElems, -1);		SmallVector<int, 8> Mask(NumElems, -1);
		SDValue ToShuffleLeft = Shuffles[Left];
		SDValue ToShuffleRight = Shuffles[Right];

		if (IsOneVecShuffleLeft)
		ToShuffleLeft = ToShuffleLeft.getOperand(0);

		if (IsOneVecShuffleRight)
		ToShuffleRight = ToShuffleRight.getOperand(0);

for (unsigned i = 0; i != NumElems; ++i) {		for (unsigned i = 0; i != NumElems; ++i) {
if (VectorMask[i] == Left) {		bool ElementTakenFromLeft = VectorMask[i] == Left;
Mask[i] = i;		bool ElementTakenFromRight = VectorMask[i] == Right;
		if (!ElementTakenFromLeft && !ElementTakenFromRight)
		continue;
VectorMask[i] = In;		VectorMask[i] = In;
} else if (VectorMask[i] == Right) {
		if (ElementTakenFromLeft) {
		if (!IsOneVecShuffleLeft)
		Mask[i] = i;
		else
		Mask[i] = cast<ShuffleVectorSDNode>(Shuffles[Left])->getMask()[i];
		} else {
		if (!IsOneVecShuffleRight)
Mask[i] = i + NumElems;		Mask[i] = i + NumElems;
VectorMask[i] = In;		else
		Mask[i] = cast<ShuffleVectorSDNode>(Shuffles[Right])->getMask()[i] +
		NumElems;
}		}
}		}

Shuffles[In] =		Shuffles[In] =
DAG.getVectorShuffle(VT, DL, Shuffles[Left], Shuffles[Right], Mask);		DAG.getVectorShuffle(VT, DL, ToShuffleLeft, ToShuffleRight, Mask);
}		}
}		}
return Shuffles[0];		return Shuffles[0];
}		}

// Try to turn a build vector of zero extends of extract vector elts into a		// Try to turn a build vector of zero extends of extract vector elts into a
// a vector zero extend and possibly an extract subvector.		// a vector zero extend and possibly an extract subvector.
// TODO: Support sign extend?		// TODO: Support sign extend?
▲ Show 20 Lines • Show All 3,639 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/fp16-insert-extract.ll

	Show First 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
	}			}

	define arm_aapcs_vfpcc <8 x half> @shuffle3step_f16(<32 x half> %src) {			define arm_aapcs_vfpcc <8 x half> @shuffle3step_f16(<32 x half> %src) {
	; CHECKHARD-LABEL: shuffle3step_f16:			; CHECKHARD-LABEL: shuffle3step_f16:
	; CHECKHARD: @ %bb.0: @ %entry			; CHECKHARD: @ %bb.0: @ %entry
	; CHECKHARD-NEXT: vmov r1, s0			; CHECKHARD-NEXT: vmov r1, s0
	; CHECKHARD-NEXT: vmovx.f16 s12, s1			; CHECKHARD-NEXT: vmovx.f16 s12, s1
	; CHECKHARD-NEXT: vmov r0, s12			; CHECKHARD-NEXT: vmov r0, s12
	; CHECKHARD-NEXT: vext.16 d16, d4, d5, #2			; CHECKHARD-NEXT: vrev32.16 d16, d3
				; CHECKHARD-NEXT: vext.16 d17, d4, d5, #2
	; CHECKHARD-NEXT: vmovx.f16 s12, s4			; CHECKHARD-NEXT: vmovx.f16 s12, s4
	; CHECKHARD-NEXT: vdup.16 q11, d3[1]			; CHECKHARD-NEXT: vext.16 d16, d16, d3, #1
	; CHECKHARD-NEXT: vrev32.16 d17, d16			; CHECKHARD-NEXT: vext.16 d16, d17, d16, #2
	; CHECKHARD-NEXT: vext.16 d16, d16, d17, #3			; CHECKHARD-NEXT: vext.16 d16, d16, d17, #1
	; CHECKHARD-NEXT: vrev32.16 d17, d3			; CHECKHARD-NEXT: vext.16 d17, d16, d16, #1
	; CHECKHARD-NEXT: vext.16 d17, d17, d3, #1
	; CHECKHARD-NEXT: vext.16 d16, d16, d17, #2
	; CHECKHARD-NEXT: vext.16 d17, d16, d16, #2
	; CHECKHARD-NEXT: vmov.16 d16[0], r1			; CHECKHARD-NEXT: vmov.16 d16[0], r1
	; CHECKHARD-NEXT: vmov.16 d16[1], r0			; CHECKHARD-NEXT: vmov.16 d16[1], r0
	; CHECKHARD-NEXT: vmov r0, s3			; CHECKHARD-NEXT: vmov r0, s3
	; CHECKHARD-NEXT: vmov.16 d16[2], r0			; CHECKHARD-NEXT: vmov.16 d16[2], r0
	; CHECKHARD-NEXT: vmov r0, s12			; CHECKHARD-NEXT: vmov r0, s12
	; CHECKHARD-NEXT: vmovx.f16 s12, s0			; CHECKHARD-NEXT: vmovx.f16 s12, s0
	; CHECKHARD-NEXT: vmov r1, s12			; CHECKHARD-NEXT: vmov r1, s12
	; CHECKHARD-NEXT: vmovx.f16 s12, s3			; CHECKHARD-NEXT: vmovx.f16 s12, s3
	; CHECKHARD-NEXT: vmov.16 d16[3], r0			; CHECKHARD-NEXT: vmov.16 d16[3], r0
	; CHECKHARD-NEXT: vmov r0, s2			; CHECKHARD-NEXT: vmov r0, s2
	; CHECKHARD-NEXT: vmov.16 d18[0], r1			; CHECKHARD-NEXT: vmov.16 d18[0], r1
	; CHECKHARD-NEXT: vmov r1, s8
	; CHECKHARD-NEXT: vmov.16 d18[1], r0			; CHECKHARD-NEXT: vmov.16 d18[1], r0
	; CHECKHARD-NEXT: vmov r0, s12			; CHECKHARD-NEXT: vmov r0, s12
				; CHECKHARD-NEXT: vdup.16 q3, d3[1]
				; CHECKHARD-NEXT: vmov r1, s12
	; CHECKHARD-NEXT: vmovx.f16 s12, s9			; CHECKHARD-NEXT: vmovx.f16 s12, s9
	; CHECKHARD-NEXT: vmov.16 d20[1], r1
	; CHECKHARD-NEXT: vmov.16 d18[2], r0			; CHECKHARD-NEXT: vmov.16 d18[2], r0
	; CHECKHARD-NEXT: vmov r0, s5			; CHECKHARD-NEXT: vmov r0, s5
	; CHECKHARD-NEXT: vmov.16 d18[3], r0			; CHECKHARD-NEXT: vmov.16 d18[3], r0
				; CHECKHARD-NEXT: vmov r0, s8
				; CHECKHARD-NEXT: vmov.16 d19[0], r1
				; CHECKHARD-NEXT: vmov.16 d19[1], r0
	; CHECKHARD-NEXT: vmov r0, s12			; CHECKHARD-NEXT: vmov r0, s12
	; CHECKHARD-NEXT: vmov.16 d20[2], r0			; CHECKHARD-NEXT: vmov.16 d19[2], r0
	; CHECKHARD-NEXT: vmov r0, s11			; CHECKHARD-NEXT: vmov r0, s11
	; CHECKHARD-NEXT: vmov.16 d20[3], r0			; CHECKHARD-NEXT: vmov.16 d19[3], r0
	; CHECKHARD-NEXT: vmov r0, s10
	; CHECKHARD-NEXT: vext.16 d20, d20, d22, #1
	; CHECKHARD-NEXT: vdup.16 q11, d3[2]
	; CHECKHARD-NEXT: vext.16 d19, d20, d20, #3
	; CHECKHARD-NEXT: vadd.f16 q8, q8, q9			; CHECKHARD-NEXT: vadd.f16 q8, q8, q9
	; CHECKHARD-NEXT: vext.16 d18, d0, d1, #2			; CHECKHARD-NEXT: vext.16 d18, d0, d1, #2
	; CHECKHARD-NEXT: vmovx.f16 s0, s8			; CHECKHARD-NEXT: vmovx.f16 s0, s8
	; CHECKHARD-NEXT: vmov r1, s0			; CHECKHARD-NEXT: vmov r0, s0
	; CHECKHARD-NEXT: vmovx.f16 s0, s11			; CHECKHARD-NEXT: vdup.16 q0, d3[2]
	; CHECKHARD-NEXT: vext.16 d19, d18, d2, #3			; CHECKHARD-NEXT: vext.16 d19, d18, d2, #3
				; CHECKHARD-NEXT: vmov r1, s0
	; CHECKHARD-NEXT: vext.16 d18, d2, d18, #1			; CHECKHARD-NEXT: vext.16 d18, d2, d18, #1
				; CHECKHARD-NEXT: vmovx.f16 s0, s11
	; CHECKHARD-NEXT: vext.16 d18, d18, d19, #2			; CHECKHARD-NEXT: vext.16 d18, d18, d19, #2
	; CHECKHARD-NEXT: vext.16 d18, d18, d18, #1			; CHECKHARD-NEXT: vext.16 d18, d18, d18, #1
	; CHECKHARD-NEXT: vmov.16 d20[1], r1			; CHECKHARD-NEXT: vmov.16 d19[0], r1
	; CHECKHARD-NEXT: vmov.16 d20[2], r0			; CHECKHARD-NEXT: vmov.16 d19[1], r0
				; CHECKHARD-NEXT: vmov r0, s10
				; CHECKHARD-NEXT: vmov.16 d19[2], r0
	; CHECKHARD-NEXT: vmov r0, s0			; CHECKHARD-NEXT: vmov r0, s0
	; CHECKHARD-NEXT: vmov.16 d20[3], r0			; CHECKHARD-NEXT: vmov.16 d19[3], r0
	; CHECKHARD-NEXT: vext.16 d20, d20, d22, #1
	; CHECKHARD-NEXT: vext.16 d19, d20, d20, #3
	; CHECKHARD-NEXT: vadd.f16 q0, q8, q9			; CHECKHARD-NEXT: vadd.f16 q0, q8, q9
	; CHECKHARD-NEXT: bx lr			; CHECKHARD-NEXT: bx lr
	;			;
	; CHECKSOFT-LABEL: shuffle3step_f16:			; CHECKSOFT-LABEL: shuffle3step_f16:
	; CHECKSOFT: @ %bb.0: @ %entry			; CHECKSOFT: @ %bb.0: @ %entry
	; CHECKSOFT-NEXT: vmov r1, s0			; CHECKSOFT-NEXT: vmov r1, s0
	; CHECKSOFT-NEXT: vmovx.f16 s12, s1			; CHECKSOFT-NEXT: vmovx.f16 s12, s1
	; CHECKSOFT-NEXT: vmov r0, s12			; CHECKSOFT-NEXT: vmov r0, s12
	; CHECKSOFT-NEXT: vext.16 d16, d4, d5, #2			; CHECKSOFT-NEXT: vrev32.16 d16, d3
				; CHECKSOFT-NEXT: vext.16 d17, d4, d5, #2
	; CHECKSOFT-NEXT: vmovx.f16 s12, s4			; CHECKSOFT-NEXT: vmovx.f16 s12, s4
	; CHECKSOFT-NEXT: vdup.16 q11, d3[1]			; CHECKSOFT-NEXT: vext.16 d16, d16, d3, #1
	; CHECKSOFT-NEXT: vrev32.16 d17, d16			; CHECKSOFT-NEXT: vext.16 d16, d17, d16, #2
	; CHECKSOFT-NEXT: vext.16 d16, d16, d17, #3			; CHECKSOFT-NEXT: vext.16 d16, d16, d17, #1
	; CHECKSOFT-NEXT: vrev32.16 d17, d3			; CHECKSOFT-NEXT: vext.16 d17, d16, d16, #1
	; CHECKSOFT-NEXT: vext.16 d17, d17, d3, #1
	; CHECKSOFT-NEXT: vext.16 d16, d16, d17, #2
	; CHECKSOFT-NEXT: vext.16 d17, d16, d16, #2
	; CHECKSOFT-NEXT: vmov.16 d16[0], r1			; CHECKSOFT-NEXT: vmov.16 d16[0], r1
	; CHECKSOFT-NEXT: vmov.16 d16[1], r0			; CHECKSOFT-NEXT: vmov.16 d16[1], r0
	; CHECKSOFT-NEXT: vmov r0, s3			; CHECKSOFT-NEXT: vmov r0, s3
	; CHECKSOFT-NEXT: vmov.16 d16[2], r0			; CHECKSOFT-NEXT: vmov.16 d16[2], r0
	; CHECKSOFT-NEXT: vmov r0, s12			; CHECKSOFT-NEXT: vmov r0, s12
	; CHECKSOFT-NEXT: vmovx.f16 s12, s0			; CHECKSOFT-NEXT: vmovx.f16 s12, s0
	; CHECKSOFT-NEXT: vmov r1, s12			; CHECKSOFT-NEXT: vmov r1, s12
	; CHECKSOFT-NEXT: vmovx.f16 s12, s3			; CHECKSOFT-NEXT: vmovx.f16 s12, s3
	; CHECKSOFT-NEXT: vmov.16 d16[3], r0			; CHECKSOFT-NEXT: vmov.16 d16[3], r0
	; CHECKSOFT-NEXT: vmov r0, s2			; CHECKSOFT-NEXT: vmov r0, s2
	; CHECKSOFT-NEXT: vmov.16 d18[0], r1			; CHECKSOFT-NEXT: vmov.16 d18[0], r1
	; CHECKSOFT-NEXT: vmov r1, s8
	; CHECKSOFT-NEXT: vmov.16 d18[1], r0			; CHECKSOFT-NEXT: vmov.16 d18[1], r0
	; CHECKSOFT-NEXT: vmov r0, s12			; CHECKSOFT-NEXT: vmov r0, s12
				; CHECKSOFT-NEXT: vdup.16 q3, d3[1]
				; CHECKSOFT-NEXT: vmov r1, s12
	; CHECKSOFT-NEXT: vmovx.f16 s12, s9			; CHECKSOFT-NEXT: vmovx.f16 s12, s9
	; CHECKSOFT-NEXT: vmov.16 d20[1], r1
	; CHECKSOFT-NEXT: vmov.16 d18[2], r0			; CHECKSOFT-NEXT: vmov.16 d18[2], r0
	; CHECKSOFT-NEXT: vmov r0, s5			; CHECKSOFT-NEXT: vmov r0, s5
	; CHECKSOFT-NEXT: vmov.16 d18[3], r0			; CHECKSOFT-NEXT: vmov.16 d18[3], r0
				; CHECKSOFT-NEXT: vmov r0, s8
				; CHECKSOFT-NEXT: vmov.16 d19[0], r1
				; CHECKSOFT-NEXT: vmov.16 d19[1], r0
	; CHECKSOFT-NEXT: vmov r0, s12			; CHECKSOFT-NEXT: vmov r0, s12
	; CHECKSOFT-NEXT: vmov.16 d20[2], r0			; CHECKSOFT-NEXT: vmov.16 d19[2], r0
	; CHECKSOFT-NEXT: vmov r0, s11			; CHECKSOFT-NEXT: vmov r0, s11
	; CHECKSOFT-NEXT: vmov.16 d20[3], r0			; CHECKSOFT-NEXT: vmov.16 d19[3], r0
	; CHECKSOFT-NEXT: vmov r0, s10
	; CHECKSOFT-NEXT: vext.16 d20, d20, d22, #1
	; CHECKSOFT-NEXT: vdup.16 q11, d3[2]
	; CHECKSOFT-NEXT: vext.16 d19, d20, d20, #3
	; CHECKSOFT-NEXT: vadd.f16 q8, q8, q9			; CHECKSOFT-NEXT: vadd.f16 q8, q8, q9
	; CHECKSOFT-NEXT: vext.16 d18, d0, d1, #2			; CHECKSOFT-NEXT: vext.16 d18, d0, d1, #2
	; CHECKSOFT-NEXT: vmovx.f16 s0, s8			; CHECKSOFT-NEXT: vmovx.f16 s0, s8
	; CHECKSOFT-NEXT: vmov r1, s0			; CHECKSOFT-NEXT: vmov r0, s0
	; CHECKSOFT-NEXT: vmovx.f16 s0, s11			; CHECKSOFT-NEXT: vdup.16 q0, d3[2]
	; CHECKSOFT-NEXT: vext.16 d19, d18, d2, #3			; CHECKSOFT-NEXT: vext.16 d19, d18, d2, #3
				; CHECKSOFT-NEXT: vmov r1, s0
	; CHECKSOFT-NEXT: vext.16 d18, d2, d18, #1			; CHECKSOFT-NEXT: vext.16 d18, d2, d18, #1
				; CHECKSOFT-NEXT: vmovx.f16 s0, s11
	; CHECKSOFT-NEXT: vext.16 d18, d18, d19, #2			; CHECKSOFT-NEXT: vext.16 d18, d18, d19, #2
	; CHECKSOFT-NEXT: vext.16 d18, d18, d18, #1			; CHECKSOFT-NEXT: vext.16 d18, d18, d18, #1
	; CHECKSOFT-NEXT: vmov.16 d20[1], r1			; CHECKSOFT-NEXT: vmov.16 d19[0], r1
	; CHECKSOFT-NEXT: vmov.16 d20[2], r0			; CHECKSOFT-NEXT: vmov.16 d19[1], r0
				; CHECKSOFT-NEXT: vmov r0, s10
				; CHECKSOFT-NEXT: vmov.16 d19[2], r0
	; CHECKSOFT-NEXT: vmov r0, s0			; CHECKSOFT-NEXT: vmov r0, s0
	; CHECKSOFT-NEXT: vmov.16 d20[3], r0			; CHECKSOFT-NEXT: vmov.16 d19[3], r0
	; CHECKSOFT-NEXT: vext.16 d20, d20, d22, #1
	; CHECKSOFT-NEXT: vext.16 d19, d20, d20, #3
	; CHECKSOFT-NEXT: vadd.f16 q0, q8, q9			; CHECKSOFT-NEXT: vadd.f16 q0, q8, q9
	; CHECKSOFT-NEXT: bx lr			; CHECKSOFT-NEXT: bx lr
	entry:			entry:
	%s1 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>			%s1 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>
	%s2 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>			%s2 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>
	%s3 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>			%s3 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>
	%a = fadd <8 x half> %s1, %s2			%a = fadd <8 x half> %s1, %s2
	%r = fadd <8 x half> %a, %s3			%r = fadd <8 x half> %a, %s3
	ret <8 x half> %r			ret <8 x half> %r
	}			}

llvm/test/CodeGen/PowerPC/pr27078.ll

	; RUN: llc -verify-machineinstrs -mtriple=powerpc64-linux-gnu -mcpu=pwr8 -mattr=+vsx < %s \| FileCheck %s			; RUN: llc -verify-machineinstrs -mtriple=powerpc64-linux-gnu -mcpu=pwr8 -mattr=+vsx < %s \| FileCheck %s

	define <4 x float> @bar(float* %p, float* %q) {			define <4 x float> @bar(float* %p, float* %q) {
	%1 = bitcast float* %p to <12 x float>*			%1 = bitcast float* %p to <12 x float>*
	%2 = bitcast float* %q to <12 x float>*			%2 = bitcast float* %q to <12 x float>*
	%3 = load <12 x float>, <12 x float>* %1, align 16			%3 = load <12 x float>, <12 x float>* %1, align 16
	%4 = load <12 x float>, <12 x float>* %2, align 16			%4 = load <12 x float>, <12 x float>* %2, align 16
	%5 = fsub <12 x float> %4, %3			%5 = fsub <12 x float> %4, %3
	%6 = shufflevector <12 x float> %5, <12 x float> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>			%6 = shufflevector <12 x float> %5, <12 x float> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>
	ret <4 x float> %6			ret <4 x float> %6

	; CHECK: xxsldwi			; CHECK: lxvw4x
	; CHECK-DAG: vmrghw
	; CHECK-DAG: vmrglw			; CHECK-DAG: vmrglw
	; CHECK-NEXT: xxsldwi			; CHECK-DAG: vmrghw
	; CHECK-NEXT: xxsldwi			; CHECK-NEXT: xxsldwi
	; CHECK-NEXT: xxsldwi			; CHECK-NEXT: xxsldwi
	; CHECK-NEXT: blr			; CHECK-NEXT: blr
	}			}

llvm/test/CodeGen/PowerPC/vec-itofp.ll

	Show First 20 Lines • Show All 306 Lines • ▼ Show 20 Lines
	; CHECK-BE: # %bb.0: # %entry			; CHECK-BE: # %bb.0: # %entry
	; CHECK-BE-NEXT: lxv v2, 0(r4)			; CHECK-BE-NEXT: lxv v2, 0(r4)
	; CHECK-BE-NEXT: addis r4, r2, .LCPI3_0@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI3_0@toc@ha
	; CHECK-BE-NEXT: xxlxor v4, v4, v4			; CHECK-BE-NEXT: xxlxor v4, v4, v4
	; CHECK-BE-NEXT: addi r4, r4, .LCPI3_0@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI3_0@toc@l
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI3_1@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI3_1@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI3_1@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI3_1@toc@l
	; CHECK-BE-NEXT: vperm v3, v4, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v4, v3
	; CHECK-BE-NEXT: vextsh2d v3, v3			; CHECK-BE-NEXT: vextsh2d v3, v3
	; CHECK-BE-NEXT: xvcvsxddp vs0, v3			; CHECK-BE-NEXT: xvcvsxddp vs0, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI3_2@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI3_2@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI3_2@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI3_2@toc@l
	; CHECK-BE-NEXT: vperm v3, v4, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v4, v3
	; CHECK-BE-NEXT: stxv vs0, 16(r3)			; CHECK-BE-NEXT: stxv vs0, 16(r3)
	; CHECK-BE-NEXT: vextsh2d v3, v3			; CHECK-BE-NEXT: vextsh2d v3, v3
	; CHECK-BE-NEXT: xvcvsxddp vs1, v3			; CHECK-BE-NEXT: xvcvsxddp vs1, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI3_3@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI3_3@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI3_3@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI3_3@toc@l
	; CHECK-BE-NEXT: vperm v3, v2, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v2, v3
	; CHECK-BE-NEXT: stxv vs1, 48(r3)			; CHECK-BE-NEXT: stxv vs1, 48(r3)
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; CHECK-BE: # %bb.0: # %entry			; CHECK-BE: # %bb.0: # %entry
	; CHECK-BE-NEXT: lxv v2, 0(r4)			; CHECK-BE-NEXT: lxv v2, 0(r4)
	; CHECK-BE-NEXT: addis r4, r2, .LCPI4_0@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI4_0@toc@ha
	; CHECK-BE-NEXT: xxlxor v3, v3, v3			; CHECK-BE-NEXT: xxlxor v3, v3, v3
	; CHECK-BE-NEXT: addi r4, r4, .LCPI4_0@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI4_0@toc@l
	; CHECK-BE-NEXT: lxvx v4, 0, r4			; CHECK-BE-NEXT: lxvx v4, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI4_1@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI4_1@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI4_1@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI4_1@toc@l
	; CHECK-BE-NEXT: vperm v3, v3, v2, v4			; CHECK-BE-NEXT: vperm v3, v2, v3, v4
	; CHECK-BE-NEXT: vextsh2d v3, v3			; CHECK-BE-NEXT: vextsh2d v3, v3
	; CHECK-BE-NEXT: xvcvsxddp vs0, v3			; CHECK-BE-NEXT: xvcvsxddp vs0, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: vperm v2, v2, v2, v3			; CHECK-BE-NEXT: vperm v2, v2, v2, v3
	; CHECK-BE-NEXT: stxv vs0, 16(r3)			; CHECK-BE-NEXT: stxv vs0, 16(r3)
	; CHECK-BE-NEXT: vextsh2d v2, v2			; CHECK-BE-NEXT: vextsh2d v2, v2
	; CHECK-BE-NEXT: xvcvsxddp vs1, v2			; CHECK-BE-NEXT: xvcvsxddp vs1, v2
	; CHECK-BE-NEXT: stxv vs1, 0(r3)			; CHECK-BE-NEXT: stxv vs1, 0(r3)
	▲ Show 20 Lines • Show All 56 Lines • Show Last 20 Lines

llvm/test/CodeGen/PowerPC/vec_conv_i16_to_fp32_elts.ll

	Show First 20 Lines • Show All 372 Lines • ▼ Show 20 Lines
	; CHECK-P9-NEXT: blr			; CHECK-P9-NEXT: blr
	;			;
	; CHECK-BE-LABEL: test8elt_signed:			; CHECK-BE-LABEL: test8elt_signed:
	; CHECK-BE: # %bb.0: # %entry			; CHECK-BE: # %bb.0: # %entry
	; CHECK-BE-NEXT: addis r4, r2, .LCPI6_0@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI6_0@toc@ha
	; CHECK-BE-NEXT: xxlxor v4, v4, v4			; CHECK-BE-NEXT: xxlxor v4, v4, v4
	; CHECK-BE-NEXT: addi r4, r4, .LCPI6_0@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI6_0@toc@l
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: vperm v3, v4, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v4, v3
	; CHECK-BE-NEXT: vmrghh v2, v2, v2			; CHECK-BE-NEXT: vmrghh v2, v2, v2
	; CHECK-BE-NEXT: vextsh2w v3, v3			; CHECK-BE-NEXT: vextsh2w v3, v3
	; CHECK-BE-NEXT: vextsh2w v2, v2			; CHECK-BE-NEXT: vextsh2w v2, v2
	; CHECK-BE-NEXT: xvcvsxwsp vs0, v3			; CHECK-BE-NEXT: xvcvsxwsp vs0, v3
	; CHECK-BE-NEXT: xvcvsxwsp vs1, v2			; CHECK-BE-NEXT: xvcvsxwsp vs1, v2
	; CHECK-BE-NEXT: stxv vs1, 0(r3)			; CHECK-BE-NEXT: stxv vs1, 0(r3)
	; CHECK-BE-NEXT: stxv vs0, 16(r3)			; CHECK-BE-NEXT: stxv vs0, 16(r3)
	; CHECK-BE-NEXT: blr			; CHECK-BE-NEXT: blr
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; CHECK-BE-LABEL: test16elt_signed:			; CHECK-BE-LABEL: test16elt_signed:
	; CHECK-BE: # %bb.0: # %entry			; CHECK-BE: # %bb.0: # %entry
	; CHECK-BE-NEXT: lxv v2, 16(r4)			; CHECK-BE-NEXT: lxv v2, 16(r4)
	; CHECK-BE-NEXT: lxv v3, 0(r4)			; CHECK-BE-NEXT: lxv v3, 0(r4)
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_0@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_0@toc@ha
	; CHECK-BE-NEXT: xxlxor v5, v5, v5			; CHECK-BE-NEXT: xxlxor v5, v5, v5
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_0@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_0@toc@l
	; CHECK-BE-NEXT: lxvx v4, 0, r4			; CHECK-BE-NEXT: lxvx v4, 0, r4
	; CHECK-BE-NEXT: vperm v0, v5, v3, v4			; CHECK-BE-NEXT: vperm v0, v3, v5, v4
	; CHECK-BE-NEXT: vperm v4, v5, v2, v4			; CHECK-BE-NEXT: vperm v4, v2, v5, v4
	; CHECK-BE-NEXT: vmrghh v3, v3, v3			; CHECK-BE-NEXT: vmrghh v3, v3, v3
	; CHECK-BE-NEXT: vmrghh v2, v2, v2			; CHECK-BE-NEXT: vmrghh v2, v2, v2
	; CHECK-BE-NEXT: vextsh2w v0, v0			; CHECK-BE-NEXT: vextsh2w v0, v0
	; CHECK-BE-NEXT: vextsh2w v4, v4			; CHECK-BE-NEXT: vextsh2w v4, v4
	; CHECK-BE-NEXT: vextsh2w v3, v3			; CHECK-BE-NEXT: vextsh2w v3, v3
	; CHECK-BE-NEXT: vextsh2w v2, v2			; CHECK-BE-NEXT: vextsh2w v2, v2
	; CHECK-BE-NEXT: xvcvsxwsp vs0, v0			; CHECK-BE-NEXT: xvcvsxwsp vs0, v0
	; CHECK-BE-NEXT: xvcvsxwsp vs1, v4			; CHECK-BE-NEXT: xvcvsxwsp vs1, v4
	Show All 13 Lines

llvm/test/CodeGen/PowerPC/vec_conv_i16_to_fp64_elts.ll

	Show First 20 Lines • Show All 458 Lines • ▼ Show 20 Lines
	; CHECK-BE: # %bb.0: # %entry			; CHECK-BE: # %bb.0: # %entry
	; CHECK-BE-NEXT: mtvsrd v2, r4			; CHECK-BE-NEXT: mtvsrd v2, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI5_0@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI5_0@toc@ha
	; CHECK-BE-NEXT: xxlxor v3, v3, v3			; CHECK-BE-NEXT: xxlxor v3, v3, v3
	; CHECK-BE-NEXT: addi r4, r4, .LCPI5_0@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI5_0@toc@l
	; CHECK-BE-NEXT: lxvx v4, 0, r4			; CHECK-BE-NEXT: lxvx v4, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI5_1@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI5_1@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI5_1@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI5_1@toc@l
	; CHECK-BE-NEXT: vperm v3, v3, v2, v4			; CHECK-BE-NEXT: vperm v3, v2, v3, v4
	; CHECK-BE-NEXT: vextsh2d v3, v3			; CHECK-BE-NEXT: vextsh2d v3, v3
	; CHECK-BE-NEXT: xvcvsxddp vs0, v3			; CHECK-BE-NEXT: xvcvsxddp vs0, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: vperm v2, v2, v2, v3			; CHECK-BE-NEXT: vperm v2, v2, v2, v3
	; CHECK-BE-NEXT: stxv vs0, 16(r3)			; CHECK-BE-NEXT: stxv vs0, 16(r3)
	; CHECK-BE-NEXT: vextsh2d v2, v2			; CHECK-BE-NEXT: vextsh2d v2, v2
	; CHECK-BE-NEXT: xvcvsxddp vs1, v2			; CHECK-BE-NEXT: xvcvsxddp vs1, v2
	; CHECK-BE-NEXT: stxv vs1, 0(r3)			; CHECK-BE-NEXT: stxv vs1, 0(r3)
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; CHECK-BE-LABEL: test8elt_signed:			; CHECK-BE-LABEL: test8elt_signed:
	; CHECK-BE: # %bb.0: # %entry			; CHECK-BE: # %bb.0: # %entry
	; CHECK-BE-NEXT: addis r4, r2, .LCPI6_0@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI6_0@toc@ha
	; CHECK-BE-NEXT: xxlxor v4, v4, v4			; CHECK-BE-NEXT: xxlxor v4, v4, v4
	; CHECK-BE-NEXT: addi r4, r4, .LCPI6_0@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI6_0@toc@l
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI6_1@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI6_1@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI6_1@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI6_1@toc@l
	; CHECK-BE-NEXT: vperm v3, v4, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v4, v3
	; CHECK-BE-NEXT: vextsh2d v3, v3			; CHECK-BE-NEXT: vextsh2d v3, v3
	; CHECK-BE-NEXT: xvcvsxddp vs0, v3			; CHECK-BE-NEXT: xvcvsxddp vs0, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI6_2@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI6_2@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI6_2@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI6_2@toc@l
	; CHECK-BE-NEXT: vperm v3, v4, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v4, v3
	; CHECK-BE-NEXT: stxv vs0, 16(r3)			; CHECK-BE-NEXT: stxv vs0, 16(r3)
	; CHECK-BE-NEXT: vextsh2d v3, v3			; CHECK-BE-NEXT: vextsh2d v3, v3
	; CHECK-BE-NEXT: xvcvsxddp vs1, v3			; CHECK-BE-NEXT: xvcvsxddp vs1, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI6_3@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI6_3@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI6_3@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI6_3@toc@l
	; CHECK-BE-NEXT: vperm v3, v2, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v2, v3
	; CHECK-BE-NEXT: stxv vs1, 48(r3)			; CHECK-BE-NEXT: stxv vs1, 48(r3)
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; CHECK-BE-NEXT: xxlxor v5, v5, v5			; CHECK-BE-NEXT: xxlxor v5, v5, v5
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_2@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_2@toc@ha
	; CHECK-BE-NEXT: addi r5, r5, .LCPI7_0@toc@l			; CHECK-BE-NEXT: addi r5, r5, .LCPI7_0@toc@l
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_2@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_2@toc@l
	; CHECK-BE-NEXT: lxvx v2, 0, r5			; CHECK-BE-NEXT: lxvx v2, 0, r5
	; CHECK-BE-NEXT: addis r5, r2, .LCPI7_1@toc@ha			; CHECK-BE-NEXT: addis r5, r2, .LCPI7_1@toc@ha
	; CHECK-BE-NEXT: addi r5, r5, .LCPI7_1@toc@l			; CHECK-BE-NEXT: addi r5, r5, .LCPI7_1@toc@l
	; CHECK-BE-NEXT: lxvx v3, 0, r5			; CHECK-BE-NEXT: lxvx v3, 0, r5
	; CHECK-BE-NEXT: vperm v0, v5, v4, v2			; CHECK-BE-NEXT: vperm v0, v4, v5, v2
	; CHECK-BE-NEXT: vperm v2, v5, v1, v2			; CHECK-BE-NEXT: vperm v2, v1, v5, v2
	; CHECK-BE-NEXT: vextsh2d v2, v2			; CHECK-BE-NEXT: vextsh2d v2, v2
	; CHECK-BE-NEXT: vextsh2d v0, v0			; CHECK-BE-NEXT: vextsh2d v0, v0
	; CHECK-BE-NEXT: xvcvsxddp vs2, v2			; CHECK-BE-NEXT: xvcvsxddp vs2, v2
	; CHECK-BE-NEXT: vperm v2, v5, v1, v3			; CHECK-BE-NEXT: vperm v2, v1, v5, v3
	; CHECK-BE-NEXT: xvcvsxddp vs0, v0			; CHECK-BE-NEXT: xvcvsxddp vs0, v0
	; CHECK-BE-NEXT: vperm v0, v5, v4, v3			; CHECK-BE-NEXT: vperm v0, v4, v5, v3
	; CHECK-BE-NEXT: vextsh2d v2, v2			; CHECK-BE-NEXT: vextsh2d v2, v2
	; CHECK-BE-NEXT: vextsh2d v0, v0			; CHECK-BE-NEXT: vextsh2d v0, v0
	; CHECK-BE-NEXT: xvcvsxddp vs3, v2			; CHECK-BE-NEXT: xvcvsxddp vs3, v2
	; CHECK-BE-NEXT: lxvx v2, 0, r4			; CHECK-BE-NEXT: lxvx v2, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_3@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_3@toc@ha
	; CHECK-BE-NEXT: xvcvsxddp vs1, v0			; CHECK-BE-NEXT: xvcvsxddp vs1, v0
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_3@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_3@toc@l
	; CHECK-BE-NEXT: stxv vs2, 80(r3)			; CHECK-BE-NEXT: stxv vs2, 80(r3)
	Show All 27 Lines

llvm/test/CodeGen/PowerPC/vec_conv_i8_to_fp32_elts.ll

	Show First 20 Lines • Show All 431 Lines • ▼ Show 20 Lines
	; CHECK-BE: # %bb.0: # %entry			; CHECK-BE: # %bb.0: # %entry
	; CHECK-BE-NEXT: mtvsrd v2, r4			; CHECK-BE-NEXT: mtvsrd v2, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI6_0@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI6_0@toc@ha
	; CHECK-BE-NEXT: xxlxor v3, v3, v3			; CHECK-BE-NEXT: xxlxor v3, v3, v3
	; CHECK-BE-NEXT: addi r4, r4, .LCPI6_0@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI6_0@toc@l
	; CHECK-BE-NEXT: lxvx v4, 0, r4			; CHECK-BE-NEXT: lxvx v4, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI6_1@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI6_1@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI6_1@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI6_1@toc@l
	; CHECK-BE-NEXT: vperm v3, v3, v2, v4			; CHECK-BE-NEXT: vperm v3, v2, v3, v4
	; CHECK-BE-NEXT: vextsb2w v3, v3			; CHECK-BE-NEXT: vextsb2w v3, v3
	; CHECK-BE-NEXT: xvcvsxwsp vs0, v3			; CHECK-BE-NEXT: xvcvsxwsp vs0, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: vperm v2, v2, v2, v3			; CHECK-BE-NEXT: vperm v2, v2, v2, v3
	; CHECK-BE-NEXT: stxv vs0, 16(r3)			; CHECK-BE-NEXT: stxv vs0, 16(r3)
	; CHECK-BE-NEXT: vextsb2w v2, v2			; CHECK-BE-NEXT: vextsb2w v2, v2
	; CHECK-BE-NEXT: xvcvsxwsp vs1, v2			; CHECK-BE-NEXT: xvcvsxwsp vs1, v2
	; CHECK-BE-NEXT: stxv vs1, 0(r3)			; CHECK-BE-NEXT: stxv vs1, 0(r3)
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; CHECK-BE-LABEL: test16elt_signed:			; CHECK-BE-LABEL: test16elt_signed:
	; CHECK-BE: # %bb.0: # %entry			; CHECK-BE: # %bb.0: # %entry
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_0@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_0@toc@ha
	; CHECK-BE-NEXT: xxlxor v4, v4, v4			; CHECK-BE-NEXT: xxlxor v4, v4, v4
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_0@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_0@toc@l
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_1@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_1@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_1@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_1@toc@l
	; CHECK-BE-NEXT: vperm v3, v4, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v4, v3
	; CHECK-BE-NEXT: vextsb2w v3, v3			; CHECK-BE-NEXT: vextsb2w v3, v3
	; CHECK-BE-NEXT: xvcvsxwsp vs0, v3			; CHECK-BE-NEXT: xvcvsxwsp vs0, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_2@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_2@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_2@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_2@toc@l
	; CHECK-BE-NEXT: vperm v3, v4, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v4, v3
	; CHECK-BE-NEXT: stxv vs0, 16(r3)			; CHECK-BE-NEXT: stxv vs0, 16(r3)
	; CHECK-BE-NEXT: vextsb2w v3, v3			; CHECK-BE-NEXT: vextsb2w v3, v3
	; CHECK-BE-NEXT: xvcvsxwsp vs1, v3			; CHECK-BE-NEXT: xvcvsxwsp vs1, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_3@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_3@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_3@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_3@toc@l
	; CHECK-BE-NEXT: vperm v3, v2, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v2, v3
	; CHECK-BE-NEXT: stxv vs1, 48(r3)			; CHECK-BE-NEXT: stxv vs1, 48(r3)
	Show All 14 Lines

llvm/test/CodeGen/PowerPC/vec_conv_i8_to_fp64_elts.ll

	Show First 20 Lines • Show All 491 Lines • ▼ Show 20 Lines
	; CHECK-BE: # %bb.0: # %entry			; CHECK-BE: # %bb.0: # %entry
	; CHECK-BE-NEXT: mtvsrws v2, r4			; CHECK-BE-NEXT: mtvsrws v2, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI5_0@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI5_0@toc@ha
	; CHECK-BE-NEXT: xxlxor v3, v3, v3			; CHECK-BE-NEXT: xxlxor v3, v3, v3
	; CHECK-BE-NEXT: addi r4, r4, .LCPI5_0@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI5_0@toc@l
	; CHECK-BE-NEXT: lxvx v4, 0, r4			; CHECK-BE-NEXT: lxvx v4, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI5_1@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI5_1@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI5_1@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI5_1@toc@l
	; CHECK-BE-NEXT: vperm v3, v3, v2, v4			; CHECK-BE-NEXT: vperm v3, v2, v3, v4
	; CHECK-BE-NEXT: vextsb2d v3, v3			; CHECK-BE-NEXT: vextsb2d v3, v3
	; CHECK-BE-NEXT: xvcvsxddp vs0, v3			; CHECK-BE-NEXT: xvcvsxddp vs0, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: vperm v2, v2, v2, v3			; CHECK-BE-NEXT: vperm v2, v2, v2, v3
	; CHECK-BE-NEXT: stxv vs0, 16(r3)			; CHECK-BE-NEXT: stxv vs0, 16(r3)
	; CHECK-BE-NEXT: vextsb2d v2, v2			; CHECK-BE-NEXT: vextsb2d v2, v2
	; CHECK-BE-NEXT: xvcvsxddp vs1, v2			; CHECK-BE-NEXT: xvcvsxddp vs1, v2
	; CHECK-BE-NEXT: stxv vs1, 0(r3)			; CHECK-BE-NEXT: stxv vs1, 0(r3)
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; CHECK-BE: # %bb.0: # %entry			; CHECK-BE: # %bb.0: # %entry
	; CHECK-BE-NEXT: mtvsrd v2, r4			; CHECK-BE-NEXT: mtvsrd v2, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI6_0@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI6_0@toc@ha
	; CHECK-BE-NEXT: xxlxor v4, v4, v4			; CHECK-BE-NEXT: xxlxor v4, v4, v4
	; CHECK-BE-NEXT: addi r4, r4, .LCPI6_0@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI6_0@toc@l
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI6_1@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI6_1@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI6_1@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI6_1@toc@l
	; CHECK-BE-NEXT: vperm v3, v4, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v4, v3
	; CHECK-BE-NEXT: vextsb2d v3, v3			; CHECK-BE-NEXT: vextsb2d v3, v3
	; CHECK-BE-NEXT: xvcvsxddp vs0, v3			; CHECK-BE-NEXT: xvcvsxddp vs0, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI6_2@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI6_2@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI6_2@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI6_2@toc@l
	; CHECK-BE-NEXT: vperm v3, v4, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v4, v3
	; CHECK-BE-NEXT: stxv vs0, 16(r3)			; CHECK-BE-NEXT: stxv vs0, 16(r3)
	; CHECK-BE-NEXT: vextsb2d v3, v3			; CHECK-BE-NEXT: vextsb2d v3, v3
	; CHECK-BE-NEXT: xvcvsxddp vs1, v3			; CHECK-BE-NEXT: xvcvsxddp vs1, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI6_3@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI6_3@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI6_3@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI6_3@toc@l
	; CHECK-BE-NEXT: vperm v3, v2, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v2, v3
	; CHECK-BE-NEXT: stxv vs1, 48(r3)			; CHECK-BE-NEXT: stxv vs1, 48(r3)
	▲ Show 20 Lines • Show All 164 Lines • ▼ Show 20 Lines
	; CHECK-BE-LABEL: test16elt_signed:			; CHECK-BE-LABEL: test16elt_signed:
	; CHECK-BE: # %bb.0: # %entry			; CHECK-BE: # %bb.0: # %entry
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_0@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_0@toc@ha
	; CHECK-BE-NEXT: xxlxor v3, v3, v3			; CHECK-BE-NEXT: xxlxor v3, v3, v3
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_0@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_0@toc@l
	; CHECK-BE-NEXT: lxvx v4, 0, r4			; CHECK-BE-NEXT: lxvx v4, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_1@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_1@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_1@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_1@toc@l
	; CHECK-BE-NEXT: vperm v4, v3, v2, v4			; CHECK-BE-NEXT: vperm v4, v2, v3, v4
	; CHECK-BE-NEXT: vextsb2d v4, v4			; CHECK-BE-NEXT: vextsb2d v4, v4
	; CHECK-BE-NEXT: xvcvsxddp vs0, v4			; CHECK-BE-NEXT: xvcvsxddp vs0, v4
	; CHECK-BE-NEXT: lxvx v4, 0, r4			; CHECK-BE-NEXT: lxvx v4, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_2@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_2@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_2@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_2@toc@l
	; CHECK-BE-NEXT: vperm v4, v3, v2, v4			; CHECK-BE-NEXT: vperm v4, v2, v3, v4
	; CHECK-BE-NEXT: stxv vs0, 16(r3)			; CHECK-BE-NEXT: stxv vs0, 16(r3)
	; CHECK-BE-NEXT: vextsb2d v4, v4			; CHECK-BE-NEXT: vextsb2d v4, v4
	; CHECK-BE-NEXT: xvcvsxddp vs1, v4			; CHECK-BE-NEXT: xvcvsxddp vs1, v4
	; CHECK-BE-NEXT: lxvx v4, 0, r4			; CHECK-BE-NEXT: lxvx v4, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_3@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_3@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_3@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_3@toc@l
	; CHECK-BE-NEXT: vperm v4, v3, v2, v4			; CHECK-BE-NEXT: vperm v4, v2, v3, v4
	; CHECK-BE-NEXT: stxv vs1, 48(r3)			; CHECK-BE-NEXT: stxv vs1, 48(r3)
	; CHECK-BE-NEXT: vextsb2d v4, v4			; CHECK-BE-NEXT: vextsb2d v4, v4
	; CHECK-BE-NEXT: xvcvsxddp vs2, v4			; CHECK-BE-NEXT: xvcvsxddp vs2, v4
	; CHECK-BE-NEXT: lxvx v4, 0, r4			; CHECK-BE-NEXT: lxvx v4, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_4@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_4@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_4@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_4@toc@l
	; CHECK-BE-NEXT: vperm v3, v3, v2, v4			; CHECK-BE-NEXT: vperm v3, v2, v3, v4
	; CHECK-BE-NEXT: stxv vs2, 80(r3)			; CHECK-BE-NEXT: stxv vs2, 80(r3)
	; CHECK-BE-NEXT: vextsb2d v3, v3			; CHECK-BE-NEXT: vextsb2d v3, v3
	; CHECK-BE-NEXT: xvcvsxddp vs3, v3			; CHECK-BE-NEXT: xvcvsxddp vs3, v3
	; CHECK-BE-NEXT: lxvx v3, 0, r4			; CHECK-BE-NEXT: lxvx v3, 0, r4
	; CHECK-BE-NEXT: addis r4, r2, .LCPI7_5@toc@ha			; CHECK-BE-NEXT: addis r4, r2, .LCPI7_5@toc@ha
	; CHECK-BE-NEXT: addi r4, r4, .LCPI7_5@toc@l			; CHECK-BE-NEXT: addi r4, r4, .LCPI7_5@toc@l
	; CHECK-BE-NEXT: vperm v3, v2, v2, v3			; CHECK-BE-NEXT: vperm v3, v2, v2, v3
	; CHECK-BE-NEXT: stxv vs3, 112(r3)			; CHECK-BE-NEXT: stxv vs3, 112(r3)
	Show All 28 Lines

llvm/test/CodeGen/Thumb2/mve-shuffle.ll

Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines	entry:
ret <4 x i32> %r		ret <4 x i32> %r
}		}

define arm_aapcs_vfpcc <4 x i32> @shuffle3step_i32(<16 x i32> %src) {		define arm_aapcs_vfpcc <4 x i32> @shuffle3step_i32(<16 x i32> %src) {
; CHECK-LABEL: shuffle3step_i32:		; CHECK-LABEL: shuffle3step_i32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9}		; CHECK-NEXT: .vsave {d8, d9}
; CHECK-NEXT: vpush {d8, d9}		; CHECK-NEXT: vpush {d8, d9}
; CHECK-NEXT: vmov.f32 s14, s8		; CHECK-NEXT: vmov.f32 s12, s1
; CHECK-NEXT: vmov.f32 s15, s11		; CHECK-NEXT: vmov.f32 s16, s0
; CHECK-NEXT: vmov.f32 s16, s1		; CHECK-NEXT: vmov.f32 s13, s4
; CHECK-NEXT: vmov.f32 s12, s2		; CHECK-NEXT: vmov.f32 s17, s3
; CHECK-NEXT: vmov.f32 s17, s4		; CHECK-NEXT: vmov.f32 s14, s7
; CHECK-NEXT: vmov.f32 s1, s3		; CHECK-NEXT: vmov.f32 s18, s6
; CHECK-NEXT: vmov.f32 s18, s7		; CHECK-NEXT: vmov.f32 s4, s2
; CHECK-NEXT: vmov.f32 s2, s6		; CHECK-NEXT: vmov.f32 s6, s8
; CHECK-NEXT: vmov.f32 s19, s10		; CHECK-NEXT: vmov.f32 s15, s10
; CHECK-NEXT: vmov.f32 s3, s9		; CHECK-NEXT: vmov.f32 s19, s9
; CHECK-NEXT: vmov.f32 s13, s5		; CHECK-NEXT: vadd.i32 q3, q4, q3
; CHECK-NEXT: vadd.i32 q0, q0, q4		; CHECK-NEXT: vmov.f32 s7, s11
; CHECK-NEXT: vadd.i32 q0, q0, q3		; CHECK-NEXT: vadd.i32 q0, q3, q1
; CHECK-NEXT: vpop {d8, d9}		; CHECK-NEXT: vpop {d8, d9}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = shufflevector <16 x i32> %src, <16 x i32> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>		%s1 = shufflevector <16 x i32> %src, <16 x i32> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>
%s2 = shufflevector <16 x i32> %src, <16 x i32> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>		%s2 = shufflevector <16 x i32> %src, <16 x i32> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>
%s3 = shufflevector <16 x i32> %src, <16 x i32> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>		%s3 = shufflevector <16 x i32> %src, <16 x i32> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>
%a = add <4 x i32> %s1, %s2		%a = add <4 x i32> %s1, %s2
%r = add <4 x i32> %a, %s3		%r = add <4 x i32> %a, %s3
▲ Show 20 Lines • Show All 197 Lines • ▼ Show 20 Lines	entry:
%s2 = shufflevector <16 x i16> %src, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>		%s2 = shufflevector <16 x i16> %src, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
%r = add <8 x i16> %s1, %s2		%r = add <8 x i16> %s1, %s2
ret <8 x i16> %r		ret <8 x i16> %r
}		}

define arm_aapcs_vfpcc <8 x i16> @shuffle3step_i16(<32 x i16> %src) {		define arm_aapcs_vfpcc <8 x i16> @shuffle3step_i16(<32 x i16> %src) {
; CHECK-LABEL: shuffle3step_i16:		; CHECK-LABEL: shuffle3step_i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: vmov.u16 r0, q0[0]		; CHECK-NEXT: vmov.u16 r0, q0[2]
; CHECK-NEXT: vmov.16 q3[0], r0		; CHECK-NEXT: vmov.16 q3[0], r0
; CHECK-NEXT: vmov.u16 r0, q0[3]		; CHECK-NEXT: vmov.u16 r0, q0[5]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q3[1], r0
; CHECK-NEXT: vmov.u16 r0, q0[6]		; CHECK-NEXT: vmov.u16 r0, q1[0]
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q3[2], r0
; CHECK-NEXT: vmov.u16 r0, q1[1]		; CHECK-NEXT: vmov.u16 r0, q1[3]
; CHECK-NEXT: vmov.16 q3[3], r0		; CHECK-NEXT: vmov.16 q3[3], r0
		; CHECK-NEXT: vmov.f32 s14, s7
		; CHECK-NEXT: vmov.u16 r0, q3[4]
		; CHECK-NEXT: vmov.16 q4[4], r0
		; CHECK-NEXT: vmov.u16 r0, q2[1]
		; CHECK-NEXT: vmov.16 q4[5], r0
		; CHECK-NEXT: vmov.u16 r0, q2[4]
		; CHECK-NEXT: vmov.16 q4[6], r0
		; CHECK-NEXT: vmov.u16 r0, q2[7]
		; CHECK-NEXT: vmov.16 q4[7], r0
		; CHECK-NEXT: vmov.u16 r0, q0[0]
		; CHECK-NEXT: vmov.f32 s14, s18
		; CHECK-NEXT: vmov.16 q5[0], r0
		; CHECK-NEXT: vmov.f32 s15, s19
		; CHECK-NEXT: vmovx.f16 s18, s6
		; CHECK-NEXT: vins.f16 s18, s8
		; CHECK-NEXT: vmov.u16 r0, q0[3]
		; CHECK-NEXT: vmovx.f16 s19, s9
		; CHECK-NEXT: vmov.16 q5[1], r0
		; CHECK-NEXT: vmov.u16 r0, q0[6]
		; CHECK-NEXT: vins.f16 s19, s11
		; CHECK-NEXT: vmov.16 q5[2], r0
		; CHECK-NEXT: vmov.u16 r0, q1[1]
		; CHECK-NEXT: vmovx.f16 s16, s0
		; CHECK-NEXT: vmov.16 q5[3], r0
; CHECK-NEXT: vmov.u16 r0, q1[4]		; CHECK-NEXT: vmov.u16 r0, q1[4]
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vins.f16 s16, s2
		; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vmov.u16 r0, q2[2]		; CHECK-NEXT: vmov.u16 r0, q2[2]
; CHECK-NEXT: vmov.16 q4[6], r0		; CHECK-NEXT: vmovx.f16 s17, s3
		; CHECK-NEXT: vmov.16 q0[6], r0
; CHECK-NEXT: vmov.u16 r0, q2[5]		; CHECK-NEXT: vmov.u16 r0, q2[5]
; CHECK-NEXT: vmov.16 q4[7], r0		; CHECK-NEXT: vins.f16 s17, s5
		; CHECK-NEXT: vmov.16 q0[7], r0
; CHECK-NEXT: vmov.u16 r0, q1[7]		; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q5[5], r0
; CHECK-NEXT: vmov.u16 r0, q2[4]		; CHECK-NEXT: vmov.f32 s23, s3
; CHECK-NEXT: vmov.16 q5[6], r0		; CHECK-NEXT: vadd.i16 q0, q5, q4
; CHECK-NEXT: vmov.u16 r0, q0[2]		; CHECK-NEXT: vadd.i16 q0, q0, q3
; CHECK-NEXT: vmov.f32 s15, s19		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: vmov.16 q4[0], r0
; CHECK-NEXT: vmov.u16 r0, q0[5]
; CHECK-NEXT: vmov.16 q4[1], r0
; CHECK-NEXT: vmov.u16 r0, q1[0]
; CHECK-NEXT: vmov.16 q4[2], r0
; CHECK-NEXT: vmov.u16 r0, q1[3]
; CHECK-NEXT: vmov.16 q4[3], r0
; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmov.16 q5[7], r0
; CHECK-NEXT: vmov.f32 s18, s7
; CHECK-NEXT: vmov.f32 s22, s8
; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vmov q6, q5
; CHECK-NEXT: vmovnb.i32 q6, q4
; CHECK-NEXT: vmov.f32 s18, s26
; CHECK-NEXT: vmov.f32 s19, s23
; CHECK-NEXT: vins.f16 s22, s8
; CHECK-NEXT: vmovx.f16 s23, s9
; CHECK-NEXT: vins.f16 s23, s11
; CHECK-NEXT: vmovx.f16 s8, s0
; CHECK-NEXT: vins.f16 s8, s2
; CHECK-NEXT: vmovx.f16 s9, s3
; CHECK-NEXT: vmov q0, q5
; CHECK-NEXT: vins.f16 s9, s5
; CHECK-NEXT: vmov.16 q2[4], r0
; CHECK-NEXT: vmovnb.i32 q0, q2
; CHECK-NEXT: vmov.f32 s10, s2
; CHECK-NEXT: vmov.f32 s11, s23
; CHECK-NEXT: vadd.i16 q0, q3, q2
; CHECK-NEXT: vadd.i16 q0, q0, q4
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>		%s1 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>
%s2 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>		%s2 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>
%s3 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>		%s3 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>
%a = add <8 x i16> %s1, %s2		%a = add <8 x i16> %s1, %s2
%r = add <8 x i16> %a, %s3		%r = add <8 x i16> %a, %s3
ret <8 x i16> %r		ret <8 x i16> %r
▲ Show 20 Lines • Show All 329 Lines • ▼ Show 20 Lines	entry:
%s2 = shufflevector <32 x i8> %src, <32 x i8> undef, <16 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15, i32 17, i32 19, i32 21, i32 23, i32 25, i32 27, i32 29, i32 31>		%s2 = shufflevector <32 x i8> %src, <32 x i8> undef, <16 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15, i32 17, i32 19, i32 21, i32 23, i32 25, i32 27, i32 29, i32 31>
%r = add <16 x i8> %s1, %s2		%r = add <16 x i8> %s1, %s2
ret <16 x i8> %r		ret <16 x i8> %r
}		}

define arm_aapcs_vfpcc <16 x i8> @shuffle3step_i8(<64 x i8> %src) {		define arm_aapcs_vfpcc <16 x i8> @shuffle3step_i8(<64 x i8> %src) {
; CHECK-LABEL: shuffle3step_i8:		; CHECK-LABEL: shuffle3step_i8:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: vmov.u8 r0, q0[1]		; CHECK-NEXT: vmov.u8 r0, q0[1]
; CHECK-NEXT: vmov.8 q3[0], r0		; CHECK-NEXT: vmov.8 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[4]		; CHECK-NEXT: vmov.u8 r0, q0[4]
; CHECK-NEXT: vmov.8 q3[1], r0		; CHECK-NEXT: vmov.8 q3[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[7]		; CHECK-NEXT: vmov.u8 r0, q0[7]
; CHECK-NEXT: vmov.8 q3[2], r0		; CHECK-NEXT: vmov.8 q3[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[10]		; CHECK-NEXT: vmov.u8 r0, q0[10]
; CHECK-NEXT: vmov.8 q3[3], r0		; CHECK-NEXT: vmov.8 q3[3], r0
; CHECK-NEXT: vmov.u8 r0, q0[13]		; CHECK-NEXT: vmov.u8 r0, q0[13]
; CHECK-NEXT: vmov.8 q3[4], r0		; CHECK-NEXT: vmov.8 q3[4], r0
; CHECK-NEXT: vmov.u8 r0, q1[0]		; CHECK-NEXT: vmov.u8 r0, q1[0]
; CHECK-NEXT: vmov.8 q3[5], r0		; CHECK-NEXT: vmov.8 q3[5], r0
; CHECK-NEXT: vmov.u8 r0, q1[3]		; CHECK-NEXT: vmov.u8 r0, q1[3]
; CHECK-NEXT: vmov.8 q3[6], r0		; CHECK-NEXT: vmov.8 q3[6], r0
; CHECK-NEXT: vmov.u8 r0, q1[6]
; CHECK-NEXT: vmov.8 q3[7], r0
; CHECK-NEXT: vmov.u8 r0, q1[9]		; CHECK-NEXT: vmov.u8 r0, q1[9]
; CHECK-NEXT: vmov.8 q3[8], r0		; CHECK-NEXT: vmov.8 q4[8], r0
; CHECK-NEXT: vmov.u8 r0, q1[12]		; CHECK-NEXT: vmov.u8 r0, q1[12]
; CHECK-NEXT: vmov.8 q3[9], r0		; CHECK-NEXT: vmov.8 q4[9], r0
; CHECK-NEXT: vmov.u8 r0, q1[15]		; CHECK-NEXT: vmov.u8 r0, q1[15]
; CHECK-NEXT: vmov.8 q3[10], r0		; CHECK-NEXT: vmov.8 q4[10], r0
		; CHECK-NEXT: vmov.u8 r0, q2[2]
		; CHECK-NEXT: vmov.8 q4[11], r0
; CHECK-NEXT: vmov.u8 r0, q2[5]		; CHECK-NEXT: vmov.u8 r0, q2[5]
; CHECK-NEXT: vmov.8 q4[12], r0		; CHECK-NEXT: vmov.8 q4[12], r0
; CHECK-NEXT: vmov.u8 r0, q2[8]		; CHECK-NEXT: vmov.u8 r0, q2[8]
; CHECK-NEXT: vmov.8 q4[13], r0		; CHECK-NEXT: vmov.8 q4[13], r0
; CHECK-NEXT: vmov.u8 r0, q2[11]		; CHECK-NEXT: vmov.u8 r0, q2[11]
; CHECK-NEXT: vmov.8 q4[14], r0		; CHECK-NEXT: vmov.8 q4[14], r0
; CHECK-NEXT: vmov.u8 r0, q2[14]		; CHECK-NEXT: vmov.u8 r0, q2[14]
; CHECK-NEXT: vmov.8 q4[15], r0		; CHECK-NEXT: vmov.8 q4[15], r0
; CHECK-NEXT: vmov.u8 r0, q2[2]		; CHECK-NEXT: vmov.u8 r0, q1[6]
; CHECK-NEXT: vmov q5, q3		; CHECK-NEXT: vmov.8 q3[7], r0
; CHECK-NEXT: vmov.8 q5[11], r0
; CHECK-NEXT: vmov.u8 r0, q0[0]		; CHECK-NEXT: vmov.u8 r0, q0[0]
; CHECK-NEXT: vmov.f32 s14, s22		; CHECK-NEXT: vmov.f32 s14, s18
; CHECK-NEXT: vmov.f32 s15, s19		; CHECK-NEXT: vmov.f32 s15, s19
; CHECK-NEXT: vmov.8 q4[0], r0		; CHECK-NEXT: vmov.8 q4[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[3]		; CHECK-NEXT: vmov.u8 r0, q0[3]
; CHECK-NEXT: vmov.8 q4[1], r0		; CHECK-NEXT: vmov.8 q4[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[6]		; CHECK-NEXT: vmov.u8 r0, q0[6]
; CHECK-NEXT: vmov.8 q4[2], r0		; CHECK-NEXT: vmov.8 q4[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[9]		; CHECK-NEXT: vmov.u8 r0, q0[9]
; CHECK-NEXT: vmov.8 q4[3], r0		; CHECK-NEXT: vmov.8 q4[3], r0
; CHECK-NEXT: vmov.u8 r0, q0[12]		; CHECK-NEXT: vmov.u8 r0, q0[12]
; CHECK-NEXT: vmov.8 q4[4], r0		; CHECK-NEXT: vmov.8 q4[4], r0
; CHECK-NEXT: vmov.u8 r0, q0[15]		; CHECK-NEXT: vmov.u8 r0, q0[15]
; CHECK-NEXT: vmov.8 q4[5], r0		; CHECK-NEXT: vmov.8 q4[5], r0
; CHECK-NEXT: vmov.u8 r0, q1[2]		; CHECK-NEXT: vmov.u8 r0, q1[2]
; CHECK-NEXT: vmov.8 q4[6], r0		; CHECK-NEXT: vmov.8 q4[6], r0
; CHECK-NEXT: vmov.u8 r0, q1[5]
; CHECK-NEXT: vmov.8 q4[7], r0
; CHECK-NEXT: vmov.u8 r0, q1[8]		; CHECK-NEXT: vmov.u8 r0, q1[8]
; CHECK-NEXT: vmov.8 q4[8], r0		; CHECK-NEXT: vmov.8 q5[8], r0
; CHECK-NEXT: vmov.u8 r0, q1[11]		; CHECK-NEXT: vmov.u8 r0, q1[11]
; CHECK-NEXT: vmov.8 q4[9], r0		; CHECK-NEXT: vmov.8 q5[9], r0
; CHECK-NEXT: vmov.u8 r0, q1[14]		; CHECK-NEXT: vmov.u8 r0, q1[14]
; CHECK-NEXT: vmov.8 q4[10], r0		; CHECK-NEXT: vmov.8 q5[10], r0
		; CHECK-NEXT: vmov.u8 r0, q2[1]
		; CHECK-NEXT: vmov.8 q5[11], r0
; CHECK-NEXT: vmov.u8 r0, q2[4]		; CHECK-NEXT: vmov.u8 r0, q2[4]
; CHECK-NEXT: vmov.8 q5[12], r0		; CHECK-NEXT: vmov.8 q5[12], r0
; CHECK-NEXT: vmov.u8 r0, q2[7]		; CHECK-NEXT: vmov.u8 r0, q2[7]
; CHECK-NEXT: vmov.8 q5[13], r0		; CHECK-NEXT: vmov.8 q5[13], r0
; CHECK-NEXT: vmov.u8 r0, q2[10]		; CHECK-NEXT: vmov.u8 r0, q2[10]
; CHECK-NEXT: vmov.8 q5[14], r0		; CHECK-NEXT: vmov.8 q5[14], r0
; CHECK-NEXT: vmov.u8 r0, q2[13]		; CHECK-NEXT: vmov.u8 r0, q2[13]
; CHECK-NEXT: vmov.8 q5[15], r0		; CHECK-NEXT: vmov.8 q5[15], r0
; CHECK-NEXT: vmov.u8 r0, q2[1]		; CHECK-NEXT: vmov.u8 r0, q1[5]
; CHECK-NEXT: vmov q6, q4		; CHECK-NEXT: vmov.8 q4[7], r0
; CHECK-NEXT: vmov.8 q6[11], r0
; CHECK-NEXT: vmov.u8 r0, q0[2]		; CHECK-NEXT: vmov.u8 r0, q0[2]
; CHECK-NEXT: vmov.f32 s18, s26		; CHECK-NEXT: vmov.f32 s18, s22
; CHECK-NEXT: vmov.f32 s19, s23		; CHECK-NEXT: vmov.f32 s19, s23
; CHECK-NEXT: vadd.i8 q3, q4, q3		; CHECK-NEXT: vadd.i8 q3, q4, q3
; CHECK-NEXT: vmov.8 q4[0], r0		; CHECK-NEXT: vmov.8 q4[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[5]		; CHECK-NEXT: vmov.u8 r0, q0[5]
; CHECK-NEXT: vmov.8 q4[1], r0		; CHECK-NEXT: vmov.8 q4[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[8]		; CHECK-NEXT: vmov.u8 r0, q0[8]
; CHECK-NEXT: vmov.8 q4[2], r0		; CHECK-NEXT: vmov.8 q4[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[11]		; CHECK-NEXT: vmov.u8 r0, q0[11]
; CHECK-NEXT: vmov.8 q4[3], r0		; CHECK-NEXT: vmov.8 q4[3], r0
; CHECK-NEXT: vmov.u8 r0, q0[14]		; CHECK-NEXT: vmov.u8 r0, q0[14]
; CHECK-NEXT: vmov.8 q4[4], r0		; CHECK-NEXT: vmov.8 q4[4], r0
; CHECK-NEXT: vmov.u8 r0, q1[1]		; CHECK-NEXT: vmov.u8 r0, q1[1]
; CHECK-NEXT: vmov.8 q4[5], r0		; CHECK-NEXT: vmov.8 q4[5], r0
; CHECK-NEXT: vmov.u8 r0, q1[4]		; CHECK-NEXT: vmov.u8 r0, q1[4]
; CHECK-NEXT: vmov.8 q4[6], r0		; CHECK-NEXT: vmov.8 q4[6], r0
		; CHECK-NEXT: vmov.u8 r0, q1[10]
		; CHECK-NEXT: vmov.8 q0[8], r0
		; CHECK-NEXT: vmov.u8 r0, q1[13]
		; CHECK-NEXT: vmov.8 q0[9], r0
		; CHECK-NEXT: vmov.u8 r0, q2[0]
		; CHECK-NEXT: vmov.8 q0[10], r0
		; CHECK-NEXT: vmov.u8 r0, q2[3]
		; CHECK-NEXT: vmov.8 q0[11], r0
; CHECK-NEXT: vmov.u8 r0, q2[6]		; CHECK-NEXT: vmov.u8 r0, q2[6]
; CHECK-NEXT: vmov.8 q0[12], r0		; CHECK-NEXT: vmov.8 q0[12], r0
; CHECK-NEXT: vmov.u8 r0, q2[9]		; CHECK-NEXT: vmov.u8 r0, q2[9]
; CHECK-NEXT: vmov.8 q0[13], r0		; CHECK-NEXT: vmov.8 q0[13], r0
; CHECK-NEXT: vmov.u8 r0, q2[12]		; CHECK-NEXT: vmov.u8 r0, q2[12]
; CHECK-NEXT: vmov.8 q0[14], r0		; CHECK-NEXT: vmov.8 q0[14], r0
; CHECK-NEXT: vmov.u8 r0, q2[15]		; CHECK-NEXT: vmov.u8 r0, q2[15]
; CHECK-NEXT: vmov.8 q0[15], r0		; CHECK-NEXT: vmov.8 q0[15], r0
; CHECK-NEXT: vmov.u8 r0, q1[10]
; CHECK-NEXT: vmov.8 q5[8], r0
; CHECK-NEXT: vmov.u8 r0, q1[13]
; CHECK-NEXT: vmov.8 q5[9], r0
; CHECK-NEXT: vmov.u8 r0, q2[0]
; CHECK-NEXT: vmov.8 q5[10], r0
; CHECK-NEXT: vmov.u8 r0, q2[3]
; CHECK-NEXT: vmov.8 q5[11], r0
; CHECK-NEXT: vmov.u8 r0, q1[7]		; CHECK-NEXT: vmov.u8 r0, q1[7]
; CHECK-NEXT: vmov.8 q4[7], r0		; CHECK-NEXT: vmov.8 q4[7], r0
; CHECK-NEXT: vmov.f32 s18, s22		; CHECK-NEXT: vmov.f32 s18, s2
; CHECK-NEXT: vmov.f32 s19, s3		; CHECK-NEXT: vmov.f32 s19, s3
; CHECK-NEXT: vadd.i8 q0, q3, q4		; CHECK-NEXT: vadd.i8 q0, q3, q4
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = shufflevector <64 x i8> %src, <64 x i8> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>		%s1 = shufflevector <64 x i8> %src, <64 x i8> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>
%s2 = shufflevector <64 x i8> %src, <64 x i8> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>		%s2 = shufflevector <64 x i8> %src, <64 x i8> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>
%s3 = shufflevector <64 x i8> %src, <64 x i8> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>		%s3 = shufflevector <64 x i8> %src, <64 x i8> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>
%a = add <16 x i8> %s1, %s2		%a = add <16 x i8> %s1, %s2
%r = add <16 x i8> %a, %s3		%r = add <16 x i8> %a, %s3
ret <16 x i8> %r		ret <16 x i8> %r
▲ Show 20 Lines • Show All 301 Lines • ▼ Show 20 Lines	entry:
ret <4 x float> %r		ret <4 x float> %r
}		}

define arm_aapcs_vfpcc <4 x float> @shuffle3step_f32(<16 x float> %src) {		define arm_aapcs_vfpcc <4 x float> @shuffle3step_f32(<16 x float> %src) {
; CHECKFP-LABEL: shuffle3step_f32:		; CHECKFP-LABEL: shuffle3step_f32:
; CHECKFP: @ %bb.0: @ %entry		; CHECKFP: @ %bb.0: @ %entry
; CHECKFP-NEXT: .vsave {d8, d9}		; CHECKFP-NEXT: .vsave {d8, d9}
; CHECKFP-NEXT: vpush {d8, d9}		; CHECKFP-NEXT: vpush {d8, d9}
; CHECKFP-NEXT: vmov.f32 s14, s8		; CHECKFP-NEXT: vmov.f32 s12, s1
; CHECKFP-NEXT: vmov.f32 s15, s11		; CHECKFP-NEXT: vmov.f32 s16, s0
; CHECKFP-NEXT: vmov.f32 s16, s1		; CHECKFP-NEXT: vmov.f32 s13, s4
; CHECKFP-NEXT: vmov.f32 s12, s2		; CHECKFP-NEXT: vmov.f32 s17, s3
; CHECKFP-NEXT: vmov.f32 s17, s4		; CHECKFP-NEXT: vmov.f32 s14, s7
; CHECKFP-NEXT: vmov.f32 s1, s3		; CHECKFP-NEXT: vmov.f32 s18, s6
; CHECKFP-NEXT: vmov.f32 s18, s7		; CHECKFP-NEXT: vmov.f32 s4, s2
; CHECKFP-NEXT: vmov.f32 s2, s6		; CHECKFP-NEXT: vmov.f32 s6, s8
; CHECKFP-NEXT: vmov.f32 s19, s10		; CHECKFP-NEXT: vmov.f32 s15, s10
; CHECKFP-NEXT: vmov.f32 s3, s9		; CHECKFP-NEXT: vmov.f32 s19, s9
; CHECKFP-NEXT: vmov.f32 s13, s5		; CHECKFP-NEXT: vadd.f32 q3, q4, q3
; CHECKFP-NEXT: vadd.f32 q0, q0, q4		; CHECKFP-NEXT: vmov.f32 s7, s11
; CHECKFP-NEXT: vadd.f32 q0, q0, q3		; CHECKFP-NEXT: vadd.f32 q0, q3, q1
; CHECKFP-NEXT: vpop {d8, d9}		; CHECKFP-NEXT: vpop {d8, d9}
; CHECKFP-NEXT: bx lr		; CHECKFP-NEXT: bx lr
entry:		entry:
%s1 = shufflevector <16 x float> %src, <16 x float> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>		%s1 = shufflevector <16 x float> %src, <16 x float> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>
%s2 = shufflevector <16 x float> %src, <16 x float> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>		%s2 = shufflevector <16 x float> %src, <16 x float> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>
%s3 = shufflevector <16 x float> %src, <16 x float> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>		%s3 = shufflevector <16 x float> %src, <16 x float> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>
%a = fadd <4 x float> %s1, %s2		%a = fadd <4 x float> %s1, %s2
%r = fadd <4 x float> %a, %s3		%r = fadd <4 x float> %a, %s3
▲ Show 20 Lines • Show All 185 Lines • ▼ Show 20 Lines	entry:
%s2 = shufflevector <16 x half> %src, <16 x half> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>		%s2 = shufflevector <16 x half> %src, <16 x half> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
%r = fadd <8 x half> %s1, %s2		%r = fadd <8 x half> %s1, %s2
ret <8 x half> %r		ret <8 x half> %r
}		}

define arm_aapcs_vfpcc <8 x half> @shuffle3step_f16(<32 x half> %src) {		define arm_aapcs_vfpcc <8 x half> @shuffle3step_f16(<32 x half> %src) {
; CHECKFP-LABEL: shuffle3step_f16:		; CHECKFP-LABEL: shuffle3step_f16:
; CHECKFP: @ %bb.0: @ %entry		; CHECKFP: @ %bb.0: @ %entry
; CHECKFP-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECKFP-NEXT: .vsave {d8, d9, d10}
; CHECKFP-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECKFP-NEXT: vpush {d8, d9, d10}
; CHECKFP-NEXT: vmovx.f16 s16, s2		; CHECKFP-NEXT: vmovx.f16 s16, s2
; CHECKFP-NEXT: vmov.f32 s12, s1		; CHECKFP-NEXT: vmov.f32 s12, s1
; CHECKFP-NEXT: vins.f16 s12, s16		; CHECKFP-NEXT: vins.f16 s12, s16
; CHECKFP-NEXT: vmovx.f16 s16, s5		; CHECKFP-NEXT: vmovx.f16 s16, s5
; CHECKFP-NEXT: vmov.f32 s13, s4		; CHECKFP-NEXT: vmov.f32 s13, s4
; CHECKFP-NEXT: vmovx.f16 s20, s11		; CHECKFP-NEXT: vmovx.f16 s20, s1
; CHECKFP-NEXT: vins.f16 s13, s16		; CHECKFP-NEXT: vins.f16 s13, s16
; CHECKFP-NEXT: vmov.f32 s19, s10		; CHECKFP-NEXT: vmovx.f16 s16, s8
; CHECKFP-NEXT: vins.f16 s19, s20
; CHECKFP-NEXT: vmov.f32 s14, s7		; CHECKFP-NEXT: vmov.f32 s14, s7
; CHECKFP-NEXT: vmovx.f16 s20, s8		; CHECKFP-NEXT: vins.f16 s14, s16
; CHECKFP-NEXT: vmovx.f16 s24, s1		; CHECKFP-NEXT: vmovx.f16 s16, s11
; CHECKFP-NEXT: vins.f16 s14, s20		; CHECKFP-NEXT: vmov.f32 s15, s10
; CHECKFP-NEXT: vmov.f32 s20, s0		; CHECKFP-NEXT: vins.f16 s15, s16
; CHECKFP-NEXT: vins.f16 s20, s24		; CHECKFP-NEXT: vmovx.f16 s18, s6
; CHECKFP-NEXT: vmovx.f16 s24, s4		; CHECKFP-NEXT: vins.f16 s18, s8
; CHECKFP-NEXT: vmov.f32 s21, s3		; CHECKFP-NEXT: vmovx.f16 s19, s9
; CHECKFP-NEXT: vins.f16 s21, s24		; CHECKFP-NEXT: vins.f16 s19, s11
; CHECKFP-NEXT: vmovx.f16 s24, s7		; CHECKFP-NEXT: vmovx.f16 s16, s0
; CHECKFP-NEXT: vmov.f32 s22, s6		; CHECKFP-NEXT: vins.f16 s16, s2
; CHECKFP-NEXT: vins.f16 s22, s24		; CHECKFP-NEXT: vmovx.f16 s17, s3
; CHECKFP-NEXT: vmovx.f16 s24, s0		; CHECKFP-NEXT: vins.f16 s0, s20
; CHECKFP-NEXT: vins.f16 s24, s2		; CHECKFP-NEXT: vmovx.f16 s20, s4
; CHECKFP-NEXT: vmov.f32 s18, s8		; CHECKFP-NEXT: vmov.f32 s1, s3
; CHECKFP-NEXT: vmovx.f16 s25, s3		; CHECKFP-NEXT: vins.f16 s1, s20
; CHECKFP-NEXT: vmovx.f16 s0, s10		; CHECKFP-NEXT: vmovx.f16 s20, s7
; CHECKFP-NEXT: vins.f16 s25, s5		; CHECKFP-NEXT: vins.f16 s17, s5
; CHECKFP-NEXT: vmov.f32 s15, s19		; CHECKFP-NEXT: vins.f16 s6, s20
; CHECKFP-NEXT: vmovx.f16 s27, s9		; CHECKFP-NEXT: vmov.f32 s2, s6
; CHECKFP-NEXT: vins.f16 s9, s0		; CHECKFP-NEXT: vmovx.f16 s4, s10
; CHECKFP-NEXT: vins.f16 s27, s11		; CHECKFP-NEXT: vins.f16 s9, s4
; CHECKFP-NEXT: vmov.f32 s23, s9		; CHECKFP-NEXT: vmov.f32 s3, s9
; CHECKFP-NEXT: vmovx.f16 s26, s6		; CHECKFP-NEXT: vadd.f16 q0, q0, q4
; CHECKFP-NEXT: vins.f16 s26, s8
; CHECKFP-NEXT: vadd.f16 q0, q5, q6
; CHECKFP-NEXT: vadd.f16 q0, q0, q3		; CHECKFP-NEXT: vadd.f16 q0, q0, q3
; CHECKFP-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECKFP-NEXT: vpop {d8, d9, d10}
; CHECKFP-NEXT: bx lr		; CHECKFP-NEXT: bx lr
entry:		entry:
%s1 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>		%s1 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>
%s2 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>		%s2 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>
%s3 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>		%s3 = shufflevector <32 x half> %src, <32 x half> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>
%a = fadd <8 x half> %s1, %s2		%a = fadd <8 x half> %s1, %s2
%r = fadd <8 x half> %a, %s3		%r = fadd <8 x half> %a, %s3
ret <8 x half> %r		ret <8 x half> %r
▲ Show 20 Lines • Show All 340 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vld3.ll

Show All 30 Lines	entry:
ret void		ret void
}		}

define void @vld3_v4i32(<12 x i32> %src, <4 x i32> %dst) {		define void @vld3_v4i32(<12 x i32> %src, <4 x i32> %dst) {
; CHECK-LABEL: vld3_v4i32:		; CHECK-LABEL: vld3_v4i32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9}		; CHECK-NEXT: .vsave {d8, d9}
; CHECK-NEXT: vpush {d8, d9}		; CHECK-NEXT: vpush {d8, d9}
; CHECK-NEXT: vldrw.u32 q0, [r0, #32]		; CHECK-NEXT: vldrw.u32 q1, [r0]
; CHECK-NEXT: vldrw.u32 q2, [r0]		; CHECK-NEXT: vldrw.u32 q0, [r0, #16]
; CHECK-NEXT: vldrw.u32 q3, [r0, #16]		; CHECK-NEXT: vldrw.u32 q2, [r0, #32]
; CHECK-NEXT: vmov.f64 d3, d0		; CHECK-NEXT: vmov.f64 d6, d2
; CHECK-NEXT: vmov.f32 s7, s3		; CHECK-NEXT: vmov.f32 s16, s5
; CHECK-NEXT: vmov.f32 s16, s9		; CHECK-NEXT: vmov.f32 s13, s7
; CHECK-NEXT: vmov.f32 s4, s10		; CHECK-NEXT: vmov.f32 s17, s0
; CHECK-NEXT: vmov.f32 s17, s12		; CHECK-NEXT: vmov.f32 s14, s2
; CHECK-NEXT: vmov.f32 s9, s11		; CHECK-NEXT: vmov.f32 s18, s3
; CHECK-NEXT: vmov.f32 s18, s15		; CHECK-NEXT: vmov.f32 s0, s6
; CHECK-NEXT: vmov.f32 s10, s14		; CHECK-NEXT: vmov.f32 s2, s8
; CHECK-NEXT: vmov.f32 s19, s2		; CHECK-NEXT: vmov.f32 s19, s10
; CHECK-NEXT: vmov.f32 s11, s1		; CHECK-NEXT: vmov.f32 s15, s9
; CHECK-NEXT: vmov.f32 s5, s13		; CHECK-NEXT: vadd.i32 q3, q3, q4
; CHECK-NEXT: vadd.i32 q0, q2, q4		; CHECK-NEXT: vmov.f32 s3, s11
; CHECK-NEXT: vadd.i32 q0, q0, q1		; CHECK-NEXT: vadd.i32 q0, q3, q0
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9}		; CHECK-NEXT: vpop {d8, d9}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <12 x i32>, <12 x i32>* %src, align 4		%l1 = load <12 x i32>, <12 x i32>* %src, align 4
%s1 = shufflevector <12 x i32> %l1, <12 x i32> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>		%s1 = shufflevector <12 x i32> %l1, <12 x i32> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>
%s2 = shufflevector <12 x i32> %l1, <12 x i32> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>		%s2 = shufflevector <12 x i32> %l1, <12 x i32> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>
%s3 = shufflevector <12 x i32> %l1, <12 x i32> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>		%s3 = shufflevector <12 x i32> %l1, <12 x i32> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>
%a1 = add <4 x i32> %s1, %s2		%a1 = add <4 x i32> %s1, %s2
%a = add <4 x i32> %a1, %s3		%a = add <4 x i32> %a1, %s3
store <4 x i32> %a, <4 x i32> *%dst		store <4 x i32> %a, <4 x i32> *%dst
ret void		ret void
}		}

define void @vld3_v8i32(<24 x i32> %src, <8 x i32> %dst) {		define void @vld3_v8i32(<24 x i32> %src, <8 x i32> %dst) {
; CHECK-LABEL: vld3_v8i32:		; CHECK-LABEL: vld3_v8i32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11}		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11}		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: vldrw.u32 q0, [r0, #80]		; CHECK-NEXT: vldrw.u32 q1, [r0, #48]
; CHECK-NEXT: vldrw.u32 q2, [r0, #48]		; CHECK-NEXT: vldrw.u32 q0, [r0, #64]
; CHECK-NEXT: vldrw.u32 q3, [r0, #64]		; CHECK-NEXT: vldrw.u32 q2, [r0, #80]
; CHECK-NEXT: vmov.f64 d3, d0		; CHECK-NEXT: vmov.f64 d6, d2
; CHECK-NEXT: vmov.f32 s7, s3		; CHECK-NEXT: vmov.f32 s16, s5
; CHECK-NEXT: vmov.f32 s16, s9		; CHECK-NEXT: vmov.f32 s13, s7
; CHECK-NEXT: vmov.f32 s4, s10		; CHECK-NEXT: vmov.f32 s17, s0
; CHECK-NEXT: vmov.f32 s17, s12		; CHECK-NEXT: vmov.f32 s14, s2
; CHECK-NEXT: vmov.f32 s9, s11		; CHECK-NEXT: vmov.f32 s18, s3
; CHECK-NEXT: vmov.f32 s18, s15		; CHECK-NEXT: vmov.f32 s0, s6
; CHECK-NEXT: vmov.f32 s10, s14		; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
; CHECK-NEXT: vmov.f32 s19, s2		; CHECK-NEXT: vmov.f32 s2, s8
; CHECK-NEXT: vmov.f32 s11, s1		; CHECK-NEXT: vmov.f32 s19, s10
; CHECK-NEXT: vmov.f32 s5, s13		; CHECK-NEXT: vmov.f32 s15, s9
; CHECK-NEXT: vadd.i32 q0, q2, q4		; CHECK-NEXT: vmov.f32 s3, s11
; CHECK-NEXT: vadd.i32 q0, q0, q1		; CHECK-NEXT: vadd.i32 q3, q3, q4
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]		; CHECK-NEXT: vadd.i32 q0, q3, q0
; CHECK-NEXT: vldrw.u32 q3, [r0]		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vldrw.u32 q4, [r0, #16]		; CHECK-NEXT: vldrw.u32 q2, [r0, #32]
; CHECK-NEXT: vmov.f64 d5, d2
; CHECK-NEXT: vstrw.32 q0, [r1, #16]		; CHECK-NEXT: vstrw.32 q0, [r1, #16]
; CHECK-NEXT: vmov.f32 s11, s7		; CHECK-NEXT: vmov.f32 s16, s13
; CHECK-NEXT: vmov.f32 s20, s13		; CHECK-NEXT: vmov.f64 d10, d6
; CHECK-NEXT: vmov.f32 s8, s14		; CHECK-NEXT: vmov.f32 s17, s4
; CHECK-NEXT: vmov.f32 s21, s16		; CHECK-NEXT: vmov.f32 s21, s15
; CHECK-NEXT: vmov.f32 s13, s15		; CHECK-NEXT: vmov.f32 s18, s7
; CHECK-NEXT: vmov.f32 s22, s19		; CHECK-NEXT: vmov.f32 s22, s6
; CHECK-NEXT: vmov.f32 s14, s18		; CHECK-NEXT: vmov.f32 s4, s14
; CHECK-NEXT: vmov.f32 s23, s6		; CHECK-NEXT: vmov.f32 s6, s8
; CHECK-NEXT: vmov.f32 s15, s5		; CHECK-NEXT: vmov.f32 s19, s10
; CHECK-NEXT: vmov.f32 s9, s17		; CHECK-NEXT: vmov.f32 s23, s9
; CHECK-NEXT: vadd.i32 q1, q3, q5		; CHECK-NEXT: vadd.i32 q4, q5, q4
; CHECK-NEXT: vadd.i32 q1, q1, q2		; CHECK-NEXT: vmov.f32 s7, s11
		; CHECK-NEXT: vadd.i32 q1, q4, q1
; CHECK-NEXT: vstrw.32 q1, [r1]		; CHECK-NEXT: vstrw.32 q1, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11}		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <24 x i32>, <24 x i32>* %src, align 4		%l1 = load <24 x i32>, <24 x i32>* %src, align 4
%s1 = shufflevector <24 x i32> %l1, <24 x i32> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>		%s1 = shufflevector <24 x i32> %l1, <24 x i32> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>
%s2 = shufflevector <24 x i32> %l1, <24 x i32> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>		%s2 = shufflevector <24 x i32> %l1, <24 x i32> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>
%s3 = shufflevector <24 x i32> %l1, <24 x i32> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>		%s3 = shufflevector <24 x i32> %l1, <24 x i32> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>
%a1 = add <8 x i32> %s1, %s2		%a1 = add <8 x i32> %s1, %s2
%a = add <8 x i32> %a1, %s3		%a = add <8 x i32> %a1, %s3
store <8 x i32> %a, <8 x i32> *%dst		store <8 x i32> %a, <8 x i32> *%dst
ret void		ret void
}		}

define void @vld3_v16i32(<48 x i32> %src, <16 x i32> %dst) {		define void @vld3_v16i32(<48 x i32> %src, <16 x i32> %dst) {
; CHECK-LABEL: vld3_v16i32:		; CHECK-LABEL: vld3_v16i32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vldrw.u32 q0, [r0, #80]		; CHECK-NEXT: vldrw.u32 q1, [r0, #48]
; CHECK-NEXT: vldrw.u32 q2, [r0, #48]		; CHECK-NEXT: vldrw.u32 q0, [r0, #64]
; CHECK-NEXT: vldrw.u32 q3, [r0, #64]		; CHECK-NEXT: vldrw.u32 q2, [r0, #80]
; CHECK-NEXT: vmov.f64 d3, d0		; CHECK-NEXT: vmov.f64 d6, d2
; CHECK-NEXT: vmov.f32 s7, s3		; CHECK-NEXT: vmov.f32 s16, s5
; CHECK-NEXT: vmov.f32 s16, s9		; CHECK-NEXT: vmov.f32 s13, s7
; CHECK-NEXT: vmov.f32 s4, s10		; CHECK-NEXT: vmov.f32 s17, s0
; CHECK-NEXT: vmov.f32 s17, s12		; CHECK-NEXT: vmov.f32 s14, s2
; CHECK-NEXT: vmov.f32 s9, s11		; CHECK-NEXT: vmov.f32 s18, s3
; CHECK-NEXT: vmov.f32 s18, s15		; CHECK-NEXT: vmov.f32 s0, s6
; CHECK-NEXT: vmov.f32 s10, s14		; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
; CHECK-NEXT: vmov.f32 s19, s2		; CHECK-NEXT: vmov.f32 s2, s8
; CHECK-NEXT: vmov.f32 s11, s1		; CHECK-NEXT: vmov.f32 s19, s10
; CHECK-NEXT: vmov.f32 s5, s13		; CHECK-NEXT: vmov.f32 s15, s9
; CHECK-NEXT: vadd.i32 q0, q2, q4		; CHECK-NEXT: vmov.f32 s3, s11
; CHECK-NEXT: vadd.i32 q0, q0, q1		; CHECK-NEXT: vadd.i32 q3, q3, q4
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]		; CHECK-NEXT: vadd.i32 q0, q3, q0
; CHECK-NEXT: vldrw.u32 q3, [r0]		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vldrw.u32 q4, [r0, #16]		; CHECK-NEXT: vldrw.u32 q2, [r0, #32]
; CHECK-NEXT: vmov.f64 d5, d2		; CHECK-NEXT: vmov.f32 s16, s13
; CHECK-NEXT: vmov.f32 s11, s7		; CHECK-NEXT: vmov.f64 d10, d6
; CHECK-NEXT: vmov.f32 s20, s13		; CHECK-NEXT: vmov.f32 s17, s4
		; CHECK-NEXT: vmov.f32 s21, s15
		; CHECK-NEXT: vmov.f32 s18, s7
		; CHECK-NEXT: vmov.f32 s22, s6
		; CHECK-NEXT: vmov.f32 s4, s14
		; CHECK-NEXT: vldrw.u32 q3, [r0, #144]
		; CHECK-NEXT: vmov.f32 s6, s8
		; CHECK-NEXT: vmov.f32 s19, s10
		; CHECK-NEXT: vmov.f32 s23, s9
		; CHECK-NEXT: vmov.f32 s7, s11
		; CHECK-NEXT: vldrw.u32 q2, [r0, #160]
		; CHECK-NEXT: vadd.i32 q4, q5, q4
		; CHECK-NEXT: vmov.f64 d10, d6
		; CHECK-NEXT: vadd.i32 q1, q4, q1
		; CHECK-NEXT: vldrw.u32 q4, [r0, #176]
		; CHECK-NEXT: vmov.f32 s24, s13
		; CHECK-NEXT: vmov.f32 s21, s15
		; CHECK-NEXT: vmov.f32 s25, s8
		; CHECK-NEXT: vmov.f32 s22, s10
		; CHECK-NEXT: vmov.f32 s26, s11
; CHECK-NEXT: vmov.f32 s8, s14		; CHECK-NEXT: vmov.f32 s8, s14
; CHECK-NEXT: vmov.f32 s21, s16		; CHECK-NEXT: vldrw.u32 q3, [r0, #112]
; CHECK-NEXT: vmov.f32 s13, s15		; CHECK-NEXT: vmov.f32 s10, s16
; CHECK-NEXT: vmov.f32 s22, s19		; CHECK-NEXT: vmov.f32 s27, s18
; CHECK-NEXT: vmov.f32 s14, s18		; CHECK-NEXT: vmov.f32 s23, s17
; CHECK-NEXT: vmov.f32 s23, s6		; CHECK-NEXT: vmov.f32 s11, s19
; CHECK-NEXT: vmov.f32 s15, s5		; CHECK-NEXT: vadd.i32 q5, q5, q6
; CHECK-NEXT: vmov.f32 s9, s17		; CHECK-NEXT: vadd.i32 q2, q5, q2
; CHECK-NEXT: vadd.i32 q1, q3, q5
; CHECK-NEXT: vadd.i32 q1, q1, q2
; CHECK-NEXT: vldrw.u32 q2, [r0, #176]
; CHECK-NEXT: vldrw.u32 q4, [r0, #144]
; CHECK-NEXT: vldrw.u32 q5, [r0, #160]
; CHECK-NEXT: vmov.f64 d7, d4
; CHECK-NEXT: vmov.f32 s15, s11
; CHECK-NEXT: vmov.f32 s24, s17
; CHECK-NEXT: vmov.f32 s12, s18
; CHECK-NEXT: vmov.f32 s25, s20
; CHECK-NEXT: vmov.f32 s17, s19
; CHECK-NEXT: vmov.f32 s26, s23
; CHECK-NEXT: vmov.f32 s18, s22
; CHECK-NEXT: vmov.f32 s27, s10
; CHECK-NEXT: vmov.f32 s19, s9
; CHECK-NEXT: vmov.f32 s13, s21
; CHECK-NEXT: vadd.i32 q2, q4, q6
; CHECK-NEXT: vadd.i32 q2, q2, q3
; CHECK-NEXT: vldrw.u32 q3, [r0, #128]
; CHECK-NEXT: vldrw.u32 q5, [r0, #96]		; CHECK-NEXT: vldrw.u32 q5, [r0, #96]
; CHECK-NEXT: vldrw.u32 q6, [r0, #112]		; CHECK-NEXT: vldrw.u32 q4, [r0, #128]
; CHECK-NEXT: vmov.f64 d9, d6
; CHECK-NEXT: vstrw.32 q2, [r1, #48]		; CHECK-NEXT: vstrw.32 q2, [r1, #48]
		; CHECK-NEXT: vmov.f32 s24, s21
; CHECK-NEXT: vstrw.32 q0, [r1, #16]		; CHECK-NEXT: vstrw.32 q0, [r1, #16]
		; CHECK-NEXT: vmov.f64 d14, d10
; CHECK-NEXT: vstrw.32 q1, [r1]		; CHECK-NEXT: vstrw.32 q1, [r1]
; CHECK-NEXT: vmov.f32 s19, s15		; CHECK-NEXT: vmov.f32 s25, s12
; CHECK-NEXT: vmov.f32 s28, s21		; CHECK-NEXT: vmov.f32 s29, s23
; CHECK-NEXT: vmov.f32 s16, s22		; CHECK-NEXT: vmov.f32 s26, s15
; CHECK-NEXT: vmov.f32 s29, s24		; CHECK-NEXT: vmov.f32 s30, s14
; CHECK-NEXT: vmov.f32 s21, s23		; CHECK-NEXT: vmov.f32 s12, s22
; CHECK-NEXT: vmov.f32 s30, s27		; CHECK-NEXT: vmov.f32 s14, s16
; CHECK-NEXT: vmov.f32 s22, s26		; CHECK-NEXT: vmov.f32 s27, s18
; CHECK-NEXT: vmov.f32 s31, s14		; CHECK-NEXT: vmov.f32 s31, s17
; CHECK-NEXT: vmov.f32 s23, s13		; CHECK-NEXT: vadd.i32 q6, q7, q6
; CHECK-NEXT: vmov.f32 s17, s25		; CHECK-NEXT: vmov.f32 s15, s19
; CHECK-NEXT: vadd.i32 q3, q5, q7		; CHECK-NEXT: vadd.i32 q3, q6, q3
; CHECK-NEXT: vadd.i32 q3, q3, q4
; CHECK-NEXT: vstrw.32 q3, [r1, #32]		; CHECK-NEXT: vstrw.32 q3, [r1, #32]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <48 x i32>, <48 x i32>* %src, align 4		%l1 = load <48 x i32>, <48 x i32>* %src, align 4
%s1 = shufflevector <48 x i32> %l1, <48 x i32> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>		%s1 = shufflevector <48 x i32> %l1, <48 x i32> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>
%s2 = shufflevector <48 x i32> %l1, <48 x i32> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>		%s2 = shufflevector <48 x i32> %l1, <48 x i32> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>
%s3 = shufflevector <48 x i32> %l1, <48 x i32> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>		%s3 = shufflevector <48 x i32> %l1, <48 x i32> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>
▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	entry:
%a = add <4 x i16> %a1, %s3		%a = add <4 x i16> %a1, %s3
store <4 x i16> %a, <4 x i16> *%dst		store <4 x i16> %a, <4 x i16> *%dst
ret void		ret void
}		}

define void @vld3_v8i16(<24 x i16> %src, <8 x i16> %dst) {		define void @vld3_v8i16(<24 x i16> %src, <8 x i16> %dst) {
; CHECK-LABEL: vld3_v8i16:		; CHECK-LABEL: vld3_v8i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: vldrw.u32 q3, [r0]		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]		; CHECK-NEXT: vldrw.u32 q1, [r0, #32]
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vmov.u16 r0, q3[2]		; CHECK-NEXT: vmov.u16 r0, q3[2]
; CHECK-NEXT: vmov.16 q0[0], r0		; CHECK-NEXT: vmov.16 q0[0], r0
; CHECK-NEXT: vmov.u16 r0, q3[5]		; CHECK-NEXT: vmov.u16 r0, q3[5]
; CHECK-NEXT: vmov.16 q0[1], r0		; CHECK-NEXT: vmov.16 q0[1], r0
; CHECK-NEXT: vmov.u16 r0, q2[0]		; CHECK-NEXT: vmov.u16 r0, q2[0]
; CHECK-NEXT: vmov.16 q0[2], r0		; CHECK-NEXT: vmov.16 q0[2], r0
; CHECK-NEXT: vmov.u16 r0, q2[3]		; CHECK-NEXT: vmov.u16 r0, q2[3]
; CHECK-NEXT: vmov.16 q0[3], r0		; CHECK-NEXT: vmov.16 q0[3], r0
		; CHECK-NEXT: vmov.f32 s2, s11
		; CHECK-NEXT: vmov.u16 r0, q0[4]
		; CHECK-NEXT: vmov.16 q4[4], r0
		; CHECK-NEXT: vmov.u16 r0, q1[1]
		; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vmov.u16 r0, q1[4]		; CHECK-NEXT: vmov.u16 r0, q1[4]
; CHECK-NEXT: vmov.16 q5[6], r0		; CHECK-NEXT: vmov.16 q4[6], r0
; CHECK-NEXT: vmov.u16 r0, q1[7]		; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vmov.16 q5[7], r0		; CHECK-NEXT: vmov.16 q4[7], r0
; CHECK-NEXT: vmov.u16 r0, q3[0]		; CHECK-NEXT: vmov.u16 r0, q3[0]
; CHECK-NEXT: vmov.16 q4[0], r0		; CHECK-NEXT: vmov.f32 s2, s18
		; CHECK-NEXT: vmov.16 q5[0], r0
		; CHECK-NEXT: vmov.f32 s3, s19
		; CHECK-NEXT: vmovx.f16 s18, s10
		; CHECK-NEXT: vins.f16 s18, s4
; CHECK-NEXT: vmov.u16 r0, q3[3]		; CHECK-NEXT: vmov.u16 r0, q3[3]
; CHECK-NEXT: vmov.f32 s22, s4		; CHECK-NEXT: vmovx.f16 s19, s5
; CHECK-NEXT: vmov.16 q4[1], r0		; CHECK-NEXT: vmov.16 q5[1], r0
; CHECK-NEXT: vmov.u16 r0, q3[6]		; CHECK-NEXT: vmov.u16 r0, q3[6]
; CHECK-NEXT: vmov.f32 s2, s11		; CHECK-NEXT: vins.f16 s19, s7
; CHECK-NEXT: vmov q6, q5		; CHECK-NEXT: vmov.16 q5[2], r0
; CHECK-NEXT: vmov.16 q4[2], r0
; CHECK-NEXT: vmov.u16 r0, q2[1]		; CHECK-NEXT: vmov.u16 r0, q2[1]
; CHECK-NEXT: vmovnb.i32 q6, q0		; CHECK-NEXT: vmovx.f16 s16, s12
; CHECK-NEXT: vmov.16 q4[3], r0		; CHECK-NEXT: vmov.16 q5[3], r0
; CHECK-NEXT: vmov.u16 r0, q2[4]		; CHECK-NEXT: vmov.u16 r0, q2[4]
; CHECK-NEXT: vmov.f32 s2, s26		; CHECK-NEXT: vins.f16 s16, s14
; CHECK-NEXT: vmov.16 q4[4], r0		; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vmov.u16 r0, q1[2]		; CHECK-NEXT: vmov.u16 r0, q1[2]
; CHECK-NEXT: vmov.f32 s3, s23		; CHECK-NEXT: vmovx.f16 s17, s15
; CHECK-NEXT: vmov.16 q5[6], r0		; CHECK-NEXT: vmov.16 q3[6], r0
; CHECK-NEXT: vmov.u16 r0, q1[5]		; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vmov.16 q5[7], r0		; CHECK-NEXT: vins.f16 s17, s9
		; CHECK-NEXT: vmov.16 q3[7], r0
; CHECK-NEXT: vmov.u16 r0, q2[7]		; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmov.16 q4[5], r0		; CHECK-NEXT: vmov.16 q5[5], r0
; CHECK-NEXT: vmov.u16 r0, q2[5]		; CHECK-NEXT: vmov.f32 s23, s15
; CHECK-NEXT: vmov.f32 s19, s23		; CHECK-NEXT: vadd.i16 q1, q5, q4
; CHECK-NEXT: vmovx.f16 s20, s12
; CHECK-NEXT: vins.f16 s20, s14
; CHECK-NEXT: vmovx.f16 s21, s15
; CHECK-NEXT: vins.f16 s21, s9
; CHECK-NEXT: vins.f16 s10, s4
; CHECK-NEXT: vmovx.f16 s11, s5
; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vins.f16 s11, s7
; CHECK-NEXT: vmov q1, q2
; CHECK-NEXT: vmovnb.i32 q1, q5
; CHECK-NEXT: vmov.f32 s22, s6
; CHECK-NEXT: vmov.f32 s23, s11
; CHECK-NEXT: vadd.i16 q1, q4, q5
; CHECK-NEXT: vadd.i16 q0, q1, q0		; CHECK-NEXT: vadd.i16 q0, q1, q0
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <24 x i16>, <24 x i16>* %src, align 4		%l1 = load <24 x i16>, <24 x i16>* %src, align 4
%s1 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>		%s1 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>
%s2 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>		%s2 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>
%s3 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>		%s3 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>
%a1 = add <8 x i16> %s1, %s2		%a1 = add <8 x i16> %s1, %s2
%a = add <8 x i16> %a1, %s3		%a = add <8 x i16> %a1, %s3
store <8 x i16> %a, <8 x i16> *%dst		store <8 x i16> %a, <8 x i16> *%dst
ret void		ret void
}		}

define void @vld3_v16i16(<48 x i16> %src, <16 x i16> %dst) {		define void @vld3_v16i16(<48 x i16> %src, <16 x i16> %dst) {
; CHECK-LABEL: vld3_v16i16:		; CHECK-LABEL: vld3_v16i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: .pad #16		; CHECK-NEXT: vldrw.u32 q4, [r0, #48]
; CHECK-NEXT: sub sp, #16		; CHECK-NEXT: vldrw.u32 q3, [r0, #64]
; CHECK-NEXT: vldrw.u32 q2, [r0, #48]		; CHECK-NEXT: vldrw.u32 q2, [r0, #80]
; CHECK-NEXT: vldrw.u32 q1, [r0, #64]		; CHECK-NEXT: vldrw.u32 q0, [r0]
; CHECK-NEXT: vldrw.u32 q3, [r0, #80]		; CHECK-NEXT: vmov.u16 r2, q4[2]
; CHECK-NEXT: vmov.u16 r2, q2[0]		; CHECK-NEXT: vmovx.f16 s22, s14
; CHECK-NEXT: vmov.16 q0[0], r2		; CHECK-NEXT: vmov.16 q1[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[3]		; CHECK-NEXT: vmov.u16 r2, q4[5]
; CHECK-NEXT: vmov.16 q0[1], r2		; CHECK-NEXT: vmov.16 q1[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[6]		; CHECK-NEXT: vmov.u16 r2, q3[0]
; CHECK-NEXT: vmov.16 q0[2], r2		; CHECK-NEXT: vmov.16 q1[2], r2
; CHECK-NEXT: vmov.u16 r2, q1[1]		; CHECK-NEXT: vmov.u16 r2, q3[3]
; CHECK-NEXT: vmov.16 q0[3], r2		; CHECK-NEXT: vmov.16 q1[3], r2
		; CHECK-NEXT: vins.f16 s22, s8
		; CHECK-NEXT: vmov.f32 s6, s15
		; CHECK-NEXT: vmovx.f16 s23, s9
; CHECK-NEXT: vmov.u16 r2, q1[4]		; CHECK-NEXT: vmov.u16 r2, q1[4]
; CHECK-NEXT: vmov.16 q0[4], r2		; CHECK-NEXT: vins.f16 s23, s11
; CHECK-NEXT: vmov.u16 r2, q3[2]		; CHECK-NEXT: vmov.16 q6[4], r2
; CHECK-NEXT: vmov.16 q4[6], r2		; CHECK-NEXT: vmov.u16 r2, q2[1]
; CHECK-NEXT: vmov.u16 r2, q3[5]		; CHECK-NEXT: vmov.16 q6[5], r2
; CHECK-NEXT: vmov.16 q4[7], r2		; CHECK-NEXT: vmov.u16 r2, q2[4]
; CHECK-NEXT: vmov.u16 r2, q1[7]		; CHECK-NEXT: vmov.16 q6[6], r2
; CHECK-NEXT: vmov.16 q0[5], r2		; CHECK-NEXT: vmov.u16 r2, q2[7]
		; CHECK-NEXT: vmov.16 q6[7], r2
		; CHECK-NEXT: vmov.u16 r2, q4[0]
		; CHECK-NEXT: vmov.f32 s6, s26
		; CHECK-NEXT: vmovx.f16 s20, s16
		; CHECK-NEXT: vmov.f32 s7, s27
		; CHECK-NEXT: vmov.16 q6[0], r2
		; CHECK-NEXT: vmov.u16 r2, q4[3]
		; CHECK-NEXT: vins.f16 s20, s18
		; CHECK-NEXT: vmov.16 q6[1], r2
		; CHECK-NEXT: vmov.u16 r2, q4[6]
		; CHECK-NEXT: vmov.16 q6[2], r2
		; CHECK-NEXT: vmov.u16 r2, q3[1]
		; CHECK-NEXT: vmov.16 q6[3], r2
; CHECK-NEXT: vmov.u16 r2, q3[4]		; CHECK-NEXT: vmov.u16 r2, q3[4]
; CHECK-NEXT: vmov.16 q5[6], r2		; CHECK-NEXT: vmov.16 q6[4], r2
; CHECK-NEXT: vmov.u16 r2, q2[2]		; CHECK-NEXT: vmov.u16 r2, q2[2]
; CHECK-NEXT: vmov.f32 s3, s19		; CHECK-NEXT: vmovx.f16 s21, s19
; CHECK-NEXT: vmov.16 q4[0], r2		; CHECK-NEXT: vmov.16 q4[6], r2
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov.u16 r2, q2[5]
; CHECK-NEXT: vmov.16 q4[1], r2		; CHECK-NEXT: vins.f16 s21, s13
; CHECK-NEXT: vmov.u16 r2, q1[0]		; CHECK-NEXT: vmov.16 q4[7], r2
; CHECK-NEXT: vmov.16 q4[2], r2
; CHECK-NEXT: vmov.u16 r2, q1[3]
; CHECK-NEXT: vmov.16 q4[3], r2
; CHECK-NEXT: vmov.u16 r2, q3[7]		; CHECK-NEXT: vmov.u16 r2, q3[7]
; CHECK-NEXT: vmov.16 q5[7], r2		; CHECK-NEXT: vmov.16 q6[5], r2
; CHECK-NEXT: vmov.f32 s18, s7
; CHECK-NEXT: vmov.f32 s22, s12
; CHECK-NEXT: vmov.u16 r2, q1[5]
; CHECK-NEXT: vmov q6, q5
; CHECK-NEXT: vmovnb.i32 q6, q4
; CHECK-NEXT: vmov.f32 s18, s26
; CHECK-NEXT: vmov.f32 s19, s23
; CHECK-NEXT: vins.f16 s22, s12
; CHECK-NEXT: vmovx.f16 s23, s13
; CHECK-NEXT: vins.f16 s23, s15
; CHECK-NEXT: vmovx.f16 s12, s8
; CHECK-NEXT: vins.f16 s12, s10
; CHECK-NEXT: vmovx.f16 s13, s11
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vins.f16 s13, s5		; CHECK-NEXT: vmov.f32 s27, s19
; CHECK-NEXT: vmov q1, q5		; CHECK-NEXT: vmov.u16 r2, q0[2]
; CHECK-NEXT: vmov.16 q3[4], r2		; CHECK-NEXT: vadd.i16 q3, q6, q5
; CHECK-NEXT: vmovnb.i32 q1, q3		; CHECK-NEXT: vldrw.u32 q4, [r0, #32]
; CHECK-NEXT: vmov.f32 s14, s6		; CHECK-NEXT: vadd.i16 q1, q3, q1
; CHECK-NEXT: vmov.f32 s15, s23		; CHECK-NEXT: vmov.16 q3[0], r2
; CHECK-NEXT: vldrw.u32 q5, [r0, #32]		; CHECK-NEXT: vmov.u16 r2, q0[5]
; CHECK-NEXT: vadd.i16 q0, q0, q3		; CHECK-NEXT: vmov.u16 r0, q4[1]
; CHECK-NEXT: vldrw.u32 q3, [r0]		; CHECK-NEXT: vmov.16 q3[1], r2
; CHECK-NEXT: vmov.u16 r0, q5[4]
; CHECK-NEXT: vadd.i16 q0, q0, q4
; CHECK-NEXT: vmov.u16 r2, q3[2]
; CHECK-NEXT: vmov.16 q6[6], r0
; CHECK-NEXT: vmov.16 q1[0], r2
; CHECK-NEXT: vmov.u16 r2, q3[5]
; CHECK-NEXT: vmov.16 q1[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[0]		; CHECK-NEXT: vmov.u16 r2, q2[0]
; CHECK-NEXT: vmov.u16 r0, q5[7]		; CHECK-NEXT: vmov.16 q3[2], r2
; CHECK-NEXT: vmov.16 q1[2], r2
; CHECK-NEXT: vmov.16 q6[7], r0
; CHECK-NEXT: vmov.u16 r2, q2[3]		; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.16 q1[3], r2		; CHECK-NEXT: vmov.16 q3[3], r2
; CHECK-NEXT: vmov.f32 s26, s20		; CHECK-NEXT: vstrw.32 q1, [r1, #16]
; CHECK-NEXT: vmov.u16 r0, q3[0]		; CHECK-NEXT: vmov.f32 s14, s11
; CHECK-NEXT: vmov.f32 s6, s11		; CHECK-NEXT: vmov.u16 r2, q3[4]
; CHECK-NEXT: vmov q7, q6		; CHECK-NEXT: vmov.16 q5[4], r2
; CHECK-NEXT: vmov.16 q4[0], r0		; CHECK-NEXT: vmov.16 q5[5], r0
; CHECK-NEXT: vmov.u16 r0, q3[3]		; CHECK-NEXT: vmov.u16 r0, q4[4]
; CHECK-NEXT: vmovnb.i32 q7, q1		; CHECK-NEXT: vmov.16 q5[6], r0
; CHECK-NEXT: vmov.16 q4[1], r0		; CHECK-NEXT: vmov.u16 r0, q4[7]
; CHECK-NEXT: vmov.u16 r0, q3[6]		; CHECK-NEXT: vmov.16 q5[7], r0
; CHECK-NEXT: vmov.f32 s6, s30		; CHECK-NEXT: vmov.u16 r0, q0[0]
; CHECK-NEXT: vmov.16 q4[2], r0		; CHECK-NEXT: vmov.f32 s14, s22
		; CHECK-NEXT: vmov.16 q6[0], r0
		; CHECK-NEXT: vmov.f32 s15, s23
		; CHECK-NEXT: vmovx.f16 s22, s10
		; CHECK-NEXT: vins.f16 s22, s16
		; CHECK-NEXT: vmov.u16 r0, q0[3]
		; CHECK-NEXT: vmovx.f16 s23, s17
		; CHECK-NEXT: vmov.16 q6[1], r0
		; CHECK-NEXT: vmov.u16 r0, q0[6]
		; CHECK-NEXT: vins.f16 s23, s19
		; CHECK-NEXT: vmov.16 q6[2], r0
; CHECK-NEXT: vmov.u16 r0, q2[1]		; CHECK-NEXT: vmov.u16 r0, q2[1]
; CHECK-NEXT: vmov.f32 s7, s27		; CHECK-NEXT: vmovx.f16 s20, s0
; CHECK-NEXT: vins.f16 s26, s20		; CHECK-NEXT: vmov.16 q6[3], r0
; CHECK-NEXT: vmov.16 q4[3], r0
; CHECK-NEXT: vmov.u16 r0, q2[4]		; CHECK-NEXT: vmov.u16 r0, q2[4]
; CHECK-NEXT: vmovx.f16 s27, s21		; CHECK-NEXT: vins.f16 s20, s2
; CHECK-NEXT: vmov.16 q4[4], r0		; CHECK-NEXT: vmov.16 q6[4], r0
; CHECK-NEXT: vmov.u16 r0, q5[2]		; CHECK-NEXT: vmov.u16 r0, q4[2]
; CHECK-NEXT: vstrw.32 q0, [sp] @ 16-byte Spill		; CHECK-NEXT: vmovx.f16 s21, s3
; CHECK-NEXT: vmov.16 q0[6], r0		; CHECK-NEXT: vmov.16 q0[6], r0
; CHECK-NEXT: vmov.u16 r0, q5[5]		; CHECK-NEXT: vmov.u16 r0, q4[5]
; CHECK-NEXT: vins.f16 s27, s23		; CHECK-NEXT: vins.f16 s21, s9
; CHECK-NEXT: vmovx.f16 s20, s12
; CHECK-NEXT: vmov.16 q0[7], r0		; CHECK-NEXT: vmov.16 q0[7], r0
; CHECK-NEXT: vins.f16 s20, s14
; CHECK-NEXT: vmov.u16 r0, q2[7]		; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmovx.f16 s21, s15		; CHECK-NEXT: vmov.16 q6[5], r0
; CHECK-NEXT: vmov.16 q4[5], r0		; CHECK-NEXT: vmov.f32 s27, s3
; CHECK-NEXT: vins.f16 s21, s9		; CHECK-NEXT: vadd.i16 q0, q6, q5
; CHECK-NEXT: vmov.u16 r0, q2[5]		; CHECK-NEXT: vadd.i16 q0, q0, q3
; CHECK-NEXT: vmov.f32 s19, s3
; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vmov q0, q6
; CHECK-NEXT: vmovnb.i32 q0, q5
; CHECK-NEXT: vmov.f32 s22, s2
; CHECK-NEXT: vmov.f32 s23, s27
; CHECK-NEXT: vadd.i16 q0, q4, q5
; CHECK-NEXT: vadd.i16 q0, q0, q1
; CHECK-NEXT: vldrw.u32 q1, [sp] @ 16-byte Reload
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vstrw.32 q1, [r1, #16]		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: add sp, #16
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <48 x i16>, <48 x i16>* %src, align 4		%l1 = load <48 x i16>, <48 x i16>* %src, align 4
%s1 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>		%s1 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>
%s2 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>		%s2 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>
%s3 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>		%s3 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>
%a1 = add <16 x i16> %s1, %s2		%a1 = add <16 x i16> %s1, %s2
%a = add <16 x i16> %a1, %s3		%a = add <16 x i16> %a1, %s3
▲ Show 20 Lines • Show All 146 Lines • ▼ Show 20 Lines	entry:
%a = add <8 x i8> %a1, %s3		%a = add <8 x i8> %a1, %s3
store <8 x i8> %a, <8 x i8> *%dst		store <8 x i8> %a, <8 x i8> *%dst
ret void		ret void
}		}

define void @vld3_v16i8(<48 x i8> %src, <16 x i8> %dst) {		define void @vld3_v16i8(<48 x i8> %src, <16 x i8> %dst) {
; CHECK-LABEL: vld3_v16i8:		; CHECK-LABEL: vld3_v16i8:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: vldrw.u32 q1, [r0]		; CHECK-NEXT: vldrw.u32 q1, [r0]
; CHECK-NEXT: vldrw.u32 q0, [r0, #16]		; CHECK-NEXT: vldrw.u32 q0, [r0, #16]
; CHECK-NEXT: vldrw.u32 q2, [r0, #32]		; CHECK-NEXT: vldrw.u32 q2, [r0, #32]
; CHECK-NEXT: vmov.u8 r2, q1[1]		; CHECK-NEXT: vmov.u8 r2, q1[1]
; CHECK-NEXT: vmov.8 q3[0], r2		; CHECK-NEXT: vmov.8 q3[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[4]		; CHECK-NEXT: vmov.u8 r2, q1[4]
; CHECK-NEXT: vmov.8 q3[1], r2		; CHECK-NEXT: vmov.8 q3[1], r2
; CHECK-NEXT: vmov.u8 r2, q1[7]		; CHECK-NEXT: vmov.u8 r2, q1[7]
; CHECK-NEXT: vmov.8 q3[2], r2		; CHECK-NEXT: vmov.8 q3[2], r2
; CHECK-NEXT: vmov.u8 r2, q1[10]		; CHECK-NEXT: vmov.u8 r2, q1[10]
; CHECK-NEXT: vmov.8 q3[3], r2		; CHECK-NEXT: vmov.8 q3[3], r2
; CHECK-NEXT: vmov.u8 r2, q1[13]		; CHECK-NEXT: vmov.u8 r2, q1[13]
; CHECK-NEXT: vmov.8 q3[4], r2		; CHECK-NEXT: vmov.8 q3[4], r2
; CHECK-NEXT: vmov.u8 r2, q0[0]		; CHECK-NEXT: vmov.u8 r2, q0[0]
; CHECK-NEXT: vmov.8 q3[5], r2		; CHECK-NEXT: vmov.8 q3[5], r2
; CHECK-NEXT: vmov.u8 r2, q0[3]		; CHECK-NEXT: vmov.u8 r2, q0[3]
; CHECK-NEXT: vmov.8 q3[6], r2		; CHECK-NEXT: vmov.8 q3[6], r2
; CHECK-NEXT: vmov.u8 r2, q0[6]
; CHECK-NEXT: vmov.8 q3[7], r2
; CHECK-NEXT: vmov.u8 r2, q0[9]		; CHECK-NEXT: vmov.u8 r2, q0[9]
; CHECK-NEXT: vmov.u8 r0, q2[5]		; CHECK-NEXT: vmov.8 q4[8], r2
; CHECK-NEXT: vmov.8 q3[8], r2
; CHECK-NEXT: vmov.u8 r2, q0[12]		; CHECK-NEXT: vmov.u8 r2, q0[12]
		; CHECK-NEXT: vmov.8 q4[9], r2
		; CHECK-NEXT: vmov.u8 r2, q0[15]
		; CHECK-NEXT: vmov.8 q4[10], r2
		; CHECK-NEXT: vmov.u8 r0, q2[2]
		; CHECK-NEXT: vmov.8 q4[11], r0
		; CHECK-NEXT: vmov.u8 r0, q2[5]
; CHECK-NEXT: vmov.8 q4[12], r0		; CHECK-NEXT: vmov.8 q4[12], r0
; CHECK-NEXT: vmov.u8 r0, q2[8]		; CHECK-NEXT: vmov.u8 r0, q2[8]
; CHECK-NEXT: vmov.8 q3[9], r2
; CHECK-NEXT: vmov.u8 r2, q0[15]
; CHECK-NEXT: vmov.8 q4[13], r0		; CHECK-NEXT: vmov.8 q4[13], r0
; CHECK-NEXT: vmov.u8 r0, q2[11]		; CHECK-NEXT: vmov.u8 r0, q2[11]
; CHECK-NEXT: vmov.8 q3[10], r2
; CHECK-NEXT: vmov.8 q4[14], r0		; CHECK-NEXT: vmov.8 q4[14], r0
; CHECK-NEXT: vmov.u8 r0, q2[14]		; CHECK-NEXT: vmov.u8 r0, q2[14]
; CHECK-NEXT: vmov.8 q4[15], r0		; CHECK-NEXT: vmov.8 q4[15], r0
; CHECK-NEXT: vmov.u8 r0, q2[2]		; CHECK-NEXT: vmov.u8 r0, q0[6]
; CHECK-NEXT: vmov q5, q3		; CHECK-NEXT: vmov.8 q3[7], r0
; CHECK-NEXT: vmov.8 q5[11], r0
; CHECK-NEXT: vmov.u8 r0, q1[0]		; CHECK-NEXT: vmov.u8 r0, q1[0]
; CHECK-NEXT: vmov.f32 s14, s22		; CHECK-NEXT: vmov.f32 s14, s18
; CHECK-NEXT: vmov.f32 s15, s19		; CHECK-NEXT: vmov.f32 s15, s19
; CHECK-NEXT: vmov.8 q4[0], r0		; CHECK-NEXT: vmov.8 q4[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[3]		; CHECK-NEXT: vmov.u8 r0, q1[3]
; CHECK-NEXT: vmov.8 q4[1], r0		; CHECK-NEXT: vmov.8 q4[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[6]		; CHECK-NEXT: vmov.u8 r0, q1[6]
; CHECK-NEXT: vmov.8 q4[2], r0		; CHECK-NEXT: vmov.8 q4[2], r0
; CHECK-NEXT: vmov.u8 r0, q1[9]		; CHECK-NEXT: vmov.u8 r0, q1[9]
; CHECK-NEXT: vmov.8 q4[3], r0		; CHECK-NEXT: vmov.8 q4[3], r0
; CHECK-NEXT: vmov.u8 r0, q1[12]		; CHECK-NEXT: vmov.u8 r0, q1[12]
; CHECK-NEXT: vmov.8 q4[4], r0		; CHECK-NEXT: vmov.8 q4[4], r0
; CHECK-NEXT: vmov.u8 r0, q1[15]		; CHECK-NEXT: vmov.u8 r0, q1[15]
; CHECK-NEXT: vmov.8 q4[5], r0		; CHECK-NEXT: vmov.8 q4[5], r0
; CHECK-NEXT: vmov.u8 r0, q0[2]		; CHECK-NEXT: vmov.u8 r0, q0[2]
; CHECK-NEXT: vmov.8 q4[6], r0		; CHECK-NEXT: vmov.8 q4[6], r0
; CHECK-NEXT: vmov.u8 r0, q0[5]
; CHECK-NEXT: vmov.8 q4[7], r0
; CHECK-NEXT: vmov.u8 r0, q0[8]		; CHECK-NEXT: vmov.u8 r0, q0[8]
; CHECK-NEXT: vmov.8 q4[8], r0		; CHECK-NEXT: vmov.8 q5[8], r0
; CHECK-NEXT: vmov.u8 r0, q0[11]		; CHECK-NEXT: vmov.u8 r0, q0[11]
; CHECK-NEXT: vmov.8 q4[9], r0		; CHECK-NEXT: vmov.8 q5[9], r0
; CHECK-NEXT: vmov.u8 r0, q0[14]		; CHECK-NEXT: vmov.u8 r0, q0[14]
; CHECK-NEXT: vmov.8 q4[10], r0		; CHECK-NEXT: vmov.8 q5[10], r0
		; CHECK-NEXT: vmov.u8 r0, q2[1]
		; CHECK-NEXT: vmov.8 q5[11], r0
; CHECK-NEXT: vmov.u8 r0, q2[4]		; CHECK-NEXT: vmov.u8 r0, q2[4]
; CHECK-NEXT: vmov.8 q5[12], r0		; CHECK-NEXT: vmov.8 q5[12], r0
; CHECK-NEXT: vmov.u8 r0, q2[7]		; CHECK-NEXT: vmov.u8 r0, q2[7]
; CHECK-NEXT: vmov.8 q5[13], r0		; CHECK-NEXT: vmov.8 q5[13], r0
; CHECK-NEXT: vmov.u8 r0, q2[10]		; CHECK-NEXT: vmov.u8 r0, q2[10]
; CHECK-NEXT: vmov.8 q5[14], r0		; CHECK-NEXT: vmov.8 q5[14], r0
; CHECK-NEXT: vmov.u8 r0, q2[13]		; CHECK-NEXT: vmov.u8 r0, q2[13]
; CHECK-NEXT: vmov.8 q5[15], r0		; CHECK-NEXT: vmov.8 q5[15], r0
; CHECK-NEXT: vmov.u8 r0, q2[1]		; CHECK-NEXT: vmov.u8 r0, q0[5]
; CHECK-NEXT: vmov q6, q4		; CHECK-NEXT: vmov.8 q4[7], r0
; CHECK-NEXT: vmov.8 q6[11], r0
; CHECK-NEXT: vmov.u8 r0, q1[2]		; CHECK-NEXT: vmov.u8 r0, q1[2]
; CHECK-NEXT: vmov.f32 s18, s26		; CHECK-NEXT: vmov.f32 s18, s22
; CHECK-NEXT: vmov.f32 s19, s23		; CHECK-NEXT: vmov.f32 s19, s23
; CHECK-NEXT: vadd.i8 q3, q4, q3		; CHECK-NEXT: vadd.i8 q3, q4, q3
; CHECK-NEXT: vmov.8 q4[0], r0		; CHECK-NEXT: vmov.8 q4[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[5]		; CHECK-NEXT: vmov.u8 r0, q1[5]
; CHECK-NEXT: vmov.8 q4[1], r0		; CHECK-NEXT: vmov.8 q4[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[8]		; CHECK-NEXT: vmov.u8 r0, q1[8]
; CHECK-NEXT: vmov.8 q4[2], r0		; CHECK-NEXT: vmov.8 q4[2], r0
; CHECK-NEXT: vmov.u8 r0, q1[11]		; CHECK-NEXT: vmov.u8 r0, q1[11]
; CHECK-NEXT: vmov.8 q4[3], r0		; CHECK-NEXT: vmov.8 q4[3], r0
; CHECK-NEXT: vmov.u8 r0, q1[14]		; CHECK-NEXT: vmov.u8 r0, q1[14]
; CHECK-NEXT: vmov.8 q4[4], r0		; CHECK-NEXT: vmov.8 q4[4], r0
; CHECK-NEXT: vmov.u8 r0, q0[1]		; CHECK-NEXT: vmov.u8 r0, q0[1]
; CHECK-NEXT: vmov.8 q4[5], r0		; CHECK-NEXT: vmov.8 q4[5], r0
; CHECK-NEXT: vmov.u8 r0, q0[4]		; CHECK-NEXT: vmov.u8 r0, q0[4]
; CHECK-NEXT: vmov.8 q4[6], r0		; CHECK-NEXT: vmov.8 q4[6], r0
		; CHECK-NEXT: vmov.u8 r0, q0[10]
		; CHECK-NEXT: vmov.8 q1[8], r0
		; CHECK-NEXT: vmov.u8 r0, q0[13]
		; CHECK-NEXT: vmov.8 q1[9], r0
		; CHECK-NEXT: vmov.u8 r0, q2[0]
		; CHECK-NEXT: vmov.8 q1[10], r0
		; CHECK-NEXT: vmov.u8 r0, q2[3]
		; CHECK-NEXT: vmov.8 q1[11], r0
; CHECK-NEXT: vmov.u8 r0, q2[6]		; CHECK-NEXT: vmov.u8 r0, q2[6]
; CHECK-NEXT: vmov.8 q1[12], r0		; CHECK-NEXT: vmov.8 q1[12], r0
; CHECK-NEXT: vmov.u8 r0, q2[9]		; CHECK-NEXT: vmov.u8 r0, q2[9]
; CHECK-NEXT: vmov.8 q1[13], r0		; CHECK-NEXT: vmov.8 q1[13], r0
; CHECK-NEXT: vmov.u8 r0, q2[12]		; CHECK-NEXT: vmov.u8 r0, q2[12]
; CHECK-NEXT: vmov.8 q1[14], r0		; CHECK-NEXT: vmov.8 q1[14], r0
; CHECK-NEXT: vmov.u8 r0, q2[15]		; CHECK-NEXT: vmov.u8 r0, q2[15]
; CHECK-NEXT: vmov.8 q1[15], r0		; CHECK-NEXT: vmov.8 q1[15], r0
; CHECK-NEXT: vmov.u8 r0, q0[10]
; CHECK-NEXT: vmov.8 q5[8], r0
; CHECK-NEXT: vmov.u8 r0, q0[13]
; CHECK-NEXT: vmov.8 q5[9], r0
; CHECK-NEXT: vmov.u8 r0, q2[0]
; CHECK-NEXT: vmov.8 q5[10], r0
; CHECK-NEXT: vmov.u8 r0, q2[3]
; CHECK-NEXT: vmov.8 q5[11], r0
; CHECK-NEXT: vmov.u8 r0, q0[7]		; CHECK-NEXT: vmov.u8 r0, q0[7]
; CHECK-NEXT: vmov.8 q4[7], r0		; CHECK-NEXT: vmov.8 q4[7], r0
; CHECK-NEXT: vmov.f32 s18, s22		; CHECK-NEXT: vmov.f32 s18, s6
; CHECK-NEXT: vmov.f32 s19, s7		; CHECK-NEXT: vmov.f32 s19, s7
; CHECK-NEXT: vadd.i8 q0, q3, q4		; CHECK-NEXT: vadd.i8 q0, q3, q4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <48 x i8>, <48 x i8>* %src, align 4		%l1 = load <48 x i8>, <48 x i8>* %src, align 4
%s1 = shufflevector <48 x i8> %l1, <48 x i8> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>		%s1 = shufflevector <48 x i8> %l1, <48 x i8> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>
%s2 = shufflevector <48 x i8> %l1, <48 x i8> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>		%s2 = shufflevector <48 x i8> %l1, <48 x i8> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>
%s3 = shufflevector <48 x i8> %l1, <48 x i8> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>		%s3 = shufflevector <48 x i8> %l1, <48 x i8> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>
%a1 = add <16 x i8> %s1, %s2		%a1 = add <16 x i8> %s1, %s2
%a = add <16 x i8> %a1, %s3		%a = add <16 x i8> %a1, %s3
▲ Show 20 Lines • Show All 183 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

define void @vld3_v4f32(<12 x float> %src, <4 x float> %dst) {		define void @vld3_v4f32(<12 x float> %src, <4 x float> %dst) {
; CHECK-LABEL: vld3_v4f32:		; CHECK-LABEL: vld3_v4f32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9}		; CHECK-NEXT: .vsave {d8, d9}
; CHECK-NEXT: vpush {d8, d9}		; CHECK-NEXT: vpush {d8, d9}
; CHECK-NEXT: vldrw.u32 q0, [r0, #32]		; CHECK-NEXT: vldrw.u32 q1, [r0]
; CHECK-NEXT: vldrw.u32 q2, [r0]		; CHECK-NEXT: vldrw.u32 q0, [r0, #16]
; CHECK-NEXT: vldrw.u32 q3, [r0, #16]		; CHECK-NEXT: vldrw.u32 q2, [r0, #32]
; CHECK-NEXT: vmov.f64 d3, d0		; CHECK-NEXT: vmov.f64 d6, d2
; CHECK-NEXT: vmov.f32 s7, s3		; CHECK-NEXT: vmov.f32 s16, s5
; CHECK-NEXT: vmov.f32 s16, s9		; CHECK-NEXT: vmov.f32 s13, s7
; CHECK-NEXT: vmov.f32 s4, s10		; CHECK-NEXT: vmov.f32 s17, s0
; CHECK-NEXT: vmov.f32 s17, s12		; CHECK-NEXT: vmov.f32 s14, s2
; CHECK-NEXT: vmov.f32 s9, s11		; CHECK-NEXT: vmov.f32 s18, s3
; CHECK-NEXT: vmov.f32 s18, s15		; CHECK-NEXT: vmov.f32 s0, s6
; CHECK-NEXT: vmov.f32 s10, s14		; CHECK-NEXT: vmov.f32 s2, s8
; CHECK-NEXT: vmov.f32 s19, s2		; CHECK-NEXT: vmov.f32 s19, s10
; CHECK-NEXT: vmov.f32 s11, s1		; CHECK-NEXT: vmov.f32 s15, s9
; CHECK-NEXT: vmov.f32 s5, s13		; CHECK-NEXT: vadd.f32 q3, q3, q4
; CHECK-NEXT: vadd.f32 q0, q2, q4		; CHECK-NEXT: vmov.f32 s3, s11
; CHECK-NEXT: vadd.f32 q0, q0, q1		; CHECK-NEXT: vadd.f32 q0, q3, q0
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9}		; CHECK-NEXT: vpop {d8, d9}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <12 x float>, <12 x float>* %src, align 4		%l1 = load <12 x float>, <12 x float>* %src, align 4
%s1 = shufflevector <12 x float> %l1, <12 x float> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>		%s1 = shufflevector <12 x float> %l1, <12 x float> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>
%s2 = shufflevector <12 x float> %l1, <12 x float> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>		%s2 = shufflevector <12 x float> %l1, <12 x float> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>
%s3 = shufflevector <12 x float> %l1, <12 x float> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>		%s3 = shufflevector <12 x float> %l1, <12 x float> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>
%a1 = fadd <4 x float> %s1, %s2		%a1 = fadd <4 x float> %s1, %s2
%a = fadd <4 x float> %a1, %s3		%a = fadd <4 x float> %a1, %s3
store <4 x float> %a, <4 x float> *%dst		store <4 x float> %a, <4 x float> *%dst
ret void		ret void
}		}

define void @vld3_v8f32(<24 x float> %src, <8 x float> %dst) {		define void @vld3_v8f32(<24 x float> %src, <8 x float> %dst) {
; CHECK-LABEL: vld3_v8f32:		; CHECK-LABEL: vld3_v8f32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11}		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11}		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: vldrw.u32 q0, [r0, #80]		; CHECK-NEXT: vldrw.u32 q1, [r0, #48]
; CHECK-NEXT: vldrw.u32 q2, [r0, #48]		; CHECK-NEXT: vldrw.u32 q0, [r0, #64]
; CHECK-NEXT: vldrw.u32 q3, [r0, #64]		; CHECK-NEXT: vldrw.u32 q2, [r0, #80]
; CHECK-NEXT: vmov.f64 d3, d0		; CHECK-NEXT: vmov.f64 d6, d2
; CHECK-NEXT: vmov.f32 s7, s3		; CHECK-NEXT: vmov.f32 s16, s5
; CHECK-NEXT: vmov.f32 s16, s9		; CHECK-NEXT: vmov.f32 s13, s7
; CHECK-NEXT: vmov.f32 s4, s10		; CHECK-NEXT: vmov.f32 s17, s0
; CHECK-NEXT: vmov.f32 s17, s12		; CHECK-NEXT: vmov.f32 s14, s2
; CHECK-NEXT: vmov.f32 s9, s11		; CHECK-NEXT: vmov.f32 s18, s3
; CHECK-NEXT: vmov.f32 s18, s15		; CHECK-NEXT: vmov.f32 s0, s6
; CHECK-NEXT: vmov.f32 s10, s14		; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
; CHECK-NEXT: vmov.f32 s19, s2		; CHECK-NEXT: vmov.f32 s2, s8
; CHECK-NEXT: vmov.f32 s11, s1		; CHECK-NEXT: vmov.f32 s19, s10
; CHECK-NEXT: vmov.f32 s5, s13		; CHECK-NEXT: vmov.f32 s15, s9
; CHECK-NEXT: vadd.f32 q0, q2, q4		; CHECK-NEXT: vmov.f32 s3, s11
; CHECK-NEXT: vadd.f32 q0, q0, q1		; CHECK-NEXT: vadd.f32 q3, q3, q4
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]		; CHECK-NEXT: vadd.f32 q0, q3, q0
; CHECK-NEXT: vldrw.u32 q3, [r0]		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vldrw.u32 q4, [r0, #16]		; CHECK-NEXT: vldrw.u32 q2, [r0, #32]
; CHECK-NEXT: vmov.f64 d5, d2
; CHECK-NEXT: vstrw.32 q0, [r1, #16]		; CHECK-NEXT: vstrw.32 q0, [r1, #16]
; CHECK-NEXT: vmov.f32 s11, s7		; CHECK-NEXT: vmov.f32 s16, s13
; CHECK-NEXT: vmov.f32 s20, s13		; CHECK-NEXT: vmov.f64 d10, d6
; CHECK-NEXT: vmov.f32 s8, s14		; CHECK-NEXT: vmov.f32 s17, s4
; CHECK-NEXT: vmov.f32 s21, s16		; CHECK-NEXT: vmov.f32 s21, s15
; CHECK-NEXT: vmov.f32 s13, s15		; CHECK-NEXT: vmov.f32 s18, s7
; CHECK-NEXT: vmov.f32 s22, s19		; CHECK-NEXT: vmov.f32 s22, s6
; CHECK-NEXT: vmov.f32 s14, s18		; CHECK-NEXT: vmov.f32 s4, s14
; CHECK-NEXT: vmov.f32 s23, s6		; CHECK-NEXT: vmov.f32 s6, s8
; CHECK-NEXT: vmov.f32 s15, s5		; CHECK-NEXT: vmov.f32 s19, s10
; CHECK-NEXT: vmov.f32 s9, s17		; CHECK-NEXT: vmov.f32 s23, s9
; CHECK-NEXT: vadd.f32 q1, q3, q5		; CHECK-NEXT: vadd.f32 q4, q5, q4
; CHECK-NEXT: vadd.f32 q1, q1, q2		; CHECK-NEXT: vmov.f32 s7, s11
		; CHECK-NEXT: vadd.f32 q1, q4, q1
; CHECK-NEXT: vstrw.32 q1, [r1]		; CHECK-NEXT: vstrw.32 q1, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11}		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <24 x float>, <24 x float>* %src, align 4		%l1 = load <24 x float>, <24 x float>* %src, align 4
%s1 = shufflevector <24 x float> %l1, <24 x float> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>		%s1 = shufflevector <24 x float> %l1, <24 x float> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>
%s2 = shufflevector <24 x float> %l1, <24 x float> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>		%s2 = shufflevector <24 x float> %l1, <24 x float> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>
%s3 = shufflevector <24 x float> %l1, <24 x float> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>		%s3 = shufflevector <24 x float> %l1, <24 x float> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>
%a1 = fadd <8 x float> %s1, %s2		%a1 = fadd <8 x float> %s1, %s2
%a = fadd <8 x float> %a1, %s3		%a = fadd <8 x float> %a1, %s3
store <8 x float> %a, <8 x float> *%dst		store <8 x float> %a, <8 x float> *%dst
ret void		ret void
}		}

define void @vld3_v16f32(<48 x float> %src, <16 x float> %dst) {		define void @vld3_v16f32(<48 x float> %src, <16 x float> %dst) {
; CHECK-LABEL: vld3_v16f32:		; CHECK-LABEL: vld3_v16f32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vldrw.u32 q0, [r0, #80]		; CHECK-NEXT: vldrw.u32 q1, [r0, #48]
; CHECK-NEXT: vldrw.u32 q2, [r0, #48]		; CHECK-NEXT: vldrw.u32 q0, [r0, #64]
; CHECK-NEXT: vldrw.u32 q3, [r0, #64]		; CHECK-NEXT: vldrw.u32 q2, [r0, #80]
; CHECK-NEXT: vmov.f64 d3, d0		; CHECK-NEXT: vmov.f64 d6, d2
; CHECK-NEXT: vmov.f32 s7, s3		; CHECK-NEXT: vmov.f32 s16, s5
; CHECK-NEXT: vmov.f32 s16, s9		; CHECK-NEXT: vmov.f32 s13, s7
; CHECK-NEXT: vmov.f32 s4, s10		; CHECK-NEXT: vmov.f32 s17, s0
; CHECK-NEXT: vmov.f32 s17, s12		; CHECK-NEXT: vmov.f32 s14, s2
; CHECK-NEXT: vmov.f32 s9, s11		; CHECK-NEXT: vmov.f32 s18, s3
; CHECK-NEXT: vmov.f32 s18, s15		; CHECK-NEXT: vmov.f32 s0, s6
; CHECK-NEXT: vmov.f32 s10, s14		; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
; CHECK-NEXT: vmov.f32 s19, s2		; CHECK-NEXT: vmov.f32 s2, s8
; CHECK-NEXT: vmov.f32 s11, s1		; CHECK-NEXT: vmov.f32 s19, s10
; CHECK-NEXT: vmov.f32 s5, s13		; CHECK-NEXT: vmov.f32 s15, s9
; CHECK-NEXT: vadd.f32 q0, q2, q4		; CHECK-NEXT: vmov.f32 s3, s11
; CHECK-NEXT: vadd.f32 q0, q0, q1		; CHECK-NEXT: vadd.f32 q3, q3, q4
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]		; CHECK-NEXT: vadd.f32 q0, q3, q0
; CHECK-NEXT: vldrw.u32 q3, [r0]		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vldrw.u32 q4, [r0, #16]		; CHECK-NEXT: vldrw.u32 q2, [r0, #32]
; CHECK-NEXT: vmov.f64 d5, d2		; CHECK-NEXT: vmov.f32 s16, s13
; CHECK-NEXT: vmov.f32 s11, s7		; CHECK-NEXT: vmov.f64 d10, d6
; CHECK-NEXT: vmov.f32 s20, s13		; CHECK-NEXT: vmov.f32 s17, s4
		; CHECK-NEXT: vmov.f32 s21, s15
		; CHECK-NEXT: vmov.f32 s18, s7
		; CHECK-NEXT: vmov.f32 s22, s6
		; CHECK-NEXT: vmov.f32 s4, s14
		; CHECK-NEXT: vldrw.u32 q3, [r0, #144]
		; CHECK-NEXT: vmov.f32 s6, s8
		; CHECK-NEXT: vmov.f32 s19, s10
		; CHECK-NEXT: vmov.f32 s23, s9
		; CHECK-NEXT: vmov.f32 s7, s11
		; CHECK-NEXT: vldrw.u32 q2, [r0, #160]
		; CHECK-NEXT: vadd.f32 q4, q5, q4
		; CHECK-NEXT: vmov.f64 d10, d6
		; CHECK-NEXT: vadd.f32 q1, q4, q1
		; CHECK-NEXT: vldrw.u32 q4, [r0, #176]
		; CHECK-NEXT: vmov.f32 s24, s13
		; CHECK-NEXT: vmov.f32 s21, s15
		; CHECK-NEXT: vmov.f32 s25, s8
		; CHECK-NEXT: vmov.f32 s22, s10
		; CHECK-NEXT: vmov.f32 s26, s11
; CHECK-NEXT: vmov.f32 s8, s14		; CHECK-NEXT: vmov.f32 s8, s14
; CHECK-NEXT: vmov.f32 s21, s16		; CHECK-NEXT: vldrw.u32 q3, [r0, #112]
; CHECK-NEXT: vmov.f32 s13, s15		; CHECK-NEXT: vmov.f32 s10, s16
; CHECK-NEXT: vmov.f32 s22, s19		; CHECK-NEXT: vmov.f32 s27, s18
; CHECK-NEXT: vmov.f32 s14, s18		; CHECK-NEXT: vmov.f32 s23, s17
; CHECK-NEXT: vmov.f32 s23, s6		; CHECK-NEXT: vmov.f32 s11, s19
; CHECK-NEXT: vmov.f32 s15, s5		; CHECK-NEXT: vadd.f32 q5, q5, q6
; CHECK-NEXT: vmov.f32 s9, s17		; CHECK-NEXT: vadd.f32 q2, q5, q2
; CHECK-NEXT: vadd.f32 q1, q3, q5
; CHECK-NEXT: vadd.f32 q1, q1, q2
; CHECK-NEXT: vldrw.u32 q2, [r0, #176]
; CHECK-NEXT: vldrw.u32 q4, [r0, #144]
; CHECK-NEXT: vldrw.u32 q5, [r0, #160]
; CHECK-NEXT: vmov.f64 d7, d4
; CHECK-NEXT: vmov.f32 s15, s11
; CHECK-NEXT: vmov.f32 s24, s17
; CHECK-NEXT: vmov.f32 s12, s18
; CHECK-NEXT: vmov.f32 s25, s20
; CHECK-NEXT: vmov.f32 s17, s19
; CHECK-NEXT: vmov.f32 s26, s23
; CHECK-NEXT: vmov.f32 s18, s22
; CHECK-NEXT: vmov.f32 s27, s10
; CHECK-NEXT: vmov.f32 s19, s9
; CHECK-NEXT: vmov.f32 s13, s21
; CHECK-NEXT: vadd.f32 q2, q4, q6
; CHECK-NEXT: vadd.f32 q2, q2, q3
; CHECK-NEXT: vldrw.u32 q3, [r0, #128]
; CHECK-NEXT: vldrw.u32 q5, [r0, #96]		; CHECK-NEXT: vldrw.u32 q5, [r0, #96]
; CHECK-NEXT: vldrw.u32 q6, [r0, #112]		; CHECK-NEXT: vldrw.u32 q4, [r0, #128]
; CHECK-NEXT: vmov.f64 d9, d6
; CHECK-NEXT: vstrw.32 q2, [r1, #48]		; CHECK-NEXT: vstrw.32 q2, [r1, #48]
		; CHECK-NEXT: vmov.f32 s24, s21
; CHECK-NEXT: vstrw.32 q0, [r1, #16]		; CHECK-NEXT: vstrw.32 q0, [r1, #16]
		; CHECK-NEXT: vmov.f64 d14, d10
; CHECK-NEXT: vstrw.32 q1, [r1]		; CHECK-NEXT: vstrw.32 q1, [r1]
; CHECK-NEXT: vmov.f32 s19, s15		; CHECK-NEXT: vmov.f32 s25, s12
; CHECK-NEXT: vmov.f32 s28, s21		; CHECK-NEXT: vmov.f32 s29, s23
; CHECK-NEXT: vmov.f32 s16, s22		; CHECK-NEXT: vmov.f32 s26, s15
; CHECK-NEXT: vmov.f32 s29, s24		; CHECK-NEXT: vmov.f32 s30, s14
; CHECK-NEXT: vmov.f32 s21, s23		; CHECK-NEXT: vmov.f32 s12, s22
; CHECK-NEXT: vmov.f32 s30, s27		; CHECK-NEXT: vmov.f32 s14, s16
; CHECK-NEXT: vmov.f32 s22, s26		; CHECK-NEXT: vmov.f32 s27, s18
; CHECK-NEXT: vmov.f32 s31, s14		; CHECK-NEXT: vmov.f32 s31, s17
; CHECK-NEXT: vmov.f32 s23, s13		; CHECK-NEXT: vadd.f32 q6, q7, q6
; CHECK-NEXT: vmov.f32 s17, s25		; CHECK-NEXT: vmov.f32 s15, s19
; CHECK-NEXT: vadd.f32 q3, q5, q7		; CHECK-NEXT: vadd.f32 q3, q6, q3
; CHECK-NEXT: vadd.f32 q3, q3, q4
; CHECK-NEXT: vstrw.32 q3, [r1, #32]		; CHECK-NEXT: vstrw.32 q3, [r1, #32]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <48 x float>, <48 x float>* %src, align 4		%l1 = load <48 x float>, <48 x float>* %src, align 4
%s1 = shufflevector <48 x float> %l1, <48 x float> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>		%s1 = shufflevector <48 x float> %l1, <48 x float> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>
%s2 = shufflevector <48 x float> %l1, <48 x float> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>		%s2 = shufflevector <48 x float> %l1, <48 x float> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>
%s3 = shufflevector <48 x float> %l1, <48 x float> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>		%s3 = shufflevector <48 x float> %l1, <48 x float> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>
▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines	entry:
%a = fadd <4 x half> %a1, %s3		%a = fadd <4 x half> %a1, %s3
store <4 x half> %a, <4 x half> *%dst		store <4 x half> %a, <4 x half> *%dst
ret void		ret void
}		}

define void @vld3_v8f16(<24 x half> %src, <8 x half> %dst) {		define void @vld3_v8f16(<24 x half> %src, <8 x half> %dst) {
; CHECK-LABEL: vld3_v8f16:		; CHECK-LABEL: vld3_v8f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10}
; CHECK-NEXT: vldrw.u32 q3, [r0]		; CHECK-NEXT: vldrw.u32 q0, [r0]
; CHECK-NEXT: vldrw.u32 q4, [r0, #32]		; CHECK-NEXT: vmovx.f16 s8, s2
; CHECK-NEXT: vmovx.f16 s4, s14		; CHECK-NEXT: vmov.f32 s4, s1
; CHECK-NEXT: vmov.f32 s0, s13		; CHECK-NEXT: vins.f16 s4, s8
; CHECK-NEXT: vins.f16 s0, s4		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vldrw.u32 q1, [r0, #16]		; CHECK-NEXT: vmovx.f16 s20, s1
; CHECK-NEXT: vmovx.f16 s20, s19		; CHECK-NEXT: vmovx.f16 s12, s9
; CHECK-NEXT: vmovx.f16 s24, s13		; CHECK-NEXT: vmov.f32 s5, s8
; CHECK-NEXT: vmovx.f16 s8, s5		; CHECK-NEXT: vins.f16 s5, s12
; CHECK-NEXT: vmov.f32 s1, s4		; CHECK-NEXT: vldrw.u32 q3, [r0, #32]
; CHECK-NEXT: vins.f16 s1, s8		; CHECK-NEXT: vmov.f32 s6, s11
; CHECK-NEXT: vmov.f32 s11, s18		; CHECK-NEXT: vmovx.f16 s16, s12
; CHECK-NEXT: vins.f16 s11, s20		; CHECK-NEXT: vins.f16 s6, s16
; CHECK-NEXT: vmov.f32 s2, s7		; CHECK-NEXT: vmovx.f16 s16, s15
; CHECK-NEXT: vmovx.f16 s20, s16		; CHECK-NEXT: vmov.f32 s7, s14
; CHECK-NEXT: vmov.f32 s10, s16		; CHECK-NEXT: vins.f16 s7, s16
; CHECK-NEXT: vins.f16 s2, s20		; CHECK-NEXT: vmovx.f16 s18, s10
; CHECK-NEXT: vmov.f64 d10, d6		; CHECK-NEXT: vins.f16 s18, s12
; CHECK-NEXT: vins.f16 s20, s24		; CHECK-NEXT: vmovx.f16 s19, s13
; CHECK-NEXT: vmovx.f16 s24, s4		; CHECK-NEXT: vins.f16 s19, s15
; CHECK-NEXT: vmov.f32 s21, s15		; CHECK-NEXT: vmovx.f16 s16, s0
; CHECK-NEXT: vins.f16 s21, s24		; CHECK-NEXT: vins.f16 s16, s2
; CHECK-NEXT: vmovx.f16 s24, s7		; CHECK-NEXT: vmovx.f16 s17, s3
; CHECK-NEXT: vmov.f32 s22, s6		; CHECK-NEXT: vins.f16 s0, s20
; CHECK-NEXT: vins.f16 s22, s24		; CHECK-NEXT: vmovx.f16 s20, s8
; CHECK-NEXT: vmovx.f16 s24, s12		; CHECK-NEXT: vmov.f32 s1, s3
; CHECK-NEXT: vins.f16 s24, s14		; CHECK-NEXT: vins.f16 s1, s20
; CHECK-NEXT: vmov.f32 s3, s11		; CHECK-NEXT: vmovx.f16 s20, s11
; CHECK-NEXT: vmovx.f16 s25, s15		; CHECK-NEXT: vins.f16 s17, s9
; CHECK-NEXT: vmovx.f16 s12, s18		; CHECK-NEXT: vins.f16 s10, s20
; CHECK-NEXT: vins.f16 s25, s5		; CHECK-NEXT: vmov.f32 s2, s10
; CHECK-NEXT: vmovx.f16 s27, s17		; CHECK-NEXT: vmovx.f16 s8, s14
; CHECK-NEXT: vins.f16 s17, s12		; CHECK-NEXT: vins.f16 s13, s8
; CHECK-NEXT: vins.f16 s27, s19		; CHECK-NEXT: vmov.f32 s3, s13
; CHECK-NEXT: vmov.f32 s23, s17		; CHECK-NEXT: vadd.f16 q0, q0, q4
; CHECK-NEXT: vmovx.f16 s26, s6		; CHECK-NEXT: vadd.f16 q0, q0, q1
; CHECK-NEXT: vins.f16 s26, s16
; CHECK-NEXT: vadd.f16 q1, q5, q6
; CHECK-NEXT: vadd.f16 q0, q1, q0
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpop {d8, d9, d10}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <24 x half>, <24 x half>* %src, align 4		%l1 = load <24 x half>, <24 x half>* %src, align 4
%s1 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>		%s1 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>
%s2 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>		%s2 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>
%s3 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>		%s3 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>
%a1 = fadd <8 x half> %s1, %s2		%a1 = fadd <8 x half> %s1, %s2
%a = fadd <8 x half> %a1, %s3		%a = fadd <8 x half> %a1, %s3
store <8 x half> %a, <8 x half> *%dst		store <8 x half> %a, <8 x half> *%dst
ret void		ret void
}		}

define void @vld3_v16f16(<48 x half> %src, <16 x half> %dst) {		define void @vld3_v16f16(<48 x half> %src, <16 x half> %dst) {
; CHECK-LABEL: vld3_v16f16:		; CHECK-LABEL: vld3_v16f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10}
; CHECK-NEXT: vldrw.u32 q3, [r0, #48]		; CHECK-NEXT: vldrw.u32 q0, [r0, #48]
; CHECK-NEXT: vldrw.u32 q4, [r0, #80]		; CHECK-NEXT: vmovx.f16 s8, s2
; CHECK-NEXT: vmovx.f16 s4, s14		; CHECK-NEXT: vmov.f32 s4, s1
; CHECK-NEXT: vmov.f32 s0, s13		; CHECK-NEXT: vins.f16 s4, s8
; CHECK-NEXT: vins.f16 s0, s4		; CHECK-NEXT: vldrw.u32 q2, [r0, #64]
; CHECK-NEXT: vldrw.u32 q1, [r0, #64]		; CHECK-NEXT: vmovx.f16 s20, s1
; CHECK-NEXT: vmovx.f16 s20, s19
; CHECK-NEXT: vmovx.f16 s24, s13
; CHECK-NEXT: vmovx.f16 s8, s5
; CHECK-NEXT: vmov.f32 s1, s4
; CHECK-NEXT: vins.f16 s1, s8
; CHECK-NEXT: vmov.f32 s11, s18
; CHECK-NEXT: vins.f16 s11, s20
; CHECK-NEXT: vmov.f32 s2, s7
; CHECK-NEXT: vmovx.f16 s20, s16
; CHECK-NEXT: vmov.f32 s10, s16
; CHECK-NEXT: vins.f16 s2, s20
; CHECK-NEXT: vmov.f64 d10, d6
; CHECK-NEXT: vins.f16 s20, s24
; CHECK-NEXT: vmovx.f16 s24, s4
; CHECK-NEXT: vmov.f32 s21, s15
; CHECK-NEXT: vins.f16 s21, s24
; CHECK-NEXT: vmovx.f16 s24, s7
; CHECK-NEXT: vmov.f32 s22, s6
; CHECK-NEXT: vins.f16 s22, s24
; CHECK-NEXT: vmovx.f16 s24, s12
; CHECK-NEXT: vins.f16 s24, s14
; CHECK-NEXT: vmov.f32 s3, s11
; CHECK-NEXT: vmovx.f16 s25, s15
; CHECK-NEXT: vmovx.f16 s12, s18
; CHECK-NEXT: vins.f16 s25, s5
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vmovx.f16 s27, s17
; CHECK-NEXT: vins.f16 s17, s12
; CHECK-NEXT: vins.f16 s27, s19
; CHECK-NEXT: vmov.f32 s23, s17
; CHECK-NEXT: vmovx.f16 s26, s6
; CHECK-NEXT: vins.f16 s26, s16
; CHECK-NEXT: vldrw.u32 q4, [r0]
; CHECK-NEXT: vadd.f16 q1, q5, q6
; CHECK-NEXT: vadd.f16 q0, q1, q0
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]
; CHECK-NEXT: vstrw.32 q0, [r1, #16]
; CHECK-NEXT: vmovx.f16 s12, s18
; CHECK-NEXT: vmov.f32 s0, s17
; CHECK-NEXT: vmovx.f16 s20, s7
; CHECK-NEXT: vins.f16 s0, s12
; CHECK-NEXT: vmovx.f16 s12, s9		; CHECK-NEXT: vmovx.f16 s12, s9
; CHECK-NEXT: vmov.f32 s1, s8		; CHECK-NEXT: vmov.f32 s5, s8
; CHECK-NEXT: vmovx.f16 s24, s17		; CHECK-NEXT: vins.f16 s5, s12
; CHECK-NEXT: vins.f16 s1, s12		; CHECK-NEXT: vldrw.u32 q3, [r0, #80]
; CHECK-NEXT: vmov.f32 s15, s6		; CHECK-NEXT: vmov.f32 s6, s11
; CHECK-NEXT: vins.f16 s15, s20		; CHECK-NEXT: vmovx.f16 s16, s12
; CHECK-NEXT: vmov.f32 s2, s11		; CHECK-NEXT: vins.f16 s6, s16
; CHECK-NEXT: vmovx.f16 s20, s4		; CHECK-NEXT: vmovx.f16 s16, s15
; CHECK-NEXT: vmov.f32 s14, s4		; CHECK-NEXT: vmov.f32 s7, s14
; CHECK-NEXT: vins.f16 s2, s20		; CHECK-NEXT: vins.f16 s7, s16
; CHECK-NEXT: vmov.f64 d10, d8		; CHECK-NEXT: vmovx.f16 s18, s10
; CHECK-NEXT: vins.f16 s20, s24		; CHECK-NEXT: vins.f16 s18, s12
; CHECK-NEXT: vmovx.f16 s24, s8		; CHECK-NEXT: vmovx.f16 s19, s13
; CHECK-NEXT: vmov.f32 s21, s19		; CHECK-NEXT: vins.f16 s19, s15
; CHECK-NEXT: vins.f16 s21, s24		; CHECK-NEXT: vmovx.f16 s16, s0
; CHECK-NEXT: vmovx.f16 s24, s11		; CHECK-NEXT: vins.f16 s16, s2
; CHECK-NEXT: vmov.f32 s22, s10		; CHECK-NEXT: vmovx.f16 s17, s3
; CHECK-NEXT: vins.f16 s22, s24		; CHECK-NEXT: vins.f16 s0, s20
; CHECK-NEXT: vmovx.f16 s24, s16		; CHECK-NEXT: vmovx.f16 s20, s8
; CHECK-NEXT: vins.f16 s24, s18		; CHECK-NEXT: vmov.f32 s1, s3
; CHECK-NEXT: vmov.f32 s3, s15		; CHECK-NEXT: vins.f16 s1, s20
; CHECK-NEXT: vmovx.f16 s25, s19		; CHECK-NEXT: vmovx.f16 s20, s11
; CHECK-NEXT: vmovx.f16 s16, s6		; CHECK-NEXT: vins.f16 s17, s9
; CHECK-NEXT: vins.f16 s25, s9		; CHECK-NEXT: vins.f16 s10, s20
; CHECK-NEXT: vmovx.f16 s27, s5		; CHECK-NEXT: vmov.f32 s2, s10
		; CHECK-NEXT: vmovx.f16 s8, s14
		; CHECK-NEXT: vins.f16 s13, s8
		; CHECK-NEXT: vldrw.u32 q2, [r0, #32]
		; CHECK-NEXT: vmov.f32 s3, s13
		; CHECK-NEXT: vldrw.u32 q3, [r0, #16]
		; CHECK-NEXT: vadd.f16 q0, q0, q4
		; CHECK-NEXT: vadd.f16 q1, q0, q1
		; CHECK-NEXT: vldrw.u32 q0, [r0]
		; CHECK-NEXT: vstrw.32 q1, [r1, #16]
		; CHECK-NEXT: vmovx.f16 s16, s2
		; CHECK-NEXT: vmov.f32 s4, s1
		; CHECK-NEXT: vins.f16 s4, s16
		; CHECK-NEXT: vmovx.f16 s16, s13
		; CHECK-NEXT: vmov.f32 s5, s12
		; CHECK-NEXT: vmovx.f16 s20, s1
; CHECK-NEXT: vins.f16 s5, s16		; CHECK-NEXT: vins.f16 s5, s16
; CHECK-NEXT: vins.f16 s27, s7		; CHECK-NEXT: vmovx.f16 s16, s8
; CHECK-NEXT: vmov.f32 s23, s5		; CHECK-NEXT: vmov.f32 s6, s15
; CHECK-NEXT: vmovx.f16 s26, s10		; CHECK-NEXT: vins.f16 s6, s16
; CHECK-NEXT: vins.f16 s26, s4		; CHECK-NEXT: vmovx.f16 s16, s11
; CHECK-NEXT: vadd.f16 q1, q5, q6		; CHECK-NEXT: vmov.f32 s7, s10
; CHECK-NEXT: vadd.f16 q0, q1, q0		; CHECK-NEXT: vins.f16 s7, s16
		; CHECK-NEXT: vmovx.f16 s18, s14
		; CHECK-NEXT: vins.f16 s18, s8
		; CHECK-NEXT: vmovx.f16 s19, s9
		; CHECK-NEXT: vins.f16 s19, s11
		; CHECK-NEXT: vmovx.f16 s16, s0
		; CHECK-NEXT: vins.f16 s16, s2
		; CHECK-NEXT: vmovx.f16 s17, s3
		; CHECK-NEXT: vins.f16 s0, s20
		; CHECK-NEXT: vmovx.f16 s20, s12
		; CHECK-NEXT: vmov.f32 s1, s3
		; CHECK-NEXT: vins.f16 s1, s20
		; CHECK-NEXT: vmovx.f16 s20, s15
		; CHECK-NEXT: vins.f16 s17, s13
		; CHECK-NEXT: vins.f16 s14, s20
		; CHECK-NEXT: vmov.f32 s2, s14
		; CHECK-NEXT: vmovx.f16 s12, s10
		; CHECK-NEXT: vins.f16 s9, s12
		; CHECK-NEXT: vmov.f32 s3, s9
		; CHECK-NEXT: vadd.f16 q0, q0, q4
		; CHECK-NEXT: vadd.f16 q0, q0, q1
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpop {d8, d9, d10}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <48 x half>, <48 x half>* %src, align 4		%l1 = load <48 x half>, <48 x half>* %src, align 4
%s1 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>		%s1 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>
%s2 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>		%s2 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>
%s3 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>		%s3 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>
%a1 = fadd <16 x half> %s1, %s2		%a1 = fadd <16 x half> %s1, %s2
%a = fadd <16 x half> %a1, %s3		%a = fadd <16 x half> %a1, %s3
▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vst3.ll

Show First 20 Lines • Show All 261 Lines • ▼ Show 20 Lines

; i16		; i16

define void @vst3_v2i16(<2 x i16> %src, <6 x i16> %dst) {		define void @vst3_v2i16(<2 x i16> %src, <6 x i16> %dst) {
; CHECK-LABEL: vst3_v2i16:		; CHECK-LABEL: vst3_v2i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r4, lr}
; CHECK-NEXT: ldrh r2, [r0, #6]		; CHECK-NEXT: ldrh r2, [r0, #10]
; CHECK-NEXT: ldrh.w lr, [r0, #4]		; CHECK-NEXT: ldrh r4, [r0, #8]
; CHECK-NEXT: ldrh.w r12, [r0, #8]		; CHECK-NEXT: ldrh.w r12, [r0, #2]
; CHECK-NEXT: vmov.16 q0[4], r2		; CHECK-NEXT: ldrh.w lr, [r0]
; CHECK-NEXT: ldrh r3, [r0, #2]		; CHECK-NEXT: vmov q0[2], q0[0], r4, r2
; CHECK-NEXT: vmov q1[2], q1[0], lr, r2		; CHECK-NEXT: ldrh r3, [r0, #6]
; CHECK-NEXT: ldrh r4, [r0]		; CHECK-NEXT: ldrh r0, [r0, #4]
; CHECK-NEXT: ldrh r0, [r0, #10]		; CHECK-NEXT: vmov q1[2], q1[0], r0, r3
; CHECK-NEXT: vmov.16 q0[5], r0		; CHECK-NEXT: vmov q2, q1
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmovnt.i32 q2, q0
; CHECK-NEXT: vmov q0[2], q0[0], r4, r3		; CHECK-NEXT: vmov q0[2], q0[0], lr, r12
		; CHECK-NEXT: vmov r0, s10
; CHECK-NEXT: vmov.f32 s1, s4		; CHECK-NEXT: vmov.f32 s1, s4
; CHECK-NEXT: vmov.f32 s3, s2		; CHECK-NEXT: vmov.f32 s3, s2
; CHECK-NEXT: vmov.32 q0[2], r12		; CHECK-NEXT: vmov.32 q0[2], r4
; CHECK-NEXT: vstrh.32 q0, [r1]		; CHECK-NEXT: vstrh.32 q0, [r1]
; CHECK-NEXT: str r0, [r1, #8]		; CHECK-NEXT: str r0, [r1, #8]
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%s1 = getelementptr <2 x i16>, <2 x i16>* %src, i32 0		%s1 = getelementptr <2 x i16>, <2 x i16>* %src, i32 0
%l1 = load <2 x i16>, <2 x i16>* %s1, align 4		%l1 = load <2 x i16>, <2 x i16>* %s1, align 4
%s2 = getelementptr <2 x i16>, <2 x i16>* %src, i32 1		%s2 = getelementptr <2 x i16>, <2 x i16>* %src, i32 1
%l2 = load <2 x i16>, <2 x i16>* %s2, align 4		%l2 = load <2 x i16>, <2 x i16>* %s2, align 4
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines	entry:
%s = shufflevector <8 x i16> %t1, <8 x i16> %t2, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>		%s = shufflevector <8 x i16> %t1, <8 x i16> %t2, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>
store <12 x i16> %s, <12 x i16> *%dst		store <12 x i16> %s, <12 x i16> *%dst
ret void		ret void
}		}

define void @vst3_v8i16(<8 x i16> %src, <24 x i16> %dst) {		define void @vst3_v8i16(<8 x i16> %src, <24 x i16> %dst) {
; CHECK-LABEL: vst3_v8i16:		; CHECK-LABEL: vst3_v8i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: vldrw.u32 q2, [r0]		; CHECK-NEXT: vldrw.u32 q2, [r0]
; CHECK-NEXT: vldrw.u32 q1, [r0, #16]		; CHECK-NEXT: vldrw.u32 q4, [r0, #32]
; CHECK-NEXT: vldrw.u32 q3, [r0, #32]		; CHECK-NEXT: vldrw.u32 q3, [r0, #16]
; CHECK-NEXT: vmov.f64 d0, d4		; CHECK-NEXT: vmov.f64 d2, d4
; CHECK-NEXT: vmov.u16 r2, q1[1]		; CHECK-NEXT: vmov.u16 r2, q4[2]
; CHECK-NEXT: vins.f16 s0, s4		; CHECK-NEXT: vmov.u16 r0, q3[1]
; CHECK-NEXT: vmov.f32 s17, s12		; CHECK-NEXT: vmov.16 q0[0], r2
; CHECK-NEXT: vmov.16 q0[4], r2		; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.f32 s18, s12		; CHECK-NEXT: vmov.16 q0[1], r2
; CHECK-NEXT: vmov.f32 s3, s9		; CHECK-NEXT: vmov.u16 r2, q4[4]
; CHECK-NEXT: vmov.u16 r0, q4[2]		; CHECK-NEXT: vins.f16 s4, s12
; CHECK-NEXT: vins.f16 s3, s5		; CHECK-NEXT: vmov.16 q0[6], r2
; CHECK-NEXT: vmov.16 q5[2], r0		; CHECK-NEXT: vmov.16 q1[4], r0
; CHECK-NEXT: vmov.f32 s1, s8		; CHECK-NEXT: vmov.u16 r2, q2[5]
; CHECK-NEXT: vmov.u16 r2, q0[3]		; CHECK-NEXT: vmov.f32 s7, s9
; CHECK-NEXT: vmov.u16 r0, q0[4]		; CHECK-NEXT: vmov.16 q0[7], r2
; CHECK-NEXT: vmov.16 q5[3], r2		; CHECK-NEXT: vins.f16 s7, s13
		; CHECK-NEXT: vmov.u16 r2, q4[0]
		; CHECK-NEXT: vmov.f32 s5, s8
		; CHECK-NEXT: vmov.16 q5[2], r2
		; CHECK-NEXT: vmov.u16 r0, q1[3]
		; CHECK-NEXT: vmov.u16 r2, q2[6]
		; CHECK-NEXT: vmov.16 q5[3], r0
		; CHECK-NEXT: vmov.u16 r0, q1[4]
; CHECK-NEXT: vmov.16 q5[4], r0		; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vmov.u16 r0, q4[5]		; CHECK-NEXT: vmov.u16 r0, q4[1]
; CHECK-NEXT: vmov.16 q5[5], r0		; CHECK-NEXT: vmov.16 q5[5], r0
; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vmov.16 q4[0], r0
; CHECK-NEXT: vmov.u16 r0, q3[5]		; CHECK-NEXT: vmov.u16 r0, q3[5]
; CHECK-NEXT: vmov.16 q4[1], r0		; CHECK-NEXT: vmov.f32 s5, s21
; CHECK-NEXT: vmov.f32 s1, s21		; CHECK-NEXT: vmov.f32 s6, s22
; CHECK-NEXT: vins.f16 s17, s7
; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vmov.f32 s2, s22
; CHECK-NEXT: vmov.16 q4[6], r0
; CHECK-NEXT: vmov.f32 s21, s11
; CHECK-NEXT: vmov.u16 r0, q3[7]
; CHECK-NEXT: vmov.16 q4[7], r0
; CHECK-NEXT: vmov.f32 s22, s11
; CHECK-NEXT: vmov.f32 s18, s15
; CHECK-NEXT: vmov.u16 r2, q5[2]
; CHECK-NEXT: vmov.u16 r0, q4[3]
; CHECK-NEXT: vmov.16 q6[2], r2
; CHECK-NEXT: vmov.16 q6[3], r0
; CHECK-NEXT: vmov.u16 r0, q4[4]
; CHECK-NEXT: vmov.16 q6[4], r0
; CHECK-NEXT: vmov.u16 r0, q5[5]
; CHECK-NEXT: vmov.16 q6[5], r0
; CHECK-NEXT: vmov.u16 r0, q3[2]
; CHECK-NEXT: vmov.16 q5[0], r0		; CHECK-NEXT: vmov.16 q5[0], r0
; CHECK-NEXT: vmov.u16 r0, q2[3]		; CHECK-NEXT: vmov.u16 r0, q4[5]
		; CHECK-NEXT: vmov.f32 s1, s17
; CHECK-NEXT: vmov.16 q5[1], r0		; CHECK-NEXT: vmov.16 q5[1], r0
; CHECK-NEXT: vmov.u16 r0, q3[4]		; CHECK-NEXT: vmov.u16 r0, q3[7]
		; CHECK-NEXT: vins.f16 s21, s15
		; CHECK-NEXT: vmov.f32 s2, s10
; CHECK-NEXT: vmov.16 q5[6], r0		; CHECK-NEXT: vmov.16 q5[6], r0
; CHECK-NEXT: vmov.u16 r0, q2[5]		; CHECK-NEXT: vmov.u16 r0, q4[7]
; CHECK-NEXT: vmov.16 q5[7], r0		; CHECK-NEXT: vmov.16 q5[7], r0
; CHECK-NEXT: vrev32.16 q1, q1		; CHECK-NEXT: vstrw.32 q1, [r1]
; CHECK-NEXT: vmov.f32 s21, s13		; CHECK-NEXT: vmov.f32 s22, s19
; CHECK-NEXT: vmov.u16 r2, q1[2]		; CHECK-NEXT: vmov.16 q4[2], r2
; CHECK-NEXT: vmov.f32 s22, s10
; CHECK-NEXT: vmov.16 q2[2], r2
; CHECK-NEXT: vmov.u16 r0, q5[3]		; CHECK-NEXT: vmov.u16 r0, q5[3]
; CHECK-NEXT: vmov.f32 s17, s25		; CHECK-NEXT: vmov.u16 r2, q3[3]
; CHECK-NEXT: vmov.16 q2[3], r0		; CHECK-NEXT: vmov.16 q4[3], r0
; CHECK-NEXT: vmov.u16 r0, q5[4]		; CHECK-NEXT: vmov.u16 r0, q5[4]
; CHECK-NEXT: vmov.16 q2[4], r0		; CHECK-NEXT: vmov.16 q4[4], r0
; CHECK-NEXT: vmov.u16 r0, q1[5]		; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmov.16 q2[5], r0		; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vmov.f32 s18, s26		; CHECK-NEXT: vmov.u16 r0, q0[3]
; CHECK-NEXT: vmov.f32 s21, s9		; CHECK-NEXT: vmov.16 q2[2], r2
; CHECK-NEXT: vstrw.32 q4, [r1, #32]		; CHECK-NEXT: vins.f16 s2, s14
; CHECK-NEXT: vmov.f32 s22, s10		; CHECK-NEXT: vmov.16 q2[3], r0
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vmov.f32 s21, s17
; CHECK-NEXT: vstrw.32 q5, [r1, #16]		; CHECK-NEXT: vmov.f32 s10, s2
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vmov.f32 s1, s9
		; CHECK-NEXT: vmov.f32 s22, s18
		; CHECK-NEXT: vstrw.32 q5, [r1, #32]
		; CHECK-NEXT: vmov.f32 s2, s10
		; CHECK-NEXT: vstrw.32 q0, [r1, #16]
		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <8 x i16>, <8 x i16>* %src, i32 0		%s1 = getelementptr <8 x i16>, <8 x i16>* %src, i32 0
%l1 = load <8 x i16>, <8 x i16>* %s1, align 4		%l1 = load <8 x i16>, <8 x i16>* %s1, align 4
%s2 = getelementptr <8 x i16>, <8 x i16>* %src, i32 1		%s2 = getelementptr <8 x i16>, <8 x i16>* %src, i32 1
%l2 = load <8 x i16>, <8 x i16>* %s2, align 4		%l2 = load <8 x i16>, <8 x i16>* %s2, align 4
%s3 = getelementptr <8 x i16>, <8 x i16>* %src, i32 2		%s3 = getelementptr <8 x i16>, <8 x i16>* %src, i32 2
%l3 = load <8 x i16>, <8 x i16>* %s3, align 4		%l3 = load <8 x i16>, <8 x i16>* %s3, align 4
%t1 = shufflevector <8 x i16> %l1, <8 x i16> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>		%t1 = shufflevector <8 x i16> %l1, <8 x i16> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
%t2 = shufflevector <8 x i16> %l3, <8 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%t2 = shufflevector <8 x i16> %l3, <8 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%s = shufflevector <16 x i16> %t1, <16 x i16> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>		%s = shufflevector <16 x i16> %t1, <16 x i16> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>
store <24 x i16> %s, <24 x i16> *%dst		store <24 x i16> %s, <24 x i16> *%dst
ret void		ret void
}		}

define void @vst3_v16i16(<16 x i16> %src, <48 x i16> %dst) {		define void @vst3_v16i16(<16 x i16> %src, <48 x i16> %dst) {
; CHECK-LABEL: vst3_v16i16:		; CHECK-LABEL: vst3_v16i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: .pad #112		; CHECK-NEXT: .pad #96
; CHECK-NEXT: sub sp, #112		; CHECK-NEXT: sub sp, #96
; CHECK-NEXT: vldrw.u32 q1, [r0, #16]		; CHECK-NEXT: vldrw.u32 q1, [r0, #48]
; CHECK-NEXT: vldrw.u32 q0, [r0, #48]		; CHECK-NEXT: vldrw.u32 q0, [r0, #80]
; CHECK-NEXT: vldrw.u32 q7, [r0, #64]		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vmov.f64 d12, d2		; CHECK-NEXT: vldrw.u32 q7, [r0]
; CHECK-NEXT: vmov.u16 r2, q0[1]
; CHECK-NEXT: vmov q2, q1
; CHECK-NEXT: vstrw.32 q0, [sp, #48] @ 16-byte Spill
; CHECK-NEXT: vstrw.32 q2, [sp, #64] @ 16-byte Spill
; CHECK-NEXT: vstrw.32 q7, [sp] @ 16-byte Spill
; CHECK-NEXT: vins.f16 s24, s0
; CHECK-NEXT: vmov.16 q6[4], r2
; CHECK-NEXT: vmov.f32 s27, s5
; CHECK-NEXT: vldrw.u32 q1, [r0, #80]
; CHECK-NEXT: vins.f16 s27, s1
; CHECK-NEXT: vmov.f32 s13, s4
; CHECK-NEXT: vstrw.32 q1, [sp, #80] @ 16-byte Spill
; CHECK-NEXT: vmov.f32 s14, s4
; CHECK-NEXT: vmov.f32 s25, s8
; CHECK-NEXT: vmov.u16 r3, q3[2]
; CHECK-NEXT: vstrw.32 q3, [sp, #16] @ 16-byte Spill
; CHECK-NEXT: vmov.u16 r2, q6[3]
; CHECK-NEXT: vmov.16 q3[2], r3
; CHECK-NEXT: vmov.16 q3[3], r2
; CHECK-NEXT: vmov.u16 r2, q6[4]
; CHECK-NEXT: vmov.16 q3[4], r2
; CHECK-NEXT: vmov.u16 r2, q0[5]
; CHECK-NEXT: vmov.16 q5[0], r2
; CHECK-NEXT: vmov.u16 r2, q1[5]		; CHECK-NEXT: vmov.u16 r2, q1[5]
; CHECK-NEXT: vmov.16 q5[1], r2		; CHECK-NEXT: vmov q5, q0
		; CHECK-NEXT: vmov.16 q4[0], r2
		; CHECK-NEXT: vmov.u16 r2, q0[5]
		; CHECK-NEXT: vmov.16 q4[1], r2
		; CHECK-NEXT: vmov.u16 r2, q1[7]
		; CHECK-NEXT: vins.f16 s17, s7
		; CHECK-NEXT: vmov.u16 r3, q2[6]
		; CHECK-NEXT: vmov.16 q4[6], r2
; CHECK-NEXT: vmov.u16 r2, q0[7]		; CHECK-NEXT: vmov.u16 r2, q0[7]
; CHECK-NEXT: vins.f16 s21, s3		; CHECK-NEXT: vmov.16 q4[7], r2
		; CHECK-NEXT: vmov.f64 d12, d14
		; CHECK-NEXT: vstrw.32 q1, [sp, #80] @ 16-byte Spill
		; CHECK-NEXT: vmov.f32 s18, s3
		; CHECK-NEXT: vmov.16 q0[2], r3
		; CHECK-NEXT: vmov.u16 r2, q4[3]
		; CHECK-NEXT: vmov.u16 r3, q5[0]
		; CHECK-NEXT: vmov.16 q0[3], r2
		; CHECK-NEXT: vmov.u16 r2, q4[4]
		; CHECK-NEXT: vmov.16 q0[4], r2
		; CHECK-NEXT: vmov.u16 r2, q2[7]
		; CHECK-NEXT: vmov.16 q0[5], r2
		; CHECK-NEXT: vmov.u16 r2, q1[1]
		; CHECK-NEXT: vmov.f32 s17, s1
		; CHECK-NEXT: vmov.f32 s18, s2
; CHECK-NEXT: vmov q0, q2		; CHECK-NEXT: vmov q0, q2
; CHECK-NEXT: vmov.f32 s9, s3		; CHECK-NEXT: vins.f16 s8, s4
; CHECK-NEXT: vmov.16 q5[6], r2		; CHECK-NEXT: vstrw.32 q0, [sp, #48] @ 16-byte Spill
; CHECK-NEXT: vmov.u16 r2, q1[7]		; CHECK-NEXT: vmov.16 q2[4], r2
; CHECK-NEXT: vmov.f32 s10, s3		; CHECK-NEXT: vstrw.32 q4, [sp, #64] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q5[7], r2		; CHECK-NEXT: vmov.f32 s11, s1
; CHECK-NEXT: vmov.u16 r3, q2[2]		; CHECK-NEXT: vins.f16 s11, s5
; CHECK-NEXT: vmov.f32 s22, s7		; CHECK-NEXT: vldrw.u32 q1, [r0, #32]
; CHECK-NEXT: vmov.16 q1[2], r3		; CHECK-NEXT: vmov.f32 s9, s0
; CHECK-NEXT: vmov.u16 r2, q5[3]		; CHECK-NEXT: vmov.16 q0[2], r3
; CHECK-NEXT: vldrw.u32 q0, [r0, #32]		; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.16 q1[3], r2		; CHECK-NEXT: vins.f16 s24, s4
; CHECK-NEXT: vmov.u16 r2, q5[4]		; CHECK-NEXT: vmov.16 q0[3], r2
; CHECK-NEXT: vmov.16 q1[4], r2		; CHECK-NEXT: vmov.u16 r2, q2[4]
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov.16 q0[4], r2
; CHECK-NEXT: vldrw.u32 q2, [r0]		; CHECK-NEXT: vmov.u16 r2, q1[1]
; CHECK-NEXT: vmov.16 q1[5], r2		; CHECK-NEXT: vmov.16 q6[4], r2
; CHECK-NEXT: vmov.u16 r2, q0[1]		; CHECK-NEXT: vstrw.32 q2, [sp] @ 16-byte Spill
; CHECK-NEXT: vmov.f32 s21, s5		; CHECK-NEXT: vmov.f32 s27, s29
; CHECK-NEXT: vmov.f64 d8, d4		; CHECK-NEXT: vldrw.u32 q2, [r0, #64]
; CHECK-NEXT: vstrw.32 q2, [sp, #96] @ 16-byte Spill		; CHECK-NEXT: vins.f16 s27, s5
; CHECK-NEXT: vstrw.32 q0, [sp, #32] @ 16-byte Spill		; CHECK-NEXT: vmov q4, q0
; CHECK-NEXT: vins.f16 s16, s0		; CHECK-NEXT: vmov.f32 s25, s28
; CHECK-NEXT: vmov.f32 s22, s6		; CHECK-NEXT: vmov.u16 r0, q2[0]
; CHECK-NEXT: vmov.16 q4[4], r2		; CHECK-NEXT: vmov.16 q0[2], r0
; CHECK-NEXT: vstrw.32 q5, [r1, #80]		; CHECK-NEXT: vmov.u16 r2, q6[3]
; CHECK-NEXT: vmov.f32 s19, s9		; CHECK-NEXT: vmov.16 q0[3], r2
; CHECK-NEXT: vins.f16 s19, s1		; CHECK-NEXT: vmov.u16 r0, q6[4]
; CHECK-NEXT: vmov.f32 s17, s8		; CHECK-NEXT: vmov.16 q0[4], r0
; CHECK-NEXT: vmov.f32 s9, s28		; CHECK-NEXT: vmov.u16 r0, q2[1]
; CHECK-NEXT: vmov.u16 r0, q4[3]		; CHECK-NEXT: vmov q3, q1
; CHECK-NEXT: vmov.f32 s10, s28		; CHECK-NEXT: vmov.16 q0[5], r0
; CHECK-NEXT: vmov.u16 r2, q2[2]		; CHECK-NEXT: vmov.u16 r0, q5[1]
; CHECK-NEXT: vmov.16 q1[2], r2		; CHECK-NEXT: vmov.f32 s25, s1
; CHECK-NEXT: vmov.16 q1[3], r0		; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vmov.u16 r0, q4[4]		; CHECK-NEXT: vmov.u16 r0, q3[5]
; CHECK-NEXT: vmov.16 q1[4], r0		; CHECK-NEXT: vmov.f32 s26, s2
; CHECK-NEXT: vmov.u16 r0, q2[5]		; CHECK-NEXT: vmov q0, q3
; CHECK-NEXT: vldrw.u32 q2, [sp, #16] @ 16-byte Reload		; CHECK-NEXT: vstrw.32 q3, [sp, #32] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q1[5], r0		; CHECK-NEXT: vmov.16 q3[0], r0
; CHECK-NEXT: vmov.f32 s17, s5
; CHECK-NEXT: vmov.u16 r0, q2[5]		; CHECK-NEXT: vmov.u16 r0, q2[5]
; CHECK-NEXT: vmov.f32 s18, s6		; CHECK-NEXT: vmov.u16 r2, q7[6]
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q3[1], r0
; CHECK-NEXT: vmov.u16 r0, q0[5]		; CHECK-NEXT: vmov.u16 r0, q0[7]
; CHECK-NEXT: vmov.16 q2[0], r0		; CHECK-NEXT: vins.f16 s13, s3
		; CHECK-NEXT: vstrw.32 q4, [sp, #16] @ 16-byte Spill
		; CHECK-NEXT: vmov.16 q3[6], r0
		; CHECK-NEXT: vmov.u16 r0, q2[7]
		; CHECK-NEXT: vmov.16 q3[7], r0
		; CHECK-NEXT: vmov.16 q4[2], r2
		; CHECK-NEXT: vmov.f32 s14, s11
		; CHECK-NEXT: vmov q1, q5
		; CHECK-NEXT: vmov.u16 r0, q3[3]
		; CHECK-NEXT: vmov q0, q1
		; CHECK-NEXT: vmov.16 q4[3], r0
		; CHECK-NEXT: vmov.u16 r0, q3[4]
		; CHECK-NEXT: vmov.16 q4[4], r0
		; CHECK-NEXT: vmov.u16 r0, q7[7]
		; CHECK-NEXT: vmov.16 q4[5], r0
		; CHECK-NEXT: vmov.u16 r0, q2[2]
		; CHECK-NEXT: vmov.16 q5[0], r0
		; CHECK-NEXT: vmov.u16 r0, q7[3]
		; CHECK-NEXT: vmov.16 q5[1], r0
		; CHECK-NEXT: vmov.u16 r0, q2[4]
		; CHECK-NEXT: vmov.16 q5[6], r0
; CHECK-NEXT: vmov.u16 r0, q7[5]		; CHECK-NEXT: vmov.u16 r0, q7[5]
		; CHECK-NEXT: vmov.16 q5[7], r0
		; CHECK-NEXT: vmov.u16 r0, q1[2]
		; CHECK-NEXT: vldrw.u32 q1, [sp, #48] @ 16-byte Reload
		; CHECK-NEXT: vmov.f32 s21, s9
		; CHECK-NEXT: vmov.16 q2[0], r0
		; CHECK-NEXT: vmov.f32 s22, s30
		; CHECK-NEXT: vmov.u16 r0, q1[3]
		; CHECK-NEXT: vmov q7, q0
; CHECK-NEXT: vmov.16 q2[1], r0		; CHECK-NEXT: vmov.16 q2[1], r0
; CHECK-NEXT: vmov.u16 r0, q0[7]		; CHECK-NEXT: vmov.u16 r0, q0[4]
; CHECK-NEXT: vins.f16 s9, s3
; CHECK-NEXT: vldrw.u32 q0, [sp, #96] @ 16-byte Reload
; CHECK-NEXT: vmov.16 q2[6], r0		; CHECK-NEXT: vmov.16 q2[6], r0
; CHECK-NEXT: vmov.u16 r0, q7[7]		; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vmov.f32 s5, s3
; CHECK-NEXT: vmov.16 q2[7], r0		; CHECK-NEXT: vmov.16 q2[7], r0
; CHECK-NEXT: vmov.f32 s6, s3		; CHECK-NEXT: vldrw.u32 q0, [sp, #80] @ 16-byte Reload
; CHECK-NEXT: vstrw.32 q4, [r1]		; CHECK-NEXT: vmov.f32 s9, s29
; CHECK-NEXT: vmov.f32 s10, s31		; CHECK-NEXT: vldrw.u32 q7, [sp] @ 16-byte Reload
; CHECK-NEXT: vmov.u16 r2, q1[2]		; CHECK-NEXT: vmov.f32 s10, s6
		; CHECK-NEXT: vldrw.u32 q1, [sp, #16] @ 16-byte Reload
		; CHECK-NEXT: vmov.u16 r2, q0[3]
; CHECK-NEXT: vmov.u16 r0, q2[3]		; CHECK-NEXT: vmov.u16 r0, q2[3]
		; CHECK-NEXT: vmov.f32 s29, s5
; CHECK-NEXT: vmov.16 q0[2], r2		; CHECK-NEXT: vmov.16 q0[2], r2
		; CHECK-NEXT: vmov.f32 s30, s6
		; CHECK-NEXT: vldrw.u32 q1, [sp, #80] @ 16-byte Reload
; CHECK-NEXT: vmov.16 q0[3], r0		; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vmov.u16 r0, q2[4]		; CHECK-NEXT: vmov.u16 r0, q5[3]
; CHECK-NEXT: vmov.f32 s25, s13		; CHECK-NEXT: vins.f16 s10, s6
; CHECK-NEXT: vmov.16 q0[4], r0		; CHECK-NEXT: vldrw.u32 q1, [sp, #32] @ 16-byte Reload
; CHECK-NEXT: vmov.u16 r0, q1[5]		; CHECK-NEXT: vmov.f32 s2, s10
; CHECK-NEXT: vldrw.u32 q1, [sp, #48] @ 16-byte Reload		; CHECK-NEXT: vstrw.32 q7, [r1, #48]
; CHECK-NEXT: vldrw.u32 q7, [sp, #80] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s26, s14
; CHECK-NEXT: vldrw.u32 q3, [sp, #64] @ 16-byte Reload
; CHECK-NEXT: vmov.16 q0[5], r0
; CHECK-NEXT: vrev32.16 q1, q1
; CHECK-NEXT: vmov.u16 r0, q7[2]
; CHECK-NEXT: vstrw.32 q1, [sp, #48] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q1[0], r0
; CHECK-NEXT: vmov.u16 r0, q3[3]
; CHECK-NEXT: vmov.f32 s9, s1		; CHECK-NEXT: vmov.f32 s9, s1
; CHECK-NEXT: vmov.16 q1[1], r0		; CHECK-NEXT: vmov.u16 r2, q1[3]
; CHECK-NEXT: vmov.u16 r0, q7[4]		; CHECK-NEXT: vins.f16 s22, s6
; CHECK-NEXT: vmov.16 q1[6], r0		; CHECK-NEXT: vmov.f32 s13, s17
; CHECK-NEXT: vmov.u16 r0, q3[5]		; CHECK-NEXT: vmov.f32 s14, s18
; CHECK-NEXT: vmov.16 q1[7], r0		; CHECK-NEXT: vstrw.32 q6, [r1]
		; CHECK-NEXT: vstrw.32 q3, [r1, #32]
; CHECK-NEXT: vmov.f32 s10, s2		; CHECK-NEXT: vmov.f32 s10, s2
; CHECK-NEXT: vmov.f32 s5, s29		; CHECK-NEXT: vmov.16 q0[2], r2
; CHECK-NEXT: vldrw.u32 q7, [sp, #48] @ 16-byte Reload		; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vmov.f32 s6, s14		; CHECK-NEXT: vstrw.32 q2, [r1, #64]
; CHECK-NEXT: vstrw.32 q2, [r1, #32]		; CHECK-NEXT: vmov.f32 s2, s22
; CHECK-NEXT: vmov.u16 r2, q7[2]		; CHECK-NEXT: vmov.f32 s21, s1
; CHECK-NEXT: vmov.u16 r0, q1[3]		; CHECK-NEXT: vmov.f32 s22, s2
; CHECK-NEXT: vmov.16 q3[2], r2		; CHECK-NEXT: vldrw.u32 q0, [sp, #64] @ 16-byte Reload
; CHECK-NEXT: vstrw.32 q6, [r1, #48]		; CHECK-NEXT: vstrw.32 q5, [r1, #16]
; CHECK-NEXT: vmov.16 q3[3], r0		; CHECK-NEXT: vstrw.32 q0, [r1, #80]
; CHECK-NEXT: vmov.u16 r0, q1[4]		; CHECK-NEXT: add sp, #96
; CHECK-NEXT: vmov.16 q3[4], r0
; CHECK-NEXT: vmov.u16 r0, q7[5]
; CHECK-NEXT: vmov.16 q3[5], r0
; CHECK-NEXT: vldrw.u32 q7, [sp, #96] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s5, s13
; CHECK-NEXT: vmov.f32 s6, s14
; CHECK-NEXT: vldrw.u32 q3, [sp] @ 16-byte Reload
; CHECK-NEXT: vstrw.32 q1, [r1, #64]
; CHECK-NEXT: vmov.u16 r0, q3[2]
; CHECK-NEXT: vmov.16 q0[0], r0
; CHECK-NEXT: vmov.u16 r0, q7[3]
; CHECK-NEXT: vmov.16 q0[1], r0
; CHECK-NEXT: vmov.u16 r0, q3[4]
; CHECK-NEXT: vmov.16 q0[6], r0
; CHECK-NEXT: vmov.u16 r0, q7[5]
; CHECK-NEXT: vmov.16 q0[7], r0
; CHECK-NEXT: vmov.f32 s1, s13
; CHECK-NEXT: vldrw.u32 q3, [sp, #32] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s2, s30
; CHECK-NEXT: vrev32.16 q3, q3
; CHECK-NEXT: vmov.u16 r0, q0[3]
; CHECK-NEXT: vmov.u16 r2, q3[2]
; CHECK-NEXT: vmov.16 q7[2], r2
; CHECK-NEXT: vmov.16 q7[3], r0
; CHECK-NEXT: vmov.u16 r0, q0[4]
; CHECK-NEXT: vmov.16 q7[4], r0
; CHECK-NEXT: vmov.u16 r0, q3[5]
; CHECK-NEXT: vmov.16 q7[5], r0
; CHECK-NEXT: vmov.f32 s1, s29
; CHECK-NEXT: vmov.f32 s2, s30
; CHECK-NEXT: vstrw.32 q0, [r1, #16]
; CHECK-NEXT: add sp, #112
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <16 x i16>, <16 x i16>* %src, i32 0		%s1 = getelementptr <16 x i16>, <16 x i16>* %src, i32 0
%l1 = load <16 x i16>, <16 x i16>* %s1, align 4		%l1 = load <16 x i16>, <16 x i16>* %s1, align 4
%s2 = getelementptr <16 x i16>, <16 x i16>* %src, i32 1		%s2 = getelementptr <16 x i16>, <16 x i16>* %src, i32 1
%l2 = load <16 x i16>, <16 x i16>* %s2, align 4		%l2 = load <16 x i16>, <16 x i16>* %s2, align 4
%s3 = getelementptr <16 x i16>, <16 x i16>* %src, i32 2		%s3 = getelementptr <16 x i16>, <16 x i16>* %src, i32 2
▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines	entry:
%s = shufflevector <8 x i8> %t1, <8 x i8> %t2, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>		%s = shufflevector <8 x i8> %t1, <8 x i8> %t2, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>
store <12 x i8> %s, <12 x i8> *%dst		store <12 x i8> %s, <12 x i8> *%dst
ret void		ret void
}		}

define void @vst3_v8i8(<8 x i8> %src, <24 x i8> %dst) {		define void @vst3_v8i8(<8 x i8> %src, <24 x i8> %dst) {
; CHECK-LABEL: vst3_v8i8:		; CHECK-LABEL: vst3_v8i8:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11}		; CHECK-NEXT: .vsave {d8, d9}
; CHECK-NEXT: vpush {d8, d9, d10, d11}		; CHECK-NEXT: vpush {d8, d9}
; CHECK-NEXT: vldrb.u16 q1, [r0, #8]		; CHECK-NEXT: vldrb.u16 q1, [r0, #8]
; CHECK-NEXT: vldrb.u16 q2, [r0, #16]		; CHECK-NEXT: vldrb.u16 q2, [r0, #16]
; CHECK-NEXT: vldrb.u16 q3, [r0]		; CHECK-NEXT: vldrb.u16 q3, [r0]
; CHECK-NEXT: vmov.u16 r2, q1[5]		; CHECK-NEXT: vmov.u16 r2, q1[5]
; CHECK-NEXT: vmov.16 q0[0], r2		; CHECK-NEXT: vmov.16 q0[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov.u16 r2, q2[5]
; CHECK-NEXT: vmov.16 q0[1], r2		; CHECK-NEXT: vmov.16 q0[1], r2
; CHECK-NEXT: vmov.u16 r2, q1[7]		; CHECK-NEXT: vmov.u16 r2, q1[7]
; CHECK-NEXT: vins.f16 s1, s7		; CHECK-NEXT: vins.f16 s1, s7
; CHECK-NEXT: vmov.f32 s17, s15		; CHECK-NEXT: vmov.u16 r0, q3[6]
; CHECK-NEXT: vmov.16 q0[6], r2		; CHECK-NEXT: vmov.16 q0[6], r2
; CHECK-NEXT: vmov.u16 r2, q2[7]		; CHECK-NEXT: vmov.u16 r2, q2[7]
; CHECK-NEXT: vmov.16 q0[7], r2		; CHECK-NEXT: vmov.16 q0[7], r2
; CHECK-NEXT: vmov.f32 s18, s15		; CHECK-NEXT: vmov.16 q4[2], r0
; CHECK-NEXT: vmov.f32 s2, s11		; CHECK-NEXT: vmov.f32 s2, s11
; CHECK-NEXT: vmov.u16 r0, q4[2]
; CHECK-NEXT: vmov.16 q5[2], r0
; CHECK-NEXT: vmov.u16 r2, q0[3]		; CHECK-NEXT: vmov.u16 r2, q0[3]
; CHECK-NEXT: vmov.16 q5[3], r2
; CHECK-NEXT: vmov.u16 r0, q0[4]		; CHECK-NEXT: vmov.u16 r0, q0[4]
; CHECK-NEXT: vmov.16 q5[4], r0		; CHECK-NEXT: vmov.16 q4[3], r2
; CHECK-NEXT: vmov.u16 r0, q4[5]		; CHECK-NEXT: vmov.16 q4[4], r0
; CHECK-NEXT: vmov.16 q5[5], r0		; CHECK-NEXT: vmov.u16 r0, q3[7]
		; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vmov.u16 r0, q3[0]		; CHECK-NEXT: vmov.u16 r0, q3[0]
		; CHECK-NEXT: vmov.f32 s1, s17
		; CHECK-NEXT: vmov.f32 s2, s18
; CHECK-NEXT: vmov.8 q4[0], r0		; CHECK-NEXT: vmov.8 q4[0], r0
; CHECK-NEXT: vmov.u16 r0, q1[0]		; CHECK-NEXT: vmov.u16 r0, q1[0]
		; CHECK-NEXT: vstrb.16 q0, [r1, #16]
; CHECK-NEXT: vmov.8 q4[1], r0		; CHECK-NEXT: vmov.8 q4[1], r0
; CHECK-NEXT: vmov.u16 r0, q2[0]		; CHECK-NEXT: vmov.u16 r0, q2[0]
; CHECK-NEXT: vmov.8 q4[2], r0		; CHECK-NEXT: vmov.8 q4[2], r0
; CHECK-NEXT: vmov.u16 r0, q3[1]		; CHECK-NEXT: vmov.u16 r0, q3[1]
; CHECK-NEXT: vmov.8 q4[3], r0		; CHECK-NEXT: vmov.8 q4[3], r0
; CHECK-NEXT: vmov.u16 r0, q1[1]		; CHECK-NEXT: vmov.u16 r0, q1[1]
; CHECK-NEXT: vmov.8 q4[4], r0		; CHECK-NEXT: vmov.8 q4[4], r0
; CHECK-NEXT: vmov.u16 r0, q2[1]		; CHECK-NEXT: vmov.u16 r0, q2[1]
Show All 10 Lines
; CHECK-NEXT: vmov.8 q4[10], r0		; CHECK-NEXT: vmov.8 q4[10], r0
; CHECK-NEXT: vmov.u16 r0, q2[3]		; CHECK-NEXT: vmov.u16 r0, q2[3]
; CHECK-NEXT: vmov.8 q4[11], r0		; CHECK-NEXT: vmov.8 q4[11], r0
; CHECK-NEXT: vmov.u16 r0, q3[4]		; CHECK-NEXT: vmov.u16 r0, q3[4]
; CHECK-NEXT: vmov.8 q4[12], r0		; CHECK-NEXT: vmov.8 q4[12], r0
; CHECK-NEXT: vmov.u16 r0, q1[4]		; CHECK-NEXT: vmov.u16 r0, q1[4]
; CHECK-NEXT: vmov.8 q4[13], r0		; CHECK-NEXT: vmov.8 q4[13], r0
; CHECK-NEXT: vmov.u16 r0, q2[4]		; CHECK-NEXT: vmov.u16 r0, q2[4]
; CHECK-NEXT: vmov.f32 s1, s21
; CHECK-NEXT: vmov.8 q4[14], r0		; CHECK-NEXT: vmov.8 q4[14], r0
; CHECK-NEXT: vmov.u16 r0, q3[5]		; CHECK-NEXT: vmov.u16 r0, q3[5]
; CHECK-NEXT: vmov.f32 s2, s22
; CHECK-NEXT: vmov.8 q4[15], r0		; CHECK-NEXT: vmov.8 q4[15], r0
; CHECK-NEXT: vstrb.16 q0, [r1, #16]
; CHECK-NEXT: vstrw.32 q4, [r1]		; CHECK-NEXT: vstrw.32 q4, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11}		; CHECK-NEXT: vpop {d8, d9}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <8 x i8>, <8 x i8>* %src, i32 0		%s1 = getelementptr <8 x i8>, <8 x i8>* %src, i32 0
%l1 = load <8 x i8>, <8 x i8>* %s1, align 4		%l1 = load <8 x i8>, <8 x i8>* %s1, align 4
%s2 = getelementptr <8 x i8>, <8 x i8>* %src, i32 1		%s2 = getelementptr <8 x i8>, <8 x i8>* %src, i32 1
%l2 = load <8 x i8>, <8 x i8>* %s2, align 4		%l2 = load <8 x i8>, <8 x i8>* %s2, align 4
%s3 = getelementptr <8 x i8>, <8 x i8>* %src, i32 2		%s3 = getelementptr <8 x i8>, <8 x i8>* %src, i32 2
%l3 = load <8 x i8>, <8 x i8>* %s3, align 4		%l3 = load <8 x i8>, <8 x i8>* %s3, align 4
%t1 = shufflevector <8 x i8> %l1, <8 x i8> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>		%t1 = shufflevector <8 x i8> %l1, <8 x i8> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
%t2 = shufflevector <8 x i8> %l3, <8 x i8> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%t2 = shufflevector <8 x i8> %l3, <8 x i8> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%s = shufflevector <16 x i8> %t1, <16 x i8> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>		%s = shufflevector <16 x i8> %t1, <16 x i8> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>
store <24 x i8> %s, <24 x i8> *%dst		store <24 x i8> %s, <24 x i8> *%dst
ret void		ret void
}		}

define void @vst3_v16i8(<16 x i8> %src, <48 x i8> %dst) {		define void @vst3_v16i8(<16 x i8> %src, <48 x i8> %dst) {
; CHECK-LABEL: vst3_v16i8:		; CHECK-LABEL: vst3_v16i8:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11}
		; CHECK-NEXT: vldrw.u32 q0, [r0, #16]
		; CHECK-NEXT: vldrw.u32 q2, [r0, #32]
; CHECK-NEXT: vldrw.u32 q3, [r0]		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]		; CHECK-NEXT: vmov.u8 r2, q0[5]
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]		; CHECK-NEXT: vmov.8 q4[0], r2
; CHECK-NEXT: vmov.u8 r3, q3[0]		; CHECK-NEXT: vmov.u8 r2, q2[5]
; CHECK-NEXT: vmov.u8 r0, q2[0]		; CHECK-NEXT: vmov.8 q4[1], r2
; CHECK-NEXT: vmov.8 q5[0], r3		; CHECK-NEXT: vmov.u8 r2, q0[6]
; CHECK-NEXT: vmov.u8 r2, q1[0]		; CHECK-NEXT: vmov.8 q4[3], r2
		; CHECK-NEXT: vmov.u8 r2, q2[6]
		; CHECK-NEXT: vmov.8 q4[4], r2
		; CHECK-NEXT: vmov.u8 r2, q0[7]
		; CHECK-NEXT: vmov.8 q4[6], r2
		; CHECK-NEXT: vmov.u8 r2, q2[7]
		; CHECK-NEXT: vmov.8 q4[7], r2
		; CHECK-NEXT: vmov.u8 r2, q0[8]
		; CHECK-NEXT: vmov.8 q4[9], r2
		; CHECK-NEXT: vmov.u8 r2, q2[8]
		; CHECK-NEXT: vmov.8 q4[10], r2
		; CHECK-NEXT: vmov.u8 r2, q0[9]
		; CHECK-NEXT: vmov.8 q4[12], r2
		; CHECK-NEXT: vmov.u8 r2, q2[9]
		; CHECK-NEXT: vmov.8 q4[13], r2
		; CHECK-NEXT: vmov.u8 r2, q0[10]
		; CHECK-NEXT: vmov.8 q4[15], r2
		; CHECK-NEXT: vmov.u8 r0, q3[6]
		; CHECK-NEXT: vmov.u8 r2, q4[0]
		; CHECK-NEXT: vmov.8 q1[0], r2
		; CHECK-NEXT: vmov.u8 r2, q4[1]
		; CHECK-NEXT: vmov.8 q1[1], r2
		; CHECK-NEXT: vmov.8 q1[2], r0
		; CHECK-NEXT: vmov.u8 r0, q4[3]
		; CHECK-NEXT: vmov.8 q1[3], r0
		; CHECK-NEXT: vmov.u8 r0, q4[4]
		; CHECK-NEXT: vmov.8 q1[4], r0
		; CHECK-NEXT: vmov.u8 r0, q3[7]
		; CHECK-NEXT: vmov.8 q1[5], r0
		; CHECK-NEXT: vmov.u8 r0, q4[6]
		; CHECK-NEXT: vmov.8 q1[6], r0
		; CHECK-NEXT: vmov.u8 r0, q4[7]
		; CHECK-NEXT: vmov.8 q1[7], r0
		; CHECK-NEXT: vmov.u8 r0, q3[8]
		; CHECK-NEXT: vmov.8 q1[8], r0
		; CHECK-NEXT: vmov.u8 r0, q4[9]
		; CHECK-NEXT: vmov.8 q1[9], r0
		; CHECK-NEXT: vmov.u8 r0, q4[10]
		; CHECK-NEXT: vmov.8 q1[10], r0
		; CHECK-NEXT: vmov.u8 r0, q3[9]
		; CHECK-NEXT: vmov.8 q1[11], r0
		; CHECK-NEXT: vmov.u8 r0, q4[12]
		; CHECK-NEXT: vmov.8 q1[12], r0
		; CHECK-NEXT: vmov.u8 r0, q4[13]
		; CHECK-NEXT: vmov.8 q1[13], r0
		; CHECK-NEXT: vmov.u8 r0, q3[10]
		; CHECK-NEXT: vmov.8 q1[14], r0
		; CHECK-NEXT: vmov.u8 r0, q4[15]
		; CHECK-NEXT: vmov.8 q1[15], r0
		; CHECK-NEXT: vmov.u8 r0, q3[0]
		; CHECK-NEXT: vmov.8 q5[0], r0
		; CHECK-NEXT: vmov.u8 r0, q0[0]
; CHECK-NEXT: vmov.8 q5[1], r0		; CHECK-NEXT: vmov.8 q5[1], r0
; CHECK-NEXT: vmov.u8 r0, q3[1]		; CHECK-NEXT: vmov.u8 r0, q3[1]
; CHECK-NEXT: vmov.8 q5[3], r0		; CHECK-NEXT: vmov.8 q5[3], r0
; CHECK-NEXT: vmov.u8 r0, q2[1]		; CHECK-NEXT: vmov.u8 r0, q0[1]
; CHECK-NEXT: vmov.8 q5[4], r0		; CHECK-NEXT: vmov.8 q5[4], r0
; CHECK-NEXT: vmov.u8 r0, q3[2]		; CHECK-NEXT: vmov.u8 r0, q3[2]
; CHECK-NEXT: vmov.8 q5[6], r0		; CHECK-NEXT: vmov.8 q5[6], r0
; CHECK-NEXT: vmov.u8 r0, q2[2]		; CHECK-NEXT: vmov.u8 r0, q0[2]
; CHECK-NEXT: vmov.8 q5[7], r0		; CHECK-NEXT: vmov.8 q5[7], r0
; CHECK-NEXT: vmov.u8 r0, q3[3]		; CHECK-NEXT: vmov.u8 r0, q3[3]
; CHECK-NEXT: vmov.8 q5[9], r0		; CHECK-NEXT: vmov.8 q5[9], r0
; CHECK-NEXT: vmov.u8 r0, q2[3]		; CHECK-NEXT: vmov.u8 r0, q0[3]
; CHECK-NEXT: vmov.8 q5[10], r0		; CHECK-NEXT: vmov.8 q5[10], r0
; CHECK-NEXT: vmov.u8 r0, q3[4]		; CHECK-NEXT: vmov.u8 r0, q3[4]
; CHECK-NEXT: vmov.8 q4[2], r2
; CHECK-NEXT: vmov.u8 r2, q1[2]
; CHECK-NEXT: vmov.8 q5[12], r0		; CHECK-NEXT: vmov.8 q5[12], r0
; CHECK-NEXT: vmov.u8 r0, q2[4]		; CHECK-NEXT: vmov.u8 r0, q0[4]
; CHECK-NEXT: vmov.8 q4[8], r2
; CHECK-NEXT: vmov.u8 r2, q1[3]
; CHECK-NEXT: vmov.8 q5[13], r0		; CHECK-NEXT: vmov.8 q5[13], r0
; CHECK-NEXT: vmov.u8 r0, q3[5]		; CHECK-NEXT: vmov.u8 r0, q3[5]
; CHECK-NEXT: vmov.8 q5[15], r0		; CHECK-NEXT: vmov.8 q5[15], r0
; CHECK-NEXT: vmov.8 q4[11], r2		; CHECK-NEXT: vstrw.32 q1, [r1, #16]
; CHECK-NEXT: vmov.u8 r2, q1[4]
; CHECK-NEXT: vmov.u8 r0, q5[0]
; CHECK-NEXT: vmov.8 q4[14], r2
; CHECK-NEXT: vmov.8 q0[0], r0
; CHECK-NEXT: vmov.f32 s17, s4
; CHECK-NEXT: vmov.u8 r0, q5[1]
; CHECK-NEXT: vmov.8 q0[1], r0
; CHECK-NEXT: vmov.u8 r2, q4[2]
; CHECK-NEXT: vmov.8 q0[2], r2
; CHECK-NEXT: vmov.u8 r0, q5[3]
; CHECK-NEXT: vmov.8 q0[3], r0
; CHECK-NEXT: vmov.u8 r0, q5[4]
; CHECK-NEXT: vmov.8 q0[4], r0
; CHECK-NEXT: vmov.u8 r0, q4[5]
; CHECK-NEXT: vmov.8 q0[5], r0
; CHECK-NEXT: vmov.u8 r0, q5[6]
; CHECK-NEXT: vmov.8 q0[6], r0
; CHECK-NEXT: vmov.u8 r0, q5[7]
; CHECK-NEXT: vmov.8 q0[7], r0
; CHECK-NEXT: vmov.u8 r0, q4[8]
; CHECK-NEXT: vmov.8 q0[8], r0
; CHECK-NEXT: vmov.u8 r0, q5[9]
; CHECK-NEXT: vmov.8 q0[9], r0
; CHECK-NEXT: vmov.u8 r0, q5[10]
; CHECK-NEXT: vmov.8 q0[10], r0
; CHECK-NEXT: vmov.u8 r0, q4[11]
; CHECK-NEXT: vmov.8 q0[11], r0
; CHECK-NEXT: vmov.u8 r0, q5[12]
; CHECK-NEXT: vmov.8 q0[12], r0
; CHECK-NEXT: vmov.u8 r0, q5[13]
; CHECK-NEXT: vmov.8 q0[13], r0
; CHECK-NEXT: vmov.u8 r0, q4[14]
; CHECK-NEXT: vmov.8 q0[14], r0
; CHECK-NEXT: vmov.u8 r0, q5[15]
; CHECK-NEXT: vmov.8 q0[15], r0
; CHECK-NEXT: vmov.u8 r0, q2[5]
; CHECK-NEXT: vmov.8 q5[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[5]
; CHECK-NEXT: vmov.8 q5[1], r0
; CHECK-NEXT: vmov.u8 r0, q2[6]
; CHECK-NEXT: vmov.8 q5[3], r0
; CHECK-NEXT: vmov.u8 r0, q1[6]
; CHECK-NEXT: vmov.8 q5[4], r0
; CHECK-NEXT: vmov.u8 r0, q2[7]
; CHECK-NEXT: vmov.8 q5[6], r0
; CHECK-NEXT: vmov.u8 r0, q1[7]
; CHECK-NEXT: vmov.8 q5[7], r0
; CHECK-NEXT: vmov.u8 r0, q2[8]
; CHECK-NEXT: vmov.8 q5[9], r0
; CHECK-NEXT: vmov.u8 r0, q1[8]
; CHECK-NEXT: vmov.8 q5[10], r0
; CHECK-NEXT: vmov.u8 r0, q2[9]
; CHECK-NEXT: vmov.8 q5[12], r0
; CHECK-NEXT: vmov.u8 r0, q1[9]
; CHECK-NEXT: vmov.8 q5[13], r0
; CHECK-NEXT: vmov.u8 r0, q2[10]
; CHECK-NEXT: vmov.8 q5[15], r0
; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vmov.u8 r0, q5[0]		; CHECK-NEXT: vmov.u8 r0, q5[0]
; CHECK-NEXT: vmov.8 q4[0], r0		; CHECK-NEXT: vmov.8 q4[0], r0
; CHECK-NEXT: vmov.u8 r0, q5[1]		; CHECK-NEXT: vmov.u8 r0, q5[1]
; CHECK-NEXT: vmov.8 q4[1], r0		; CHECK-NEXT: vmov.8 q4[1], r0
; CHECK-NEXT: vmov.u8 r0, q3[7]		; CHECK-NEXT: vmov.u8 r0, q2[0]
; CHECK-NEXT: vmov.8 q6[5], r0
; CHECK-NEXT: vmov.u8 r0, q3[8]
; CHECK-NEXT: vmov.8 q6[8], r0
; CHECK-NEXT: vmov.u8 r0, q3[9]
; CHECK-NEXT: vmov.8 q6[11], r0
; CHECK-NEXT: vmov.f32 s24, s13
; CHECK-NEXT: vmov.f32 s27, s14
; CHECK-NEXT: vmov.u8 r0, q6[2]
; CHECK-NEXT: vmov.8 q4[2], r0		; CHECK-NEXT: vmov.8 q4[2], r0
; CHECK-NEXT: vmov.u8 r0, q5[3]		; CHECK-NEXT: vmov.u8 r0, q5[3]
; CHECK-NEXT: vmov.8 q4[3], r0		; CHECK-NEXT: vmov.8 q4[3], r0
; CHECK-NEXT: vmov.u8 r0, q5[4]		; CHECK-NEXT: vmov.u8 r0, q5[4]
; CHECK-NEXT: vmov.8 q4[4], r0		; CHECK-NEXT: vmov.8 q4[4], r0
; CHECK-NEXT: vmov.u8 r0, q6[5]		; CHECK-NEXT: vmov.u8 r0, q2[1]
; CHECK-NEXT: vmov.8 q4[5], r0		; CHECK-NEXT: vmov.8 q4[5], r0
; CHECK-NEXT: vmov.u8 r0, q5[6]		; CHECK-NEXT: vmov.u8 r0, q5[6]
; CHECK-NEXT: vmov.8 q4[6], r0		; CHECK-NEXT: vmov.8 q4[6], r0
; CHECK-NEXT: vmov.u8 r0, q5[7]		; CHECK-NEXT: vmov.u8 r0, q5[7]
; CHECK-NEXT: vmov.8 q4[7], r0		; CHECK-NEXT: vmov.8 q4[7], r0
; CHECK-NEXT: vmov.u8 r0, q6[8]		; CHECK-NEXT: vmov.u8 r0, q2[2]
; CHECK-NEXT: vmov.8 q4[8], r0		; CHECK-NEXT: vmov.8 q4[8], r0
; CHECK-NEXT: vmov.u8 r0, q5[9]		; CHECK-NEXT: vmov.u8 r0, q5[9]
; CHECK-NEXT: vmov.8 q4[9], r0		; CHECK-NEXT: vmov.8 q4[9], r0
; CHECK-NEXT: vmov.u8 r0, q5[10]		; CHECK-NEXT: vmov.u8 r0, q5[10]
; CHECK-NEXT: vmov.8 q4[10], r0		; CHECK-NEXT: vmov.8 q4[10], r0
; CHECK-NEXT: vmov.u8 r0, q6[11]		; CHECK-NEXT: vmov.u8 r0, q2[3]
; CHECK-NEXT: vmov.8 q4[11], r0		; CHECK-NEXT: vmov.8 q4[11], r0
; CHECK-NEXT: vmov.u8 r0, q5[12]		; CHECK-NEXT: vmov.u8 r0, q5[12]
; CHECK-NEXT: vmov.8 q4[12], r0		; CHECK-NEXT: vmov.8 q4[12], r0
; CHECK-NEXT: vmov.u8 r0, q5[13]		; CHECK-NEXT: vmov.u8 r0, q5[13]
; CHECK-NEXT: vmov.8 q4[13], r0		; CHECK-NEXT: vmov.8 q4[13], r0
; CHECK-NEXT: vmov.u8 r0, q6[14]		; CHECK-NEXT: vmov.u8 r0, q2[4]
; CHECK-NEXT: vmov.8 q4[14], r0		; CHECK-NEXT: vmov.8 q4[14], r0
; CHECK-NEXT: vmov.u8 r0, q5[15]		; CHECK-NEXT: vmov.u8 r0, q5[15]
; CHECK-NEXT: vmov.8 q4[15], r0		; CHECK-NEXT: vmov.8 q4[15], r0
; CHECK-NEXT: vmov.u8 r0, q1[10]		; CHECK-NEXT: vmov.u8 r0, q2[10]
; CHECK-NEXT: vmov.8 q5[0], r0		; CHECK-NEXT: vmov.8 q5[0], r0
; CHECK-NEXT: vmov.u8 r0, q3[11]		; CHECK-NEXT: vmov.u8 r0, q3[11]
; CHECK-NEXT: vmov.8 q5[1], r0		; CHECK-NEXT: vmov.8 q5[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[11]		; CHECK-NEXT: vmov.u8 r0, q2[11]
; CHECK-NEXT: vmov.8 q5[3], r0		; CHECK-NEXT: vmov.8 q5[3], r0
; CHECK-NEXT: vmov.u8 r0, q3[12]		; CHECK-NEXT: vmov.u8 r0, q3[12]
; CHECK-NEXT: vmov.8 q5[4], r0		; CHECK-NEXT: vmov.8 q5[4], r0
; CHECK-NEXT: vmov.u8 r0, q1[12]		; CHECK-NEXT: vmov.u8 r0, q2[12]
; CHECK-NEXT: vmov.8 q5[6], r0		; CHECK-NEXT: vmov.8 q5[6], r0
; CHECK-NEXT: vmov.u8 r0, q3[13]		; CHECK-NEXT: vmov.u8 r0, q3[13]
; CHECK-NEXT: vmov.8 q5[7], r0		; CHECK-NEXT: vmov.8 q5[7], r0
; CHECK-NEXT: vmov.u8 r0, q1[13]		; CHECK-NEXT: vmov.u8 r0, q2[13]
; CHECK-NEXT: vmov.8 q5[9], r0		; CHECK-NEXT: vmov.8 q5[9], r0
; CHECK-NEXT: vmov.u8 r0, q3[14]		; CHECK-NEXT: vmov.u8 r0, q3[14]
; CHECK-NEXT: vmov.8 q5[10], r0		; CHECK-NEXT: vmov.8 q5[10], r0
; CHECK-NEXT: vmov.u8 r0, q1[14]		; CHECK-NEXT: vmov.u8 r0, q2[14]
; CHECK-NEXT: vmov.8 q5[12], r0		; CHECK-NEXT: vmov.8 q5[12], r0
; CHECK-NEXT: vmov.u8 r0, q3[15]		; CHECK-NEXT: vmov.u8 r0, q3[15]
; CHECK-NEXT: vmov.8 q5[13], r0		; CHECK-NEXT: vmov.8 q5[13], r0
; CHECK-NEXT: vmov.u8 r0, q1[15]		; CHECK-NEXT: vmov.u8 r0, q2[15]
; CHECK-NEXT: vmov.8 q5[15], r0		; CHECK-NEXT: vmov.8 q5[15], r0
; CHECK-NEXT: vstrw.32 q4, [r1, #16]		; CHECK-NEXT: vstrw.32 q4, [r1]
; CHECK-NEXT: vmov.u8 r0, q5[0]		; CHECK-NEXT: vmov.u8 r0, q5[0]
; CHECK-NEXT: vmov.8 q1[0], r0		; CHECK-NEXT: vmov.8 q2[0], r0
; CHECK-NEXT: vmov.u8 r0, q5[1]		; CHECK-NEXT: vmov.u8 r0, q5[1]
; CHECK-NEXT: vmov.8 q1[1], r0		; CHECK-NEXT: vmov.8 q2[1], r0
; CHECK-NEXT: vmov.u8 r0, q2[11]		; CHECK-NEXT: vmov.u8 r0, q0[11]
; CHECK-NEXT: vmov.8 q3[2], r0		; CHECK-NEXT: vmov.8 q2[2], r0
; CHECK-NEXT: vmov.u8 r0, q2[12]
; CHECK-NEXT: vmov.8 q3[5], r0
; CHECK-NEXT: vmov.u8 r0, q2[13]
; CHECK-NEXT: vmov.8 q3[8], r0
; CHECK-NEXT: vmov.u8 r0, q2[14]
; CHECK-NEXT: vmov.8 q3[11], r0
; CHECK-NEXT: vmov.u8 r0, q2[15]
; CHECK-NEXT: vmov.8 q3[14], r0
; CHECK-NEXT: vmov.u8 r0, q3[2]
; CHECK-NEXT: vmov.8 q1[2], r0
; CHECK-NEXT: vmov.u8 r0, q5[3]		; CHECK-NEXT: vmov.u8 r0, q5[3]
; CHECK-NEXT: vmov.8 q1[3], r0		; CHECK-NEXT: vmov.8 q2[3], r0
; CHECK-NEXT: vmov.u8 r0, q5[4]		; CHECK-NEXT: vmov.u8 r0, q5[4]
; CHECK-NEXT: vmov.8 q1[4], r0		; CHECK-NEXT: vmov.8 q2[4], r0
; CHECK-NEXT: vmov.u8 r0, q3[5]		; CHECK-NEXT: vmov.u8 r0, q0[12]
; CHECK-NEXT: vmov.8 q1[5], r0		; CHECK-NEXT: vmov.8 q2[5], r0
; CHECK-NEXT: vmov.u8 r0, q5[6]		; CHECK-NEXT: vmov.u8 r0, q5[6]
; CHECK-NEXT: vmov.8 q1[6], r0		; CHECK-NEXT: vmov.8 q2[6], r0
; CHECK-NEXT: vmov.u8 r0, q5[7]		; CHECK-NEXT: vmov.u8 r0, q5[7]
; CHECK-NEXT: vmov.8 q1[7], r0		; CHECK-NEXT: vmov.8 q2[7], r0
; CHECK-NEXT: vmov.u8 r0, q3[8]		; CHECK-NEXT: vmov.u8 r0, q0[13]
; CHECK-NEXT: vmov.8 q1[8], r0		; CHECK-NEXT: vmov.8 q2[8], r0
; CHECK-NEXT: vmov.u8 r0, q5[9]		; CHECK-NEXT: vmov.u8 r0, q5[9]
; CHECK-NEXT: vmov.8 q1[9], r0		; CHECK-NEXT: vmov.8 q2[9], r0
; CHECK-NEXT: vmov.u8 r0, q5[10]		; CHECK-NEXT: vmov.u8 r0, q5[10]
; CHECK-NEXT: vmov.8 q1[10], r0		; CHECK-NEXT: vmov.8 q2[10], r0
; CHECK-NEXT: vmov.u8 r0, q3[11]		; CHECK-NEXT: vmov.u8 r0, q0[14]
; CHECK-NEXT: vmov.8 q1[11], r0		; CHECK-NEXT: vmov.8 q2[11], r0
; CHECK-NEXT: vmov.u8 r0, q5[12]		; CHECK-NEXT: vmov.u8 r0, q5[12]
; CHECK-NEXT: vmov.8 q1[12], r0		; CHECK-NEXT: vmov.8 q2[12], r0
; CHECK-NEXT: vmov.u8 r0, q5[13]		; CHECK-NEXT: vmov.u8 r0, q5[13]
; CHECK-NEXT: vmov.8 q1[13], r0		; CHECK-NEXT: vmov.8 q2[13], r0
; CHECK-NEXT: vmov.u8 r0, q3[14]		; CHECK-NEXT: vmov.u8 r0, q0[15]
; CHECK-NEXT: vmov.8 q1[14], r0		; CHECK-NEXT: vmov.8 q2[14], r0
; CHECK-NEXT: vmov.u8 r0, q5[15]		; CHECK-NEXT: vmov.u8 r0, q5[15]
; CHECK-NEXT: vmov.8 q1[15], r0		; CHECK-NEXT: vmov.8 q2[15], r0
; CHECK-NEXT: vstrw.32 q1, [r1, #32]		; CHECK-NEXT: vstrw.32 q2, [r1, #32]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <16 x i8>, <16 x i8>* %src, i32 0		%s1 = getelementptr <16 x i8>, <16 x i8>* %src, i32 0
%l1 = load <16 x i8>, <16 x i8>* %s1, align 4		%l1 = load <16 x i8>, <16 x i8>* %s1, align 4
%s2 = getelementptr <16 x i8>, <16 x i8>* %src, i32 1		%s2 = getelementptr <16 x i8>, <16 x i8>* %src, i32 1
%l2 = load <16 x i8>, <16 x i8>* %s2, align 4		%l2 = load <16 x i8>, <16 x i8>* %s2, align 4
%s3 = getelementptr <16 x i8>, <16 x i8>* %src, i32 2		%s3 = getelementptr <16 x i8>, <16 x i8>* %src, i32 2
%l3 = load <16 x i8>, <16 x i8>* %s3, align 4		%l3 = load <16 x i8>, <16 x i8>* %s3, align 4
▲ Show 20 Lines • Show All 426 Lines • ▼ Show 20 Lines	entry:
%s = shufflevector <8 x half> %t1, <8 x half> %t2, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>		%s = shufflevector <8 x half> %t1, <8 x half> %t2, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>
store <12 x half> %s, <12 x half> *%dst		store <12 x half> %s, <12 x half> *%dst
ret void		ret void
}		}

define void @vst3_v8f16(<8 x half> %src, <24 x half> %dst) {		define void @vst3_v8f16(<8 x half> %src, <24 x half> %dst) {
; CHECK-LABEL: vst3_v8f16:		; CHECK-LABEL: vst3_v8f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14}		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14}		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]		; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
; CHECK-NEXT: vldrw.u32 q3, [r0]		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]		; CHECK-NEXT: vldrw.u32 q2, [r0, #32]
; CHECK-NEXT: vmovx.f16 s0, s8		; CHECK-NEXT: vmovx.f16 s0, s4
; CHECK-NEXT: vmovx.f16 s20, s12		; CHECK-NEXT: vmovx.f16 s16, s12
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmovx.f16 s24, s6		; CHECK-NEXT: vmovx.f16 s18, s8
; CHECK-NEXT: vmov.f64 d0, d6		; CHECK-NEXT: vmov.f64 d0, d6
; CHECK-NEXT: vins.f16 s0, s8		; CHECK-NEXT: vins.f16 s8, s16
; CHECK-NEXT: vmov.f32 s17, s4		; CHECK-NEXT: vmovx.f16 s20, s10
		; CHECK-NEXT: vmovx.f16 s22, s15
		; CHECK-NEXT: vins.f16 s0, s4
		; CHECK-NEXT: vmov r0, s7
; CHECK-NEXT: vmov.16 q0[4], r2		; CHECK-NEXT: vmov.16 q0[4], r2
; CHECK-NEXT: vmov.f32 s18, s4
; CHECK-NEXT: vmov.f32 s3, s13		; CHECK-NEXT: vmov.f32 s3, s13
; CHECK-NEXT: vins.f16 s17, s20		; CHECK-NEXT: vins.f16 s3, s5
; CHECK-NEXT: vins.f16 s3, s9
; CHECK-NEXT: vmovx.f16 s20, s18
; CHECK-NEXT: vmov.f32 s1, s12		; CHECK-NEXT: vmov.f32 s1, s12
; CHECK-NEXT: vins.f16 s2, s20		; CHECK-NEXT: vmov.f32 s1, s8
; CHECK-NEXT: vmovx.f16 s20, s10		; CHECK-NEXT: vins.f16 s2, s18
; CHECK-NEXT: vins.f16 s20, s24		; CHECK-NEXT: vmovx.f16 s16, s6
; CHECK-NEXT: vmov r0, s11		; CHECK-NEXT: vins.f16 s16, s20
; CHECK-NEXT: vmov.16 q5[3], r0		; CHECK-NEXT: vmovx.f16 s20, s11
; CHECK-NEXT: vmovx.f16 s24, s7		; CHECK-NEXT: vmov.16 q4[3], r0
; CHECK-NEXT: vmovx.f16 s23, s11
; CHECK-NEXT: vrev32.16 q2, q2
; CHECK-NEXT: vins.f16 s23, s24
; CHECK-NEXT: vmov.f32 s25, s15
; CHECK-NEXT: vmov.f32 s22, s7
; CHECK-NEXT: vmovx.f16 s28, s21
; CHECK-NEXT: vmov.f32 s26, s15
; CHECK-NEXT: vins.f16 s25, s28
; CHECK-NEXT: vmovx.f16 s28, s26
; CHECK-NEXT: vins.f16 s22, s28
; CHECK-NEXT: vmovx.f16 s28, s13
; CHECK-NEXT: vmov.f32 s4, s5
; CHECK-NEXT: vins.f16 s4, s28
; CHECK-NEXT: vmovx.f16 s28, s14
; CHECK-NEXT: vins.f16 s6, s28
; CHECK-NEXT: vmov.f32 s18, s2
; CHECK-NEXT: vmov.f32 s7, s6
; CHECK-NEXT: vmov.f32 s6, s14
; CHECK-NEXT: vmovx.f16 s12, s5
; CHECK-NEXT: vins.f16 s9, s12
; CHECK-NEXT: vmovx.f16 s12, s10
; CHECK-NEXT: vins.f16 s6, s12
; CHECK-NEXT: vmov.f32 s26, s22
; CHECK-NEXT: vmov.f32 s10, s6
; CHECK-NEXT: vmov.f32 s1, s17
; CHECK-NEXT: vmov.f32 s21, s25
; CHECK-NEXT: vmov.f32 s5, s9
; CHECK-NEXT: vmov.f32 s2, s18
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vmov.f32 s22, s26		; CHECK-NEXT: vmovx.f16 s19, s7
; CHECK-NEXT: vmov.f32 s6, s10		; CHECK-NEXT: vins.f16 s19, s20
; CHECK-NEXT: vstrw.32 q5, [r1, #32]		; CHECK-NEXT: vmov.f32 s18, s11
; CHECK-NEXT: vstrw.32 q1, [r1, #16]		; CHECK-NEXT: vmovx.f16 s20, s17
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14}		; CHECK-NEXT: vins.f16 s15, s20
		; CHECK-NEXT: vmovx.f16 s20, s13
		; CHECK-NEXT: vmov.f32 s8, s9
		; CHECK-NEXT: vins.f16 s8, s20
		; CHECK-NEXT: vmovx.f16 s20, s14
		; CHECK-NEXT: vins.f16 s10, s20
		; CHECK-NEXT: vmov.f32 s17, s15
		; CHECK-NEXT: vmov.f32 s11, s10
		; CHECK-NEXT: vins.f16 s18, s22
		; CHECK-NEXT: vmov.f32 s10, s14
		; CHECK-NEXT: vmovx.f16 s12, s9
		; CHECK-NEXT: vmovx.f16 s9, s5
		; CHECK-NEXT: vstrw.32 q4, [r1, #32]
		; CHECK-NEXT: vins.f16 s9, s12
		; CHECK-NEXT: vins.f16 s10, s6
		; CHECK-NEXT: vstrw.32 q2, [r1, #16]
		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <8 x half>, <8 x half>* %src, i32 0		%s1 = getelementptr <8 x half>, <8 x half>* %src, i32 0
%l1 = load <8 x half>, <8 x half>* %s1, align 4		%l1 = load <8 x half>, <8 x half>* %s1, align 4
%s2 = getelementptr <8 x half>, <8 x half>* %src, i32 1		%s2 = getelementptr <8 x half>, <8 x half>* %src, i32 1
%l2 = load <8 x half>, <8 x half>* %s2, align 4		%l2 = load <8 x half>, <8 x half>* %s2, align 4
%s3 = getelementptr <8 x half>, <8 x half>* %src, i32 2		%s3 = getelementptr <8 x half>, <8 x half>* %src, i32 2
%l3 = load <8 x half>, <8 x half>* %s3, align 4		%l3 = load <8 x half>, <8 x half>* %s3, align 4
%t1 = shufflevector <8 x half> %l1, <8 x half> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>		%t1 = shufflevector <8 x half> %l1, <8 x half> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
%t2 = shufflevector <8 x half> %l3, <8 x half> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%t2 = shufflevector <8 x half> %l3, <8 x half> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%s = shufflevector <16 x half> %t1, <16 x half> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>		%s = shufflevector <16 x half> %t1, <16 x half> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>
store <24 x half> %s, <24 x half> *%dst		store <24 x half> %s, <24 x half> *%dst
ret void		ret void
}		}

define void @vst3_v16f16(<16 x half> %src, <48 x half> %dst) {		define void @vst3_v16f16(<16 x half> %src, <48 x half> %dst) {
; CHECK-LABEL: vst3_v16f16:		; CHECK-LABEL: vst3_v16f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: .pad #144		; CHECK-NEXT: .pad #64
; CHECK-NEXT: sub sp, #144		; CHECK-NEXT: sub sp, #64
; CHECK-NEXT: vldrw.u32 q2, [r0, #48]		; CHECK-NEXT: vldrw.u32 q3, [r0, #48]
; CHECK-NEXT: vldrw.u32 q5, [r0, #80]		; CHECK-NEXT: vldrw.u32 q1, [r0, #80]
; CHECK-NEXT: vldrw.u32 q7, [r0, #16]		; CHECK-NEXT: vldrw.u32 q5, [r0, #16]
; CHECK-NEXT: vldrw.u32 q4, [r0, #32]		; CHECK-NEXT: vmovx.f16 s0, s6
; CHECK-NEXT: vmovx.f16 s0, s22		; CHECK-NEXT: vmovx.f16 s8, s14
; CHECK-NEXT: vmovx.f16 s4, s10		; CHECK-NEXT: vins.f16 s8, s0
; CHECK-NEXT: vins.f16 s4, s0		; CHECK-NEXT: vmov r2, s15
; CHECK-NEXT: vmov r2, s11		; CHECK-NEXT: vmov q6, q3
; CHECK-NEXT: vmov.16 q1[3], r2		; CHECK-NEXT: vmov.16 q2[3], r2
; CHECK-NEXT: vmovx.f16 s0, s23		; CHECK-NEXT: vmovx.f16 s0, s7
; CHECK-NEXT: vmovx.f16 s7, s11		; CHECK-NEXT: vmovx.f16 s11, s27
; CHECK-NEXT: vstrw.32 q2, [sp, #112] @ 16-byte Spill		; CHECK-NEXT: vins.f16 s11, s0
; CHECK-NEXT: vins.f16 s7, s0		; CHECK-NEXT: vmovx.f16 s2, s23
; CHECK-NEXT: vmov.f32 s9, s31		; CHECK-NEXT: vmov.f32 s10, s7
; CHECK-NEXT: vmov.f32 s6, s23		; CHECK-NEXT: vmovx.f16 s0, s9
; CHECK-NEXT: vmovx.f16 s0, s5		; CHECK-NEXT: vins.f16 s23, s0
; CHECK-NEXT: vmov.f32 s10, s31		; CHECK-NEXT: vstrw.32 q6, [sp, #32] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q3, [r0]		; CHECK-NEXT: vmov.f32 s9, s23
; CHECK-NEXT: vins.f16 s9, s0		; CHECK-NEXT: vldrw.u32 q3, [r0, #64]
; CHECK-NEXT: vmovx.f16 s0, s10		; CHECK-NEXT: vins.f16 s10, s2
; CHECK-NEXT: vins.f16 s6, s0
; CHECK-NEXT: vmovx.f16 s0, s16
; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vldrw.u32 q6, [r0, #64]
; CHECK-NEXT: vmov.f64 d0, d6
; CHECK-NEXT: vstrw.32 q1, [sp, #128] @ 16-byte Spill
; CHECK-NEXT: vins.f16 s0, s16
; CHECK-NEXT: vmov.f32 s10, s6
; CHECK-NEXT: vmov.16 q0[4], r2
; CHECK-NEXT: vstrw.32 q2, [sp, #96] @ 16-byte Spill
; CHECK-NEXT: vmov.f32 s3, s13
; CHECK-NEXT: vmov.f32 s9, s24
; CHECK-NEXT: vins.f16 s3, s17
; CHECK-NEXT: vmov q1, q0
; CHECK-NEXT: vmovx.f16 s0, s12
; CHECK-NEXT: vmov.f32 s10, s24
; CHECK-NEXT: vins.f16 s9, s0
; CHECK-NEXT: vmov.f32 s5, s12
; CHECK-NEXT: vmovx.f16 s0, s10
; CHECK-NEXT: vins.f16 s6, s0
; CHECK-NEXT: vmov.f32 s10, s6
; CHECK-NEXT: vstrw.32 q1, [sp, #64] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q1, [sp, #112] @ 16-byte Reload
; CHECK-NEXT: vstrw.32 q2, [sp, #80] @ 16-byte Spill
; CHECK-NEXT: vmov.f32 s9, s20
; CHECK-NEXT: vmovx.f16 s0, s4
; CHECK-NEXT: vmov.f32 s10, s20
; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmov.f64 d0, d14
; CHECK-NEXT: vins.f16 s0, s4
; CHECK-NEXT: vmov.f32 s20, s21
; CHECK-NEXT: vmov.16 q0[4], r0
; CHECK-NEXT: vmov.f32 s3, s29
; CHECK-NEXT: vins.f16 s3, s5
; CHECK-NEXT: vmov q1, q0
; CHECK-NEXT: vmovx.f16 s0, s28
; CHECK-NEXT: vins.f16 s9, s0
; CHECK-NEXT: vmov.f32 s5, s28
; CHECK-NEXT: vmovx.f16 s0, s10
; CHECK-NEXT: vins.f16 s6, s0
; CHECK-NEXT: vmov.f32 s10, s6
; CHECK-NEXT: vstrw.32 q1, [sp, #32] @ 16-byte Spill
; CHECK-NEXT: vmov q1, q4
; CHECK-NEXT: vstrw.32 q2, [sp, #48] @ 16-byte Spill		; CHECK-NEXT: vstrw.32 q2, [sp, #48] @ 16-byte Spill
; CHECK-NEXT: vmovx.f16 s16, s26		; CHECK-NEXT: vldrw.u32 q2, [r0, #32]
; CHECK-NEXT: vmovx.f16 s8, s6		; CHECK-NEXT: vmovx.f16 s0, s8
; CHECK-NEXT: vins.f16 s8, s16		; CHECK-NEXT: vmov q4, q2
; CHECK-NEXT: vmov r0, s7		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov.16 q2[3], r0		; CHECK-NEXT: vldrw.u32 q0, [r0]
; CHECK-NEXT: vstrw.32 q1, [sp] @ 16-byte Spill		; CHECK-NEXT: vmov.f64 d14, d0
; CHECK-NEXT: vmovx.f16 s11, s7
; CHECK-NEXT: vmovx.f16 s16, s27
; CHECK-NEXT: vmov q1, q3
; CHECK-NEXT: vins.f16 s11, s16
; CHECK-NEXT: vmov.f32 s1, s7
; CHECK-NEXT: vmov.f32 s10, s27
; CHECK-NEXT: vmovx.f16 s16, s9
; CHECK-NEXT: vmov.f32 s2, s7
; CHECK-NEXT: vins.f16 s1, s16
; CHECK-NEXT: vmovx.f16 s16, s2
; CHECK-NEXT: vins.f16 s10, s16
; CHECK-NEXT: vmovx.f16 s16, s29
; CHECK-NEXT: vmov.f32 s2, s10
; CHECK-NEXT: vins.f16 s20, s16
; CHECK-NEXT: vmovx.f16 s16, s30
; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill		; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill
; CHECK-NEXT: vins.f16 s22, s16		; CHECK-NEXT: vins.f16 s28, s8
; CHECK-NEXT: vldrw.u32 q0, [sp, #112] @ 16-byte Reload		; CHECK-NEXT: vmov.16 q7[4], r2
; CHECK-NEXT: vmov.f32 s23, s22		; CHECK-NEXT: vmov.f32 s31, s1
; CHECK-NEXT: vmov.f32 s22, s30		; CHECK-NEXT: vins.f16 s31, s9
; CHECK-NEXT: vrev32.16 q3, q0		; CHECK-NEXT: vmov q2, q6
; CHECK-NEXT: vmovx.f16 s16, s21		; CHECK-NEXT: vmov.f64 d12, d10
; CHECK-NEXT: vmov.f32 s24, s25		; CHECK-NEXT: vmov.f32 s29, s0
; CHECK-NEXT: vins.f16 s13, s16		; CHECK-NEXT: vmovx.f16 s0, s0
		; CHECK-NEXT: vmovx.f16 s2, s12
		; CHECK-NEXT: vins.f16 s12, s0
		; CHECK-NEXT: vmovx.f16 s0, s8
		; CHECK-NEXT: vins.f16 s24, s8
		; CHECK-NEXT: vmov r0, s0
		; CHECK-NEXT: vmovx.f16 s0, s20
		; CHECK-NEXT: vmov.16 q6[4], r0
		; CHECK-NEXT: vmov.f32 s29, s12
		; CHECK-NEXT: vmov.f32 s27, s21
		; CHECK-NEXT: vins.f16 s30, s2
		; CHECK-NEXT: vins.f16 s27, s9
		; CHECK-NEXT: vmovx.f16 s2, s4
		; CHECK-NEXT: vmov.f32 s25, s20
		; CHECK-NEXT: vins.f16 s4, s0
		; CHECK-NEXT: vmov.f32 s25, s4
		; CHECK-NEXT: vmov q2, q4
		; CHECK-NEXT: vins.f16 s26, s2
; CHECK-NEXT: vmovx.f16 s16, s14		; CHECK-NEXT: vmovx.f16 s16, s14
; CHECK-NEXT: vins.f16 s22, s16		; CHECK-NEXT: vmovx.f16 s0, s10
; CHECK-NEXT: vmovx.f16 s16, s5		; CHECK-NEXT: vmov r0, s11
; CHECK-NEXT: vins.f16 s24, s16		; CHECK-NEXT: vins.f16 s0, s16
; CHECK-NEXT: vmovx.f16 s16, s6		; CHECK-NEXT: vmovx.f16 s16, s15
; CHECK-NEXT: vins.f16 s26, s16		; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload		; CHECK-NEXT: vstrw.32 q2, [sp] @ 16-byte Spill
; CHECK-NEXT: vmov.f32 s27, s26		; CHECK-NEXT: vmovx.f16 s3, s11
; CHECK-NEXT: vmov.f32 s26, s6		; CHECK-NEXT: vmov.f32 s4, s5
; CHECK-NEXT: vrev32.16 q4, q0		; CHECK-NEXT: vins.f16 s3, s16
; CHECK-NEXT: vmovx.f16 s4, s25		; CHECK-NEXT: vldrw.u32 q4, [sp, #16] @ 16-byte Reload
; CHECK-NEXT: vldrw.u32 q0, [sp, #96] @ 16-byte Reload		; CHECK-NEXT: vmov.f32 s2, s15
; CHECK-NEXT: vins.f16 s17, s4		; CHECK-NEXT: vmovx.f16 s8, s1
; CHECK-NEXT: vldrw.u32 q1, [sp, #128] @ 16-byte Reload		; CHECK-NEXT: vmovx.f16 s10, s19
; CHECK-NEXT: vmov.f32 s5, s1		; CHECK-NEXT: vins.f16 s19, s8
; CHECK-NEXT: vmovx.f16 s28, s18		; CHECK-NEXT: vmovx.f16 s8, s21
; CHECK-NEXT: vmov.f32 s6, s2		; CHECK-NEXT: vmov.f32 s12, s13
; CHECK-NEXT: vins.f16 s26, s28		; CHECK-NEXT: vins.f16 s4, s8
; CHECK-NEXT: vstrw.32 q1, [sp, #128] @ 16-byte Spill		; CHECK-NEXT: vmovx.f16 s8, s22
; CHECK-NEXT: vldrw.u32 q1, [sp, #80] @ 16-byte Reload		; CHECK-NEXT: vins.f16 s6, s8
; CHECK-NEXT: vldrw.u32 q7, [sp, #64] @ 16-byte Reload		; CHECK-NEXT: vmov.f32 s1, s19
; CHECK-NEXT: vmov.f32 s14, s22		; CHECK-NEXT: vmov.f32 s7, s6
; CHECK-NEXT: vmov.f32 s18, s26		; CHECK-NEXT: vins.f16 s2, s10
		; CHECK-NEXT: vmov.f32 s6, s22
		; CHECK-NEXT: vldrw.u32 q5, [sp, #32] @ 16-byte Reload
		; CHECK-NEXT: vmovx.f16 s8, s5
		; CHECK-NEXT: vstrw.32 q0, [r1, #32]
		; CHECK-NEXT: vmovx.f16 s5, s21
; CHECK-NEXT: vldrw.u32 q0, [sp, #48] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q0, [sp, #48] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s29, s5		; CHECK-NEXT: vins.f16 s5, s8
; CHECK-NEXT: vmov.f32 s30, s6		; CHECK-NEXT: vmovx.f16 s8, s17
; CHECK-NEXT: vldrw.u32 q1, [sp, #32] @ 16-byte Reload		; CHECK-NEXT: vins.f16 s12, s8
; CHECK-NEXT: vmov.f32 s5, s1		; CHECK-NEXT: vmovx.f16 s8, s18
; CHECK-NEXT: vstrw.32 q7, [r1]		; CHECK-NEXT: vins.f16 s14, s8
; CHECK-NEXT: vmov.f32 s6, s2		; CHECK-NEXT: vins.f16 s6, s22
; CHECK-NEXT: vldrw.u32 q0, [sp, #16] @ 16-byte Reload		; CHECK-NEXT: vmov.f32 s15, s14
; CHECK-NEXT: vmov.f32 s21, s13		; CHECK-NEXT: vstrw.32 q6, [r1, #48]
; CHECK-NEXT: vstrw.32 q1, [r1, #48]		; CHECK-NEXT: vmov.f32 s14, s18
; CHECK-NEXT: vmov.f32 s9, s1		; CHECK-NEXT: vldrw.u32 q4, [sp] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s10, s2		; CHECK-NEXT: vmovx.f16 s8, s13
; CHECK-NEXT: vldrw.u32 q0, [sp, #128] @ 16-byte Reload		; CHECK-NEXT: vstrw.32 q1, [r1, #64]
; CHECK-NEXT: vmov.f32 s25, s17		; CHECK-NEXT: vmovx.f16 s13, s17
; CHECK-NEXT: vstrw.32 q2, [r1, #32]
; CHECK-NEXT: vmov.f32 s22, s14
; CHECK-NEXT: vstrw.32 q0, [r1, #80]		; CHECK-NEXT: vstrw.32 q0, [r1, #80]
; CHECK-NEXT: vmov.f32 s26, s18		; CHECK-NEXT: vins.f16 s13, s8
; CHECK-NEXT: vstrw.32 q5, [r1, #64]		; CHECK-NEXT: vstrw.32 q7, [r1]
; CHECK-NEXT: vstrw.32 q6, [r1, #16]		; CHECK-NEXT: vins.f16 s14, s18
; CHECK-NEXT: add sp, #144		; CHECK-NEXT: vstrw.32 q3, [r1, #16]
		; CHECK-NEXT: add sp, #64
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <16 x half>, <16 x half>* %src, i32 0		%s1 = getelementptr <16 x half>, <16 x half>* %src, i32 0
%l1 = load <16 x half>, <16 x half>* %s1, align 4		%l1 = load <16 x half>, <16 x half>* %s1, align 4
%s2 = getelementptr <16 x half>, <16 x half>* %src, i32 1		%s2 = getelementptr <16 x half>, <16 x half>* %src, i32 1
%l2 = load <16 x half>, <16 x half>* %s2, align 4		%l2 = load <16 x half>, <16 x half>* %s2, align 4
%s3 = getelementptr <16 x half>, <16 x half>* %src, i32 2		%s3 = getelementptr <16 x half>, <16 x half>* %src, i32 2
▲ Show 20 Lines • Show All 84 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vst4.ll

Show First 20 Lines • Show All 197 Lines • ▼ Show 20 Lines	entry:
%s = shufflevector <32 x i32> %t1, <32 x i32> %t2, <64 x i32> <i32 0, i32 16, i32 32, i32 48, i32 1, i32 17, i32 33, i32 49, i32 2, i32 18, i32 34, i32 50, i32 3, i32 19, i32 35, i32 51, i32 4, i32 20, i32 36, i32 52, i32 5, i32 21, i32 37, i32 53, i32 6, i32 22, i32 38, i32 54, i32 7, i32 23, i32 39, i32 55, i32 8, i32 24, i32 40, i32 56, i32 9, i32 25, i32 41, i32 57, i32 10, i32 26, i32 42, i32 58, i32 11, i32 27, i32 43, i32 59, i32 12, i32 28, i32 44, i32 60, i32 13, i32 29, i32 45, i32 61, i32 14, i32 30, i32 46, i32 62, i32 15, i32 31, i32 47, i32 63>		%s = shufflevector <32 x i32> %t1, <32 x i32> %t2, <64 x i32> <i32 0, i32 16, i32 32, i32 48, i32 1, i32 17, i32 33, i32 49, i32 2, i32 18, i32 34, i32 50, i32 3, i32 19, i32 35, i32 51, i32 4, i32 20, i32 36, i32 52, i32 5, i32 21, i32 37, i32 53, i32 6, i32 22, i32 38, i32 54, i32 7, i32 23, i32 39, i32 55, i32 8, i32 24, i32 40, i32 56, i32 9, i32 25, i32 41, i32 57, i32 10, i32 26, i32 42, i32 58, i32 11, i32 27, i32 43, i32 59, i32 12, i32 28, i32 44, i32 60, i32 13, i32 29, i32 45, i32 61, i32 14, i32 30, i32 46, i32 62, i32 15, i32 31, i32 47, i32 63>
store <64 x i32> %s, <64 x i32> *%dst, align 4		store <64 x i32> %s, <64 x i32> *%dst, align 4
ret void		ret void
}		}

define void @vst4_v4i32_align1(<4 x i32> %src, <16 x i32> %dst) {		define void @vst4_v4i32_align1(<4 x i32> %src, <16 x i32> %dst) {
; CHECK-LABEL: vst4_v4i32_align1:		; CHECK-LABEL: vst4_v4i32_align1:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: vldrw.u32 q2, [r0]		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vldrw.u32 q3, [r0, #32]		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vldrw.u32 q1, [r0, #16]		; CHECK-NEXT: vldrw.u32 q0, [r0, #32]
; CHECK-NEXT: vmov.f32 s0, s9		; CHECK-NEXT: vmov.f32 s4, s13
; CHECK-NEXT: vmov r0, s13		; CHECK-NEXT: vmov.f32 s13, s8
; CHECK-NEXT: vdup.32 q4, r0		; CHECK-NEXT: vmov.f32 s20, s15
; CHECK-NEXT: vmov.f32 s1, s5		; CHECK-NEXT: vmov.f32 s5, s9
; CHECK-NEXT: vmov.f32 s2, s18		; CHECK-NEXT: vmov.f32 s21, s11
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov.f32 s6, s1
; CHECK-NEXT: vmov.f32 s3, s19		; CHECK-NEXT: vmov.f32 s22, s3
; CHECK-NEXT: vdup.32 q4, r0		; CHECK-NEXT: vmov.f32 s7, s1
; CHECK-NEXT: vmov.f32 s9, s4		; CHECK-NEXT: vmov.f64 d8, d6
; CHECK-NEXT: vstrb.8 q0, [r1, #16]		; CHECK-NEXT: vstrb.8 q1, [r1, #16]
; CHECK-NEXT: vmov r0, s15		; CHECK-NEXT: vmov.f32 s17, s8
; CHECK-NEXT: vmov.f32 s16, s8		; CHECK-NEXT: vmov.f32 s18, s0
; CHECK-NEXT: vdup.32 q6, r0		; CHECK-NEXT: vmov.f32 s19, s0
; CHECK-NEXT: vmov.f32 s20, s11		; CHECK-NEXT: vmov.f32 s23, s3
; CHECK-NEXT: vmov.f32 s8, s10
; CHECK-NEXT: vmov r0, s14
; CHECK-NEXT: vmov.f32 s21, s7
; CHECK-NEXT: vmov.f32 s17, s4
; CHECK-NEXT: vmov.f32 s9, s6
; CHECK-NEXT: vdup.32 q1, r0
; CHECK-NEXT: vmov.f32 s22, s26
; CHECK-NEXT: vstrb.8 q4, [r1]		; CHECK-NEXT: vstrb.8 q4, [r1]
; CHECK-NEXT: vmov.f32 s10, s6		; CHECK-NEXT: vmov.f32 s0, s14
; CHECK-NEXT: vmov.f32 s23, s27
; CHECK-NEXT: vmov.f32 s11, s7
; CHECK-NEXT: vstrb.8 q5, [r1, #48]		; CHECK-NEXT: vstrb.8 q5, [r1, #48]
; CHECK-NEXT: vstrb.8 q2, [r1, #32]		; CHECK-NEXT: vmov.f32 s1, s10
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vmov.f32 s3, s2
		; CHECK-NEXT: vstrb.8 q0, [r1, #32]
		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <4 x i32>, <4 x i32>* %src, i32 0		%s1 = getelementptr <4 x i32>, <4 x i32>* %src, i32 0
%l1 = load <4 x i32>, <4 x i32>* %s1, align 4		%l1 = load <4 x i32>, <4 x i32>* %s1, align 4
%s2 = getelementptr <4 x i32>, <4 x i32>* %src, i32 1		%s2 = getelementptr <4 x i32>, <4 x i32>* %src, i32 1
%l2 = load <4 x i32>, <4 x i32>* %s2, align 4		%l2 = load <4 x i32>, <4 x i32>* %s2, align 4
%s3 = getelementptr <4 x i32>, <4 x i32>* %src, i32 2		%s3 = getelementptr <4 x i32>, <4 x i32>* %src, i32 2
%l3 = load <4 x i32>, <4 x i32>* %s3, align 4		%l3 = load <4 x i32>, <4 x i32>* %s3, align 4
▲ Show 20 Lines • Show All 1,110 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/insertelement-duplicates.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE-32			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE-32
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE-64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE-64
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX-32			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX-32
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX-64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX-64

	define void @PR15298(<4 x float>* nocapture %source, <8 x float>* nocapture %dest) nounwind noinline {			define void @PR15298(<4 x float>* nocapture %source, <8 x float>* nocapture %dest) nounwind noinline {
	; SSE-32-LABEL: PR15298:			; SSE-32-LABEL: PR15298:
	; SSE-32: # %bb.0: # %L.entry			; SSE-32: # %bb.0: # %L.entry
	; SSE-32-NEXT: movl {{[0-9]+}}(%esp), %eax			; SSE-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; SSE-32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; SSE-32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; SSE-32-NEXT: xorps %xmm0, %xmm0			; SSE-32-NEXT: xorps %xmm0, %xmm0
	; SSE-32-NEXT: xorps %xmm1, %xmm1			; SSE-32-NEXT: xorps %xmm1, %xmm1
	; SSE-32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],mem[0,0]			; SSE-32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,3],mem[0,0]
	; SSE-32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2,3,1]			; SSE-32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2,3,1]
	; SSE-32-NEXT: movups %xmm0, 624(%eax)			; SSE-32-NEXT: movups %xmm0, 624(%eax)
	; SSE-32-NEXT: movups %xmm1, 608(%eax)			; SSE-32-NEXT: movups %xmm1, 608(%eax)
	; SSE-32-NEXT: retl			; SSE-32-NEXT: retl
	;			;
	; SSE-64-LABEL: PR15298:			; SSE-64-LABEL: PR15298:
	; SSE-64: # %bb.0: # %L.entry			; SSE-64: # %bb.0: # %L.entry
	; SSE-64-NEXT: xorps %xmm0, %xmm0			; SSE-64-NEXT: xorps %xmm0, %xmm0
	; SSE-64-NEXT: xorps %xmm1, %xmm1			; SSE-64-NEXT: xorps %xmm1, %xmm1
	; SSE-64-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],mem[0,0]			; SSE-64-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,3],mem[0,0]
	; SSE-64-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2,3,1]			; SSE-64-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2,3,1]
	; SSE-64-NEXT: movups %xmm0, 624(%rsi)			; SSE-64-NEXT: movups %xmm0, 624(%rsi)
	; SSE-64-NEXT: movups %xmm1, 608(%rsi)			; SSE-64-NEXT: movups %xmm1, 608(%rsi)
	; SSE-64-NEXT: retq			; SSE-64-NEXT: retq
	;			;
	; AVX-32-LABEL: PR15298:			; AVX-32-LABEL: PR15298:
	; AVX-32: # %bb.0: # %L.entry			; AVX-32: # %bb.0: # %L.entry
	; AVX-32-NEXT: movl {{[0-9]+}}(%esp), %eax			; AVX-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	Show All 26 Lines

llvm/test/CodeGen/X86/oddshuffles.ll

	Show First 20 Lines • Show All 515 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movaps %xmm0, %xmm4			; SSE2-NEXT: movaps %xmm0, %xmm4
	; SSE2-NEXT: unpcklps {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]			; SSE2-NEXT: unpcklps {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm3[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm3[0,2]
	; SSE2-NEXT: movaps %xmm0, %xmm3			; SSE2-NEXT: movaps %xmm0, %xmm3
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1],xmm1[1]
	; SSE2-NEXT: movaps %xmm2, %xmm5			; SSE2-NEXT: movaps %xmm2, %xmm5
	; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[1,0],xmm1[1,0]			; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[1,0],xmm1[1,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,0],xmm3[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,0],xmm3[0,2]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3],xmm2[3,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,0],xmm2[3,0]
	; SSE2-NEXT: unpckhps {{.*#+}} xmm2 = xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSE2-NEXT: unpckhps {{.*#+}} xmm2 = xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm1[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm1[0,2]
	; SSE2-NEXT: movaps %xmm2, 32(%rdi)			; SSE2-NEXT: movaps %xmm2, 32(%rdi)
	; SSE2-NEXT: movaps %xmm5, 16(%rdi)			; SSE2-NEXT: movaps %xmm5, 16(%rdi)
	; SSE2-NEXT: movaps %xmm4, (%rdi)			; SSE2-NEXT: movaps %xmm4, (%rdi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: v12i32:			; SSE42-LABEL: v12i32:
	▲ Show 20 Lines • Show All 672 Lines • ▼ Show 20 Lines
	}			}

	define void @interleave_24i32_out(<24 x i32>* %p, <8 x i32>* %q1, <8 x i32>* %q2, <8 x i32>* %q3) nounwind {			define void @interleave_24i32_out(<24 x i32>* %p, <8 x i32>* %q1, <8 x i32>* %q2, <8 x i32>* %q3) nounwind {
	; SSE2-LABEL: interleave_24i32_out:			; SSE2-LABEL: interleave_24i32_out:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movups 80(%rdi), %xmm8			; SSE2-NEXT: movups 80(%rdi), %xmm8
	; SSE2-NEXT: movups 64(%rdi), %xmm3			; SSE2-NEXT: movups 64(%rdi), %xmm3
	; SSE2-NEXT: movdqu (%rdi), %xmm1			; SSE2-NEXT: movdqu (%rdi), %xmm1
	; SSE2-NEXT: movups 16(%rdi), %xmm5			; SSE2-NEXT: movups 16(%rdi), %xmm6
	; SSE2-NEXT: movups 32(%rdi), %xmm10			; SSE2-NEXT: movups 32(%rdi), %xmm10
	; SSE2-NEXT: movdqu 48(%rdi), %xmm2			; SSE2-NEXT: movdqu 48(%rdi), %xmm2
	; SSE2-NEXT: movdqa %xmm1, %xmm11			; SSE2-NEXT: movdqa %xmm1, %xmm11
	; SSE2-NEXT: movaps %xmm10, %xmm7			; SSE2-NEXT: movaps %xmm6, %xmm7
	; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[2,1],xmm5[3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm5[0,0]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm6[0,0]
	; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm5[1,1,1,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm6[1,1,1,1]
	; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,3],xmm10[1,1]			; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[2,0],xmm10[1,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm11 = xmm11[0,3],xmm5[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm11 = xmm11[0,3],xmm6[0,2]
	; SSE2-NEXT: movdqa %xmm2, %xmm5			; SSE2-NEXT: movdqa %xmm2, %xmm6
	; SSE2-NEXT: movaps %xmm8, %xmm4			; SSE2-NEXT: movaps %xmm3, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[2,1],xmm3[3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm2[2,3,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm2[2,3,2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm3[0,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm3[0,0]
	; SSE2-NEXT: pshufd {{.*#+}} xmm12 = xmm3[1,1,1,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm12 = xmm3[1,1,1,1]
	; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,3],xmm8[1,1]			; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,0],xmm8[1,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,3],xmm3[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,3],xmm3[0,2]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[3,1],xmm8[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm7[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
				; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[3,1],xmm10[2,3]
				; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm7[0,2]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm9[0],xmm0[1],xmm9[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm9[0],xmm0[1],xmm9[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm10[0,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm10[0,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm12[0],xmm6[1],xmm12[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm8[0,3]			; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,1],xmm8[0,3]
	; SSE2-NEXT: movups %xmm5, 16(%rsi)			; SSE2-NEXT: movups %xmm6, 16(%rsi)
	; SSE2-NEXT: movups %xmm11, (%rsi)			; SSE2-NEXT: movups %xmm11, (%rsi)
	; SSE2-NEXT: movups %xmm2, 16(%rdx)			; SSE2-NEXT: movups %xmm2, 16(%rdx)
	; SSE2-NEXT: movups %xmm1, (%rdx)			; SSE2-NEXT: movups %xmm1, (%rdx)
	; SSE2-NEXT: movups %xmm6, 16(%rcx)			; SSE2-NEXT: movups %xmm5, 16(%rcx)
	; SSE2-NEXT: movups %xmm0, (%rcx)			; SSE2-NEXT: movups %xmm0, (%rcx)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: interleave_24i32_out:			; SSE42-LABEL: interleave_24i32_out:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movups 80(%rdi), %xmm8			; SSE42-NEXT: movups 80(%rdi), %xmm8
	; SSE42-NEXT: movdqu 64(%rdi), %xmm9			; SSE42-NEXT: movdqu 64(%rdi), %xmm9
	; SSE42-NEXT: movdqu (%rdi), %xmm4			; SSE42-NEXT: movdqu (%rdi), %xmm3
	; SSE42-NEXT: movdqu 16(%rdi), %xmm2			; SSE42-NEXT: movdqu 16(%rdi), %xmm2
	; SSE42-NEXT: movups 32(%rdi), %xmm10			; SSE42-NEXT: movups 32(%rdi), %xmm10
	; SSE42-NEXT: movdqu 48(%rdi), %xmm5			; SSE42-NEXT: movdqu 48(%rdi), %xmm5
	; SSE42-NEXT: movdqa %xmm2, %xmm6			; SSE42-NEXT: movdqa %xmm2, %xmm6
	; SSE42-NEXT: pblendw {{.*#+}} xmm6 = xmm6[0,1],xmm4[2,3],xmm6[4,5,6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm6 = xmm6[0,1],xmm3[2,3],xmm6[4,5,6,7]
	; SSE42-NEXT: pshufd {{.*#+}} xmm7 = xmm4[2,3,2,3]			; SSE42-NEXT: pshufd {{.*#+}} xmm7 = xmm3[2,3,2,3]
	; SSE42-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,3],xmm2[2,3]			; SSE42-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,3],xmm2[2,3]
	; SSE42-NEXT: insertps {{.*#+}} xmm4 = xmm4[0,1,2],xmm10[1]			; SSE42-NEXT: insertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm10[1]
	; SSE42-NEXT: movdqa %xmm9, %xmm1			; SSE42-NEXT: movdqa %xmm9, %xmm1
	; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm5[2,3],xmm1[4,5,6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm5[2,3],xmm1[4,5,6,7]
	; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm5[2,3,2,3]			; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm5[2,3,2,3]
	; SSE42-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,3],xmm9[2,3]			; SSE42-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,3],xmm9[2,3]
	; SSE42-NEXT: insertps {{.*#+}} xmm5 = xmm5[0,1,2],xmm8[1]			; SSE42-NEXT: insertps {{.*#+}} xmm5 = xmm5[0,1,2],xmm8[1]
	; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm10[2,2,2,2]			; SSE42-NEXT: pshufd {{.*#+}} xmm4 = xmm10[2,2,2,2]
	; SSE42-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,0,3,3]			; SSE42-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,0,3,3]
	; SSE42-NEXT: pblendw {{.*#+}} xmm6 = xmm6[0,1,2,3,4,5],xmm3[6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm6 = xmm6[0,1,2,3,4,5],xmm4[6,7]
	; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,0,3,3]			; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,0,3,3]
	; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm8[2,2,2,2]			; SSE42-NEXT: pshufd {{.*#+}} xmm4 = xmm8[2,2,2,2]
	; SSE42-NEXT: pblendw {{.*#+}} xmm3 = xmm1[0,1,2,3,4,5],xmm3[6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm4 = xmm1[0,1,2,3,4,5],xmm4[6,7]
	; SSE42-NEXT: pblendw {{.*#+}} xmm7 = xmm7[0,1],xmm2[2,3],xmm7[4,5,6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm7 = xmm7[0,1],xmm2[2,3],xmm7[4,5,6,7]
	; SSE42-NEXT: pshufd {{.*#+}} xmm1 = xmm10[0,1,0,3]			; SSE42-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,1],xmm10[0,3]
	; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm7[0,1,2,3],xmm1[4,5,6,7]
	; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm9[2,3],xmm0[4,5,6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm9[2,3],xmm0[4,5,6,7]
	; SSE42-NEXT: pshufd {{.*#+}} xmm2 = xmm8[0,1,0,3]			; SSE42-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm8[0,3]
	; SSE42-NEXT: pblendw {{.*#+}} xmm2 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; SSE42-NEXT: movups %xmm5, 16(%rsi)			; SSE42-NEXT: movups %xmm5, 16(%rsi)
	; SSE42-NEXT: movups %xmm4, (%rsi)			; SSE42-NEXT: movups %xmm3, (%rsi)
	; SSE42-NEXT: movdqu %xmm3, 16(%rdx)			; SSE42-NEXT: movdqu %xmm4, 16(%rdx)
	; SSE42-NEXT: movdqu %xmm6, (%rdx)			; SSE42-NEXT: movdqu %xmm6, (%rdx)
	; SSE42-NEXT: movdqu %xmm2, 16(%rcx)			; SSE42-NEXT: movups %xmm0, 16(%rcx)
	; SSE42-NEXT: movdqu %xmm1, (%rcx)			; SSE42-NEXT: movups %xmm7, (%rcx)
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: interleave_24i32_out:			; AVX1-LABEL: interleave_24i32_out:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovups (%rdi), %ymm0			; AVX1-NEXT: vmovups (%rdi), %ymm0
	; AVX1-NEXT: vmovups 32(%rdi), %ymm1			; AVX1-NEXT: vmovups 32(%rdi), %ymm1
	; AVX1-NEXT: vmovups 80(%rdi), %xmm2			; AVX1-NEXT: vmovups 80(%rdi), %xmm2
	; AVX1-NEXT: vmovups 64(%rdi), %xmm3			; AVX1-NEXT: vmovups 64(%rdi), %xmm3
	▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movups (%rcx), %xmm3			; SSE2-NEXT: movups (%rcx), %xmm3
	; SSE2-NEXT: movups 16(%rcx), %xmm6			; SSE2-NEXT: movups 16(%rcx), %xmm6
	; SSE2-NEXT: movaps %xmm3, %xmm7			; SSE2-NEXT: movaps %xmm3, %xmm7
	; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,1],xmm1[1,3]			; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,1],xmm1[1,3]
	; SSE2-NEXT: movaps %xmm1, %xmm9			; SSE2-NEXT: movaps %xmm1, %xmm9
	; SSE2-NEXT: unpcklps {{.*#+}} xmm9 = xmm9[0],xmm8[0],xmm9[1],xmm8[1]			; SSE2-NEXT: unpcklps {{.*#+}} xmm9 = xmm9[0],xmm8[0],xmm9[1],xmm8[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm9 = xmm9[0,1],xmm7[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm9 = xmm9[0,1],xmm7[0,2]
	; SSE2-NEXT: movaps %xmm5, %xmm7			; SSE2-NEXT: movaps %xmm5, %xmm7
	; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[3,3],xmm6[3,3]			; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[3,0],xmm6[3,0]
	; SSE2-NEXT: movaps %xmm6, %xmm4			; SSE2-NEXT: movaps %xmm6, %xmm4
	; SSE2-NEXT: unpckhps {{.*#+}} xmm4 = xmm4[2],xmm0[2],xmm4[3],xmm0[3]			; SSE2-NEXT: unpckhps {{.*#+}} xmm4 = xmm4[2],xmm0[2],xmm4[3],xmm0[3]
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,3],xmm7[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,3],xmm7[0,2]
	; SSE2-NEXT: movaps %xmm0, %xmm7			; SSE2-NEXT: movaps %xmm0, %xmm7
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm7 = xmm7[1],xmm5[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm7 = xmm7[1],xmm5[1]
	; SSE2-NEXT: movaps %xmm6, %xmm2			; SSE2-NEXT: movaps %xmm6, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm5[1,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm5[1,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm7[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm7[0,2]
	; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm0[1,3]			; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm0[1,3]
	; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]			; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm6[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm6[0,2]
	; SSE2-NEXT: movaps %xmm8, %xmm5			; SSE2-NEXT: movaps %xmm8, %xmm5
	; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[3,3],xmm3[3,3]			; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[3,0],xmm3[3,0]
	; SSE2-NEXT: movaps %xmm3, %xmm6			; SSE2-NEXT: movaps %xmm3, %xmm6
	; SSE2-NEXT: unpckhps {{.*#+}} xmm6 = xmm6[2],xmm1[2],xmm6[3],xmm1[3]			; SSE2-NEXT: unpckhps {{.*#+}} xmm6 = xmm6[2],xmm1[2],xmm6[3],xmm1[3]
	; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,3],xmm5[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,3],xmm5[0,2]
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm8[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm8[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm8[1,0]			; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm8[1,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,0],xmm1[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,0],xmm1[0,2]
	; SSE2-NEXT: movups %xmm3, 16(%rdi)			; SSE2-NEXT: movups %xmm3, 16(%rdi)
	; SSE2-NEXT: movups %xmm6, 32(%rdi)			; SSE2-NEXT: movups %xmm6, 32(%rdi)
	▲ Show 20 Lines • Show All 688 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/pr34592.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx2 -O0 \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx2 -O0 \| FileCheck %s

	define <16 x i64> @pluto(<16 x i64> %arg, <16 x i64> %arg1, <16 x i64> %arg2, <16 x i64> %arg3, <16 x i64> %arg4) {			define <16 x i64> @pluto(<16 x i64> %arg, <16 x i64> %arg1, <16 x i64> %arg2, <16 x i64> %arg3, <16 x i64> %arg4) {
	; CHECK-LABEL: pluto:			; CHECK-LABEL: pluto:
	; CHECK: # %bb.0: # %bb			; CHECK: # %bb.0: # %bb
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: .cfi_def_cfa_offset 16			; CHECK-NEXT: .cfi_def_cfa_offset 16
	; CHECK-NEXT: .cfi_offset %rbp, -16			; CHECK-NEXT: .cfi_offset %rbp, -16
	; CHECK-NEXT: movq %rsp, %rbp			; CHECK-NEXT: movq %rsp, %rbp
	; CHECK-NEXT: .cfi_def_cfa_register %rbp			; CHECK-NEXT: .cfi_def_cfa_register %rbp
	; CHECK-NEXT: andq $-32, %rsp			; CHECK-NEXT: andq $-32, %rsp
	; CHECK-NEXT: subq $32, %rsp			; CHECK-NEXT: subq $32, %rsp
	; CHECK-NEXT: vmovaps %ymm4, %ymm10			; CHECK-NEXT: vmovaps %ymm4, %ymm10
	; CHECK-NEXT: vmovaps %ymm3, %ymm9			; CHECK-NEXT: vmovaps %ymm3, %ymm9
	; CHECK-NEXT: vmovaps %ymm1, %ymm8			; CHECK-NEXT: vmovaps %ymm1, %ymm8
	; CHECK-NEXT: vmovaps %ymm0, %ymm4			; CHECK-NEXT: vmovaps %ymm0, %ymm3
	; CHECK-NEXT: vmovaps 240(%rbp), %ymm1			; CHECK-NEXT: vmovaps 240(%rbp), %ymm1
	; CHECK-NEXT: vmovaps 208(%rbp), %ymm3			; CHECK-NEXT: vmovaps 208(%rbp), %ymm4
	; CHECK-NEXT: vmovaps 176(%rbp), %ymm0			; CHECK-NEXT: vmovaps 176(%rbp), %ymm0
	; CHECK-NEXT: vmovaps 144(%rbp), %ymm0			; CHECK-NEXT: vmovaps 144(%rbp), %ymm0
	; CHECK-NEXT: vmovaps 112(%rbp), %ymm11			; CHECK-NEXT: vmovaps 112(%rbp), %ymm11
	; CHECK-NEXT: vmovaps 80(%rbp), %ymm11			; CHECK-NEXT: vmovaps 80(%rbp), %ymm11
	; CHECK-NEXT: vmovaps 48(%rbp), %ymm11			; CHECK-NEXT: vmovaps 48(%rbp), %ymm11
	; CHECK-NEXT: vmovaps 16(%rbp), %ymm11			; CHECK-NEXT: vmovaps 16(%rbp), %ymm11
	; CHECK-NEXT: vpblendd {{.*#+}} ymm4 = ymm6[0,1,2,3,4,5],ymm2[6,7]			; CHECK-NEXT: vpblendd {{.*#+}} ymm3 = ymm6[0,1,2,3,4,5],ymm2[6,7]
	; CHECK-NEXT: vmovaps %xmm3, %xmm8			; CHECK-NEXT: vmovaps %xmm4, %xmm6
	; CHECK-NEXT: # implicit-def: $ymm2			; CHECK-NEXT: # implicit-def: $ymm2
	; CHECK-NEXT: vinserti128 $1, %xmm8, %ymm2, %ymm2			; CHECK-NEXT: vinserti128 $1, %xmm6, %ymm2, %ymm2
	; CHECK-NEXT: vpalignr {{.*#+}} ymm0 = ymm4[8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4,5,6,7],ymm4[24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20,21,22,23]			; CHECK-NEXT: vpalignr {{.*#+}} ymm0 = ymm3[8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4,5,6,7],ymm3[24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20,21,22,23]
	; CHECK-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,2,0]			; CHECK-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,2,0]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4,5],ymm0[6,7]			; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4,5],ymm0[6,7]
	; CHECK-NEXT: vmovaps %xmm7, %xmm2
	; CHECK-NEXT: vpslldq {{.*#+}} xmm4 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]
	; CHECK-NEXT: # implicit-def: $ymm2
	; CHECK-NEXT: vmovaps %xmm4, %xmm2
	; CHECK-NEXT: vpalignr {{.*#+}} ymm3 = ymm3[8,9,10,11,12,13,14,15],ymm5[0,1,2,3,4,5,6,7],ymm3[24,25,26,27,28,29,30,31],ymm5[16,17,18,19,20,21,22,23]
	; CHECK-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,1,0,3]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm3 = ymm2[0,1,2,3],ymm3[4,5,6,7]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm7[0,1],ymm1[2,3],ymm7[4,5,6,7]
	; CHECK-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,1,1,3]
	; CHECK-NEXT: vpshufd {{.*#+}} ymm2 = ymm5[0,1,0,1,4,5,4,5]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm2[6,7]
	; CHECK-NEXT: vextracti128 $1, %ymm7, %xmm2			; CHECK-NEXT: vextracti128 $1, %ymm7, %xmm2
	; CHECK-NEXT: vmovq {{.*#+}} xmm4 = xmm2[0],zero			; CHECK-NEXT: vmovq {{.*#+}} xmm6 = xmm2[0],zero
	; CHECK-NEXT: # implicit-def: $ymm2			; CHECK-NEXT: # implicit-def: $ymm2
	; CHECK-NEXT: vmovaps %xmm4, %xmm2			; CHECK-NEXT: vmovaps %xmm6, %xmm2
	; CHECK-NEXT: vperm2i128 {{.*#+}} ymm2 = ymm2[0,1],ymm6[0,1]			; CHECK-NEXT: # kill: def $xmm3 killed $xmm3 killed $ymm3
				; CHECK-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
				; CHECK-NEXT: vmovaps %xmm7, %xmm3
				; CHECK-NEXT: vpslldq {{.*#+}} xmm6 = zero,zero,zero,zero,zero,zero,zero,zero,xmm3[0,1,2,3,4,5,6,7]
				; CHECK-NEXT: # implicit-def: $ymm3
				; CHECK-NEXT: vmovaps %xmm6, %xmm3
				; CHECK-NEXT: vpalignr {{.*#+}} ymm4 = ymm4[8,9,10,11,12,13,14,15],ymm5[0,1,2,3,4,5,6,7],ymm4[24,25,26,27,28,29,30,31],ymm5[16,17,18,19,20,21,22,23]
				; CHECK-NEXT: vpermq {{.*#+}} ymm4 = ymm4[0,1,0,3]
				; CHECK-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1,2,3],ymm4[4,5,6,7]
				; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm7[4,5,6,7]
				; CHECK-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,1,1,3]
				; CHECK-NEXT: vpshufd {{.*#+}} ymm4 = ymm5[0,1,0,1,4,5,4,5]
				; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3,4,5],ymm4[6,7]
	; CHECK-NEXT: movq %rbp, %rsp			; CHECK-NEXT: movq %rbp, %rsp
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: .cfi_def_cfa %rsp, 8			; CHECK-NEXT: .cfi_def_cfa %rsp, 8
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	bb:			bb:
	%tmp = select <16 x i1> <i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 false, i1 false>, <16 x i64> %arg, <16 x i64> %arg1			%tmp = select <16 x i1> <i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 false, i1 false>, <16 x i64> %arg, <16 x i64> %arg1
	%tmp5 = select <16 x i1> <i1 true, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 true, i1 false, i1 true, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false>, <16 x i64> %arg2, <16 x i64> zeroinitializer			%tmp5 = select <16 x i1> <i1 true, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 true, i1 false, i1 true, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false>, <16 x i64> %arg2, <16 x i64> zeroinitializer
	%tmp6 = select <16 x i1> <i1 false, i1 true, i1 true, i1 true, i1 false, i1 false, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 false, i1 true, i1 true, i1 true>, <16 x i64> %arg3, <16 x i64> %tmp5			%tmp6 = select <16 x i1> <i1 false, i1 true, i1 true, i1 true, i1 false, i1 false, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 false, i1 true, i1 true, i1 true>, <16 x i64> %arg3, <16 x i64> %tmp5
	%tmp7 = shufflevector <16 x i64> %tmp, <16 x i64> %tmp6, <16 x i32> <i32 11, i32 18, i32 24, i32 9, i32 14, i32 29, i32 29, i32 6, i32 14, i32 28, i32 8, i32 9, i32 22, i32 12, i32 25, i32 6>			%tmp7 = shufflevector <16 x i64> %tmp, <16 x i64> %tmp6, <16 x i32> <i32 11, i32 18, i32 24, i32 9, i32 14, i32 29, i32 29, i32 6, i32 14, i32 28, i32 8, i32 9, i32 22, i32 12, i32 25, i32 6>
	ret <16 x i64> %tmp7			ret <16 x i64> %tmp7
	}			}

llvm/test/CodeGen/X86/split-extend-vector-inreg.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown -mattr=+avx \| FileCheck %s			; RUN: llc < %s -mtriple=i686-unknown -mattr=+avx \| FileCheck %s
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s

	define <4 x i64> @autogen_SD88863() {			define <4 x i64> @autogen_SD88863() {
	; CHECK-LABEL: autogen_SD88863:			; CHECK-LABEL: autogen_SD88863:
	; CHECK: # %bb.0: # %BB			; CHECK: # %bb.0: # %BB
	; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,3,2,3]			; CHECK-NEXT: vperm2f128 {{.*#+}} ymm0 = zero,zero,ymm0[0,1]
	; CHECK-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; CHECK-NEXT: vxorpd %xmm1, %xmm1, %xmm1
	; CHECK-NEXT: vxorps %xmm1, %xmm1, %xmm1			; CHECK-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[3],ymm1[3]
	; CHECK-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2,3],ymm0[4,5],ymm1[6,7]
	; CHECK-NEXT: movb $1, %al			; CHECK-NEXT: movb $1, %al
	; CHECK-NEXT: .p2align 4, 0x90			; CHECK-NEXT: .p2align 4, 0x90
	; CHECK-NEXT: .LBB0_1: # %CF			; CHECK-NEXT: .LBB0_1: # %CF
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: testb %al, %al			; CHECK-NEXT: testb %al, %al
	; CHECK-NEXT: jne .LBB0_1			; CHECK-NEXT: jne .LBB0_1
	; CHECK-NEXT: # %bb.2: # %CF240			; CHECK-NEXT: # %bb.2: # %CF240
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	Show All 13 Lines

llvm/test/CodeGen/X86/vector-shuffle-combining-avx512bwvl.ll

	Show First 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	define void @PR46178(i16* %0) {			define void @PR46178(i16* %0) {
	; X86-LABEL: PR46178:			; X86-LABEL: PR46178:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: vmovdqu 0, %ymm0			; X86-NEXT: vmovdqu 0, %ymm0
	; X86-NEXT: vmovdqu (%eax), %ymm1			; X86-NEXT: vmovdqu (%eax), %ymm1
	; X86-NEXT: vpmovqw %ymm0, %xmm0			; X86-NEXT: vpmovqw %ymm0, %xmm0
	; X86-NEXT: vpmovqw %ymm1, %xmm1			; X86-NEXT: vpmovqw %ymm1, %xmm1
	; X86-NEXT: vpsllw $8, %xmm1, %xmm1
	; X86-NEXT: vpsraw $8, %xmm1, %xmm1
	; X86-NEXT: vpsllw $8, %xmm0, %xmm0			; X86-NEXT: vpsllw $8, %xmm0, %xmm0
	; X86-NEXT: vpsraw $8, %xmm0, %xmm0			; X86-NEXT: vpsraw $8, %xmm0, %xmm0
	; X86-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[2],ymm1[3]			; X86-NEXT: vpsllw $8, %xmm1, %xmm1
	; X86-NEXT: vmovupd %ymm0, (%eax)			; X86-NEXT: vpsraw $8, %xmm1, %xmm1
				; X86-NEXT: vpunpcklqdq {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
				RKSimonUnsubmitted Not Done Reply Inline Actions At quick glance - this looks wrong, I'd expect this still to be the same vshufpd? RKSimon: At quick glance - this looks wrong, I'd expect this still to be the same vshufpd?
				mmarjiehAuthorUnsubmitted Not Done Reply Inline Actions I am not familiar with X86's ISA. Can you explain why? Meanwhile, I will show you the difference in the DAG after my patch: Before this patch: SelectionDAG has 28 nodes: t0: ch = EntryToken t5: v4i64,ch = load<(load 32 from `<4 x i64>* null`, align 8)> t0, Constant:i32<0>, undef:i32 t6: v4i64,ch = load<(load 32 from `<4 x i64>* undef`, align 8)> t0, undef:i32, undef:i32 t21: ch = TokenFactor t5:1, t6:1 t36: v8i16 = BUILD_VECTOR Constant:i16<0>, Constant:i16<0>, Constant:i16<0>, Constant:i16<0>, undef:i16, undef:i16, undef:i16, undef:i16 t52: v2f64 = bitcast t36 t62: v4f64 = concat_vectors t52, undef:v2f64 t63: v4f64 = vector_shuffle<u,u,0,0> t62, undef:v4f64 t37: v8i16 = X86ISD::VTRUNC t5 t39: v8i16 = sign_extend_inreg t37, ValueType:ch:v8i8 t44: v2f64 = bitcast t39 t40: v8i16 = X86ISD::VTRUNC t6 t41: v8i16 = sign_extend_inreg t40, ValueType:ch:v8i8 t49: v2f64 = bitcast t41 t59: v4f64 = concat_vectors t44, t49 t68: v4f64 = vector_shuffle<4,6,2,3> t63, t59 t3: i32,ch = load<(load 4 from %fixed-stack.0)> t0, FrameIndex:i32<-1>, undef:i32 t57: ch = store<(store 32 into %ir.10, align 2)> t21, t68, t3, undef:i32 t29: ch = X86ISD::RET_FLAG t57, TargetConstant:i32<0> After this patch: SelectionDAG has 26 nodes: t0: ch = EntryToken t5: v4i64,ch = load<(load 32 from `<4 x i64>* null`, align 8)> t0, Constant:i32<0>, undef:i32 t6: v4i64,ch = load<(load 32 from `<4 x i64>* undef`, align 8)> t0, undef:i32, undef:i32 t21: ch = TokenFactor t5:1, t6:1 t37: v8i16 = X86ISD::VTRUNC t5 t39: v8i16 = sign_extend_inreg t37, ValueType:ch:v8i8 t44: v2f64 = bitcast t39 t40: v8i16 = X86ISD::VTRUNC t6 t41: v8i16 = sign_extend_inreg t40, ValueType:ch:v8i8 t49: v2f64 = bitcast t41 t59: v4f64 = concat_vectors t44, t49 t36: v8i16 = BUILD_VECTOR Constant:i16<0>, Constant:i16<0>, Constant:i16<0>, Constant:i16<0>, undef:i16, undef:i16, undef:i16, undef:i16 t52: v2f64 = bitcast t36 t62: v4f64 = concat_vectors t52, undef:v2f64 t64: v4f64 = vector_shuffle<0,2,4,4> t59, t62 t3: i32,ch = load<(load 4 from %fixed-stack.0)> t0, FrameIndex:i32<-1>, undef:i32 t57: ch = store<(store 32 into %ir.10, align 2)> t21, t64, t3, undef:i32 t29: ch = X86ISD::RET_FLAG t57, TargetConstant:i32<0> mmarjieh: I am not familiar with X86's ISA. Can you explain why? Meanwhile, I will show you the…
				RKSimonUnsubmitted Not Done Reply Inline Actions My mistake - I missed that we were implicitly zeroing the upper elements (xmm -> ymm) - sorry about that RKSimon: My mistake - I missed that we were implicitly zeroing the upper elements (xmm -> ymm) - sorry…
				; X86-NEXT: vmovdqu %ymm0, (%eax)
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: PR46178:			; X64-LABEL: PR46178:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vmovdqu 0, %ymm0			; X64-NEXT: vmovdqu 0, %ymm0
	; X64-NEXT: vmovdqu (%rax), %ymm1			; X64-NEXT: vmovdqu (%rax), %ymm1
	; X64-NEXT: vpmovqw %ymm0, %xmm0			; X64-NEXT: vpmovqw %ymm0, %xmm0
	; X64-NEXT: vpmovqw %ymm1, %xmm1			; X64-NEXT: vpmovqw %ymm1, %xmm1
	; X64-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; X64-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; X64-NEXT: vpsllw $8, %ymm0, %ymm0			; X64-NEXT: vpsllw $8, %ymm0, %ymm0
	; X64-NEXT: vpsraw $8, %ymm0, %ymm0			; X64-NEXT: vpsraw $8, %ymm0, %ymm0
	; X64-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; X64-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; X64-NEXT: vmovdqa %xmm0, %xmm0			; X64-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5,6,7]
				; X64-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,1]
	; X64-NEXT: vmovdqu %ymm0, (%rdi)			; X64-NEXT: vmovdqu %ymm0, (%rdi)
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	%2 = load <4 x i64>, <4 x i64>* null, align 8			%2 = load <4 x i64>, <4 x i64>* null, align 8
	%3 = load <4 x i64>, <4 x i64>* undef, align 8			%3 = load <4 x i64>, <4 x i64>* undef, align 8
	%4 = trunc <4 x i64> %2 to <4 x i16>			%4 = trunc <4 x i64> %2 to <4 x i16>
	%5 = trunc <4 x i64> %3 to <4 x i16>			%5 = trunc <4 x i64> %3 to <4 x i16>
	%6 = shl <4 x i16> %4, <i16 8, i16 8, i16 8, i16 8>			%6 = shl <4 x i16> %4, <i16 8, i16 8, i16 8, i16 8>
	Show All 38 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombiner] Reduce Shuffle_Vector Nodes CountNeeds ReviewPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 322640

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/test/CodeGen/ARM/fp16-insert-extract.ll

llvm/test/CodeGen/PowerPC/pr27078.ll

llvm/test/CodeGen/PowerPC/vec-itofp.ll

llvm/test/CodeGen/PowerPC/vec_conv_i16_to_fp32_elts.ll

llvm/test/CodeGen/PowerPC/vec_conv_i16_to_fp64_elts.ll

llvm/test/CodeGen/PowerPC/vec_conv_i8_to_fp32_elts.ll

llvm/test/CodeGen/PowerPC/vec_conv_i8_to_fp64_elts.ll

llvm/test/CodeGen/Thumb2/mve-shuffle.ll

llvm/test/CodeGen/Thumb2/mve-vld3.ll

llvm/test/CodeGen/Thumb2/mve-vst3.ll

llvm/test/CodeGen/Thumb2/mve-vst4.ll

llvm/test/CodeGen/X86/insertelement-duplicates.ll

llvm/test/CodeGen/X86/oddshuffles.ll

llvm/test/CodeGen/X86/pr34592.ll

llvm/test/CodeGen/X86/split-extend-vector-inreg.ll

llvm/test/CodeGen/X86/vector-shuffle-combining-avx512bwvl.ll

[DAGCombiner] Reduce Shuffle_Vector Nodes Count
Needs ReviewPublic