This is an archive of the discontinued LLVM Phabricator instance.

[X86] Teach lowerV4I32Shuffle to only use broadcasts if the mask has more than one undef element. Prioritize shifts over broadcast in lowerV8I16Shuffle.
ClosedPublic

Authored by craig.topper on Aug 12 2019, 12:04 AM.

Download Raw Diff

Details

Reviewers

RKSimon
spatel

Commits

rGa0d92c72620c: [X86] Teach lowerV4I32Shuffle to only use broadcasts if the mask has more than…
rL369287: [X86] Teach lowerV4I32Shuffle to only use broadcasts if the mask has more than…

Summary

The motivating case are the changes in vector-reduce-add.ll where
we were doing extra work in the scalar domain instead of shuffling.
There may be some one use check that needs to be looked into there,
but this patch sidesteps the issue by avoiding broadcasts that
aren't really broadcasting.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

craig.topper created this revision.Aug 12 2019, 12:04 AM

Herald added a project: Restricted Project. · View Herald TranscriptAug 12 2019, 12:04 AM

Herald added a subscriber: hiraditya. · View Herald Transcript

Harbormaster completed remote builds in B36583: Diff 214580.Aug 12 2019, 12:07 AM

Is this going to interfere with folding AVX512 broadcast loads into an instruction at all?

More generally, broadcast is preferable if the input is a foldable load (immediate shifts can't fold), but I think combineX86ShuffleChain should handle this.

Are you asking about v8i16 where I switched the shift priority?

I wish we knew the original VT. In the motivating case the shuffle has been widened. So there’s a bitcast that makes the possibility of folding unlikely.

Rebase

Harbormaster completed remote builds in B36918: Diff 215757.Aug 17 2019, 3:20 PM

In D66071#1625242, @craig.topper wrote:

Are you asking about v8i16 where I switched the shift priority?

Yes, but I think combineX86ShuffleChain will try to convert this to a foldableload+broadcast if it can so we should be OK.

LGTM

This revision is now accepted and ready to land.Aug 19 2019, 5:49 AM

Closed by commit rGa0d92c72620c: [X86] Teach lowerV4I32Shuffle to only use broadcasts if the mask has more than… (authored by craig.topper). · Explain WhyAug 19 2019, 11:19 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

20 lines

test/

CodeGen/

X86/

avg.ll

8 lines

avx512-shuffles/

partial_permute.ll

16 lines

insertelement-shuffle.ll

4 lines

shuffle-vs-trunc-512.ll

6 lines

sse41.ll

9 lines

vector-reduce-add.ll

70 lines

vector-shuffle-128-v4.ll

35 lines

vector-shuffle-128-v8.ll

4 lines

vector-shuffle-512-v16.ll

2 lines

vector-shuffle-combining.ll

19 lines

Diff 215954

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 13,108 Lines • ▼ Show 20 Lines	static SDValue lowerV4I32Shuffle(const SDLoc &DL, ArrayRef<int> Mask,
// shuffle in many cases.		// shuffle in many cases.
if (SDValue ZExt = lowerShuffleAsZeroOrAnyExtend(DL, MVT::v4i32, V1, V2, Mask,		if (SDValue ZExt = lowerShuffleAsZeroOrAnyExtend(DL, MVT::v4i32, V1, V2, Mask,
Zeroable, Subtarget, DAG))		Zeroable, Subtarget, DAG))
return ZExt;		return ZExt;

int NumV2Elements = count_if(Mask, [](int M) { return M >= 4; });		int NumV2Elements = count_if(Mask, [](int M) { return M >= 4; });

if (NumV2Elements == 0) {		if (NumV2Elements == 0) {
// Check for being able to broadcast a single element.		// Try to use broadcast unless the mask only has one non-undef element.
		if (count_if(Mask, [](int M) { return M >= 0 && M < 4; }) > 1) {
if (SDValue Broadcast = lowerShuffleAsBroadcast(DL, MVT::v4i32, V1, V2,		if (SDValue Broadcast = lowerShuffleAsBroadcast(DL, MVT::v4i32, V1, V2,
Mask, Subtarget, DAG))		Mask, Subtarget, DAG))
return Broadcast;		return Broadcast;
		}

// Straight shuffle of a single input vector. For everything from SSE2		// Straight shuffle of a single input vector. For everything from SSE2
// onward this has a single fast instruction with no scary immediates.		// onward this has a single fast instruction with no scary immediates.
// We coerce the shuffle pattern to be compatible with UNPCK instructions		// We coerce the shuffle pattern to be compatible with UNPCK instructions
// but we aren't actually going to use the UNPCK instruction because doing		// but we aren't actually going to use the UNPCK instruction because doing
// so prevents folding a load into this instruction or making a copy.		// so prevents folding a load into this instruction or making a copy.
const int UnpackLoMask[] = {0, 0, 1, 1};		const int UnpackLoMask[] = {0, 0, 1, 1};
const int UnpackHiMask[] = {2, 2, 3, 3};		const int UnpackHiMask[] = {2, 2, 3, 3};
▲ Show 20 Lines • Show All 664 Lines • ▼ Show 20 Lines	static SDValue lowerV8I16Shuffle(const SDLoc &DL, ArrayRef<int> Mask,
// than any alternative.		// than any alternative.
if (SDValue ZExt = lowerShuffleAsZeroOrAnyExtend(DL, MVT::v8i16, V1, V2, Mask,		if (SDValue ZExt = lowerShuffleAsZeroOrAnyExtend(DL, MVT::v8i16, V1, V2, Mask,
Zeroable, Subtarget, DAG))		Zeroable, Subtarget, DAG))
return ZExt;		return ZExt;

int NumV2Inputs = count_if(Mask, [](int M) { return M >= 8; });		int NumV2Inputs = count_if(Mask, [](int M) { return M >= 8; });

if (NumV2Inputs == 0) {		if (NumV2Inputs == 0) {
// Check for being able to broadcast a single element.
if (SDValue Broadcast = lowerShuffleAsBroadcast(DL, MVT::v8i16, V1, V2,
Mask, Subtarget, DAG))
return Broadcast;

// Try to use shift instructions.		// Try to use shift instructions.
if (SDValue Shift = lowerShuffleAsShift(DL, MVT::v8i16, V1, V1, Mask,		if (SDValue Shift = lowerShuffleAsShift(DL, MVT::v8i16, V1, V1, Mask,
Zeroable, Subtarget, DAG))		Zeroable, Subtarget, DAG))
return Shift;		return Shift;

		// Check for being able to broadcast a single element.
		if (SDValue Broadcast = lowerShuffleAsBroadcast(DL, MVT::v8i16, V1, V2,
		Mask, Subtarget, DAG))
		return Broadcast;

// Use dedicated unpack instructions for masks that match their pattern.		// Use dedicated unpack instructions for masks that match their pattern.
if (SDValue V = lowerShuffleWithUNPCK(DL, MVT::v8i16, Mask, V1, V2, DAG))		if (SDValue V = lowerShuffleWithUNPCK(DL, MVT::v8i16, Mask, V1, V2, DAG))
return V;		return V;

// Use dedicated pack instructions for masks that match their pattern.		// Use dedicated pack instructions for masks that match their pattern.
if (SDValue V = lowerShuffleWithPACK(DL, MVT::v8i16, Mask, V1, V2, DAG,		if (SDValue V = lowerShuffleWithPACK(DL, MVT::v8i16, Mask, V1, V2, DAG,
Subtarget))		Subtarget))
return V;		return V;
▲ Show 20 Lines • Show All 31,145 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avg.ll

	Show First 20 Lines • Show All 2,475 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vmovq %r11, %xmm3			; AVX2-NEXT: vmovq %r11, %xmm3
	; AVX2-NEXT: vmovq %r9, %xmm4			; AVX2-NEXT: vmovq %r9, %xmm4
	; AVX2-NEXT: vmovq %r8, %xmm5			; AVX2-NEXT: vmovq %r8, %xmm5
	; AVX2-NEXT: vmovq %rdi, %xmm6			; AVX2-NEXT: vmovq %rdi, %xmm6
	; AVX2-NEXT: vmovq {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 8-byte Folded Reload			; AVX2-NEXT: vmovq {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 8-byte Folded Reload
	; AVX2-NEXT: # xmm7 = mem[0],zero			; AVX2-NEXT: # xmm7 = mem[0],zero
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm8 = xmm9[0],xmm8[0],xmm9[1],xmm8[1],xmm9[2],xmm8[2],xmm9[3],xmm8[3],xmm9[4],xmm8[4],xmm9[5],xmm8[5],xmm9[6],xmm8[6],xmm9[7],xmm8[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm8 = xmm9[0],xmm8[0],xmm9[1],xmm8[1],xmm9[2],xmm8[2],xmm9[3],xmm8[3],xmm9[4],xmm8[4],xmm9[5],xmm8[5],xmm9[6],xmm8[6],xmm9[7],xmm8[7]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm9 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm9 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; AVX2-NEXT: vpbroadcastw %xmm8, %xmm8			; AVX2-NEXT: vpslldq {{.*#+}} xmm8 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm8[0,1]
	; AVX2-NEXT: vpbroadcastw %xmm9, %xmm0			; AVX2-NEXT: vpbroadcastw %xmm9, %xmm0
	; AVX2-NEXT: vpblendw {{.*#+}} xmm8 = xmm0[0,1,2,3,4,5,6],xmm8[7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm8 = xmm0[0,1,2,3,4,5,6],xmm8[7]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm13[0],xmm12[0],xmm13[1],xmm12[1],xmm13[2],xmm12[2],xmm13[3],xmm12[3],xmm13[4],xmm12[4],xmm13[5],xmm12[5],xmm13[6],xmm12[6],xmm13[7],xmm12[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm13[0],xmm12[0],xmm13[1],xmm12[1],xmm13[2],xmm12[2],xmm13[3],xmm12[3],xmm13[4],xmm12[4],xmm13[5],xmm12[5],xmm13[6],xmm12[6],xmm13[7],xmm12[7]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm9 = xmm15[0],xmm14[0],xmm15[1],xmm14[1],xmm15[2],xmm14[2],xmm15[3],xmm14[3],xmm15[4],xmm14[4],xmm15[5],xmm14[5],xmm15[6],xmm14[6],xmm15[7],xmm14[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm9 = xmm15[0],xmm14[0],xmm15[1],xmm14[1],xmm15[2],xmm14[2],xmm15[3],xmm14[3],xmm15[4],xmm14[4],xmm15[5],xmm14[5],xmm15[6],xmm14[6],xmm15[7],xmm14[7]
	; AVX2-NEXT: vpbroadcastw %xmm0, %xmm0			; AVX2-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]
	; AVX2-NEXT: vpbroadcastw %xmm9, %xmm1			; AVX2-NEXT: vpbroadcastw %xmm9, %xmm1
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3,4],xmm0[5],xmm1[6,7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3,4],xmm0[5],xmm1[6,7]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1,2],xmm8[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1,2],xmm8[3]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm11[0],xmm10[0],xmm11[1],xmm10[1],xmm11[2],xmm10[2],xmm11[3],xmm10[3],xmm11[4],xmm10[4],xmm11[5],xmm10[5],xmm11[6],xmm10[6],xmm11[7],xmm10[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm11[0],xmm10[0],xmm11[1],xmm10[1],xmm11[2],xmm10[2],xmm11[3],xmm10[3],xmm11[4],xmm10[4],xmm11[5],xmm10[5],xmm11[6],xmm10[6],xmm11[7],xmm10[7]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
	; AVX2-NEXT: vpbroadcastw %xmm1, %xmm1			; AVX2-NEXT: vpsllq $48, %xmm1, %xmm1
	; AVX2-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX2-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX2-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[3],xmm2[4,5,6,7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[3],xmm2[4,5,6,7]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm2 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3],xmm5[4],xmm4[4],xmm5[5],xmm4[5],xmm5[6],xmm4[6],xmm5[7],xmm4[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm2 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3],xmm5[4],xmm4[4],xmm5[5],xmm4[5],xmm5[6],xmm4[6],xmm5[7],xmm4[7]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm3 = xmm7[0],xmm6[0],xmm7[1],xmm6[1],xmm7[2],xmm6[2],xmm7[3],xmm6[3],xmm7[4],xmm6[4],xmm7[5],xmm6[5],xmm7[6],xmm6[6],xmm7[7],xmm6[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm3 = xmm7[0],xmm6[0],xmm7[1],xmm6[1],xmm7[2],xmm6[2],xmm7[3],xmm6[3],xmm7[4],xmm6[4],xmm7[5],xmm6[5],xmm7[6],xmm6[6],xmm7[7],xmm6[7]
	; AVX2-NEXT: vpbroadcastw %xmm3, %xmm3			; AVX2-NEXT: vpslld $16, %xmm3, %xmm3
	; AVX2-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0],xmm3[1],xmm2[2,3,4,5,6,7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0],xmm3[1],xmm2[2,3,4,5,6,7]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; AVX2-NEXT: vmovdqu %xmm0, (%rax)			; AVX2-NEXT: vmovdqu %xmm0, (%rax)
	; AVX2-NEXT: addq $16, %rsp			; AVX2-NEXT: addq $16, %rsp
	; AVX2-NEXT: popq %rbx			; AVX2-NEXT: popq %rbx
	; AVX2-NEXT: popq %r12			; AVX2-NEXT: popq %r12
	; AVX2-NEXT: popq %r13			; AVX2-NEXT: popq %r13
	▲ Show 20 Lines • Show All 482 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-shuffles/partial_permute.ll

Show First 20 Lines • Show All 219 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%cmp = icmp eq <8 x i16> %mask, zeroinitializer		%cmp = icmp eq <8 x i16> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x i16> %shuf, <8 x i16> zeroinitializer		%res = select <8 x i1> %cmp, <8 x i16> %shuf, <8 x i16> zeroinitializer
ret <8 x i16> %res		ret <8 x i16> %res
}		}

define <8 x i16> @test_masked_16xi16_to_8xi16_perm_mem_mask2(<16 x i16>* %vp, <8 x i16> %vec2, <8 x i16> %mask) {		define <8 x i16> @test_masked_16xi16_to_8xi16_perm_mem_mask2(<16 x i16>* %vp, <8 x i16> %vec2, <8 x i16> %mask) {
; CHECK-LABEL: test_masked_16xi16_to_8xi16_perm_mem_mask2:		; CHECK-LABEL: test_masked_16xi16_to_8xi16_perm_mem_mask2:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpbroadcastw 2(%rdi), %xmm2		; CHECK-NEXT: vmovdqa 16(%rdi), %xmm2
; CHECK-NEXT: vmovdqa 16(%rdi), %xmm3		; CHECK-NEXT: vmovdqa {{.*#+}} xmm3 = [9,0,3,0,5,0,7,1]
; CHECK-NEXT: vmovdqa {{.*#+}} xmm4 = [8,0,3,0,5,0,7,1]		; CHECK-NEXT: vpermi2w (%rdi), %xmm2, %xmm3
; CHECK-NEXT: vpermi2w %xmm2, %xmm3, %xmm4
; CHECK-NEXT: vptestnmw %xmm1, %xmm1, %k1		; CHECK-NEXT: vptestnmw %xmm1, %xmm1, %k1
; CHECK-NEXT: vmovdqu16 %xmm4, %xmm0 {%k1}		; CHECK-NEXT: vmovdqu16 %xmm3, %xmm0 {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <16 x i16>, <16 x i16>* %vp		%vec = load <16 x i16>, <16 x i16>* %vp
%shuf = shufflevector <16 x i16> %vec, <16 x i16> undef, <8 x i32> <i32 1, i32 8, i32 11, i32 8, i32 13, i32 8, i32 15, i32 9>		%shuf = shufflevector <16 x i16> %vec, <16 x i16> undef, <8 x i32> <i32 1, i32 8, i32 11, i32 8, i32 13, i32 8, i32 15, i32 9>
%cmp = icmp eq <8 x i16> %mask, zeroinitializer		%cmp = icmp eq <8 x i16> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x i16> %shuf, <8 x i16> %vec2		%res = select <8 x i1> %cmp, <8 x i16> %shuf, <8 x i16> %vec2
ret <8 x i16> %res		ret <8 x i16> %res
}		}

define <8 x i16> @test_masked_z_16xi16_to_8xi16_perm_mem_mask2(<16 x i16>* %vp, <8 x i16> %mask) {		define <8 x i16> @test_masked_z_16xi16_to_8xi16_perm_mem_mask2(<16 x i16>* %vp, <8 x i16> %mask) {
; CHECK-LABEL: test_masked_z_16xi16_to_8xi16_perm_mem_mask2:		; CHECK-LABEL: test_masked_z_16xi16_to_8xi16_perm_mem_mask2:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpbroadcastw 2(%rdi), %xmm2		; CHECK-NEXT: vmovdqa 16(%rdi), %xmm2
; CHECK-NEXT: vmovdqa 16(%rdi), %xmm3		; CHECK-NEXT: vmovdqa {{.*#+}} xmm1 = [9,0,3,0,5,0,7,1]
; CHECK-NEXT: vmovdqa {{.*#+}} xmm1 = [8,0,3,0,5,0,7,1]
; CHECK-NEXT: vptestnmw %xmm0, %xmm0, %k1		; CHECK-NEXT: vptestnmw %xmm0, %xmm0, %k1
; CHECK-NEXT: vpermi2w %xmm2, %xmm3, %xmm1 {%k1} {z}		; CHECK-NEXT: vpermi2w (%rdi), %xmm2, %xmm1 {%k1} {z}
; CHECK-NEXT: vmovdqa %xmm1, %xmm0		; CHECK-NEXT: vmovdqa %xmm1, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <16 x i16>, <16 x i16>* %vp		%vec = load <16 x i16>, <16 x i16>* %vp
%shuf = shufflevector <16 x i16> %vec, <16 x i16> undef, <8 x i32> <i32 1, i32 8, i32 11, i32 8, i32 13, i32 8, i32 15, i32 9>		%shuf = shufflevector <16 x i16> %vec, <16 x i16> undef, <8 x i32> <i32 1, i32 8, i32 11, i32 8, i32 13, i32 8, i32 15, i32 9>
%cmp = icmp eq <8 x i16> %mask, zeroinitializer		%cmp = icmp eq <8 x i16> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x i16> %shuf, <8 x i16> zeroinitializer		%res = select <8 x i1> %cmp, <8 x i16> %shuf, <8 x i16> zeroinitializer
ret <8 x i16> %res		ret <8 x i16> %res
}		}
▲ Show 20 Lines • Show All 4,183 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/insertelement-shuffle.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=avx2 \| FileCheck %s --check-prefixes=X86,X86_AVX256			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=avx2 \| FileCheck %s --check-prefixes=X86,X86_AVX256
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx2 \| FileCheck %s --check-prefixes=X64,X64_AVX256			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx2 \| FileCheck %s --check-prefixes=X64,X64_AVX256
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=avx512f \| FileCheck %s --check-prefixes=X86,X86_AVX512			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=avx512f \| FileCheck %s --check-prefixes=X86,X86_AVX512
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512f \| FileCheck %s --check-prefixes=X64,X64_AVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512f \| FileCheck %s --check-prefixes=X64,X64_AVX512

	define <8 x float> @insert_subvector_256(i16 %x0, i16 %x1, <8 x float> %v) nounwind {			define <8 x float> @insert_subvector_256(i16 %x0, i16 %x1, <8 x float> %v) nounwind {
	; X86-LABEL: insert_subvector_256:			; X86-LABEL: insert_subvector_256:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X86-NEXT: vpinsrw $1, {{[0-9]+}}(%esp), %xmm1, %xmm1			; X86-NEXT: vpinsrw $1, {{[0-9]+}}(%esp), %xmm1, %xmm1
	; X86-NEXT: vpbroadcastd %xmm1, %xmm1			; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; X86-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7]			; X86-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7]
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: insert_subvector_256:			; X64-LABEL: insert_subvector_256:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vmovd %edi, %xmm1			; X64-NEXT: vmovd %edi, %xmm1
	; X64-NEXT: vpinsrw $1, %esi, %xmm1, %xmm1			; X64-NEXT: vpinsrw $1, %esi, %xmm1, %xmm1
	; X64-NEXT: vpbroadcastd %xmm1, %xmm1			; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; X64-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7]			; X64-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7]
	; X64-NEXT: retq			; X64-NEXT: retq
	%ins1 = insertelement <2 x i16> undef, i16 %x0, i32 0			%ins1 = insertelement <2 x i16> undef, i16 %x0, i32 0
	%ins2 = insertelement <2 x i16> %ins1, i16 %x1, i32 1			%ins2 = insertelement <2 x i16> %ins1, i16 %x1, i32 1
	%bc = bitcast <2 x i16> %ins2 to float			%bc = bitcast <2 x i16> %ins2 to float
	%ins3 = insertelement <8 x float> %v, float %bc, i32 1			%ins3 = insertelement <8 x float> %v, float %bc, i32 1
	ret <8 x float> %ins3			ret <8 x float> %ins3
	}			}
	▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/shuffle-vs-trunc-512.ll

	Show First 20 Lines • Show All 818 Lines • ▼ Show 20 Lines

	define <4 x double> @PR34175(<32 x i16>* %p) {			define <4 x double> @PR34175(<32 x i16>* %p) {
	; AVX512F-LABEL: PR34175:			; AVX512F-LABEL: PR34175:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovdqu (%rdi), %xmm0			; AVX512F-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512F-NEXT: vmovdqu 32(%rdi), %xmm1			; AVX512F-NEXT: vmovdqu 32(%rdi), %xmm1
	; AVX512F-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; AVX512F-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; AVX512F-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]			; AVX512F-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
	; AVX512F-NEXT: vpbroadcastd %xmm1, %xmm1			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]			; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX512F-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512F-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512F-NEXT: vcvtdq2pd %xmm0, %ymm0			; AVX512F-NEXT: vcvtdq2pd %xmm0, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: PR34175:			; AVX512VL-LABEL: PR34175:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqu (%rdi), %xmm0			; AVX512VL-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512VL-NEXT: vmovdqu 32(%rdi), %xmm1			; AVX512VL-NEXT: vmovdqu 32(%rdi), %xmm1
	; AVX512VL-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]			; AVX512VL-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
	; AVX512VL-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; AVX512VL-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,4,2,3]			; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,4,2,3]
	; AVX512VL-NEXT: vpermi2d %xmm1, %xmm0, %xmm2			; AVX512VL-NEXT: vpermi2d %xmm1, %xmm0, %xmm2
	; AVX512VL-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX512VL-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
	; AVX512VL-NEXT: vcvtdq2pd %xmm0, %ymm0			; AVX512VL-NEXT: vcvtdq2pd %xmm0, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: PR34175:			; AVX512BW-LABEL: PR34175:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vmovdqu (%rdi), %xmm0			; AVX512BW-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512BW-NEXT: vmovdqu 32(%rdi), %xmm1			; AVX512BW-NEXT: vmovdqu 32(%rdi), %xmm1
	; AVX512BW-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; AVX512BW-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; AVX512BW-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]			; AVX512BW-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
	; AVX512BW-NEXT: vpbroadcastd %xmm1, %xmm1			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; AVX512BW-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]			; AVX512BW-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX512BW-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512BW-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512BW-NEXT: vcvtdq2pd %xmm0, %ymm0			; AVX512BW-NEXT: vcvtdq2pd %xmm0, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: PR34175:			; AVX512BWVL-LABEL: PR34175:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vmovdqu (%rdi), %ymm0			; AVX512BWVL-NEXT: vmovdqu (%rdi), %ymm0
	; AVX512BWVL-NEXT: vpbroadcastq {{.*#+}} ymm1 = [6755468161056768,6755468161056768,6755468161056768,6755468161056768]			; AVX512BWVL-NEXT: vpbroadcastq {{.*#+}} ymm1 = [6755468161056768,6755468161056768,6755468161056768,6755468161056768]
	; AVX512BWVL-NEXT: vpermi2w 32(%rdi), %ymm0, %ymm1			; AVX512BWVL-NEXT: vpermi2w 32(%rdi), %ymm0, %ymm1
	; AVX512BWVL-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero			; AVX512BWVL-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; AVX512BWVL-NEXT: vcvtdq2pd %xmm0, %ymm0			; AVX512BWVL-NEXT: vcvtdq2pd %xmm0, %ymm0
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512VBMI-LABEL: PR34175:			; AVX512VBMI-LABEL: PR34175:
	; AVX512VBMI: # %bb.0:			; AVX512VBMI: # %bb.0:
	; AVX512VBMI-NEXT: vmovdqu (%rdi), %xmm0			; AVX512VBMI-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512VBMI-NEXT: vmovdqu 32(%rdi), %xmm1			; AVX512VBMI-NEXT: vmovdqu 32(%rdi), %xmm1
	; AVX512VBMI-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; AVX512VBMI-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; AVX512VBMI-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]			; AVX512VBMI-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
	; AVX512VBMI-NEXT: vpbroadcastd %xmm1, %xmm1			; AVX512VBMI-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; AVX512VBMI-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]			; AVX512VBMI-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX512VBMI-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512VBMI-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512VBMI-NEXT: vcvtdq2pd %xmm0, %ymm0			; AVX512VBMI-NEXT: vcvtdq2pd %xmm0, %ymm0
	; AVX512VBMI-NEXT: retq			; AVX512VBMI-NEXT: retq
	;			;
	; AVX512VBMIVL-LABEL: PR34175:			; AVX512VBMIVL-LABEL: PR34175:
	; AVX512VBMIVL: # %bb.0:			; AVX512VBMIVL: # %bb.0:
	; AVX512VBMIVL-NEXT: vmovdqu (%rdi), %ymm0			; AVX512VBMIVL-NEXT: vmovdqu (%rdi), %ymm0
	Show All 23 Lines

llvm/test/CodeGen/X86/sse41.ll

	Show First 20 Lines • Show All 650 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: ## xmm1 = mem[0,1,2,0]			; X86-AVX1-NEXT: ## xmm1 = mem[0,1,2,0]
	; X86-AVX1-NEXT: vblendps $8, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x0c,0xc1,0x08]			; X86-AVX1-NEXT: vblendps $8, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x0c,0xc1,0x08]
	; X86-AVX1-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]			; X86-AVX1-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]
	; X86-AVX1-NEXT: retl ## encoding: [0xc3]			; X86-AVX1-NEXT: retl ## encoding: [0xc3]
	;			;
	; X86-AVX512-LABEL: pinsrd_from_shufflevector_i32:			; X86-AVX512-LABEL: pinsrd_from_shufflevector_i32:
	; X86-AVX512: ## %bb.0: ## %entry			; X86-AVX512: ## %bb.0: ## %entry
	; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]			; X86-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax ## encoding: [0x8b,0x44,0x24,0x04]
	; X86-AVX512-NEXT: vbroadcastss (%eax), %xmm1 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x18,0x08]			; X86-AVX512-NEXT: vpermilps $36, (%eax), %xmm1 ## EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x04,0x08,0x24]
				; X86-AVX512-NEXT: ## xmm1 = mem[0,1,2,0]
	; X86-AVX512-NEXT: vblendps $8, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x0c,0xc1,0x08]			; X86-AVX512-NEXT: vblendps $8, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x0c,0xc1,0x08]
	; X86-AVX512-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]			; X86-AVX512-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]
	; X86-AVX512-NEXT: retl ## encoding: [0xc3]			; X86-AVX512-NEXT: retl ## encoding: [0xc3]
	;			;
	; X64-SSE-LABEL: pinsrd_from_shufflevector_i32:			; X64-SSE-LABEL: pinsrd_from_shufflevector_i32:
	; X64-SSE: ## %bb.0: ## %entry			; X64-SSE: ## %bb.0: ## %entry
	; X64-SSE-NEXT: pshufd $36, (%rdi), %xmm1 ## encoding: [0x66,0x0f,0x70,0x0f,0x24]			; X64-SSE-NEXT: pshufd $36, (%rdi), %xmm1 ## encoding: [0x66,0x0f,0x70,0x0f,0x24]
	; X64-SSE-NEXT: ## xmm1 = mem[0,1,2,0]			; X64-SSE-NEXT: ## xmm1 = mem[0,1,2,0]
	; X64-SSE-NEXT: pblendw $192, %xmm1, %xmm0 ## encoding: [0x66,0x0f,0x3a,0x0e,0xc1,0xc0]			; X64-SSE-NEXT: pblendw $192, %xmm1, %xmm0 ## encoding: [0x66,0x0f,0x3a,0x0e,0xc1,0xc0]
	; X64-SSE-NEXT: ## xmm0 = xmm0[0,1,2,3,4,5],xmm1[6,7]			; X64-SSE-NEXT: ## xmm0 = xmm0[0,1,2,3,4,5],xmm1[6,7]
	; X64-SSE-NEXT: retq ## encoding: [0xc3]			; X64-SSE-NEXT: retq ## encoding: [0xc3]
	;			;
	; X64-AVX1-LABEL: pinsrd_from_shufflevector_i32:			; X64-AVX1-LABEL: pinsrd_from_shufflevector_i32:
	; X64-AVX1: ## %bb.0: ## %entry			; X64-AVX1: ## %bb.0: ## %entry
	; X64-AVX1-NEXT: vpermilps $36, (%rdi), %xmm1 ## encoding: [0xc4,0xe3,0x79,0x04,0x0f,0x24]			; X64-AVX1-NEXT: vpermilps $36, (%rdi), %xmm1 ## encoding: [0xc4,0xe3,0x79,0x04,0x0f,0x24]
	; X64-AVX1-NEXT: ## xmm1 = mem[0,1,2,0]			; X64-AVX1-NEXT: ## xmm1 = mem[0,1,2,0]
	; X64-AVX1-NEXT: vblendps $8, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x0c,0xc1,0x08]			; X64-AVX1-NEXT: vblendps $8, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x0c,0xc1,0x08]
	; X64-AVX1-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]			; X64-AVX1-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]
	; X64-AVX1-NEXT: retq ## encoding: [0xc3]			; X64-AVX1-NEXT: retq ## encoding: [0xc3]
	;			;
	; X64-AVX512-LABEL: pinsrd_from_shufflevector_i32:			; X64-AVX512-LABEL: pinsrd_from_shufflevector_i32:
	; X64-AVX512: ## %bb.0: ## %entry			; X64-AVX512: ## %bb.0: ## %entry
	; X64-AVX512-NEXT: vbroadcastss (%rdi), %xmm1 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x18,0x0f]			; X64-AVX512-NEXT: vpermilps $36, (%rdi), %xmm1 ## EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x04,0x0f,0x24]
				; X64-AVX512-NEXT: ## xmm1 = mem[0,1,2,0]
	; X64-AVX512-NEXT: vblendps $8, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x0c,0xc1,0x08]			; X64-AVX512-NEXT: vblendps $8, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x0c,0xc1,0x08]
	; X64-AVX512-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]			; X64-AVX512-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]
	; X64-AVX512-NEXT: retq ## encoding: [0xc3]			; X64-AVX512-NEXT: retq ## encoding: [0xc3]
	entry:			entry:
	%0 = load <4 x i32>, <4 x i32>* %pb, align 16			%0 = load <4 x i32>, <4 x i32>* %pb, align 16
	%vecinit6 = shufflevector <4 x i32> %a, <4 x i32> %0, <4 x i32> <i32 0, i32 1, i32 2, i32 4>			%vecinit6 = shufflevector <4 x i32> %a, <4 x i32> %0, <4 x i32> <i32 0, i32 1, i32 2, i32 4>
	ret <4 x i32> %vecinit6			ret <4 x i32> %vecinit6
	}			}
	▲ Show 20 Lines • Show All 528 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]			; AVX1-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]
	; AVX1-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]			; AVX1-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
	;			;
	; AVX512-LABEL: i32_shuf_X00A:			; AVX512-LABEL: i32_shuf_X00A:
	; AVX512: ## %bb.0:			; AVX512: ## %bb.0:
	; AVX512-NEXT: vxorps %xmm2, %xmm2, %xmm2 ## encoding: [0xc5,0xe8,0x57,0xd2]			; AVX512-NEXT: vxorps %xmm2, %xmm2, %xmm2 ## encoding: [0xc5,0xe8,0x57,0xd2]
	; AVX512-NEXT: vblendps $1, %xmm0, %xmm2, %xmm0 ## encoding: [0xc4,0xe3,0x69,0x0c,0xc0,0x01]			; AVX512-NEXT: vblendps $1, %xmm0, %xmm2, %xmm0 ## encoding: [0xc4,0xe3,0x69,0x0c,0xc0,0x01]
	; AVX512-NEXT: ## xmm0 = xmm0[0],xmm2[1,2,3]			; AVX512-NEXT: ## xmm0 = xmm0[0],xmm2[1,2,3]
	; AVX512-NEXT: vbroadcastss %xmm1, %xmm1 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x18,0xc9]			; AVX512-NEXT: vpermilps $36, %xmm1, %xmm1 ## EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x04,0xc9,0x24]
				; AVX512-NEXT: ## xmm1 = xmm1[0,1,2,0]
	; AVX512-NEXT: vblendps $8, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x0c,0xc1,0x08]			; AVX512-NEXT: vblendps $8, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x0c,0xc1,0x08]
	; AVX512-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]			; AVX512-NEXT: ## xmm0 = xmm0[0,1,2],xmm1[3]
	; AVX512-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]			; AVX512-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
	%vecext = extractelement <4 x i32> %x, i32 0			%vecext = extractelement <4 x i32> %x, i32 0
	%vecinit = insertelement <4 x i32> undef, i32 %vecext, i32 0			%vecinit = insertelement <4 x i32> undef, i32 %vecext, i32 0
	%vecinit1 = insertelement <4 x i32> %vecinit, i32 0, i32 1			%vecinit1 = insertelement <4 x i32> %vecinit, i32 0, i32 1
	%vecinit2 = insertelement <4 x i32> %vecinit1, i32 0, i32 2			%vecinit2 = insertelement <4 x i32> %vecinit1, i32 0, i32 2
	%vecinit4 = shufflevector <4 x i32> %vecinit2, <4 x i32> %a, <4 x i32> <i32 0, i32 1, i32 2, i32 4>			%vecinit4 = shufflevector <4 x i32> %vecinit2, <4 x i32> %a, <4 x i32> <i32 0, i32 1, i32 2, i32 4>
	▲ Show 20 Lines • Show All 947 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-add.ll

	Show First 20 Lines • Show All 1,095 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: paddb %xmm0, %xmm1			; SSE41-NEXT: paddb %xmm0, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: psrlw $8, %xmm0			; SSE41-NEXT: psrlw $8, %xmm0
	; SSE41-NEXT: paddb %xmm1, %xmm0			; SSE41-NEXT: paddb %xmm1, %xmm0
	; SSE41-NEXT: pextrb $0, %xmm0, %eax			; SSE41-NEXT: pextrb $0, %xmm0, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i8_load:			; AVX-LABEL: test_v4i8_load:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2-LABEL: test_v4i8_load:
	; AVX2: # %bb.0:
	; AVX2-NEXT: movl (%rdi), %eax
	; AVX2-NEXT: vmovd %eax, %xmm0
	; AVX2-NEXT: shrl $16, %eax
	; AVX2-NEXT: vmovd %eax, %xmm1
	; AVX2-NEXT: vpbroadcastw %xmm1, %xmm1
	; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v4i8_load:			; AVX512-LABEL: test_v4i8_load:
	; AVX512BW: # %bb.0:			; AVX512: # %bb.0:
	; AVX512BW-NEXT: movl (%rdi), %eax			; AVX512-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; AVX512BW-NEXT: vmovd %eax, %xmm0			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BW-NEXT: shrl $16, %eax			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %eax, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512BW-NEXT: vpbroadcastw %xmm1, %xmm1			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BW-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX512-NEXT: retq
	; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BW-NEXT: retq
	;
	; AVX512VL-LABEL: test_v4i8_load:
	; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: movl (%rdi), %eax
	; AVX512VL-NEXT: vmovd %eax, %xmm0
	; AVX512VL-NEXT: shrl $16, %eax
	; AVX512VL-NEXT: vpbroadcastw %eax, %xmm1
	; AVX512VL-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512VL-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512VL-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512VL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512VL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512VL-NEXT: retq
	%a0 = load <4 x i8>, <4 x i8>* %p			%a0 = load <4 x i8>, <4 x i8>* %p
	%1 = call i8 @llvm.experimental.vector.reduce.add.v4i8(<4 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.add.v4i8(<4 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	define i8 @test_v8i8(<8 x i8> %a0) {			define i8 @test_v8i8(<8 x i8> %a0) {
	; SSE2-LABEL: test_v8i8:			; SSE2-LABEL: test_v8i8:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	▲ Show 20 Lines • Show All 375 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-128-v4.ll

	Show First 20 Lines • Show All 348 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: shuffle_v4i32_0124:			; SSE41-LABEL: shuffle_v4i32_0124:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,2,0]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,2,0]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5],xmm1[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5],xmm1[6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: shuffle_v4i32_0124:			; AVX1OR2-LABEL: shuffle_v4i32_0124:
	; AVX1: # %bb.0:			; AVX1OR2: # %bb.0:
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,1,2,0]			; AVX1OR2-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,1,2,0]
	; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]			; AVX1OR2-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
	; AVX1-NEXT: retq			; AVX1OR2-NEXT: retq
	;
	; AVX2-LABEL: shuffle_v4i32_0124:
	; AVX2: # %bb.0:
	; AVX2-NEXT: vbroadcastss %xmm1, %xmm1
	; AVX2-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
	; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v4i32_0124:			; AVX512VL-LABEL: shuffle_v4i32_0124:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,2,4]			; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,2,4]
	; AVX512VL-NEXT: vpermt2d %xmm1, %xmm2, %xmm0			; AVX512VL-NEXT: vpermt2d %xmm1, %xmm2, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 0, i32 1, i32 2, i32 4>			%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 0, i32 1, i32 2, i32 4>
	ret <4 x i32> %shuffle			ret <4 x i32> %shuffle
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	;			;
	; SSE41-LABEL: shuffle_v4i32_0412:			; SSE41-LABEL: shuffle_v4i32_0412:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,2]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: shuffle_v4i32_0412:			; AVX1OR2-LABEL: shuffle_v4i32_0412:
	; AVX1: # %bb.0:			; AVX1OR2: # %bb.0:
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,1,1]			; AVX1OR2-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,2]			; AVX1OR2-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,2]
	; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]			; AVX1OR2-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX1-NEXT: retq			; AVX1OR2-NEXT: retq
	;
	; AVX2-LABEL: shuffle_v4i32_0412:
	; AVX2: # %bb.0:
	; AVX2-NEXT: vbroadcastss %xmm1, %xmm1
	; AVX2-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,2]
	; AVX2-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v4i32_0412:			; AVX512VL-LABEL: shuffle_v4i32_0412:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,4,1,2]			; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,4,1,2]
	; AVX512VL-NEXT: vpermt2d %xmm1, %xmm2, %xmm0			; AVX512VL-NEXT: vpermt2d %xmm1, %xmm2, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 0, i32 4, i32 1, i32 2>			%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 0, i32 4, i32 1, i32 2>
	ret <4 x i32> %shuffle			ret <4 x i32> %shuffle
	▲ Show 20 Lines • Show All 2,008 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-128-v8.ll

	Show First 20 Lines • Show All 1,565 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,2,0]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,2,0]
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,1,2,1,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,1,2,1,4,5,6,7]
	; AVX1-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,7,7]			; AVX1-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,7,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,6],xmm1[7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,6],xmm1[7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: shuffle_v8i16_XXX1X579:			; AVX2-SLOW-LABEL: shuffle_v8i16_XXX1X579:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpbroadcastd %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,2,0]
	; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,1,2,1,4,5,6,7]			; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,1,2,1,4,5,6,7]
	; AVX2-SLOW-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,7,7]			; AVX2-SLOW-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,7,7]
	; AVX2-SLOW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,6],xmm1[7]			; AVX2-SLOW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,6],xmm1[7]
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: shuffle_v8i16_XXX1X579:			; AVX2-FAST-LABEL: shuffle_v8i16_XXX1X579:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpbroadcastd %xmm1, %xmm1			; AVX2-FAST-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,2,0]
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,2,3,8,9,10,11,14,15,14,15]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,2,3,8,9,10,11,14,15,14,15]
	; AVX2-FAST-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,6],xmm1[7]			; AVX2-FAST-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,6],xmm1[7]
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v8i16_XXX1X579:			; AVX512VL-LABEL: shuffle_v8i16_XXX1X579:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,2,1,4,5,7,9]			; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,2,1,4,5,7,9]
	; AVX512VL-NEXT: vpermt2w %xmm1, %xmm2, %xmm0			; AVX512VL-NEXT: vpermt2w %xmm1, %xmm2, %xmm0
	▲ Show 20 Lines • Show All 1,312 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-512-v16.ll

	Show First 20 Lines • Show All 303 Lines • ▼ Show 20 Lines
	}			}

	;FIXME: can do better with vpcompress			;FIXME: can do better with vpcompress
	define <4 x i32> @test_v16i32_0_1_2_12 (<16 x i32> %v) {			define <4 x i32> @test_v16i32_0_1_2_12 (<16 x i32> %v) {
	; ALL-LABEL: test_v16i32_0_1_2_12:			; ALL-LABEL: test_v16i32_0_1_2_12:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; ALL-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; ALL-NEXT: vextractf128 $1, %ymm1, %xmm1			; ALL-NEXT: vextractf128 $1, %ymm1, %xmm1
	; ALL-NEXT: vbroadcastss %xmm1, %xmm1			; ALL-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,1,2,0]
	; ALL-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]			; ALL-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
	; ALL-NEXT: vzeroupper			; ALL-NEXT: vzeroupper
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%res = shufflevector <16 x i32> %v, <16 x i32> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 12>			%res = shufflevector <16 x i32> %v, <16 x i32> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 12>
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}

	;PR31451			;PR31451
	▲ Show 20 Lines • Show All 414 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-combining.ll

	Show First 20 Lines • Show All 858 Lines • ▼ Show 20 Lines
	;			;
	; SSE41-LABEL: combine_nested_undef_test15:			; SSE41-LABEL: combine_nested_undef_test15:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,0,1]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: combine_nested_undef_test15:			; AVX-LABEL: combine_nested_undef_test15:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,1,1]			; AVX-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,0,1]			; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,0,1]
	; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]			; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2-LABEL: combine_nested_undef_test15:
	; AVX2: # %bb.0:
	; AVX2-NEXT: vbroadcastss %xmm1, %xmm1
	; AVX2-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,0,1]
	; AVX2-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX2-NEXT: retq
	%1 = shufflevector <4 x i32> %A, <4 x i32> %B, <4 x i32> <i32 0, i32 4, i32 3, i32 1>			%1 = shufflevector <4 x i32> %A, <4 x i32> %B, <4 x i32> <i32 0, i32 4, i32 3, i32 1>
	%2 = shufflevector <4 x i32> %1, <4 x i32> undef, <4 x i32> <i32 2, i32 1, i32 0, i32 3>			%2 = shufflevector <4 x i32> %1, <4 x i32> undef, <4 x i32> <i32 2, i32 1, i32 0, i32 3>
	ret <4 x i32> %2			ret <4 x i32> %2
	}			}

	define <4 x i32> @combine_nested_undef_test16(<4 x i32> %A, <4 x i32> %B) {			define <4 x i32> @combine_nested_undef_test16(<4 x i32> %A, <4 x i32> %B) {
	; SSE2-LABEL: combine_nested_undef_test16:			; SSE2-LABEL: combine_nested_undef_test16:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	▲ Show 20 Lines • Show All 1,941 Lines • Show Last 20 Lines