This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Avoid shuffles with zero by using pshufb to create zeros
ClosedPublic

Authored by RKSimon on Jan 8 2015, 3:56 AM.

Download Raw Diff

Details

Reviewers

spatel
chandlerc
andreadb

Commits

rGec1f2c2cab6d: [X86][SSE] Avoid vector byte shuffles with zero by using pshufb to create zeros
rL225551: [X86][SSE] Avoid vector byte shuffles with zero by using pshufb to create zeros

Summary

pshufb can shuffle in zero bytes as well as bytes from a source vector - we can use this to avoid having to shuffle 2 vectors and ORing the result when the used inputs from a vector are all zeroable.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon updated this revision to Diff 17891.Jan 8 2015, 3:56 AM

RKSimon retitled this revision from to [X86][SSE] Avoid shuffles with zero by using pshufb to create zeros.

RKSimon updated this object.

RKSimon edited the test plan for this revision. (Show Details)

RKSimon added reviewers: chandlerc, spatel, andreadb.

RKSimon set the repository for this revision to rL LLVM.

RKSimon added a subscriber: Unknown Object (MLST).

Hi Simon,

Look mostly good to me, I just have one concern with the current structure that I found error prone in case we need to update it.
See my inlined comments.

Thanks,
-Quentin

lib/Target/X86/X86ISelLowering.cpp
9602 ↗	(On Diff #17891)	This is just a suggestion. How about moving the zeroable test outside of the ‘?:’ operator. I.e., first int V1Idx = ((Mask[i] < 16) ? Mask[i] : 0x80); int V2Idx = ((Mask[i] < 16) ? 0x80 : Mask[i] - 16); if (Zeorable[i]) V1Idx = V2Idx = 0x80;
9605 ↗	(On Diff #17891)	I would introduce a constant for 0x80 instead of having it spread.
9606 ↗	(On Diff #17891)	We already know this from the ‘?:’ statements. Seems like worth restructuring the code to actually use a if / else.
9611 ↗	(On Diff #17891)	I would structure this and the following if a bit differently. But that is a matter of taste. Currently we have: if (A) { // do1 if (!B) return A } if (B) { // do2 if (!A) return B return //do3 } I would do => if (A) // do1 if (B) // do2 if (A && B) return // do3 return A ? A : B;

Forgot to ask, but any performance numbers for that?

Closed by commit rL225551: [X86][SSE] Avoid vector byte shuffles with zero by using pshufb to create zeros (authored by RKSimon). · Explain WhyJan 9 2015, 2:04 PM

This revision was automatically updated to reflect the committed changes.

Thanks Quentin.

A basic timing test of the pshufb vs 2xpshufb+por core loop gave a 30% improvement on my older Core2Duo machine (I guess due to throughput limitations), but this diminished to less than 5% on SandyBridge. However, its main use is the reduction in register pressure, as well as the obvious fact that it was pointlessly shuffling zero vectors.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

44 lines

test/

CodeGen/

X86/

vector-shuffle-128-v16.ll

188 lines

Diff 17948

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 9,593 Lines • ▼ Show 20 Lines	static SDValue lowerV16I8VectorShuffle(SDValue Op, SDValue V1, SDValue V2,
// PSHUFB approach because of its ability to zero lanes.		// PSHUFB approach because of its ability to zero lanes.
//		//
// FIXME: The only exceptions to the above are blends which are exact		// FIXME: The only exceptions to the above are blends which are exact
// interleavings with direct instructions supporting them. We currently don't		// interleavings with direct instructions supporting them. We currently don't
// handle those well here.		// handle those well here.
if (Subtarget->hasSSSE3()) {		if (Subtarget->hasSSSE3()) {
SDValue V1Mask[16];		SDValue V1Mask[16];
SDValue V2Mask[16];		SDValue V2Mask[16];
for (int i = 0; i < 16; ++i)		bool V1InUse = false;
		bool V2InUse = false;
		SmallBitVector Zeroable = computeZeroableShuffleElements(Mask, V1, V2);

		for (int i = 0; i < 16; ++i) {
if (Mask[i] == -1) {		if (Mask[i] == -1) {
V1Mask[i] = V2Mask[i] = DAG.getUNDEF(MVT::i8);		V1Mask[i] = V2Mask[i] = DAG.getUNDEF(MVT::i8);
} else {		} else {
V1Mask[i] = DAG.getConstant(Mask[i] < 16 ? Mask[i] : 0x80, MVT::i8);		const int ZeroMask = 0x80;
V2Mask[i] =		int V1Idx = (Mask[i] < 16 ? Mask[i] : ZeroMask);
DAG.getConstant(Mask[i] < 16 ? 0x80 : Mask[i] - 16, MVT::i8);		int V2Idx = (Mask[i] < 16 ? ZeroMask : Mask[i] - 16);
		if (Zeroable[i])
		V1Idx = V2Idx = ZeroMask;
		V1Mask[i] = DAG.getConstant(V1Idx, MVT::i8);
		V2Mask[i] = DAG.getConstant(V2Idx, MVT::i8);
		V1InUse \|= (ZeroMask != V1Idx);
		V2InUse \|= (ZeroMask != V2Idx);
		}
}		}
		assert((V1InUse \|\| V2InUse) && "Shuffling to a zeroable vector");

		if (V1InUse)
V1 = DAG.getNode(X86ISD::PSHUFB, DL, MVT::v16i8, V1,		V1 = DAG.getNode(X86ISD::PSHUFB, DL, MVT::v16i8, V1,
DAG.getNode(ISD::BUILD_VECTOR, DL, MVT::v16i8, V1Mask));		DAG.getNode(ISD::BUILD_VECTOR, DL, MVT::v16i8, V1Mask));
if (isSingleInputShuffleMask(Mask))		if (V2InUse)
return V1; // Single inputs are easy.

// Otherwise, blend the two.
V2 = DAG.getNode(X86ISD::PSHUFB, DL, MVT::v16i8, V2,		V2 = DAG.getNode(X86ISD::PSHUFB, DL, MVT::v16i8, V2,
DAG.getNode(ISD::BUILD_VECTOR, DL, MVT::v16i8, V2Mask));		DAG.getNode(ISD::BUILD_VECTOR, DL, MVT::v16i8, V2Mask));

		// If we need shuffled inputs from both, blend the two.
		if (V1InUse && V2InUse)
return DAG.getNode(ISD::OR, DL, MVT::v16i8, V1, V2);		return DAG.getNode(ISD::OR, DL, MVT::v16i8, V1, V2);
		if (V1InUse)
		return V1; // Single inputs are easy.
		if (V2InUse)
		return V2; // Single inputs are easy.
}		}

// There are special ways we can lower some single-element blends.		// There are special ways we can lower some single-element blends.
if (NumV2Elements == 1)		if (NumV2Elements == 1)
if (SDValue V = lowerVectorShuffleAsElementInsertion(MVT::v16i8, DL, V1, V2,		if (SDValue V = lowerVectorShuffleAsElementInsertion(MVT::v16i8, DL, V1, V2,
Mask, Subtarget, DAG))		Mask, Subtarget, DAG))
return V;		return V;

▲ Show 20 Lines • Show All 16,936 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-128-v16.ll

	Show First 20 Lines • Show All 461 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: packuswb %xmm0, %xmm0			; SSE2-NEXT: packuswb %xmm0, %xmm0
	; SSE2-NEXT: pxor %xmm1, %xmm1			; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,3]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,0,0,0,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,0,0,0,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,4,4,4]			; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,4,4,4]
	; SSE2-NEXT: packuswb %xmm1, %xmm0			; SSE2-NEXT: packuswb %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: PR20540:			; SSSE3-LABEL: PR20540:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: pxor %xmm1, %xmm1			; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14],zero,zero,zero,zero,zero,zero,zero,zero
	; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,0,0,0,0,0,0,0]			; SSSE3-NEXT: retq
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14],zero,zero,zero,zero,zero,zero,zero,zero			;
	; SSSE3-NEXT: por %xmm1, %xmm0			; SSE41-LABEL: PR20540:
	; SSSE3-NEXT: retq			; SSE41: # BB#0:
	;			; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14],zero,zero,zero,zero,zero,zero,zero,zero
	; SSE41-LABEL: PR20540:			; SSE41-NEXT: retq
	; SSE41: # BB#0:			;
	; SSE41-NEXT: pxor %xmm1, %xmm1			; AVX-LABEL: PR20540:
	; SSE41-NEXT: pshufb {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,0,0,0,0,0,0,0]			; AVX: # BB#0:
	; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14],zero,zero,zero,zero,zero,zero,zero,zero			; AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14],zero,zero,zero,zero,zero,zero,zero,zero
	; SSE41-NEXT: por %xmm1, %xmm0			; AVX-NEXT: retq
	; SSE41-NEXT: retq			%shuffle = shufflevector <8 x i8> %a, <8 x i8> zeroinitializer, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 8, i32 8, i32 8, i32 8, i32 8, i32 8, i32 8>
	;			ret <16 x i8> %shuffle
	; AVX-LABEL: PR20540:
	; AVX: # BB#0:
	; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: vpshufb {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,0,0,0,0,0,0,0]
	; AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq
	%shuffle = shufflevector <8 x i8> %a, <8 x i8> zeroinitializer, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 8, i32 8, i32 8, i32 8, i32 8, i32 8, i32 8>
	ret <16 x i8> %shuffle
	}			}

	define <16 x i8> @shuffle_v16i8_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz(i8 %i) {			define <16 x i8> @shuffle_v16i8_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz(i8 %i) {
	; SSE2-LABEL: shuffle_v16i8_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			; SSE2-LABEL: shuffle_v16i8_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: movzbl %dil, %eax			; SSE2-NEXT: movzbl %dil, %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: shuffle_v16i8_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			; SSSE3-LABEL: shuffle_v16i8_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: movd %edi, %xmm0			; SSSE3-NEXT: movd %edi, %xmm0
	; SSSE3-NEXT: pxor %xmm1, %xmm1			; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = zero,xmm1[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]			; SSSE3-NEXT: retq
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			;
	; SSSE3-NEXT: por %xmm1, %xmm0			; SSE41-LABEL: shuffle_v16i8_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSSE3-NEXT: retq			; SSE41: # BB#0:
	;			; SSE41-NEXT: movd %edi, %xmm0
	; SSE41-LABEL: shuffle_v16i8_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE41: # BB#0:			; SSE41-NEXT: retq
	; SSE41-NEXT: movd %edi, %xmm0			;
	; SSE41-NEXT: pxor %xmm1, %xmm1			; AVX-LABEL: shuffle_v16i8_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSE41-NEXT: pshufb {{.*#+}} xmm1 = zero,xmm1[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]			; AVX: # BB#0:
	; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX-NEXT: vmovd %edi, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE41-NEXT: retq			; AVX-NEXT: retq
	;			%a = insertelement <16 x i8> undef, i8 %i, i32 0
	; AVX-LABEL: shuffle_v16i8_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			%shuffle = shufflevector <16 x i8> zeroinitializer, <16 x i8> %a, <16 x i32> <i32 16, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	; AVX: # BB#0:
	; AVX-NEXT: vmovd %edi, %xmm0
	; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: vpshufb {{.*#+}} xmm1 = zero,xmm1[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
	; AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq
	%a = insertelement <16 x i8> undef, i8 %i, i32 0
	%shuffle = shufflevector <16 x i8> zeroinitializer, <16 x i8> %a, <16 x i32> <i32 16, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	ret <16 x i8> %shuffle			ret <16 x i8> %shuffle
	}			}

	define <16 x i8> @shuffle_v16i8_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz(i8 %i) {			define <16 x i8> @shuffle_v16i8_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz(i8 %i) {
	; SSE2-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			; SSE2-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: movzbl %dil, %eax			; SSE2-NEXT: movzbl %dil, %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10]			; SSE2-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			; SSSE3-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: movd %edi, %xmm0			; SSSE3-NEXT: movd %edi, %xmm0
	; SSSE3-NEXT: pxor %xmm1, %xmm1			; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,0,0,0,0],zero,xmm1[0,0,0,0,0,0,0,0,0,0]			; SSSE3-NEXT: retq
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			;
	; SSSE3-NEXT: por %xmm1, %xmm0			; SSE41-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSSE3-NEXT: retq			; SSE41: # BB#0:
	;			; SSE41-NEXT: movd %edi, %xmm0
	; SSE41-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			; SSE41-NEXT: pshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE41: # BB#0:			; SSE41-NEXT: retq
	; SSE41-NEXT: movd %edi, %xmm0			;
	; SSE41-NEXT: pxor %xmm1, %xmm1			; AVX-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSE41-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,0,0,0,0],zero,xmm1[0,0,0,0,0,0,0,0,0,0]			; AVX: # BB#0:
	; SSE41-NEXT: pshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX-NEXT: vmovd %edi, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; AVX-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE41-NEXT: retq			; AVX-NEXT: retq
	;			%a = insertelement <16 x i8> undef, i8 %i, i32 0
	; AVX-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_16_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			%shuffle = shufflevector <16 x i8> zeroinitializer, <16 x i8> %a, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 16, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	; AVX: # BB#0:
	; AVX-NEXT: vmovd %edi, %xmm0
	; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,0,0,0,0],zero,xmm1[0,0,0,0,0,0,0,0,0,0]
	; AVX-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq
	%a = insertelement <16 x i8> undef, i8 %i, i32 0
	%shuffle = shufflevector <16 x i8> zeroinitializer, <16 x i8> %a, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 16, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <16 x i8> %shuffle			ret <16 x i8> %shuffle
	}			}

	define <16 x i8> @shuffle_v16i8_zz_uu_uu_zz_uu_uu_zz_zz_zz_zz_zz_zz_zz_zz_zz_16(i8 %i) {			define <16 x i8> @shuffle_v16i8_zz_uu_uu_zz_uu_uu_zz_zz_zz_zz_zz_zz_zz_zz_zz_16(i8 %i) {
	; SSE-LABEL: shuffle_v16i8_zz_uu_uu_zz_uu_uu_zz_zz_zz_zz_zz_zz_zz_zz_zz_16:			; SSE-LABEL: shuffle_v16i8_zz_uu_uu_zz_uu_uu_zz_zz_zz_zz_zz_zz_zz_zz_zz_16:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movd %edi, %xmm0			; SSE-NEXT: movd %edi, %xmm0
	; SSE-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0]			; SSE-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0]
	Show All 13 Lines
	; SSE2-LABEL: shuffle_v16i8_zz_zz_19_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			; SSE2-LABEL: shuffle_v16i8_zz_zz_19_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: movzbl %dil, %eax			; SSE2-NEXT: movzbl %dil, %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12,13]			; SSE2-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12,13]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: shuffle_v16i8_zz_zz_19_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			; SSSE3-LABEL: shuffle_v16i8_zz_zz_19_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: movd %edi, %xmm0			; SSSE3-NEXT: movd %edi, %xmm0
	; SSSE3-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12]			; SSSE3-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12]
	; SSSE3-NEXT: pxor %xmm1, %xmm1			; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = zero,zero,xmm0[3],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1],zero,xmm1[3,4,5,6,7,8,9,10,11,12,13,14,15]			; SSSE3-NEXT: retq
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = zero,zero,xmm0[3],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			;
	; SSSE3-NEXT: por %xmm1, %xmm0			; SSE41-LABEL: shuffle_v16i8_zz_zz_19_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSSE3-NEXT: retq			; SSE41: # BB#0:
	;			; SSE41-NEXT: movd %edi, %xmm0
	; SSE41-LABEL: shuffle_v16i8_zz_zz_19_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			; SSE41-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12]
	; SSE41: # BB#0:			; SSE41-NEXT: pshufb {{.*#+}} xmm0 = zero,zero,xmm0[3],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE41-NEXT: movd %edi, %xmm0			; SSE41-NEXT: retq
	; SSE41-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12]			;
	; SSE41-NEXT: pxor %xmm1, %xmm1			; AVX-LABEL: shuffle_v16i8_zz_zz_19_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:
	; SSE41-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1],zero,xmm1[3,4,5,6,7,8,9,10,11,12,13,14,15]			; AVX: # BB#0:
	; SSE41-NEXT: pshufb {{.*#+}} xmm0 = zero,zero,xmm0[3],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX-NEXT: vmovd %edi, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; AVX-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12]
	; SSE41-NEXT: retq			; AVX-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,xmm0[3],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	;			; AVX-NEXT: retq
	; AVX-LABEL: shuffle_v16i8_zz_zz_19_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz:			%a = insertelement <16 x i8> undef, i8 %i, i32 3
	; AVX: # BB#0:			%shuffle = shufflevector <16 x i8> zeroinitializer, <16 x i8> %a, <16 x i32> <i32 0, i32 1, i32 19, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	; AVX-NEXT: vmovd %edi, %xmm0
	; AVX-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12]
	; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1],zero,xmm1[3,4,5,6,7,8,9,10,11,12,13,14,15]
	; AVX-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,xmm0[3],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq
	%a = insertelement <16 x i8> undef, i8 %i, i32 3
	%shuffle = shufflevector <16 x i8> zeroinitializer, <16 x i8> %a, <16 x i32> <i32 0, i32 1, i32 19, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	ret <16 x i8> %shuffle			ret <16 x i8> %shuffle
	}			}

	define <16 x i8> @shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_16_uu_18_uu(<16 x i8> %a) {			define <16 x i8> @shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_16_uu_18_uu(<16 x i8> %a) {
	; SSE-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_16_uu_18_uu:			; SSE-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_16_uu_18_uu:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3]			; SSE-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	▲ Show 20 Lines • Show All 486 Lines • Show Last 20 Lines