This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Add lowerVectorShuffleAsByteRotateAndPermute (PR39387)
ClosedPublic

Authored by RKSimon on Nov 8 2018, 9:22 AM.

Download Raw Diff

Details

Reviewers

craig.topper
spatel
andreadb
lebedev.ri

Commits

rGe565e5a9621d: [X86][SSE] Add lowerVectorShuffleAsByteRotateAndPermute (PR39387)
rL346706: [X86][SSE] Add lowerVectorShuffleAsByteRotateAndPermute (PR39387)

Summary

This patch adds the ability to use a PALIGNR to rotate a pair of inputs to select a range containing all the referenced elements, followed by a single input permute to put them in the right location.

The code works fine for 256 and 512-bit vectors as well (although its currently limited to in-line shuffles), but I'm seeing a number of regressions (mainly we'd prefer blend+permute in many cases) that need addressing before enabling on anything but v16i8.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Nov 8 2018, 9:22 AM

Does this change the code generated for rgbcmyk here https://godbolt.org/z/cot3xT I filed the original PR based on what happened from trying to vectorize it for sse4.2 which we don't currently do, but I think the two vblendvbs in the avx2 output are similar.

In D54267#1291801, @craig.topper wrote:

Does this change the code generated for rgbcmyk here https://godbolt.org/z/cot3xT I filed the original PR based on what happened from trying to vectorize it for sse4.2 which we don't currently do, but I think the two vblendvbs in the avx2 output are similar.

At the moment I haven't added this to v32i8 shuffle lowering as its still causing some regressions (a lot of the lowering patterns in lowerV32I8VectorShuffle are hidden in sub functions making it more difficult to use lowerVectorShuffleAsByteRotateAndPermute in the right cicrumstances). I could add it but I'd have to bail out if I see certain patterns - I'll update the patch for you to see the effect.

craig.topper added inline comments.Nov 8 2018, 10:34 PM

lib/Target/X86/X86ISelLowering.cpp
10495 ↗	(On Diff #173183)	Should this be NumLaneElts instead of NumElts?
10496 ↗	(On Diff #173183)	If the min/max is inside the lane, isn't Range1.first always less than or equal to Range1.second? And isn't Range1.first always less than or equal to Range1.second unless the input is unused by the shuffle? Which would mean the input is undef?

RKSimon mentioned this in rL346490: [X86] Add Subtarget to more lowerVectorShuffle functions. NFCI..Nov 9 2018, 5:22 AM

Add 256-bit vector support.

The ymm support requires a minor hack that prevents lowerVectorShuffleAsBlendAndPermute from lowering if the blend mask wouldn't be an immediate (i.e. PBLENDVB), it'll instead try to lower using lowerVectorShuffleAsUNPCKAndPermute and then lowerVectorShuffleAsByteRotateAndPermute before falling back on lowerVectorShuffleAsBlendAndPermute again. This helps the code from https://godbolt.org/z/cot3xT

ping?

craig.topper added inline comments.Nov 12 2018, 10:17 AM

lib/Target/X86/X86ISelLowering.cpp
10495 ↗	(On Diff #173183)	I think this comment was addressed?
10496 ↗	(On Diff #173183)	I dont' think i saw an answer for this
10170 ↗	(On Diff #173308)	If the elements could be widened wouldn't they have already been widened in lowerVectorShuffle?

RKSimon marked 2 inline comments as done.Nov 12 2018, 10:25 AM

RKSimon added inline comments.

lib/Target/X86/X86ISelLowering.cpp
10496 ↗	(On Diff #173183)	Yes, I can drop the Range1.first <= Range1.second condition
10170 ↗	(On Diff #173308)	You can have cases where the blend is wider than the permute (PBLENDD + PSHUFB etc.)

craig.topper added inline comments.Nov 12 2018, 10:52 AM

lib/Target/X86/X86ISelLowering.cpp
10170 ↗	(On Diff #173308)	Oh right that makes sense. BlendMask is different than Mask

Removed the Range1.first <= Range1.second condition

LGTM

This revision is now accepted and ready to land.Nov 12 2018, 1:08 PM

Closed by commit rL346706: [X86][SSE] Add lowerVectorShuffleAsByteRotateAndPermute (PR39387) (authored by RKSimon). · Explain WhyNov 12 2018, 1:15 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

123 lines

test/

CodeGen/

X86/

insertelement-ones.ll

35 lines

vector-shuffle-128-v16.ll

20 lines

vector-shuffle-256-v32.ll

44 lines

x86-interleaved-access.ll

248 lines

Diff 173746

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 10,137 Lines • ▼ Show 20 Lines
/// Try to lower as a blend of elements from two inputs followed by		/// Try to lower as a blend of elements from two inputs followed by
/// a single-input permutation.		/// a single-input permutation.
///		///
/// This matches the pattern where we can blend elements from two inputs and		/// This matches the pattern where we can blend elements from two inputs and
/// then reduce the shuffle to a single-input permutation.		/// then reduce the shuffle to a single-input permutation.
static SDValue lowerVectorShuffleAsBlendAndPermute(const SDLoc &DL, MVT VT,		static SDValue lowerVectorShuffleAsBlendAndPermute(const SDLoc &DL, MVT VT,
SDValue V1, SDValue V2,		SDValue V1, SDValue V2,
ArrayRef<int> Mask,		ArrayRef<int> Mask,
SelectionDAG &DAG) {		SelectionDAG &DAG,
		bool ImmBlends = false) {
// We build up the blend mask while checking whether a blend is a viable way		// We build up the blend mask while checking whether a blend is a viable way
// to reduce the shuffle.		// to reduce the shuffle.
SmallVector<int, 32> BlendMask(Mask.size(), -1);		SmallVector<int, 32> BlendMask(Mask.size(), -1);
SmallVector<int, 32> PermuteMask(Mask.size(), -1);		SmallVector<int, 32> PermuteMask(Mask.size(), -1);

for (int i = 0, Size = Mask.size(); i < Size; ++i) {		for (int i = 0, Size = Mask.size(); i < Size; ++i) {
if (Mask[i] < 0)		if (Mask[i] < 0)
continue;		continue;

assert(Mask[i] < Size * 2 && "Shuffle input is out of bounds.");		assert(Mask[i] < Size * 2 && "Shuffle input is out of bounds.");

if (BlendMask[Mask[i] % Size] < 0)		if (BlendMask[Mask[i] % Size] < 0)
BlendMask[Mask[i] % Size] = Mask[i];		BlendMask[Mask[i] % Size] = Mask[i];
else if (BlendMask[Mask[i] % Size] != Mask[i])		else if (BlendMask[Mask[i] % Size] != Mask[i])
return SDValue(); // Can't blend in the needed input!		return SDValue(); // Can't blend in the needed input!

PermuteMask[i] = Mask[i] % Size;		PermuteMask[i] = Mask[i] % Size;
}		}

		// If only immediate blends, then bail if the blend mask can't be widened to
		// i16.
		unsigned EltSize = VT.getScalarSizeInBits();
		if (ImmBlends && EltSize == 8 && !canWidenShuffleElements(BlendMask))
		return SDValue();

SDValue V = DAG.getVectorShuffle(VT, DL, V1, V2, BlendMask);		SDValue V = DAG.getVectorShuffle(VT, DL, V1, V2, BlendMask);
return DAG.getVectorShuffle(VT, DL, V, DAG.getUNDEF(VT), PermuteMask);		return DAG.getVectorShuffle(VT, DL, V, DAG.getUNDEF(VT), PermuteMask);
}		}

/// Try to lower as an unpack of elements from two inputs followed by		/// Try to lower as an unpack of elements from two inputs followed by
/// a single-input permutation.		/// a single-input permutation.
///		///
/// This matches the pattern where we can unpack elements from two inputs and		/// This matches the pattern where we can unpack elements from two inputs and
▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	for (int Lane = 0; Lane != NumElts; Lane += NumLaneElts) {
}		}
}		}

unsigned UnpckOp = MatchLo ? X86ISD::UNPCKL : X86ISD::UNPCKH;		unsigned UnpckOp = MatchLo ? X86ISD::UNPCKL : X86ISD::UNPCKH;
SDValue Unpck = DAG.getNode(UnpckOp, DL, VT, Ops);		SDValue Unpck = DAG.getNode(UnpckOp, DL, VT, Ops);
return DAG.getVectorShuffle(VT, DL, Unpck, DAG.getUNDEF(VT), PermuteMask);		return DAG.getVectorShuffle(VT, DL, Unpck, DAG.getUNDEF(VT), PermuteMask);
}		}

		/// Helper to form a PALIGNR-based rotate+permute, merging 2 inputs and then
		/// permuting the elements of the result in place.
		static SDValue lowerVectorShuffleAsByteRotateAndPermute(
		const SDLoc &DL, MVT VT, SDValue V1, SDValue V2, ArrayRef<int> Mask,
		const X86Subtarget &Subtarget, SelectionDAG &DAG) {
		if ((VT.is128BitVector() && !Subtarget.hasSSSE3()) \|\|
		(VT.is256BitVector() && !Subtarget.hasAVX2()) \|\|
		(VT.is512BitVector() && !Subtarget.hasBWI()))
		return SDValue();

		// We don't currently support lane crossing permutes.
		if (is128BitLaneCrossingShuffleMask(VT, Mask))
		return SDValue();

		int Scale = VT.getScalarSizeInBits() / 8;
		int NumLanes = VT.getSizeInBits() / 128;
		int NumElts = VT.getVectorNumElements();
		int NumEltsPerLane = NumElts / NumLanes;

		// Determine range of mask elts.
		bool Blend1 = true;
		bool Blend2 = true;
		std::pair<int, int> Range1 = std::make_pair(INT_MAX, INT_MIN);
		std::pair<int, int> Range2 = std::make_pair(INT_MAX, INT_MIN);
		for (int Lane = 0; Lane != NumElts; Lane += NumEltsPerLane) {
		for (int Elt = 0; Elt != NumEltsPerLane; ++Elt) {
		int M = Mask[Lane + Elt];
		if (M < 0)
		continue;
		if (M < NumElts) {
		Blend1 &= (M == (Lane + Elt));
		assert(Lane <= M && M < (Lane + NumEltsPerLane) && "Out of range mask");
		M = M % NumEltsPerLane;
		Range1.first = std::min(Range1.first, M);
		Range1.second = std::max(Range1.second, M);
		} else {
		M -= NumElts;
		Blend2 &= (M == (Lane + Elt));
		assert(Lane <= M && M < (Lane + NumEltsPerLane) && "Out of range mask");
		M = M % NumEltsPerLane;
		Range2.first = std::min(Range2.first, M);
		Range2.second = std::max(Range2.second, M);
		}
		}
		}

		// Bail if we don't need both elements.
		// TODO - it might be worth doing this for unary shuffles if the permute
		// can be widened.
		if (!(0 <= Range1.first && Range1.second < NumEltsPerLane) \|\|
		!(0 <= Range2.first && Range2.second < NumEltsPerLane))
		return SDValue();

		if (VT.getSizeInBits() > 128 && (Blend1 \|\| Blend2))
		return SDValue();

		// Rotate the 2 ops so we can access both ranges, then permute the result.
		auto RotateAndPermute = [&](SDValue Lo, SDValue Hi, int RotAmt, int Ofs) {
		MVT ByteVT = MVT::getVectorVT(MVT::i8, VT.getSizeInBits() / 8);
		SDValue Rotate = DAG.getBitcast(
		VT, DAG.getNode(X86ISD::PALIGNR, DL, ByteVT, DAG.getBitcast(ByteVT, Hi),
		DAG.getBitcast(ByteVT, Lo),
		DAG.getConstant(Scale * RotAmt, DL, MVT::i8)));
		SmallVector<int, 64> PermMask(NumElts, SM_SentinelUndef);
		for (int Lane = 0; Lane != NumElts; Lane += NumEltsPerLane) {
		for (int Elt = 0; Elt != NumEltsPerLane; ++Elt) {
		int M = Mask[Lane + Elt];
		if (M < 0)
		continue;
		if (M < NumElts)
		PermMask[Lane + Elt] = Lane + ((M + Ofs - RotAmt) % NumEltsPerLane);
		else
		PermMask[Lane + Elt] = Lane + ((M - Ofs - RotAmt) % NumEltsPerLane);
		}
		}
		return DAG.getVectorShuffle(VT, DL, Rotate, DAG.getUNDEF(VT), PermMask);
		};

		// Check if the ranges are small enough to rotate from either direction.
		if (Range2.second < Range1.first)
		return RotateAndPermute(V1, V2, Range1.first, 0);
		if (Range1.second < Range2.first)
		return RotateAndPermute(V2, V1, Range2.first, NumElts);
		return SDValue();
		}

/// Generic routine to decompose a shuffle and blend into independent		/// Generic routine to decompose a shuffle and blend into independent
/// blends and permutes.		/// blends and permutes.
///		///
/// This matches the extremely common pattern for handling combined		/// This matches the extremely common pattern for handling combined
/// shuffle+blend operations on newer X86 ISAs where we have very fast blend		/// shuffle+blend operations on newer X86 ISAs where we have very fast blend
/// operations. It will try to pick the best arrangement of shuffles and		/// operations. It will try to pick the best arrangement of shuffles and
/// blends.		/// blends.
static SDValue lowerVectorShuffleAsDecomposedShuffleBlend(		static SDValue lowerVectorShuffleAsDecomposedShuffleBlend(
const SDLoc &DL, MVT VT, SDValue V1, SDValue V2, ArrayRef<int> Mask,		const SDLoc &DL, MVT VT, SDValue V1, SDValue V2, ArrayRef<int> Mask,
const X86Subtarget &Subtarget, SelectionDAG &DAG) {		const X86Subtarget &Subtarget, SelectionDAG &DAG) {
// Shuffle the input elements into the desired positions in V1 and V2 and		// Shuffle the input elements into the desired positions in V1 and V2 and
// blend them together.		// blend them together.
SmallVector<int, 32> V1Mask(Mask.size(), -1);		SmallVector<int, 32> V1Mask(Mask.size(), -1);
SmallVector<int, 32> V2Mask(Mask.size(), -1);		SmallVector<int, 32> V2Mask(Mask.size(), -1);
SmallVector<int, 32> BlendMask(Mask.size(), -1);		SmallVector<int, 32> BlendMask(Mask.size(), -1);
for (int i = 0, Size = Mask.size(); i < Size; ++i)		for (int i = 0, Size = Mask.size(); i < Size; ++i)
if (Mask[i] >= 0 && Mask[i] < Size) {		if (Mask[i] >= 0 && Mask[i] < Size) {
V1Mask[i] = Mask[i];		V1Mask[i] = Mask[i];
BlendMask[i] = i;		BlendMask[i] = i;
} else if (Mask[i] >= Size) {		} else if (Mask[i] >= Size) {
V2Mask[i] = Mask[i] - Size;		V2Mask[i] = Mask[i] - Size;
BlendMask[i] = i + Size;		BlendMask[i] = i + Size;
}		}

// Try to lower with the simpler initial blend/unpack strategies unless one of		// Try to lower with the simpler initial blend/unpack/rotate strategies unless
// the input shuffles would be a no-op. We prefer to shuffle inputs as the		// one of the input shuffles would be a no-op. We prefer to shuffle inputs as
// shuffle may be able to fold with a load or other benefit. However, when		// the shuffle may be able to fold with a load or other benefit. However, when
// we'll have to do 2x as many shuffles in order to achieve this,		// we'll have to do 2x as many shuffles in order to achieve this, a 2-input
// blending/unpacking first is a better strategy.		// pre-shuffle first is a better strategy.
if (!isNoopShuffleMask(V1Mask) && !isNoopShuffleMask(V2Mask)) {		if (!isNoopShuffleMask(V1Mask) && !isNoopShuffleMask(V2Mask)) {
if (SDValue BlendPerm =		// Only prefer immediate blends to unpack/rotate.
lowerVectorShuffleAsBlendAndPermute(DL, VT, V1, V2, Mask, DAG))		if (SDValue BlendPerm = lowerVectorShuffleAsBlendAndPermute(
		DL, VT, V1, V2, Mask, DAG, true))
return BlendPerm;		return BlendPerm;
if (SDValue UnpackPerm =		if (SDValue UnpackPerm =
lowerVectorShuffleAsUNPCKAndPermute(DL, VT, V1, V2, Mask, DAG))		lowerVectorShuffleAsUNPCKAndPermute(DL, VT, V1, V2, Mask, DAG))
return UnpackPerm;		return UnpackPerm;
		if (SDValue RotatePerm = lowerVectorShuffleAsByteRotateAndPermute(
		DL, VT, V1, V2, Mask, Subtarget, DAG))
		return RotatePerm;
		// Unpack/rotate failed - try again with variable blends.
		if (SDValue BlendPerm =
		lowerVectorShuffleAsBlendAndPermute(DL, VT, V1, V2, Mask, DAG))
		return BlendPerm;
}		}

V1 = DAG.getVectorShuffle(VT, DL, V1, DAG.getUNDEF(VT), V1Mask);		V1 = DAG.getVectorShuffle(VT, DL, V1, DAG.getUNDEF(VT), V1Mask);
V2 = DAG.getVectorShuffle(VT, DL, V2, DAG.getUNDEF(VT), V2Mask);		V2 = DAG.getVectorShuffle(VT, DL, V2, DAG.getUNDEF(VT), V2Mask);
return DAG.getVectorShuffle(VT, DL, V1, V2, BlendMask);		return DAG.getVectorShuffle(VT, DL, V1, V2, BlendMask);
}		}

/// Try to lower a vector shuffle as a rotation.		/// Try to lower a vector shuffle as a rotation.
▲ Show 20 Lines • Show All 2,819 Lines • ▼ Show 20 Lines	if (V1InUse && V2InUse) {
// this.		// this.
if (SDValue Unpack = lowerVectorShuffleAsPermuteAndUnpack(		if (SDValue Unpack = lowerVectorShuffleAsPermuteAndUnpack(
DL, MVT::v16i8, V1, V2, Mask, DAG))		DL, MVT::v16i8, V1, V2, Mask, DAG))
return Unpack;		return Unpack;

// If we have VBMI we can use one VPERM instead of multiple PSHUFBs.		// If we have VBMI we can use one VPERM instead of multiple PSHUFBs.
if (Subtarget.hasVBMI() && Subtarget.hasVLX())		if (Subtarget.hasVBMI() && Subtarget.hasVLX())
return lowerVectorShuffleWithPERMV(DL, MVT::v16i8, Mask, V1, V2, DAG);		return lowerVectorShuffleWithPERMV(DL, MVT::v16i8, Mask, V1, V2, DAG);

		// Use PALIGNR+Permute if possible - permute might become PSHUFB but the
		// PALIGNR will be cheaper than the second PSHUFB+OR.
		if (SDValue V = lowerVectorShuffleAsByteRotateAndPermute(
		DL, MVT::v16i8, V1, V2, Mask, Subtarget, DAG))
		return V;
}		}

return PSHUFB;		return PSHUFB;
}		}

// There are special ways we can lower some single-element blends.		// There are special ways we can lower some single-element blends.
if (NumV2Elements == 1)		if (NumV2Elements == 1)
if (SDValue V = lowerVectorShuffleAsElementInsertion(		if (SDValue V = lowerVectorShuffleAsElementInsertion(
▲ Show 20 Lines • Show All 28,532 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/insertelement-ones.ll

	Show First 20 Lines • Show All 338 Lines • ▼ Show 20 Lines
	; SSE3-NEXT: por %xmm1, %xmm0			; SSE3-NEXT: por %xmm1, %xmm0
	; SSE3-NEXT: pand {{.*}}(%rip), %xmm0			; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE3-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]			; SSE3-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]
	; SSE3-NEXT: por %xmm2, %xmm0			; SSE3-NEXT: por %xmm2, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: insert_v16i8_x123456789ABCDEx:			; SSSE3-LABEL: insert_v16i8_x123456789ABCDEx:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = zero,xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
	; SSSE3-NEXT: movl $255, %eax			; SSSE3-NEXT: movl $255, %eax
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: movd %eax, %xmm1
	; SSSE3-NEXT: movdqa %xmm1, %xmm2			; SSSE3-NEXT: movdqa %xmm1, %xmm2
	; SSSE3-NEXT: pshufb {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; SSSE3-NEXT: palignr {{.*#+}} xmm2 = xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],xmm2[0]
	; SSSE3-NEXT: por %xmm2, %xmm0			; SSSE3-NEXT: pshufb {{.*#+}} xmm2 = xmm2[15,0,1,2,3,4,5,6,7,8,9,10,11,12,13],zero
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14],zero
	; SSSE3-NEXT: pslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0]			; SSSE3-NEXT: pslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0]
	; SSSE3-NEXT: por %xmm1, %xmm0			; SSSE3-NEXT: por %xmm2, %xmm1
				; SSSE3-NEXT: movdqa %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: insert_v16i8_x123456789ABCDEx:			; SSE41-LABEL: insert_v16i8_x123456789ABCDEx:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movl $255, %eax			; SSE41-NEXT: movl $255, %eax
	; SSE41-NEXT: pinsrb $0, %eax, %xmm0			; SSE41-NEXT: pinsrb $0, %eax, %xmm0
	; SSE41-NEXT: pinsrb $15, %eax, %xmm0			; SSE41-NEXT: pinsrb $15, %eax, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; SSE3-NEXT: pandn %xmm3, %xmm5			; SSE3-NEXT: pandn %xmm3, %xmm5
	; SSE3-NEXT: por %xmm5, %xmm1			; SSE3-NEXT: por %xmm5, %xmm1
	; SSE3-NEXT: pand %xmm2, %xmm1			; SSE3-NEXT: pand %xmm2, %xmm1
	; SSE3-NEXT: por %xmm4, %xmm1			; SSE3-NEXT: por %xmm4, %xmm1
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: insert_v32i8_x123456789ABCDEzGHIJKLMNOPQRSTxx:			; SSSE3-LABEL: insert_v32i8_x123456789ABCDEzGHIJKLMNOPQRSTxx:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = zero,xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
	; SSSE3-NEXT: movl $255, %eax			; SSSE3-NEXT: movl $255, %eax
	; SSSE3-NEXT: movd %eax, %xmm2			; SSSE3-NEXT: movd %eax, %xmm3
	; SSSE3-NEXT: movdqa %xmm2, %xmm3			; SSSE3-NEXT: movdqa %xmm3, %xmm2
	; SSSE3-NEXT: pshufb {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; SSSE3-NEXT: palignr {{.*#+}} xmm2 = xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],xmm2[0]
	; SSSE3-NEXT: por %xmm3, %xmm0			; SSSE3-NEXT: pshufb {{.*#+}} xmm2 = xmm2[15,0,1,2,3,4,5,6,7,8,9,10,11,12,13],zero
	; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,128]			; SSSE3-NEXT: movdqa %xmm3, %xmm0
	; SSSE3-NEXT: pshufb %xmm3, %xmm0			; SSSE3-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0]
	; SSSE3-NEXT: movdqa %xmm2, %xmm4			; SSSE3-NEXT: por %xmm0, %xmm2
	; SSSE3-NEXT: pslldq {{.*#+}} xmm4 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm4[0]
	; SSSE3-NEXT: por %xmm4, %xmm0
	; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,2,3,4,5,6,7,8,9,10,11,12,13],zero,xmm1[15]			; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,2,3,4,5,6,7,8,9,10,11,12,13],zero,xmm1[15]
	; SSSE3-NEXT: pshufb {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0],zero			; SSSE3-NEXT: pshufb {{.*#+}} xmm3 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm3[0],zero
	; SSSE3-NEXT: por %xmm2, %xmm1			; SSSE3-NEXT: por %xmm3, %xmm1
	; SSSE3-NEXT: pshufb %xmm3, %xmm1			; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14],zero
	; SSSE3-NEXT: por %xmm4, %xmm1			; SSSE3-NEXT: por %xmm0, %xmm1
				; SSSE3-NEXT: movdqa %xmm2, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: insert_v32i8_x123456789ABCDEzGHIJKLMNOPQRSTxx:			; SSE41-LABEL: insert_v32i8_x123456789ABCDEzGHIJKLMNOPQRSTxx:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movl $255, %eax			; SSE41-NEXT: movl $255, %eax
	; SSE41-NEXT: pinsrb $0, %eax, %xmm0			; SSE41-NEXT: pinsrb $0, %eax, %xmm0
	; SSE41-NEXT: pinsrb $15, %eax, %xmm0			; SSE41-NEXT: pinsrb $15, %eax, %xmm0
	; SSE41-NEXT: pinsrb $14, %eax, %xmm1			; SSE41-NEXT: pinsrb $14, %eax, %xmm1
	▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-128-v16.ll

	Show First 20 Lines • Show All 604 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[2,0,0,3,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[2,0,0,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,6,7,4]			; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,6,7,4]
	; SSE2-NEXT: packuswb %xmm0, %xmm1			; SSE2-NEXT: packuswb %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: shuffle_v16i8_5_6_7_8_9_10_27_28_29_30_31_0_1_2_3_4:			; SSSE3-LABEL: shuffle_v16i8_5_6_7_8_9_10_27_28_29_30_31_0_1_2_3_4:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,xmm1[11,12,13,14,14],zero,zero,zero,zero,zero			; SSSE3-NEXT: palignr {{.*#+}} xmm0 = xmm1[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10],zero,zero,zero,zero,zero,xmm0[1,1,2,3,4]			; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,3,6,6,7,8,9]
	; SSSE3-NEXT: por %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: shuffle_v16i8_5_6_7_8_9_10_27_28_29_30_31_0_1_2_3_4:			; SSE41-LABEL: shuffle_v16i8_5_6_7_8_9_10_27_28_29_30_31_0_1_2_3_4:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pshufb {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,xmm1[11,12,13,14,14],zero,zero,zero,zero,zero			; SSE41-NEXT: palignr {{.*#+}} xmm0 = xmm1[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]
	; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10],zero,zero,zero,zero,zero,xmm0[1,1,2,3,4]			; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,3,6,6,7,8,9]
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1OR2-LABEL: shuffle_v16i8_5_6_7_8_9_10_27_28_29_30_31_0_1_2_3_4:			; AVX1OR2-LABEL: shuffle_v16i8_5_6_7_8_9_10_27_28_29_30_31_0_1_2_3_4:
	; AVX1OR2: # %bb.0:			; AVX1OR2: # %bb.0:
	; AVX1OR2-NEXT: vpshufb {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,xmm1[11,12,13,14,14],zero,zero,zero,zero,zero			; AVX1OR2-NEXT: vpalignr {{.*#+}} xmm0 = xmm1[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1OR2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10],zero,zero,zero,zero,zero,xmm0[1,1,2,3,4]			; AVX1OR2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,3,6,6,7,8,9]
	; AVX1OR2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1OR2-NEXT: retq			; AVX1OR2-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: shuffle_v16i8_5_6_7_8_9_10_27_28_29_30_31_0_1_2_3_4:			; AVX512VLBW-LABEL: shuffle_v16i8_5_6_7_8_9_10_27_28_29_30_31_0_1_2_3_4:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpshufb {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,xmm1[11,12,13,14,14],zero,zero,zero,zero,zero			; AVX512VLBW-NEXT: vpalignr {{.*#+}} xmm0 = xmm1[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]
	; AVX512VLBW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10],zero,zero,zero,zero,zero,xmm0[1,1,2,3,4]			; AVX512VLBW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,3,6,6,7,8,9]
	; AVX512VLBW-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VLVBMI-LABEL: shuffle_v16i8_5_6_7_8_9_10_27_28_29_30_31_0_1_2_3_4:			; AVX512VLVBMI-LABEL: shuffle_v16i8_5_6_7_8_9_10_27_28_29_30_31_0_1_2_3_4:
	; AVX512VLVBMI: # %bb.0:			; AVX512VLVBMI: # %bb.0:
	; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} xmm2 = [5,6,7,8,9,10,27,28,29,30,30,1,1,2,3,4]			; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} xmm2 = [5,6,7,8,9,10,27,28,29,30,30,1,1,2,3,4]
	; AVX512VLVBMI-NEXT: vpermt2b %xmm1, %xmm2, %xmm0			; AVX512VLVBMI-NEXT: vpermt2b %xmm1, %xmm2, %xmm0
	; AVX512VLVBMI-NEXT: retq			; AVX512VLVBMI-NEXT: retq
	%1 = shufflevector <16 x i8> %a, <16 x i8> %b, <16 x i32> <i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 27, i32 28, i32 29, i32 30, i32 30, i32 1, i32 1, i32 2, i32 3, i32 4>			%1 = shufflevector <16 x i8> %a, <16 x i8> %b, <16 x i32> <i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 27, i32 28, i32 29, i32 30, i32 30, i32 1, i32 1, i32 2, i32 3, i32 4>
	▲ Show 20 Lines • Show All 1,354 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v32.ll

Show First 20 Lines • Show All 907 Lines • ▼ Show 20 Lines
}		}

define <32 x i8> @shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {		define <32 x i8> @shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {
; AVX1-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX1-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,xmm2[8],zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm2[8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7]
; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0],zero,xmm0[0,0,0,0,0,0,0,0]		; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[8,8,8,8,8,8,8,0,8,8,8,8,8,8,8,8]
; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
Show All 21 Lines
}		}

define <32 x i8> @shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {		define <32 x i8> @shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {
; AVX1-LABEL: shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX1-LABEL: shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,xmm2[9],zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm2[9,10,11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8]
; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0],zero,xmm0[0,0,0,0,0,0,0,0,0]		; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[7,7,7,7,7,7,0,7,7,7,7,7,7,7,7,7]
; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,9,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,9,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
Show All 21 Lines
}		}

define <32 x i8> @shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {		define <32 x i8> @shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {
; AVX1-LABEL: shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX1-LABEL: shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = zero,zero,zero,zero,zero,xmm2[10],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm2[10,11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9]
; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0],zero,xmm0[0,0,0,0,0,0,0,0,0,0]		; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[6,6,6,6,6,0,6,6,6,6,6,6,6,6,6,6]
; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,10,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,10,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
Show All 21 Lines
}		}

define <32 x i8> @shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {		define <32 x i8> @shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {
; AVX1-LABEL: shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX1-LABEL: shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = zero,zero,zero,zero,xmm2[11],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm2[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]
; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0],zero,xmm0[0,0,0,0,0,0,0,0,0,0,0]		; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[5,5,5,5,0,5,5,5,5,5,5,5,5,5,5,5]
; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX2-LABEL: shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,11,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,11,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
Show All 21 Lines
}		}

define <32 x i8> @shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {		define <32 x i8> @shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {
; AVX1-LABEL: shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX1-LABEL: shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = zero,zero,zero,xmm2[12],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm2[12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10,11]
; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0],zero,xmm0[0,0,0,0,0,0,0,0,0,0,0,0]		; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4,4,4,0,4,4,4,4,4,4,4,4,4,4,4,4]
; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX2-LABEL: shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,12,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,12,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
Show All 21 Lines
}		}

define <32 x i8> @shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {		define <32 x i8> @shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {
; AVX1-LABEL: shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX1-LABEL: shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = zero,zero,xmm2[13],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm2[13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12]
; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0],zero,xmm0[0,0,0,0,0,0,0,0,0,0,0,0,0]		; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[3,3,0,3,3,3,3,3,3,3,3,3,3,3,3,3]
; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX2-LABEL: shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,13,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,13,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
Show All 21 Lines
}		}

define <32 x i8> @shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {		define <32 x i8> @shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {
; AVX1-LABEL: shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX1-LABEL: shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = zero,xmm2[14],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm2[14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12,13]
; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,xmm0[0,0,0,0,0,0,0,0,0,0,0,0,0,0]		; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2,0,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX2-LABEL: shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,14,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,14,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
Show All 20 Lines	; AVX512VLVBMI-NEXT: retq
ret <32 x i8> %shuffle		ret <32 x i8> %shuffle
}		}

define <32 x i8> @shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {		define <32 x i8> @shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00(<32 x i8> %a, <32 x i8> %b) {
; AVX1-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX1-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
; AVX1-NEXT: movl $128, %eax		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vmovd %eax, %xmm2		; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm2[15],xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]
; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm2		; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX1-NEXT: vpor %xmm0, %xmm2, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:		; AVX2-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
; AVX2-NEXT: movl $15, %eax		; AVX2-NEXT: movl $15, %eax
; AVX2-NEXT: vmovd %eax, %xmm1		; AVX2-NEXT: vmovd %eax, %xmm1
▲ Show 20 Lines • Show All 2,134 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/x86-interleaved-access.ll

	Show First 20 Lines • Show All 944 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpalignr {{.*#+}} xmm6 = xmm5[11,12,13,14,15],xmm3[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm6 = xmm5[11,12,13,14,15],xmm3[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm7 = xmm2[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm7 = xmm2[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[11,12,13,14,15],xmm4[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[11,12,13,14,15],xmm4[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm8			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm8
	; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm4[11,12,13,14,15],xmm5[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm4[11,12,13,14,15],xmm5[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[11,12,13,14,15],xmm2[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[11,12,13,14,15],xmm2[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm2
	; AVX1-NEXT: vpalignr {{.*#+}} xmm9 = xmm7[11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm7[11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm6[11,12,13,14,15],xmm4[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm6[11,12,13,14,15],xmm4[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vbroadcastf128 {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0,255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0]			; AVX1-NEXT: vbroadcastf128 {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0,255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0]
	; AVX1-NEXT: # ymm5 = mem[0,1,0,1]			; AVX1-NEXT: # ymm5 = mem[0,1,0,1]
	; AVX1-NEXT: vandnps %ymm2, %ymm5, %ymm2			; AVX1-NEXT: vandnps %ymm2, %ymm5, %ymm2
	; AVX1-NEXT: vandps %ymm5, %ymm8, %ymm5			; AVX1-NEXT: vandps %ymm5, %ymm8, %ymm5
	; AVX1-NEXT: vorps %ymm2, %ymm5, %ymm2			; AVX1-NEXT: vorps %ymm2, %ymm5, %ymm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [128,128,128,128,128,128,11,12,13,14,15,128,128,128,128,128]			; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[11,12,13,14,15],xmm6[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpshufb %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [5,6,7,8,9,10,128,128,128,128,128,0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[11,12,13,14,15],xmm7[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm6			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX1-NEXT: vpor %xmm3, %xmm6, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5
	; AVX1-NEXT: vpshufb %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpshufb %xmm1, %xmm7, %xmm1			; AVX1-NEXT: vpaddb %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddb %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vpaddb %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpaddb %xmm9, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2OR512-LABEL: interleaved_load_vf32_i8_stride3:			; AVX2OR512-LABEL: interleaved_load_vf32_i8_stride3:
	; AVX2OR512: # %bb.0:			; AVX2OR512: # %bb.0:
	; AVX2OR512-NEXT: vmovdqa (%rdi), %xmm0			; AVX2OR512-NEXT: vmovdqa (%rdi), %xmm0
	; AVX2OR512-NEXT: vmovdqa 16(%rdi), %xmm1			; AVX2OR512-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX2OR512-NEXT: vmovdqa 32(%rdi), %xmm2			; AVX2OR512-NEXT: vmovdqa 32(%rdi), %xmm2
	; AVX2OR512-NEXT: vinserti128 $1, 48(%rdi), %ymm0, %ymm0			; AVX2OR512-NEXT: vinserti128 $1, 48(%rdi), %ymm0, %ymm0
	; AVX2OR512-NEXT: vinserti128 $1, 64(%rdi), %ymm1, %ymm1			; AVX2OR512-NEXT: vinserti128 $1, 64(%rdi), %ymm1, %ymm1
	; AVX2OR512-NEXT: vinserti128 $1, 80(%rdi), %ymm2, %ymm2			; AVX2OR512-NEXT: vinserti128 $1, 80(%rdi), %ymm2, %ymm2
	; AVX2OR512-NEXT: vmovdqa {{.*#+}} ymm3 = [0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13,0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13]			; AVX2OR512-NEXT: vmovdqa {{.*#+}} ymm3 = [0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13,0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13]
	; AVX2OR512-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2OR512-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2OR512-NEXT: vpshufb %ymm3, %ymm1, %ymm1			; AVX2OR512-NEXT: vpshufb %ymm3, %ymm1, %ymm1
	; AVX2OR512-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2OR512-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2OR512-NEXT: vpalignr {{.*#+}} ymm3 = ymm2[11,12,13,14,15],ymm0[0,1,2,3,4,5,6,7,8,9,10],ymm2[27,28,29,30,31],ymm0[16,17,18,19,20,21,22,23,24,25,26]			; AVX2OR512-NEXT: vpalignr {{.*#+}} ymm3 = ymm2[11,12,13,14,15],ymm0[0,1,2,3,4,5,6,7,8,9,10],ymm2[27,28,29,30,31],ymm0[16,17,18,19,20,21,22,23,24,25,26]
	; AVX2OR512-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[11,12,13,14,15],ymm1[0,1,2,3,4,5,6,7,8,9,10],ymm0[27,28,29,30,31],ymm1[16,17,18,19,20,21,22,23,24,25,26]			; AVX2OR512-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[11,12,13,14,15],ymm1[0,1,2,3,4,5,6,7,8,9,10],ymm0[27,28,29,30,31],ymm1[16,17,18,19,20,21,22,23,24,25,26]
	; AVX2OR512-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[11,12,13,14,15],ymm2[0,1,2,3,4,5,6,7,8,9,10],ymm1[27,28,29,30,31],ymm2[16,17,18,19,20,21,22,23,24,25,26]			; AVX2OR512-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[11,12,13,14,15],ymm2[0,1,2,3,4,5,6,7,8,9,10],ymm1[27,28,29,30,31],ymm2[16,17,18,19,20,21,22,23,24,25,26]
	; AVX2OR512-NEXT: vpalignr {{.*#+}} ymm2 = ymm3[11,12,13,14,15],ymm1[0,1,2,3,4,5,6,7,8,9,10],ymm3[27,28,29,30,31],ymm1[16,17,18,19,20,21,22,23,24,25,26]			; AVX2OR512-NEXT: vpalignr {{.*#+}} ymm2 = ymm3[11,12,13,14,15],ymm1[0,1,2,3,4,5,6,7,8,9,10],ymm3[27,28,29,30,31],ymm1[16,17,18,19,20,21,22,23,24,25,26]
	; AVX2OR512-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0,255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0]			; AVX2OR512-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0,255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0]
	; AVX2OR512-NEXT: vpblendvb %ymm4, %ymm0, %ymm1, %ymm1			; AVX2OR512-NEXT: vpblendvb %ymm4, %ymm0, %ymm1, %ymm1
	; AVX2OR512-NEXT: vpaddb %ymm2, %ymm1, %ymm1			; AVX2OR512-NEXT: vpaddb %ymm2, %ymm1, %ymm1
	; AVX2OR512-NEXT: vpblendvb %ymm4, %ymm3, %ymm0, %ymm0			; AVX2OR512-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[11,12,13,14,15],ymm3[0,1,2,3,4,5,6,7,8,9,10],ymm0[27,28,29,30,31],ymm3[16,17,18,19,20,21,22,23,24,25,26]
	; AVX2OR512-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,21,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20]			; AVX2OR512-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,26,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25]
	; AVX2OR512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2OR512-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2OR512-NEXT: retq			; AVX2OR512-NEXT: retq
	%wide.vec = load <96 x i8>, <96 x i8>* %ptr			%wide.vec = load <96 x i8>, <96 x i8>* %ptr
	%v1 = shufflevector <96 x i8> %wide.vec, <96 x i8> undef,<32 x i32> <i32 0,i32 3,i32 6,i32 9,i32 12,i32 15,i32 18,i32 21,i32 24,i32 27,i32 30,i32 33,i32 36,i32 39,i32 42,i32 45,i32 48,i32 51,i32 54,i32 57,i32 60,i32 63,i32 66,i32 69,i32 72,i32 75,i32 78,i32 81,i32 84,i32 87,i32 90,i32 93>			%v1 = shufflevector <96 x i8> %wide.vec, <96 x i8> undef,<32 x i32> <i32 0,i32 3,i32 6,i32 9,i32 12,i32 15,i32 18,i32 21,i32 24,i32 27,i32 30,i32 33,i32 36,i32 39,i32 42,i32 45,i32 48,i32 51,i32 54,i32 57,i32 60,i32 63,i32 66,i32 69,i32 72,i32 75,i32 78,i32 81,i32 84,i32 87,i32 90,i32 93>
	%v2 = shufflevector <96 x i8> %wide.vec, <96 x i8> undef,<32 x i32> <i32 1,i32 4,i32 7,i32 10,i32 13,i32 16,i32 19,i32 22,i32 25,i32 28,i32 31,i32 34,i32 37,i32 40,i32 43,i32 46,i32 49,i32 52,i32 55,i32 58,i32 61,i32 64,i32 67,i32 70,i32 73,i32 76,i32 79,i32 82,i32 85,i32 88,i32 91,i32 94>			%v2 = shufflevector <96 x i8> %wide.vec, <96 x i8> undef,<32 x i32> <i32 1,i32 4,i32 7,i32 10,i32 13,i32 16,i32 19,i32 22,i32 25,i32 28,i32 31,i32 34,i32 37,i32 40,i32 43,i32 46,i32 49,i32 52,i32 55,i32 58,i32 61,i32 64,i32 67,i32 70,i32 73,i32 76,i32 79,i32 82,i32 85,i32 88,i32 91,i32 94>
	%v3 = shufflevector <96 x i8> %wide.vec, <96 x i8> undef,<32 x i32> <i32 2,i32 5,i32 8,i32 11,i32 14,i32 17,i32 20,i32 23,i32 26,i32 29,i32 32,i32 35,i32 38,i32 41,i32 44,i32 47,i32 50,i32 53,i32 56,i32 59,i32 62,i32 65,i32 68,i32 71,i32 74,i32 77,i32 80,i32 83,i32 86,i32 89,i32 92,i32 95>			%v3 = shufflevector <96 x i8> %wide.vec, <96 x i8> undef,<32 x i32> <i32 2,i32 5,i32 8,i32 11,i32 14,i32 17,i32 20,i32 23,i32 26,i32 29,i32 32,i32 35,i32 38,i32 41,i32 44,i32 47,i32 50,i32 53,i32 56,i32 59,i32 62,i32 65,i32 68,i32 71,i32 74,i32 77,i32 80,i32 83,i32 86,i32 89,i32 92,i32 95>
	%add1 = add <32 x i8> %v1, %v2			%add1 = add <32 x i8> %v1, %v2
	%add2 = add <32 x i8> %v3, %add1			%add2 = add <32 x i8> %v3, %add1
	Show All 12 Lines
	; AVX-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; AVX-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vpalignr {{.*#+}} xmm3 = xmm2[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]			; AVX-NEXT: vpalignr {{.*#+}} xmm3 = xmm2[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]
	; AVX-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10]			; AVX-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10]
	; AVX-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[11,12,13,14,15],xmm2[0,1,2,3,4,5,6,7,8,9,10]			; AVX-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[11,12,13,14,15],xmm2[0,1,2,3,4,5,6,7,8,9,10]
	; AVX-NEXT: vpalignr {{.*#+}} xmm2 = xmm3[11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10]			; AVX-NEXT: vpalignr {{.*#+}} xmm2 = xmm3[11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10]
	; AVX-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0]			; AVX-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0]
	; AVX-NEXT: vpblendvb %xmm4, %xmm0, %xmm1, %xmm1			; AVX-NEXT: vpblendvb %xmm4, %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vpaddb %xmm2, %xmm1, %xmm1			; AVX-NEXT: vpaddb %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,xmm0[11,12,13,14,15],zero,zero,zero,zero,zero			; AVX-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[11,12,13,14,15],xmm3[0,1,2,3,4,5,6,7,8,9,10]
	; AVX-NEXT: vpshufb {{.*#+}} xmm2 = xmm3[5,6,7,8,9,10],zero,zero,zero,zero,zero,xmm3[0,1,2,3,4]			; AVX-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX-NEXT: vpor %xmm0, %xmm2, %xmm0
	; AVX-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%wide.vec = load <48 x i8>, <48 x i8>* %ptr			%wide.vec = load <48 x i8>, <48 x i8>* %ptr
	%v1 = shufflevector <48 x i8> %wide.vec, <48 x i8> undef,<16 x i32> <i32 0,i32 3,i32 6,i32 9,i32 12,i32 15,i32 18,i32 21,i32 24,i32 27,i32 30,i32 33,i32 36,i32 39,i32 42 ,i32 45>			%v1 = shufflevector <48 x i8> %wide.vec, <48 x i8> undef,<16 x i32> <i32 0,i32 3,i32 6,i32 9,i32 12,i32 15,i32 18,i32 21,i32 24,i32 27,i32 30,i32 33,i32 36,i32 39,i32 42 ,i32 45>
	%v2 = shufflevector <48 x i8> %wide.vec, <48 x i8> undef,<16 x i32> <i32 1,i32 4,i32 7,i32 10,i32 13,i32 16,i32 19,i32 22,i32 25,i32 28,i32 31,i32 34,i32 37,i32 40,i32 43,i32 46>			%v2 = shufflevector <48 x i8> %wide.vec, <48 x i8> undef,<16 x i32> <i32 1,i32 4,i32 7,i32 10,i32 13,i32 16,i32 19,i32 22,i32 25,i32 28,i32 31,i32 34,i32 37,i32 40,i32 43,i32 46>
	%v3 = shufflevector <48 x i8> %wide.vec, <48 x i8> undef,<16 x i32> <i32 2,i32 5,i32 8,i32 11,i32 14,i32 17,i32 20,i32 23,i32 26,i32 29,i32 32,i32 35,i32 38,i32 41,i32 44,i32 47>			%v3 = shufflevector <48 x i8> %wide.vec, <48 x i8> undef,<16 x i32> <i32 2,i32 5,i32 8,i32 11,i32 14,i32 17,i32 20,i32 23,i32 26,i32 29,i32 32,i32 35,i32 38,i32 41,i32 44,i32 47>
	%add1 = add <16 x i8> %v1, %v2			%add1 = add <16 x i8> %v1, %v2
	%add2 = add <16 x i8> %v3, %add1			%add2 = add <16 x i8> %v3, %add1
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	store <24 x i8> %interleaved.vec, <24 x i8>* %p, align 1			store <24 x i8> %interleaved.vec, <24 x i8>* %p, align 1
	ret void			ret void
	}			}

	define void @interleaved_store_vf16_i8_stride3(<16 x i8> %a, <16 x i8> %b, <16 x i8> %c, <48 x i8>* %p) {			define void @interleaved_store_vf16_i8_stride3(<16 x i8> %a, <16 x i8> %b, <16 x i8> %c, <48 x i8>* %p) {
	; AVX1-LABEL: interleaved_store_vf16_i8_stride3:			; AVX1-LABEL: interleaved_store_vf16_i8_stride3:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm1[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [128,0,128,128,1,128,128,2,128,128,3,128,128,4,128,128]			; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm4			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [5,128,11,6,128,12,7,128,13,8,128,14,9,128,15,10]			; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm5, %xmm3, %xmm6			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
	; AVX1-NEXT: vpor %xmm4, %xmm6, %xmm4			; AVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm6			; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]
	; AVX1-NEXT: vpshufb %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpor %xmm6, %xmm0, %xmm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: vpshufb %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vmovdqu %xmm2, 32(%rdi)
	; AVX1-NEXT: vpshufb %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpor %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm4, %ymm0
	; AVX1-NEXT: vmovdqu %xmm1, 32(%rdi)
	; AVX1-NEXT: vmovups %ymm0, (%rdi)			; AVX1-NEXT: vmovups %ymm0, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: interleaved_store_vf16_i8_stride3:			; AVX2-LABEL: interleaved_store_vf16_i8_stride3:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]			; AVX2-NEXT: vpalignr {{.*#+}} xmm3 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm3 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]			; AVX2-NEXT: vpalignr {{.*#+}} xmm4 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm1[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]			; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]
	; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]			; AVX2-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [128,0,128,128,1,128,128,2,128,128,3,128,128,4,128,128]			; AVX2-NEXT: vpalignr {{.*#+}} xmm1 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm4			; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm5 = [5,128,11,6,128,12,7,128,13,8,128,14,9,128,15,10]			; AVX2-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; AVX2-NEXT: vpshufb %xmm5, %xmm3, %xmm6			; AVX2-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
	; AVX2-NEXT: vpor %xmm4, %xmm6, %xmm4			; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm6			; AVX2-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]
	; AVX2-NEXT: vpshufb %xmm5, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vpor %xmm6, %xmm0, %xmm0			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: vpshufb %xmm2, %xmm3, %xmm2			; AVX2-NEXT: vmovdqu %xmm2, 32(%rdi)
	; AVX2-NEXT: vpshufb %xmm5, %xmm1, %xmm1
	; AVX2-NEXT: vpor %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm4, %ymm0
	; AVX2-NEXT: vmovdqu %xmm1, 32(%rdi)
	; AVX2-NEXT: vmovdqu %ymm0, (%rdi)			; AVX2-NEXT: vmovdqu %ymm0, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: interleaved_store_vf16_i8_stride3:			; AVX512-LABEL: interleaved_store_vf16_i8_stride3:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX512-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX512-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]			; AVX512-NEXT: vpalignr {{.*#+}} xmm3 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]
	; AVX512-NEXT: vpalignr {{.*#+}} xmm3 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]			; AVX512-NEXT: vpalignr {{.*#+}} xmm4 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
	; AVX512-NEXT: vpalignr {{.*#+}} xmm0 = xmm1[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]			; AVX512-NEXT: vpalignr {{.*#+}} xmm0 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]
	; AVX512-NEXT: vpalignr {{.*#+}} xmm1 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]			; AVX512-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]
	; AVX512-NEXT: vmovdqa {{.*#+}} xmm2 = [128,0,128,128,1,128,128,2,128,128,3,128,128,4,128,128]			; AVX512-NEXT: vpalignr {{.*#+}} xmm1 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]
	; AVX512-NEXT: vpshufb %xmm2, %xmm0, %xmm4			; AVX512-NEXT: vmovdqa {{.*#+}} xmm3 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]
	; AVX512-NEXT: vmovdqa {{.*#+}} xmm5 = [5,128,11,6,128,12,7,128,13,8,128,14,9,128,15,10]			; AVX512-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vpshufb %xmm5, %xmm3, %xmm6			; AVX512-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
	; AVX512-NEXT: vpor %xmm4, %xmm6, %xmm4			; AVX512-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vpshufb %xmm2, %xmm1, %xmm6			; AVX512-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]
	; AVX512-NEXT: vpshufb %xmm5, %xmm0, %xmm0			; AVX512-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX512-NEXT: vpor %xmm6, %xmm0, %xmm0			; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX512-NEXT: vpshufb %xmm2, %xmm3, %xmm2			; AVX512-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm1
	; AVX512-NEXT: vpshufb %xmm5, %xmm1, %xmm1
	; AVX512-NEXT: vpor %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm4, %ymm0
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm1
	; AVX512-NEXT: vmovdqu %ymm0, (%rdi)			; AVX512-NEXT: vmovdqu %ymm0, (%rdi)
	; AVX512-NEXT: vextracti32x4 $2, %zmm1, 32(%rdi)			; AVX512-NEXT: vextracti32x4 $2, %zmm1, 32(%rdi)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = shufflevector <16 x i8> %a, <16 x i8> %b, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>			%1 = shufflevector <16 x i8> %a, <16 x i8> %b, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
	%2 = shufflevector <16 x i8> %c, <16 x i8> undef, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%2 = shufflevector <16 x i8> %c, <16 x i8> undef, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%interleaved.vec = shufflevector <32 x i8> %1, <32 x i8> %2, <48 x i32> <i32 0, i32 16, i32 32, i32 1, i32 17, i32 33, i32 2, i32 18, i32 34, i32 3, i32 19, i32 35, i32 4, i32 20, i32 36, i32 5, i32 21, i32 37, i32 6, i32 22, i32 38, i32 7, i32 23, i32 39, i32 8, i32 24, i32 40, i32 9, i32 25, i32 41, i32 10, i32 26, i32 42, i32 11, i32 27, i32 43, i32 12, i32 28, i32 44, i32 13, i32 29, i32 45, i32 14, i32 30, i32 46, i32 15, i32 31, i32 47>			%interleaved.vec = shufflevector <32 x i8> %1, <32 x i8> %2, <48 x i32> <i32 0, i32 16, i32 32, i32 1, i32 17, i32 33, i32 2, i32 18, i32 34, i32 3, i32 19, i32 35, i32 4, i32 20, i32 36, i32 5, i32 21, i32 37, i32 6, i32 22, i32 38, i32 7, i32 23, i32 39, i32 8, i32 24, i32 40, i32 9, i32 25, i32 41, i32 10, i32 26, i32 42, i32 11, i32 27, i32 43, i32 12, i32 28, i32 44, i32 13, i32 29, i32 45, i32 14, i32 30, i32 46, i32 15, i32 31, i32 47>
	store <48 x i8> %interleaved.vec, <48 x i8>* %p, align 1			store <48 x i8> %interleaved.vec, <48 x i8>* %p, align 1
	▲ Show 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovdqu 112(%rdi), %xmm14			; AVX1-NEXT: vmovdqu 112(%rdi), %xmm14
	; AVX1-NEXT: vmovdqu 128(%rdi), %xmm13			; AVX1-NEXT: vmovdqu 128(%rdi), %xmm13
	; AVX1-NEXT: vmovdqu 144(%rdi), %xmm5			; AVX1-NEXT: vmovdqu 144(%rdi), %xmm5
	; AVX1-NEXT: vmovdqu 160(%rdi), %xmm1			; AVX1-NEXT: vmovdqu 160(%rdi), %xmm1
	; AVX1-NEXT: vmovdqu 176(%rdi), %xmm15			; AVX1-NEXT: vmovdqu 176(%rdi), %xmm15
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13]
	; AVX1-NEXT: vpshufb %xmm4, %xmm6, %xmm6			; AVX1-NEXT: vpshufb %xmm4, %xmm6, %xmm6
	; AVX1-NEXT: vpshufb %xmm4, %xmm5, %xmm5			; AVX1-NEXT: vpshufb %xmm4, %xmm5, %xmm5
	; AVX1-NEXT: vpshufb %xmm4, %xmm11, %xmm2			; AVX1-NEXT: vpshufb %xmm4, %xmm11, %xmm11
	; AVX1-NEXT: vpshufb %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpshufb %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpshufb %xmm4, %xmm10, %xmm11			; AVX1-NEXT: vpshufb %xmm4, %xmm10, %xmm10
	; AVX1-NEXT: vpshufb %xmm4, %xmm12, %xmm12			; AVX1-NEXT: vpshufb %xmm4, %xmm12, %xmm12
	; AVX1-NEXT: vpshufb %xmm4, %xmm14, %xmm14			; AVX1-NEXT: vpshufb %xmm4, %xmm14, %xmm14
	; AVX1-NEXT: vpshufb %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm4, %xmm13, %xmm0			; AVX1-NEXT: vpshufb %xmm4, %xmm13, %xmm2
	; AVX1-NEXT: vpshufb %xmm4, %xmm15, %xmm7			; AVX1-NEXT: vpshufb %xmm4, %xmm15, %xmm0
	; AVX1-NEXT: vpshufb %xmm4, %xmm8, %xmm13			; AVX1-NEXT: vpshufb %xmm4, %xmm8, %xmm7
	; AVX1-NEXT: vpshufb %xmm4, %xmm9, %xmm4			; AVX1-NEXT: vpshufb %xmm4, %xmm9, %xmm4
	; AVX1-NEXT: vpalignr {{.*#+}} xmm15 = xmm4[11,12,13,14,15],xmm3[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm13 = xmm4[11,12,13,14,15],xmm3[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm10 = xmm13[11,12,13,14,15],xmm2[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm15 = xmm7[11,12,13,14,15],xmm11[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm9 = xmm7[11,12,13,14,15],xmm5[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm9 = xmm0[11,12,13,14,15],xmm5[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm8 = xmm0[11,12,13,14,15],xmm6[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm8 = xmm2[11,12,13,14,15],xmm6[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm5 = xmm5[11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm5 = xmm5[11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm6 = xmm6[11,12,13,14,15],xmm14[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm6 = xmm6[11,12,13,14,15],xmm14[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[11,12,13,14,15],xmm7[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm1[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm6, %ymm7			; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm6, %ymm1
	; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[11,12,13,14,15],xmm12[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[11,12,13,14,15],xmm12[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[11,12,13,14,15],xmm11[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm11 = xmm11[11,12,13,14,15],xmm10[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm14[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm14[11,12,13,14,15],xmm2[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm14			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm11, %ymm14
	; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm12[11,12,13,14,15],xmm4[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm12[11,12,13,14,15],xmm4[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm11 = xmm11[11,12,13,14,15],xmm13[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm7 = xmm10[11,12,13,14,15],xmm7[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm11, %ymm12			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm7, %ymm10
	; AVX1-NEXT: vbroadcastf128 {{.*#+}} ymm13 = [255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0,255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0]			; AVX1-NEXT: vbroadcastf128 {{.*#+}} ymm12 = [255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0,255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0]
	; AVX1-NEXT: # ymm13 = mem[0,1,0,1]			; AVX1-NEXT: # ymm12 = mem[0,1,0,1]
	; AVX1-NEXT: vandnps %ymm12, %ymm13, %ymm12			; AVX1-NEXT: vandnps %ymm10, %ymm12, %ymm10
	; AVX1-NEXT: vandps %ymm13, %ymm14, %ymm14			; AVX1-NEXT: vandps %ymm12, %ymm14, %ymm14
	; AVX1-NEXT: vorps %ymm12, %ymm14, %ymm12			; AVX1-NEXT: vorps %ymm10, %ymm14, %ymm10
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm14			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm14
	; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm15[11,12,13,14,15],xmm4[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vandnps %ymm14, %ymm12, %ymm14
	; AVX1-NEXT: vmovdqa %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX1-NEXT: vandps %ymm12, %ymm1, %ymm1
	; AVX1-NEXT: vandnps %ymm14, %ymm13, %ymm14			; AVX1-NEXT: vorps %ymm14, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm13, %ymm7, %ymm7			; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm13[11,12,13,14,15],xmm4[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vorps %ymm14, %ymm7, %ymm13			; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[11,12,13,14,15],xmm13[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm14 = [128,128,128,128,128,128,11,12,13,14,15,128,128,128,128,128]			; AVX1-NEXT: vpalignr {{.*#+}} xmm12 = xmm15[11,12,13,14,15],xmm7[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpshufb %xmm14, %xmm3, %xmm3			; AVX1-NEXT: vpalignr {{.*#+}} xmm7 = xmm11[11,12,13,14,15],xmm15[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [5,6,7,8,9,10,128,128,128,128,128,0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm9[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpshufb %xmm7, %xmm15, %xmm4			; AVX1-NEXT: vpalignr {{.*#+}} xmm5 = xmm5[11,12,13,14,15],xmm9[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpor %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpalignr {{.*#+}} xmm9 = xmm8[11,12,13,14,15],xmm2[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm11 = xmm10[11,12,13,14,15],xmm11[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm6 = xmm6[11,12,13,14,15],xmm8[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpshufb %xmm14, %xmm2, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpshufb %xmm7, %xmm10, %xmm4			; AVX1-NEXT: vpaddb %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpor %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm5[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm9[11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpaddb %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: vpshufb %xmm14, %xmm5, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm10, %xmm0
	; AVX1-NEXT: vpshufb %xmm7, %xmm9, %xmm5			; AVX1-NEXT: vpaddb %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpor %xmm4, %xmm5, %xmm4			; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX1-NEXT: vpshufb %xmm14, %xmm6, %xmm5
	; AVX1-NEXT: vpalignr {{.*#+}} xmm6 = xmm8[11,12,13,14,15],xmm0[0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpshufb %xmm7, %xmm8, %xmm0
	; AVX1-NEXT: vpor %xmm5, %xmm0, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm13, %xmm0
	; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddb %xmm0, %xmm4, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm12, %xmm0
	; AVX1-NEXT: vpaddb {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
	; AVX1-NEXT: vpaddb %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpaddb %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpaddb %xmm11, %xmm12, %xmm3			; AVX1-NEXT: vpaddb %xmm12, %xmm10, %xmm3
	; AVX1-NEXT: vpaddb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm7[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0			; AVX1-NEXT: vpaddb %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpaddb %xmm6, %xmm13, %xmm2			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm3, %ymm0
	; AVX1-NEXT: vpaddb %xmm2, %xmm5, %xmm2			; AVX1-NEXT: vpaddb %xmm9, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1			; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm6[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9]
				; AVX1-NEXT: vpaddb %xmm1, %xmm3, %xmm1
				; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: interleaved_load_vf64_i8_stride3:			; AVX2-LABEL: interleaved_load_vf64_i8_stride3:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqu (%rdi), %xmm0			; AVX2-NEXT: vmovdqu (%rdi), %xmm0
	; AVX2-NEXT: vmovdqu 16(%rdi), %xmm1			; AVX2-NEXT: vmovdqu 16(%rdi), %xmm1
	; AVX2-NEXT: vmovdqu 32(%rdi), %xmm2			; AVX2-NEXT: vmovdqu 32(%rdi), %xmm2
	; AVX2-NEXT: vmovdqu 96(%rdi), %xmm3			; AVX2-NEXT: vmovdqu 96(%rdi), %xmm3
	Show All 21 Lines
	; AVX2-NEXT: vpalignr {{.*#+}} ymm4 = ymm7[11,12,13,14,15],ymm2[0,1,2,3,4,5,6,7,8,9,10],ymm7[27,28,29,30,31],ymm2[16,17,18,19,20,21,22,23,24,25,26]			; AVX2-NEXT: vpalignr {{.*#+}} ymm4 = ymm7[11,12,13,14,15],ymm2[0,1,2,3,4,5,6,7,8,9,10],ymm7[27,28,29,30,31],ymm2[16,17,18,19,20,21,22,23,24,25,26]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm5 = ymm6[11,12,13,14,15],ymm1[0,1,2,3,4,5,6,7,8,9,10],ymm6[27,28,29,30,31],ymm1[16,17,18,19,20,21,22,23,24,25,26]			; AVX2-NEXT: vpalignr {{.*#+}} ymm5 = ymm6[11,12,13,14,15],ymm1[0,1,2,3,4,5,6,7,8,9,10],ymm6[27,28,29,30,31],ymm1[16,17,18,19,20,21,22,23,24,25,26]
	; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm8 = [255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0,255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0]			; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm8 = [255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0,255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0]
	; AVX2-NEXT: # ymm8 = mem[0,1,0,1]			; AVX2-NEXT: # ymm8 = mem[0,1,0,1]
	; AVX2-NEXT: vpblendvb %ymm8, %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpblendvb %ymm8, %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpaddb %ymm5, %ymm1, %ymm1			; AVX2-NEXT: vpaddb %ymm5, %ymm1, %ymm1
	; AVX2-NEXT: vpblendvb %ymm8, %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpblendvb %ymm8, %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpaddb %ymm4, %ymm2, %ymm2			; AVX2-NEXT: vpaddb %ymm4, %ymm2, %ymm2
	; AVX2-NEXT: vpblendvb %ymm8, %ymm6, %ymm0, %ymm0			; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[11,12,13,14,15],ymm6[0,1,2,3,4,5,6,7,8,9,10],ymm0[27,28,29,30,31],ymm6[16,17,18,19,20,21,22,23,24,25,26]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,21,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,26,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpblendvb %ymm8, %ymm7, %ymm3, %ymm1			; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm3[11,12,13,14,15],ymm7[0,1,2,3,4,5,6,7,8,9,10],ymm3[27,28,29,30,31],ymm7[16,17,18,19,20,21,22,23,24,25,26]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,21,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,26,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25]
	; AVX2-NEXT: vpaddb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddb %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: interleaved_load_vf64_i8_stride3:			; AVX512-LABEL: interleaved_load_vf64_i8_stride3:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovdqu (%rdi), %xmm0			; AVX512-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512-NEXT: vmovdqu 16(%rdi), %xmm1			; AVX512-NEXT: vmovdqu 16(%rdi), %xmm1
	; AVX512-NEXT: vmovdqu 32(%rdi), %xmm2			; AVX512-NEXT: vmovdqu 32(%rdi), %xmm2
	Show All 12 Lines
	; AVX512-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13,0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13,0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13,0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13]			; AVX512-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13,0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13,0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13,0,3,6,9,12,15,2,5,8,11,14,1,4,7,10,13]
	; AVX512-NEXT: vpshufb %zmm3, %zmm0, %zmm0			; AVX512-NEXT: vpshufb %zmm3, %zmm0, %zmm0
	; AVX512-NEXT: vpshufb %zmm3, %zmm1, %zmm1			; AVX512-NEXT: vpshufb %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpshufb %zmm3, %zmm2, %zmm2			; AVX512-NEXT: vpshufb %zmm3, %zmm2, %zmm2
	; AVX512-NEXT: vpalignr {{.*#+}} zmm3 = zmm2[11,12,13,14,15],zmm0[0,1,2,3,4,5,6,7,8,9,10],zmm2[27,28,29,30,31],zmm0[16,17,18,19,20,21,22,23,24,25,26],zmm2[43,44,45,46,47],zmm0[32,33,34,35,36,37,38,39,40,41,42],zmm2[59,60,61,62,63],zmm0[48,49,50,51,52,53,54,55,56,57,58]			; AVX512-NEXT: vpalignr {{.*#+}} zmm3 = zmm2[11,12,13,14,15],zmm0[0,1,2,3,4,5,6,7,8,9,10],zmm2[27,28,29,30,31],zmm0[16,17,18,19,20,21,22,23,24,25,26],zmm2[43,44,45,46,47],zmm0[32,33,34,35,36,37,38,39,40,41,42],zmm2[59,60,61,62,63],zmm0[48,49,50,51,52,53,54,55,56,57,58]
	; AVX512-NEXT: vpalignr {{.*#+}} zmm0 = zmm0[11,12,13,14,15],zmm1[0,1,2,3,4,5,6,7,8,9,10],zmm0[27,28,29,30,31],zmm1[16,17,18,19,20,21,22,23,24,25,26],zmm0[43,44,45,46,47],zmm1[32,33,34,35,36,37,38,39,40,41,42],zmm0[59,60,61,62,63],zmm1[48,49,50,51,52,53,54,55,56,57,58]			; AVX512-NEXT: vpalignr {{.*#+}} zmm0 = zmm0[11,12,13,14,15],zmm1[0,1,2,3,4,5,6,7,8,9,10],zmm0[27,28,29,30,31],zmm1[16,17,18,19,20,21,22,23,24,25,26],zmm0[43,44,45,46,47],zmm1[32,33,34,35,36,37,38,39,40,41,42],zmm0[59,60,61,62,63],zmm1[48,49,50,51,52,53,54,55,56,57,58]
	; AVX512-NEXT: movabsq $-576188069258921984, %rax # imm = 0xF800F800F800F800			; AVX512-NEXT: movabsq $-576188069258921984, %rax # imm = 0xF800F800F800F800
	; AVX512-NEXT: kmovq %rax, %k1			; AVX512-NEXT: kmovq %rax, %k1
	; AVX512-NEXT: vbroadcasti128 {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0,255,255,255,255,255,255,255,255,255,255,255,0,0,0,0,0]			; AVX512-NEXT: vpalignr {{.*#+}} ymm4 = ymm0[11,12,13,14,15],ymm3[0,1,2,3,4,5,6,7,8,9,10],ymm0[27,28,29,30,31],ymm3[16,17,18,19,20,21,22,23,24,25,26]
	; AVX512-NEXT: # ymm4 = mem[0,1,0,1]			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm5
	; AVX512-NEXT: vpblendvb %ymm4, %ymm3, %ymm0, %ymm5
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm6
	; AVX512-NEXT: vpalignr {{.*#+}} zmm0 {%k1} = zmm1[11,12,13,14,15],zmm2[0,1,2,3,4,5,6,7,8,9,10],zmm1[27,28,29,30,31],zmm2[16,17,18,19,20,21,22,23,24,25,26],zmm1[43,44,45,46,47],zmm2[32,33,34,35,36,37,38,39,40,41,42],zmm1[59,60,61,62,63],zmm2[48,49,50,51,52,53,54,55,56,57,58]			; AVX512-NEXT: vpalignr {{.*#+}} zmm0 {%k1} = zmm1[11,12,13,14,15],zmm2[0,1,2,3,4,5,6,7,8,9,10],zmm1[27,28,29,30,31],zmm2[16,17,18,19,20,21,22,23,24,25,26],zmm1[43,44,45,46,47],zmm2[32,33,34,35,36,37,38,39,40,41,42],zmm1[59,60,61,62,63],zmm2[48,49,50,51,52,53,54,55,56,57,58]
	; AVX512-NEXT: vpalignr {{.*#+}} zmm1 = zmm1[11,12,13,14,15],zmm2[0,1,2,3,4,5,6,7,8,9,10],zmm1[27,28,29,30,31],zmm2[16,17,18,19,20,21,22,23,24,25,26],zmm1[43,44,45,46,47],zmm2[32,33,34,35,36,37,38,39,40,41,42],zmm1[59,60,61,62,63],zmm2[48,49,50,51,52,53,54,55,56,57,58]			; AVX512-NEXT: vpalignr {{.*#+}} zmm1 = zmm1[11,12,13,14,15],zmm2[0,1,2,3,4,5,6,7,8,9,10],zmm1[27,28,29,30,31],zmm2[16,17,18,19,20,21,22,23,24,25,26],zmm1[43,44,45,46,47],zmm2[32,33,34,35,36,37,38,39,40,41,42],zmm1[59,60,61,62,63],zmm2[48,49,50,51,52,53,54,55,56,57,58]
	; AVX512-NEXT: vpalignr {{.*#+}} zmm1 = zmm3[11,12,13,14,15],zmm1[0,1,2,3,4,5,6,7,8,9,10],zmm3[27,28,29,30,31],zmm1[16,17,18,19,20,21,22,23,24,25,26],zmm3[43,44,45,46,47],zmm1[32,33,34,35,36,37,38,39,40,41,42],zmm3[59,60,61,62,63],zmm1[48,49,50,51,52,53,54,55,56,57,58]			; AVX512-NEXT: vpalignr {{.*#+}} zmm1 = zmm3[11,12,13,14,15],zmm1[0,1,2,3,4,5,6,7,8,9,10],zmm3[27,28,29,30,31],zmm1[16,17,18,19,20,21,22,23,24,25,26],zmm3[43,44,45,46,47],zmm1[32,33,34,35,36,37,38,39,40,41,42],zmm3[59,60,61,62,63],zmm1[48,49,50,51,52,53,54,55,56,57,58]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpalignr {{.*#+}} ymm1 = ymm5[5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,21,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20]			; AVX512-NEXT: vpalignr {{.*#+}} ymm1 = ymm4[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,26,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25]
	; AVX512-NEXT: vextracti64x4 $1, %zmm3, %ymm2			; AVX512-NEXT: vextracti64x4 $1, %zmm3, %ymm2
	; AVX512-NEXT: vpblendvb %ymm4, %ymm2, %ymm6, %ymm2			; AVX512-NEXT: vpalignr {{.*#+}} ymm2 = ymm5[11,12,13,14,15],ymm2[0,1,2,3,4,5,6,7,8,9,10],ymm5[27,28,29,30,31],ymm2[16,17,18,19,20,21,22,23,24,25,26]
	; AVX512-NEXT: vpalignr {{.*#+}} ymm2 = ymm2[5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,21,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20]			; AVX512-NEXT: vpalignr {{.*#+}} ymm2 = ymm2[10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,26,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25]
	; AVX512-NEXT: vinserti64x4 $1, %ymm2, %zmm1, %zmm1			; AVX512-NEXT: vinserti64x4 $1, %ymm2, %zmm1, %zmm1
	; AVX512-NEXT: vpaddb %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddb %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%wide.vec = load <192 x i8>, <192 x i8>* %ptr, align 1			%wide.vec = load <192 x i8>, <192 x i8>* %ptr, align 1
	%v1 = shufflevector <192 x i8> %wide.vec, <192 x i8> undef, <64 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45, i32 48, i32 51, i32 54, i32 57, i32 60, i32 63, i32 66, i32 69, i32 72, i32 75, i32 78, i32 81, i32 84, i32 87, i32 90, i32 93, i32 96, i32 99, i32 102, i32 105, i32 108, i32 111, i32 114, i32 117, i32 120, i32 123, i32 126, i32 129, i32 132, i32 135, i32 138, i32 141, i32 144, i32 147, i32 150, i32 153, i32 156, i32 159, i32 162, i32 165, i32 168, i32 171, i32 174, i32 177, i32 180, i32 183, i32 186, i32 189>			%v1 = shufflevector <192 x i8> %wide.vec, <192 x i8> undef, <64 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45, i32 48, i32 51, i32 54, i32 57, i32 60, i32 63, i32 66, i32 69, i32 72, i32 75, i32 78, i32 81, i32 84, i32 87, i32 90, i32 93, i32 96, i32 99, i32 102, i32 105, i32 108, i32 111, i32 114, i32 117, i32 120, i32 123, i32 126, i32 129, i32 132, i32 135, i32 138, i32 141, i32 144, i32 147, i32 150, i32 153, i32 156, i32 159, i32 162, i32 165, i32 168, i32 171, i32 174, i32 177, i32 180, i32 183, i32 186, i32 189>
	%v2 = shufflevector <192 x i8> %wide.vec, <192 x i8> undef, <64 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46, i32 49, i32 52, i32 55, i32 58, i32 61, i32 64, i32 67, i32 70, i32 73, i32 76, i32 79, i32 82, i32 85, i32 88, i32 91, i32 94, i32 97, i32 100, i32 103, i32 106, i32 109, i32 112, i32 115, i32 118, i32 121, i32 124, i32 127, i32 130, i32 133, i32 136, i32 139, i32 142, i32 145, i32 148, i32 151, i32 154, i32 157, i32 160, i32 163, i32 166, i32 169, i32 172, i32 175, i32 178, i32 181, i32 184, i32 187, i32 190>			%v2 = shufflevector <192 x i8> %wide.vec, <192 x i8> undef, <64 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46, i32 49, i32 52, i32 55, i32 58, i32 61, i32 64, i32 67, i32 70, i32 73, i32 76, i32 79, i32 82, i32 85, i32 88, i32 91, i32 94, i32 97, i32 100, i32 103, i32 106, i32 109, i32 112, i32 115, i32 118, i32 121, i32 124, i32 127, i32 130, i32 133, i32 136, i32 139, i32 142, i32 145, i32 148, i32 151, i32 154, i32 157, i32 160, i32 163, i32 166, i32 169, i32 172, i32 175, i32 178, i32 181, i32 184, i32 187, i32 190>
	%v3 = shufflevector <192 x i8> %wide.vec, <192 x i8> undef, <64 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47, i32 50, i32 53, i32 56, i32 59, i32 62, i32 65, i32 68, i32 71, i32 74, i32 77, i32 80, i32 83, i32 86, i32 89, i32 92, i32 95, i32 98, i32 101, i32 104, i32 107, i32 110, i32 113, i32 116, i32 119, i32 122, i32 125, i32 128, i32 131, i32 134, i32 137, i32 140, i32 143, i32 146, i32 149, i32 152, i32 155, i32 158, i32 161, i32 164, i32 167, i32 170, i32 173, i32 176, i32 179, i32 182, i32 185, i32 188, i32 191>			%v3 = shufflevector <192 x i8> %wide.vec, <192 x i8> undef, <64 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47, i32 50, i32 53, i32 56, i32 59, i32 62, i32 65, i32 68, i32 71, i32 74, i32 77, i32 80, i32 83, i32 86, i32 89, i32 92, i32 95, i32 98, i32 101, i32 104, i32 107, i32 110, i32 113, i32 116, i32 119, i32 122, i32 125, i32 128, i32 131, i32 134, i32 137, i32 140, i32 143, i32 146, i32 149, i32 152, i32 155, i32 158, i32 161, i32 164, i32 167, i32 170, i32 173, i32 176, i32 179, i32 182, i32 185, i32 188, i32 191>
	%add1 = add <64 x i8> %v1, %v2			%add1 = add <64 x i8> %v1, %v2
	▲ Show 20 Lines • Show All 168 Lines • Show Last 20 Lines