This is an archive of the discontinued LLVM Phabricator instance.

[X86][AVX] Lower shuffles as repeated lane shuffles then lane-crossing shuffles
ClosedPublic

Authored by RKSimon on Jan 25 2016, 8:41 AM.

Download Raw Diff

Details

Reviewers

qcolombet
ab
delena
andreadb

Commits

rG08ba012973c8: [X86][AVX] Lower shuffles as repeated lane shuffles then lane-crossing shuffles
rL260834: [X86][AVX] Lower shuffles as repeated lane shuffles then lane-crossing shuffles

Summary

This patch attempts to represent a shuffle as a repeating shuffle (recognisable by is128BitLaneRepeatedShuffleMask) with the source input(s) in their original lanes, followed by a single permutation of the 128-bit lanes to their final destinations.

On AVX2 we can additionally attempt to match using 64-bit sub-lane permutation. AVX2 can also now match a similar 'broadcasted' repeating shuffle.

This patch has several benefits:

Avoids prematurely matching with lowerVectorShuffleByMerging128BitLanes which can require both inputs to have their input lanes permuted before shuffling.
Can replace PERMPS/PERMD instructions - although these are useful for cross-lane unary shuffling, they require their shuffle mask to be pre-loaded (and increase register pressure).
Matching the repeating shuffle makes use of a lot of existing shuffle lowering.

There is an outstanding minor AVX1 regression (combine_unneeded_subvector1 in vector-shuffle-combining.ll) of a previously 128-bit shuffle + subvector splat being converted to a subvector splat + (2 instruction) 256-bit shuffle, I intend to fix this in a followup patch for review.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon updated this revision to Diff 45870.Jan 25 2016, 8:41 AM

RKSimon retitled this revision from to [X86][AVX] Lower shuffles as repeated lane shuffles then lane-crossing shuffles.

RKSimon updated this object.

RKSimon added reviewers: qcolombet, delena, andreadb.

RKSimon set the repository for this revision to rL LLVM.

RKSimon added a subscriber: llvm-commits.

spatel added a subscriber: spatel.Jan 25 2016, 8:58 AM

ping?

ping2

ab added a subscriber: ab.Feb 11 2016, 12:35 PM

ab added inline comments.

lib/Target/X86/X86ISelLowering.cpp
10645 ↗	(On Diff #45870)	Lower -> lower?
10732 ↗	(On Diff #45870)	I found this non-obvious; it might help to split it in two? IIUC the first part picks the lane and the second part picks the sublane, right?

Updated based on Ahmed's comments

LGTM

This revision is now accepted and ready to land.Feb 12 2016, 10:25 AM

Closed by commit rL260834: [X86][AVX] Lower shuffles as repeated lane shuffles then lane-crossing shuffles (authored by RKSimon). · Explain WhyFeb 13 2016, 1:58 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

166 lines

test/

CodeGen/

X86/

avx-splat.ll

5 lines

avx2-conversions.ll

4 lines

vector-shuffle-256-v16.ll

3 lines

vector-shuffle-256-v32.ll

4 lines

vector-shuffle-256-v4.ll

18 lines

vector-shuffle-256-v8.ll

129 lines

vector-shuffle-combining.ll

11 lines

vector-trunc.ll

35 lines

Diff 47919

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 10,749 Lines • ▼ Show 20 Lines	static bool isShuffleMaskInputInPlace(int Input, ArrayRef<int> Mask) {
int Size = Mask.size();		int Size = Mask.size();
for (int i = 0; i < Size; ++i)		for (int i = 0; i < Size; ++i)
if (Mask[i] >= 0 && Mask[i] / Size == Input && Mask[i] % Size != i)		if (Mask[i] >= 0 && Mask[i] / Size == Input && Mask[i] % Size != i)
return false;		return false;

return true;		return true;
}		}

		/// Handle case where shuffle sources are coming from the same 128-bit lane and
		/// every lane can be represented as the same repeating mask - allowing us to
		/// shuffle the sources with the repeating shuffle and then permute the result
		/// to the destination lanes.
		static SDValue lowerShuffleAsRepeatedMaskAndLanePermute(
		SDLoc DL, MVT VT, SDValue V1, SDValue V2, ArrayRef<int> Mask,
		const X86Subtarget &Subtarget, SelectionDAG &DAG) {
		int NumElts = VT.getVectorNumElements();
		int NumLanes = VT.getSizeInBits() / 128;
		int NumLaneElts = NumElts / NumLanes;

		// On AVX2 we may be able to just shuffle the lowest elements and then
		// broadcast the result.
		if (Subtarget.hasAVX2()) {
		for (unsigned BroadcastSize : {16, 32, 64}) {
		if (BroadcastSize <= VT.getScalarSizeInBits())
		continue;
		int NumBroadcastElts = BroadcastSize / VT.getScalarSizeInBits();

		// Attempt to match a repeating pattern every NumBroadcastElts,
		// accounting for UNDEFs but only references the lowest 128-bit
		// lane of the inputs.
		auto FindRepeatingBroadcastMask = [&](SmallVectorImpl<int> &RepeatMask) {
		for (int i = 0; i != NumElts; i += NumBroadcastElts)
		for (int j = 0; j != NumBroadcastElts; ++j) {
		int M = Mask[i + j];
		if (M < 0)
		continue;
		int &R = RepeatMask[j];
		if (0 != ((M % NumElts) / NumLaneElts))
		return false;
		else if (0 <= R && R != M)
		return false;
		else
		R = M;
		}
		return true;
		};

		SmallVector<int, 8> RepeatMask((unsigned)NumElts, -1);
		if (!FindRepeatingBroadcastMask(RepeatMask))
		continue;

		// Shuffle the (lowest) repeated elements in place for broadcast.
		SDValue RepeatShuf = DAG.getVectorShuffle(VT, DL, V1, V2, RepeatMask);

		// Shuffle the actual broadcast.
		SmallVector<int, 8> BroadcastMask((unsigned)NumElts, -1);
		for (int i = 0; i != NumElts; i += NumBroadcastElts)
		for (int j = 0; j != NumBroadcastElts; ++j)
		BroadcastMask[i + j] = j;
		return DAG.getVectorShuffle(VT, DL, RepeatShuf, DAG.getUNDEF(VT),
		BroadcastMask);
		}
		}

		// Bail if we already have a repeated lane shuffle mask.
		SmallVector<int, 8> RepeatedShuffleMask((unsigned)NumLaneElts, -1);
		if (is128BitLaneRepeatedShuffleMask(VT, Mask, RepeatedShuffleMask))
		return SDValue();

		// On AVX2 targets we can permute 256-bit vectors as 64-bit sub-lanes
		// (with PERMQ/PERMPD), otherwise we can only permute whole 128-bit lanes.
		int SubLaneScale = Subtarget.hasAVX2() && VT.is256BitVector() ? 2 : 1;
		int NumSubLanes = NumLanes * SubLaneScale;
		int NumSubLaneElts = NumLaneElts / SubLaneScale;

		// Check that all the sources are coming from the same lane and see if we
		// can form a repeating shuffle mask (local to each lane). At the same time,
		// determine the source sub-lane for each destination sub-lane.
		int TopSrcSubLane = -1;
		SmallVector<int, 8> RepeatedLaneMask((unsigned)NumLaneElts, -1);
		SmallVector<int, 8> Dst2SrcSubLanes((unsigned)NumSubLanes, -1);
		for (int i = 0; i != NumElts; ++i) {
		int M = Mask[i];
		if (M < 0)
		continue;
		assert(0 <= M && M < 2 * NumElts);

		// Check that the local mask index is the same for every lane. We always do
		// this with 128-bit lanes to match in is128BitLaneRepeatedShuffleMask.
		int LocalM = M < NumElts ? (M % NumLaneElts) : (M % NumLaneElts) + NumElts;
		int &RepeatM = RepeatedLaneMask[i % NumLaneElts];
		if (0 <= RepeatM && RepeatM != LocalM)
		return SDValue();
		RepeatM = LocalM;

		// Check that the whole of each destination sub-lane comes from the same
		// sub-lane, we need to calculate the source based off where the repeated
		// lane mask will have left it.
		int SrcLane = (M % NumElts) / NumLaneElts;
		int SrcSubLane = (SrcLane * SubLaneScale) +
		((i % NumLaneElts) / NumSubLaneElts);
		int &Dst2SrcSubLane = Dst2SrcSubLanes[i / NumSubLaneElts];
		if (0 <= Dst2SrcSubLane && SrcSubLane != Dst2SrcSubLane)
		return SDValue();
		Dst2SrcSubLane = SrcSubLane;

		// Track the top most source sub-lane - by setting the remaining to UNDEF
		// we can greatly simplify shuffle matching.
		TopSrcSubLane = std::max(TopSrcSubLane, SrcSubLane);
		}
		assert(0 <= TopSrcSubLane && TopSrcSubLane < NumSubLanes &&
		"Unexpected source lane");

		// Create a repeating shuffle mask for the entire vector.
		SmallVector<int, 8> RepeatedMask((unsigned)NumElts, -1);
		for (int i = 0, e = ((TopSrcSubLane + 1) * NumSubLaneElts); i != e; ++i) {
		int M = RepeatedLaneMask[i % NumLaneElts];
		if (M < 0)
		continue;
		int Lane = i / NumLaneElts;
		RepeatedMask[i] = M + (Lane * NumLaneElts);
		}
		SDValue RepeatedShuffle = DAG.getVectorShuffle(VT, DL, V1, V2, RepeatedMask);

		// Shuffle each source sub-lane to its destination.
		SmallVector<int, 8> SubLaneMask((unsigned)NumElts, -1);
		for (int i = 0; i != NumElts; i += NumSubLaneElts) {
		int SrcSubLane = Dst2SrcSubLanes[i / NumSubLaneElts];
		if (SrcSubLane < 0)
		continue;
		for (int j = 0; j != NumSubLaneElts; ++j)
		SubLaneMask[i + j] = j + (SrcSubLane * NumSubLaneElts);
		}

		return DAG.getVectorShuffle(VT, DL, RepeatedShuffle, DAG.getUNDEF(VT),
		SubLaneMask);
		}

static SDValue lowerVectorShuffleWithSHUFPD(SDLoc DL, MVT VT,		static SDValue lowerVectorShuffleWithSHUFPD(SDLoc DL, MVT VT,
ArrayRef<int> Mask, SDValue V1,		ArrayRef<int> Mask, SDValue V1,
SDValue V2, SelectionDAG &DAG) {		SDValue V2, SelectionDAG &DAG) {

// Mask for V8F64: 0/1, 8/9, 2/3, 10/11, 4/5, ..		// Mask for V8F64: 0/1, 8/9, 2/3, 10/11, 4/5, ..
// Mask for V4F64; 0/1, 4/5, 2/3, 6/7..		// Mask for V4F64; 0/1, 4/5, 2/3, 6/7..
assert(VT.getScalarSizeInBits() == 64 && "Unexpected data type for VSHUFPD");		assert(VT.getScalarSizeInBits() == 64 && "Unexpected data type for VSHUFPD");
int NumElts = VT.getVectorNumElements();		int NumElts = VT.getVectorNumElements();
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	if (!is128BitLaneCrossingShuffleMask(MVT::v4f64, Mask)) {
DAG.getConstant(VPERMILPMask, DL, MVT::i8));		DAG.getConstant(VPERMILPMask, DL, MVT::i8));
}		}

// With AVX2 we have direct support for this permutation.		// With AVX2 we have direct support for this permutation.
if (Subtarget.hasAVX2())		if (Subtarget.hasAVX2())
return DAG.getNode(X86ISD::VPERMI, DL, MVT::v4f64, V1,		return DAG.getNode(X86ISD::VPERMI, DL, MVT::v4f64, V1,
getV4X86ShuffleImm8ForMask(Mask, DL, DAG));		getV4X86ShuffleImm8ForMask(Mask, DL, DAG));

		// Try to create an in-lane repeating shuffle mask and then shuffle the
		// the results into the target lanes.
		if (SDValue V = lowerShuffleAsRepeatedMaskAndLanePermute(
		DL, MVT::v4f64, V1, V2, Mask, Subtarget, DAG))
		return V;

// Otherwise, fall back.		// Otherwise, fall back.
return lowerVectorShuffleAsLanePermuteAndBlend(DL, MVT::v4f64, V1, V2, Mask,		return lowerVectorShuffleAsLanePermuteAndBlend(DL, MVT::v4f64, V1, V2, Mask,
DAG);		DAG);
}		}

// Use dedicated unpack instructions for masks that match their pattern.		// Use dedicated unpack instructions for masks that match their pattern.
if (SDValue V =		if (SDValue V =
lowerVectorShuffleWithUNPCK(DL, MVT::v4f64, Mask, V1, V2, DAG))		lowerVectorShuffleWithUNPCK(DL, MVT::v4f64, Mask, V1, V2, DAG))
return V;		return V;

if (SDValue Blend = lowerVectorShuffleAsBlend(DL, MVT::v4f64, V1, V2, Mask,		if (SDValue Blend = lowerVectorShuffleAsBlend(DL, MVT::v4f64, V1, V2, Mask,
Subtarget, DAG))		Subtarget, DAG))
return Blend;		return Blend;

// Check if the blend happens to exactly fit that of SHUFPD.		// Check if the blend happens to exactly fit that of SHUFPD.
if (SDValue Op =		if (SDValue Op =
lowerVectorShuffleWithSHUFPD(DL, MVT::v4f64, Mask, V1, V2, DAG))		lowerVectorShuffleWithSHUFPD(DL, MVT::v4f64, Mask, V1, V2, DAG))
return Op;		return Op;

		// Try to create an in-lane repeating shuffle mask and then shuffle the
		// the results into the target lanes.
		if (SDValue V = lowerShuffleAsRepeatedMaskAndLanePermute(
		DL, MVT::v4f64, V1, V2, Mask, Subtarget, DAG))
		return V;

// Try to simplify this by merging 128-bit lanes to enable a lane-based		// Try to simplify this by merging 128-bit lanes to enable a lane-based
// shuffle. However, if we have AVX2 and either inputs are already in place,		// shuffle. However, if we have AVX2 and either inputs are already in place,
// we will be able to shuffle even across lanes the other input in a single		// we will be able to shuffle even across lanes the other input in a single
// instruction so skip this pattern.		// instruction so skip this pattern.
if (!(Subtarget.hasAVX2() && (isShuffleMaskInputInPlace(0, Mask) \|\|		if (!(Subtarget.hasAVX2() && (isShuffleMaskInputInPlace(0, Mask) \|\|
isShuffleMaskInputInPlace(1, Mask))))		isShuffleMaskInputInPlace(1, Mask))))
if (SDValue Result = lowerVectorShuffleByMerging128BitLanes(		if (SDValue Result = lowerVectorShuffleByMerging128BitLanes(
DL, MVT::v4f64, V1, V2, Mask, Subtarget, DAG))		DL, MVT::v4f64, V1, V2, Mask, Subtarget, DAG))
▲ Show 20 Lines • Show All 137 Lines • ▼ Show 20 Lines	if (is128BitLaneRepeatedShuffleMask(MVT::v8f32, Mask, RepeatedMask)) {
// have already handled any direct blends. We also need to squash the		// have already handled any direct blends. We also need to squash the
// repeated mask into a simulated v4f32 mask.		// repeated mask into a simulated v4f32 mask.
for (int i = 0; i < 4; ++i)		for (int i = 0; i < 4; ++i)
if (RepeatedMask[i] >= 8)		if (RepeatedMask[i] >= 8)
RepeatedMask[i] -= 4;		RepeatedMask[i] -= 4;
return lowerVectorShuffleWithSHUFPS(DL, MVT::v8f32, RepeatedMask, V1, V2, DAG);		return lowerVectorShuffleWithSHUFPS(DL, MVT::v8f32, RepeatedMask, V1, V2, DAG);
}		}

		// Try to create an in-lane repeating shuffle mask and then shuffle the
		// the results into the target lanes.
		if (SDValue V = lowerShuffleAsRepeatedMaskAndLanePermute(
		DL, MVT::v8f32, V1, V2, Mask, Subtarget, DAG))
		return V;

// If we have a single input shuffle with different shuffle patterns in the		// If we have a single input shuffle with different shuffle patterns in the
// two 128-bit lanes use the variable mask to VPERMILPS.		// two 128-bit lanes use the variable mask to VPERMILPS.
if (isSingleInputShuffleMask(Mask)) {		if (isSingleInputShuffleMask(Mask)) {
SDValue VPermMask[8];		SDValue VPermMask[8];
for (int i = 0; i < 8; ++i)		for (int i = 0; i < 8; ++i)
VPermMask[i] = Mask[i] < 0 ? DAG.getUNDEF(MVT::i32)		VPermMask[i] = Mask[i] < 0 ? DAG.getUNDEF(MVT::i32)
: DAG.getConstant(Mask[i], DL, MVT::i32);		: DAG.getConstant(Mask[i], DL, MVT::i32);
if (!is128BitLaneCrossingShuffleMask(MVT::v8f32, Mask))		if (!is128BitLaneCrossingShuffleMask(MVT::v8f32, Mask))
▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines	if (SDValue Shift =
lowerVectorShuffleAsShift(DL, MVT::v8i32, V1, V2, Mask, DAG))		lowerVectorShuffleAsShift(DL, MVT::v8i32, V1, V2, Mask, DAG))
return Shift;		return Shift;

// Try to use byte rotation instructions.		// Try to use byte rotation instructions.
if (SDValue Rotate = lowerVectorShuffleAsByteRotate(		if (SDValue Rotate = lowerVectorShuffleAsByteRotate(
DL, MVT::v8i32, V1, V2, Mask, Subtarget, DAG))		DL, MVT::v8i32, V1, V2, Mask, Subtarget, DAG))
return Rotate;		return Rotate;

		// Try to create an in-lane repeating shuffle mask and then shuffle the
		// the results into the target lanes.
		if (SDValue V = lowerShuffleAsRepeatedMaskAndLanePermute(
		DL, MVT::v8i32, V1, V2, Mask, Subtarget, DAG))
		return V;

// If the shuffle patterns aren't repeated but it is a single input, directly		// If the shuffle patterns aren't repeated but it is a single input, directly
// generate a cross-lane VPERMD instruction.		// generate a cross-lane VPERMD instruction.
if (isSingleInputShuffleMask(Mask)) {		if (isSingleInputShuffleMask(Mask)) {
SDValue VPermMask[8];		SDValue VPermMask[8];
for (int i = 0; i < 8; ++i)		for (int i = 0; i < 8; ++i)
VPermMask[i] = Mask[i] < 0 ? DAG.getUNDEF(MVT::i32)		VPermMask[i] = Mask[i] < 0 ? DAG.getUNDEF(MVT::i32)
: DAG.getConstant(Mask[i], DL, MVT::i32);		: DAG.getConstant(Mask[i], DL, MVT::i32);
return DAG.getNode(		return DAG.getNode(
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	if (SDValue Shift =
lowerVectorShuffleAsShift(DL, MVT::v16i16, V1, V2, Mask, DAG))		lowerVectorShuffleAsShift(DL, MVT::v16i16, V1, V2, Mask, DAG))
return Shift;		return Shift;

// Try to use byte rotation instructions.		// Try to use byte rotation instructions.
if (SDValue Rotate = lowerVectorShuffleAsByteRotate(		if (SDValue Rotate = lowerVectorShuffleAsByteRotate(
DL, MVT::v16i16, V1, V2, Mask, Subtarget, DAG))		DL, MVT::v16i16, V1, V2, Mask, Subtarget, DAG))
return Rotate;		return Rotate;

		// Try to create an in-lane repeating shuffle mask and then shuffle the
		// the results into the target lanes.
		if (SDValue V = lowerShuffleAsRepeatedMaskAndLanePermute(
		DL, MVT::v16i16, V1, V2, Mask, Subtarget, DAG))
		return V;

if (isSingleInputShuffleMask(Mask)) {		if (isSingleInputShuffleMask(Mask)) {
// There are no generalized cross-lane shuffle operations available on i16		// There are no generalized cross-lane shuffle operations available on i16
// element types.		// element types.
if (is128BitLaneCrossingShuffleMask(MVT::v16i16, Mask))		if (is128BitLaneCrossingShuffleMask(MVT::v16i16, Mask))
return lowerVectorShuffleAsLanePermuteAndBlend(DL, MVT::v16i16, V1, V2,		return lowerVectorShuffleAsLanePermuteAndBlend(DL, MVT::v16i16, V1, V2,
Mask, DAG);		Mask, DAG);

SmallVector<int, 8> RepeatedMask;		SmallVector<int, 8> RepeatedMask;
▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines	if (SDValue Shift =
lowerVectorShuffleAsShift(DL, MVT::v32i8, V1, V2, Mask, DAG))		lowerVectorShuffleAsShift(DL, MVT::v32i8, V1, V2, Mask, DAG))
return Shift;		return Shift;

// Try to use byte rotation instructions.		// Try to use byte rotation instructions.
if (SDValue Rotate = lowerVectorShuffleAsByteRotate(		if (SDValue Rotate = lowerVectorShuffleAsByteRotate(
DL, MVT::v32i8, V1, V2, Mask, Subtarget, DAG))		DL, MVT::v32i8, V1, V2, Mask, Subtarget, DAG))
return Rotate;		return Rotate;

		// Try to create an in-lane repeating shuffle mask and then shuffle the
		// the results into the target lanes.
		if (SDValue V = lowerShuffleAsRepeatedMaskAndLanePermute(
		DL, MVT::v32i8, V1, V2, Mask, Subtarget, DAG))
		return V;

if (isSingleInputShuffleMask(Mask)) {		if (isSingleInputShuffleMask(Mask)) {
// There are no generalized cross-lane shuffle operations available on i8		// There are no generalized cross-lane shuffle operations available on i8
// element types.		// element types.
if (is128BitLaneCrossingShuffleMask(MVT::v32i8, Mask))		if (is128BitLaneCrossingShuffleMask(MVT::v32i8, Mask))
return lowerVectorShuffleAsLanePermuteAndBlend(DL, MVT::v32i8, V1, V2,		return lowerVectorShuffleAsLanePermuteAndBlend(DL, MVT::v32i8, V1, V2,
Mask, DAG);		Mask, DAG);

SDValue PSHUFBMask[32];		SDValue PSHUFBMask[32];
▲ Show 20 Lines • Show All 18,200 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx-splat.ll

	Show First 20 Lines • Show All 118 Lines • ▼ Show 20 Lines
	entry:			entry:
	%shuffle = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @funcH(<8 x float> %a) nounwind uwtable readnone ssp {			define <8 x float> @funcH(<8 x float> %a) nounwind uwtable readnone ssp {
	; CHECK-LABEL: funcH:			; CHECK-LABEL: funcH:
	; CHECK: ## BB#0: ## %entry			; CHECK: ## BB#0: ## %entry
	; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0			; CHECK-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,1,1,1,5,5,5,5]
	; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,1,1,1]			; CHECK-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; CHECK-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%shuffle = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5>			%shuffle = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <2 x double> @splat_load_2f64_11(<2 x double>* %ptr) {			define <2 x double> @splat_load_2f64_11(<2 x double>* %ptr) {
	; CHECK-LABEL: splat_load_2f64_11:			; CHECK-LABEL: splat_load_2f64_11:
	Show All 38 Lines

llvm/trunk/test/CodeGen/X86/avx2-conversions.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=core-avx2 -mattr=+avx2 \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=core-avx2 -mattr=+avx2 \| FileCheck %s

	define <4 x i32> @trunc4(<4 x i64> %A) nounwind {			define <4 x i32> @trunc4(<4 x i64> %A) nounwind {
	; CHECK-LABEL: trunc4:			; CHECK-LABEL: trunc4:
	; CHECK: ## BB#0:			; CHECK: ## BB#0:
	; CHECK-NEXT: vmovdqa {{.*#+}} ymm1 = <0,2,4,6,u,u,u,u>			; CHECK-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,0,2,4,6,4,6]
	; CHECK-NEXT: vpermd %ymm0, %ymm1, %ymm0			; CHECK-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,2,3]
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%B = trunc <4 x i64> %A to <4 x i32>			%B = trunc <4 x i64> %A to <4 x i32>
	ret <4 x i32>%B			ret <4 x i32>%B
	}			}

	define <8 x i16> @trunc8(<8 x i32> %A) nounwind {			define <8 x i16> @trunc8(<8 x i32> %A) nounwind {
	; CHECK-LABEL: trunc8:			; CHECK-LABEL: trunc8:
	▲ Show 20 Lines • Show All 136 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v16.ll

	Show First 20 Lines • Show All 712 Lines • ▼ Show 20 Lines
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_00_16_00_16_00_16_00_16_00_16_00_16_00_16_00_16:			; AVX2-LABEL: shuffle_v16i16_00_16_00_16_00_16_00_16_00_16_00_16_00_16_00_16:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpbroadcastw %xmm1, %ymm1			; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX2-NEXT: vpbroadcastd %xmm0, %ymm0			; AVX2-NEXT: vpbroadcastd %xmm0, %ymm0
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7],ymm0[8],ymm1[9],ymm0[10],ymm1[11],ymm0[12],ymm1[13],ymm0[14],ymm1[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16, i32 0, i32 16>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_16_00_16_00_16_00_16_08_24_08_24_08_24_08_24(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_16_00_16_00_16_00_16_08_24_08_24_08_24_08_24(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_00_16_00_16_00_16_00_16_08_24_08_24_08_24_08_24:			; AVX1-LABEL: shuffle_v16i16_00_16_00_16_00_16_00_16_08_24_08_24_08_24_08_24:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 2,755 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v32.ll

	Show First 20 Lines • Show All 971 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v32i8_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32:			; AVX2-LABEL: shuffle_v32i8_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
				; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; AVX2-NEXT: vpbroadcastw %xmm0, %ymm0			; AVX2-NEXT: vpbroadcastw %xmm0, %ymm0
	; AVX2-NEXT: vpbroadcastb %xmm1, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
	; AVX2-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32, i32 0, i32 32>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	}			}

	define <32 x i8> @shuffle_v32i8_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_16_48_16_48_16_48_16_48_16_48_16_48_16_48_16_48(<32 x i8> %a, <32 x i8> %b) {			define <32 x i8> @shuffle_v32i8_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_16_48_16_48_16_48_16_48_16_48_16_48_16_48_16_48(<32 x i8> %a, <32 x i8> %b) {
	; AVX1-LABEL: shuffle_v32i8_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_16_48_16_48_16_48_16_48_16_48_16_48_16_48_16_48:			; AVX1-LABEL: shuffle_v32i8_00_32_00_32_00_32_00_32_00_32_00_32_00_32_00_32_16_48_16_48_16_48_16_48_16_48_16_48_16_48_16_48:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 1,173 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v4.ll

	Show First 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 0, i32 0>			%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 0, i32 0, i32 0>
	ret <4 x double> %shuffle			ret <4 x double> %shuffle
	}			}

	define <4 x double> @shuffle_v4f64_2200(<4 x double> %a, <4 x double> %b) {			define <4 x double> @shuffle_v4f64_2200(<4 x double> %a, <4 x double> %b) {
	; AVX1-LABEL: shuffle_v4f64_2200:			; AVX1-LABEL: shuffle_v4f64_2200:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX1-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]			; AVX1-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
				; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v4f64_2200:			; AVX2-LABEL: shuffle_v4f64_2200:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[2,2,0,0]			; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[2,2,0,0]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v4f64_2200:			; AVX512VL-LABEL: shuffle_v4f64_2200:
	Show All 23 Lines
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 3, i32 3, i32 3, i32 0>			%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 3, i32 3, i32 3, i32 0>
	ret <4 x double> %shuffle			ret <4 x double> %shuffle
	}			}

	define <4 x double> @shuffle_v4f64_3210(<4 x double> %a, <4 x double> %b) {			define <4 x double> @shuffle_v4f64_3210(<4 x double> %a, <4 x double> %b) {
	; AVX1-LABEL: shuffle_v4f64_3210:			; AVX1-LABEL: shuffle_v4f64_3210:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]			; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
				; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v4f64_3210:			; AVX2-LABEL: shuffle_v4f64_3210:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,2,1,0]			; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,2,1,0]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v4f64_3210:			; AVX512VL-LABEL: shuffle_v4f64_3210:
	▲ Show 20 Lines • Show All 346 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 2, i32 2, i32 undef, i32 undef>			%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 2, i32 2, i32 undef, i32 undef>
	ret <4 x double> %shuffle			ret <4 x double> %shuffle
	}			}

	define <4 x double> @shuffle_v4f64_3333(<4 x double> %a, <4 x double> %b) {			define <4 x double> @shuffle_v4f64_3333(<4 x double> %a, <4 x double> %b) {
	; AVX1-LABEL: shuffle_v4f64_3333:			; AVX1-LABEL: shuffle_v4f64_3333:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,3,3]
	; AVX1-NEXT: vmovhlps {{.*#+}} xmm0 = xmm0[1,1]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v4f64_3333:			; AVX2-LABEL: shuffle_v4f64_3333:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,3,3,3]			; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[3,3,3,3]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v4f64_3333:			; AVX512VL-LABEL: shuffle_v4f64_3333:
	▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 1, i32 0, i32 0, i32 0>			%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 1, i32 0, i32 0, i32 0>
	ret <4 x i64> %shuffle			ret <4 x i64> %shuffle
	}			}

	define <4 x i64> @shuffle_v4i64_2200(<4 x i64> %a, <4 x i64> %b) {			define <4 x i64> @shuffle_v4i64_2200(<4 x i64> %a, <4 x i64> %b) {
	; AVX1-LABEL: shuffle_v4i64_2200:			; AVX1-LABEL: shuffle_v4i64_2200:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX1-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]			; AVX1-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
				; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v4i64_2200:			; AVX2-LABEL: shuffle_v4i64_2200:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,2,0,0]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,2,0,0]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v4i64_2200:			; AVX512VL-LABEL: shuffle_v4i64_2200:
	Show All 23 Lines
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 3, i32 3, i32 3, i32 0>			%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 3, i32 3, i32 3, i32 0>
	ret <4 x i64> %shuffle			ret <4 x i64> %shuffle
	}			}

	define <4 x i64> @shuffle_v4i64_3210(<4 x i64> %a, <4 x i64> %b) {			define <4 x i64> @shuffle_v4i64_3210(<4 x i64> %a, <4 x i64> %b) {
	; AVX1-LABEL: shuffle_v4i64_3210:			; AVX1-LABEL: shuffle_v4i64_3210:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]			; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
				; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v4i64_3210:			; AVX2-LABEL: shuffle_v4i64_3210:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[3,2,1,0]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[3,2,1,0]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v4i64_3210:			; AVX512VL-LABEL: shuffle_v4i64_3210:
	▲ Show 20 Lines • Show All 450 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 2, i32 2, i32 undef, i32 undef>			%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 2, i32 2, i32 undef, i32 undef>
	ret <4 x i64> %shuffle			ret <4 x i64> %shuffle
	}			}

	define <4 x i64> @shuffle_v4i64_3333(<4 x i64> %a, <4 x i64> %b) {			define <4 x i64> @shuffle_v4i64_3333(<4 x i64> %a, <4 x i64> %b) {
	; AVX1-LABEL: shuffle_v4i64_3333:			; AVX1-LABEL: shuffle_v4i64_3333:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,1,3,3]
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,1]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v4i64_3333:			; AVX2-LABEL: shuffle_v4i64_3333:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[3,3,3,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[3,3,3,3]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v4i64_3333:			; AVX512VL-LABEL: shuffle_v4i64_3333:
	▲ Show 20 Lines • Show All 302 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v8.ll

	Show First 20 Lines • Show All 189 Lines • ▼ Show 20 Lines
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 8, i32 1, i32 10, i32 3, i32 12, i32 5, i32 14, i32 7>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 8, i32 1, i32 10, i32 3, i32 12, i32 5, i32 14, i32 7>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @shuffle_v8f32_08080808(<8 x float> %a, <8 x float> %b) {			define <8 x float> @shuffle_v8f32_08080808(<8 x float> %a, <8 x float> %b) {
	; AVX1-LABEL: shuffle_v8f32_08080808:			; AVX1-LABEL: shuffle_v8f32_08080808:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,2,0]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm1, %ymm1			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v8f32_08080808:			; AVX2-LABEL: shuffle_v8f32_08080808:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vbroadcastss %xmm1, %ymm1			; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero
	; AVX2-NEXT: vbroadcastsd %xmm0, %ymm0			; AVX2-NEXT: vbroadcastsd %xmm0, %ymm0
	; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 8, i32 0, i32 8, i32 0, i32 8, i32 0, i32 8>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 8, i32 0, i32 8, i32 0, i32 8, i32 0, i32 8>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @shuffle_v8f32_08084c4c(<8 x float> %a, <8 x float> %b) {			define <8 x float> @shuffle_v8f32_08084c4c(<8 x float> %a, <8 x float> %b) {
	; ALL-LABEL: shuffle_v8f32_08084c4c:			; ALL-LABEL: shuffle_v8f32_08084c4c:
	; ALL: # BB#0:			; ALL: # BB#0:
	▲ Show 20 Lines • Show All 424 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3,0,1]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3,0,1]
	; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,1,2,0,4,5,6,4]			; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,1,2,0,4,5,6,4]
	; AVX1-NEXT: vblendpd {{.*#+}} ymm1 = ymm2[0],ymm1[1,2],ymm2[3]			; AVX1-NEXT: vblendpd {{.*#+}} ymm1 = ymm2[0],ymm1[1,2],ymm2[3]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2],ymm1[3,4,5,6],ymm0[7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2],ymm1[3,4,5,6],ymm0[7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v8f32_c348cda0:			; AVX2-LABEL: shuffle_v8f32_c348cda0:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovaps {{.*#+}} ymm2 = <u,3,4,u,u,u,u,0>			; AVX2-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,3,0,0,4,7,4,4]
	; AVX2-NEXT: vpermps %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,3,2,1]
	; AVX2-NEXT: vmovaps {{.*#+}} ymm2 = <4,u,u,0,4,5,2,u>			; AVX2-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,1,2,0,4,5,6,4]
	; AVX2-NEXT: vpermps %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[2,1,2,1]
	; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2],ymm1[3,4,5,6],ymm0[7]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2],ymm1[3,4,5,6],ymm0[7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 12, i32 3, i32 4, i32 8, i32 12, i32 13, i32 10, i32 0>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 12, i32 3, i32 4, i32 8, i32 12, i32 13, i32 10, i32 0>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @shuffle_v8f32_f511235a(<8 x float> %a, <8 x float> %b) {			define <8 x float> @shuffle_v8f32_f511235a(<8 x float> %a, <8 x float> %b) {
	; AVX1-LABEL: shuffle_v8f32_f511235a:			; AVX1-LABEL: shuffle_v8f32_f511235a:
	; AVX1: # BB#0:			; AVX1: # BB#0:
				; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[3,1,2,2,7,5,6,6]
				; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3,0,1]
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3,0,1]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3,0,1]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm2 = ymm2[0,0,3,2]			; AVX1-NEXT: vpermilpd {{.*#+}} ymm2 = ymm2[0,0,3,2]
	; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,1,1,1,4,5,5,5]			; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,1,1,1,4,5,5,5]
	; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2],ymm0[3]			; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2],ymm0[3]
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3,0,1]
	; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[3,1,2,2,7,5,6,6]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3,4,5,6],ymm1[7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3,4,5,6],ymm1[7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v8f32_f511235a:			; AVX2-LABEL: shuffle_v8f32_f511235a:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovaps {{.*#+}} ymm2 = <7,u,u,u,u,u,u,2>
	; AVX2-NEXT: vpermps %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vmovaps {{.*#+}} ymm2 = <u,5,1,1,2,3,5,u>			; AVX2-NEXT: vmovaps {{.*#+}} ymm2 = <u,5,1,1,2,3,5,u>
	; AVX2-NEXT: vpermps %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpermps %ymm0, %ymm2, %ymm0
				; AVX2-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[3,1,2,2,7,5,6,6]
				; AVX2-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3,0,1]
	; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3,4,5,6],ymm1[7]			; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3,4,5,6],ymm1[7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 15, i32 5, i32 1, i32 1, i32 2, i32 3, i32 5, i32 10>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 15, i32 5, i32 1, i32 1, i32 2, i32 3, i32 5, i32 10>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @shuffle_v8f32_32103210(<8 x float> %a, <8 x float> %b) {			define <8 x float> @shuffle_v8f32_32103210(<8 x float> %a, <8 x float> %b) {
	; AVX1-LABEL: shuffle_v8f32_32103210:			; ALL-LABEL: shuffle_v8f32_32103210:
	; AVX1: # BB#0:			; ALL: # BB#0:
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,1,0]			; ALL-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,1,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; ALL-NEXT: retq
	;
	; AVX2-LABEL: shuffle_v8f32_32103210:
	; AVX2: # BB#0:
	; AVX2-NEXT: vmovaps {{.*#+}} ymm1 = [3,2,1,0,3,2,1,0]
	; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 3, i32 2, i32 1, i32 0>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 3, i32 2, i32 1, i32 0>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @shuffle_v8f32_76547654(<8 x float> %a, <8 x float> %b) {			define <8 x float> @shuffle_v8f32_76547654(<8 x float> %a, <8 x float> %b) {
	; AVX1-LABEL: shuffle_v8f32_76547654:			; ALL-LABEL: shuffle_v8f32_76547654:
	; AVX1: # BB#0:			; ALL: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; ALL-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,1,0]			; ALL-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; ALL-NEXT: retq
	; AVX1-NEXT: retq
	;
	; AVX2-LABEL: shuffle_v8f32_76547654:
	; AVX2: # BB#0:
	; AVX2-NEXT: vmovaps {{.*#+}} ymm1 = [7,6,5,4,7,6,5,4]
	; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 7, i32 6, i32 5, i32 4>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 7, i32 6, i32 5, i32 4>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @shuffle_v8f32_76543210(<8 x float> %a, <8 x float> %b) {			define <8 x float> @shuffle_v8f32_76543210(<8 x float> %a, <8 x float> %b) {
	; AVX1-LABEL: shuffle_v8f32_76543210:			; ALL-LABEL: shuffle_v8f32_76543210:
	; AVX1: # BB#0:			; ALL: # BB#0:
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]			; ALL-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]
	; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]			; ALL-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX1-NEXT: retq			; ALL-NEXT: retq
	;
	; AVX2-LABEL: shuffle_v8f32_76543210:
	; AVX2: # BB#0:
	; AVX2-NEXT: vmovaps {{.*#+}} ymm1 = [7,6,5,4,3,2,1,0]
	; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @shuffle_v8f32_3210ba98(<8 x float> %a, <8 x float> %b) {			define <8 x float> @shuffle_v8f32_3210ba98(<8 x float> %a, <8 x float> %b) {
	; ALL-LABEL: shuffle_v8f32_3210ba98:			; ALL-LABEL: shuffle_v8f32_3210ba98:
	; ALL: # BB#0:			; ALL: # BB#0:
	; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]
	; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]			; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: PR21138:			; AVX2-LABEL: PR21138:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovaps {{.*#+}} ymm2 = <u,u,u,u,1,3,5,7>			; AVX2-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[1,3,1,3,5,7,5,7]
	; AVX2-NEXT: vpermps %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,1,0,3]
	; AVX2-NEXT: vmovaps {{.*#+}} ymm2 = <1,3,5,7,u,u,u,u>			; AVX2-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,1,3,5,7,5,7]
	; AVX2-NEXT: vpermps %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,3,2,3]
	; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]			; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x float> %truc, <8 x float> %tchose, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>			%shuffle = shufflevector <8 x float> %truc, <8 x float> %tchose, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @shuffle_v8f32_ba987654(<8 x float> %a, <8 x float> %b) {			define <8 x float> @shuffle_v8f32_ba987654(<8 x float> %a, <8 x float> %b) {
	; ALL-LABEL: shuffle_v8f32_ba987654:			; ALL-LABEL: shuffle_v8f32_ba987654:
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 1, i32 1, i32 1, i32 1>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 1, i32 1, i32 1, i32 1>
	ret <8 x float> %shuffle			ret <8 x float> %shuffle
	}			}

	define <8 x float> @shuffle_v8f32_44444444(<8 x float> %a, <8 x float> %b) {			define <8 x float> @shuffle_v8f32_44444444(<8 x float> %a, <8 x float> %b) {
	; AVX1-LABEL: shuffle_v8f32_44444444:			; AVX1-LABEL: shuffle_v8f32_44444444:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,0,0]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v8f32_44444444:			; AVX2-LABEL: shuffle_v8f32_44444444:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vbroadcastss %xmm0, %ymm0			; AVX2-NEXT: vbroadcastss %xmm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
	▲ Show 20 Lines • Show All 244 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 8, i32 1, i32 10, i32 3, i32 12, i32 5, i32 14, i32 7>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 8, i32 1, i32 10, i32 3, i32 12, i32 5, i32 14, i32 7>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	define <8 x i32> @shuffle_v8i32_08080808(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_08080808(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_08080808:			; AVX1-LABEL: shuffle_v8i32_08080808:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,2,0]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm1, %ymm1			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v8i32_08080808:			; AVX2-LABEL: shuffle_v8i32_08080808:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpbroadcastd %xmm1, %ymm1			; AVX2-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX2-NEXT: vpbroadcastq %xmm0, %ymm0			; AVX2-NEXT: vpbroadcastq %xmm0, %ymm0
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 8, i32 0, i32 8, i32 0, i32 8, i32 0, i32 8>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 8, i32 0, i32 8, i32 0, i32 8, i32 0, i32 8>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	define <8 x i32> @shuffle_v8i32_08084c4c(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_08084c4c(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_08084c4c:			; AVX1-LABEL: shuffle_v8i32_08084c4c:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 627 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 3, i32 undef, i32 undef, i32 6, i32 6>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 3, i32 undef, i32 undef, i32 6, i32 6>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	define <8 x i32> @shuffle_v8i32_6caa87e5(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_6caa87e5(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_6caa87e5:			; AVX1-LABEL: shuffle_v8i32_6caa87e5:
	; AVX1: # BB#0:			; AVX1: # BB#0:
				; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,3,2]
				; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3,0,1]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3,0,1]
	; AVX1-NEXT: vshufps {{.*#+}} ymm1 = ymm2[0,0],ymm1[2,2],ymm2[4,4],ymm1[6,6]			; AVX1-NEXT: vshufps {{.*#+}} ymm1 = ymm2[0,0],ymm1[2,2],ymm2[4,4],ymm1[6,6]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4],ymm0[5],ymm1[6],ymm0[7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4],ymm0[5],ymm1[6],ymm0[7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v8i32_6caa87e5:			; AVX2-LABEL: shuffle_v8i32_6caa87e5:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = <u,4,2,2,0,u,6,u>
	; AVX2-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[3,1,3,2]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[3,1,3,2]
				; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,0,2,2,4,4,6,6]
				; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,1,0,3]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4],ymm0[5],ymm1[6],ymm0[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3,4],ymm0[5],ymm1[6],ymm0[7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 6, i32 12, i32 10, i32 10, i32 8, i32 7, i32 14, i32 5>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 6, i32 12, i32 10, i32 10, i32 8, i32 7, i32 14, i32 5>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	define <8 x i32> @shuffle_v8i32_32103210(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_32103210(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_32103210:			; AVX1-LABEL: shuffle_v8i32_32103210:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,1,0]			; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,1,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v8i32_32103210:			; AVX2-LABEL: shuffle_v8i32_32103210:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [3,2,1,0,3,2,1,0]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,2,1,0]
	; AVX2-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 3, i32 2, i32 1, i32 0>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 3, i32 2, i32 1, i32 0>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	define <8 x i32> @shuffle_v8i32_76547654(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_76547654(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_76547654:			; AVX1-LABEL: shuffle_v8i32_76547654:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,1,0]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v8i32_76547654:			; AVX2-LABEL: shuffle_v8i32_76547654:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [7,6,5,4,7,6,5,4]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]
	; AVX2-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 7, i32 6, i32 5, i32 4>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 7, i32 6, i32 5, i32 4>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	define <8 x i32> @shuffle_v8i32_76543210(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_76543210(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_76543210:			; AVX1-LABEL: shuffle_v8i32_76543210:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]			; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]
				; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v8i32_76543210:			; AVX2-LABEL: shuffle_v8i32_76543210:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [7,6,5,4,3,2,1,0]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]
	; AVX2-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	define <8 x i32> @shuffle_v8i32_3210ba98(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_3210ba98(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_3210ba98:			; AVX1-LABEL: shuffle_v8i32_3210ba98:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	▲ Show 20 Lines • Show All 167 Lines • ▼ Show 20 Lines
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 2, i32 10, i32 3, i32 11, i32 undef, i32 undef, i32 undef, i32 undef>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 2, i32 10, i32 3, i32 11, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <8 x i32> %shuffle			ret <8 x i32> %shuffle
	}			}

	define <8 x i32> @shuffle_v8i32_44444444(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @shuffle_v8i32_44444444(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: shuffle_v8i32_44444444:			; AVX1-LABEL: shuffle_v8i32_44444444:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,0,0]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v8i32_44444444:			; AVX2-LABEL: shuffle_v8i32_44444444:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vbroadcastss %xmm0, %ymm0			; AVX2-NEXT: vbroadcastss %xmm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
	▲ Show 20 Lines • Show All 278 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining.ll

	Show First 20 Lines • Show All 2,630 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,2,1,0]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,2,1,0]
	; SSE-NEXT: movdqa %xmm0, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: combine_unneeded_subvector1:			; AVX1-LABEL: combine_unneeded_subvector1:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,1,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
				; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]
				; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_unneeded_subvector1:			; AVX2-LABEL: combine_unneeded_subvector1:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpaddd {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpaddd {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [7,6,5,4,7,6,5,4]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]
	; AVX2-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%b = add <8 x i32> %a, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8>			%b = add <8 x i32> %a, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8>
	%c = shufflevector <8 x i32> %b, <8 x i32> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 7, i32 6, i32 5, i32 4>			%c = shufflevector <8 x i32> %b, <8 x i32> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 7, i32 6, i32 5, i32 4>
	ret <8 x i32> %c			ret <8 x i32> %c
	}			}

	define <8 x i32> @combine_unneeded_subvector2(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @combine_unneeded_subvector2(<8 x i32> %a, <8 x i32> %b) {
	; SSE-LABEL: combine_unneeded_subvector2:			; SSE-LABEL: combine_unneeded_subvector2:
	▲ Show 20 Lines • Show All 237 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3]			; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3]
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[2,3,0,1]
	; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,0],ymm1[3,2],ymm0[5,4],ymm1[7,6]			; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,0],ymm1[3,2],ymm0[5,4],ymm1[7,6]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: PR22412:			; AVX2-LABEL: PR22412:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3]			; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3]
	; AVX2-NEXT: vmovaps {{.*#+}} ymm1 = [1,0,7,6,5,4,3,2]			; AVX2-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,0,3,2,5,4,7,6]
	; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,3,2,1]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	entry:			entry:
	%s1 = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 1, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%s1 = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 1, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%s2 = shufflevector <8 x float> %s1, <8 x float> undef, <8 x i32> <i32 1, i32 0, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2>			%s2 = shufflevector <8 x float> %s1, <8 x float> undef, <8 x i32> <i32 1, i32 0, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2>
	ret <8 x float> %s2			ret <8 x float> %s2
	}			}

llvm/trunk/test/CodeGen/X86/vector-trunc.ll

	Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc8i64_8i32:			; AVX2-LABEL: trunc8i64_8i32:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = <0,2,4,6,u,u,u,u>			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,0,2,4,6,4,6]
	; AVX2-NEXT: vpermd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,2,3]
	; AVX2-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,0,2,4,6,4,6]
				; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,3,2,3]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc8i64_8i32:			; AVX512BW-LABEL: trunc8i64_8i32:
	; AVX512BW: # BB#0: # %entry			; AVX512BW: # BB#0: # %entry
	; AVX512BW-NEXT: vpmovqd %zmm0, %ymm0			; AVX512BW-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc8i64_8i16:			; AVX2-LABEL: trunc8i64_8i16:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = <0,2,4,6,u,u,u,u>			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,0,2,4,6,4,6]
	; AVX2-NEXT: vpermd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,2,3]
	; AVX2-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,0,2,4,6,4,6]
				; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,3,2,3]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero,ymm0[16,17,20,21,24,25,28,29],zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero,ymm0[16,17,20,21,24,25,28,29],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc8i64_8i16:			; AVX512BW-LABEL: trunc8i64_8i16:
	; AVX512BW: # BB#0: # %entry			; AVX512BW: # BB#0: # %entry
	Show All 33 Lines
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, (%rax)			; AVX1-NEXT: vmovq %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc8i64_8i8:			; AVX2-LABEL: trunc8i64_8i8:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = <0,2,4,6,u,u,u,u>			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,0,2,4,6,4,6]
	; AVX2-NEXT: vpermd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,2,3]
	; AVX2-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,0,2,4,6,4,6]
				; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,3,2,3]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; AVX2-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX2-NEXT: vmovq %xmm0, (%rax)			; AVX2-NEXT: vmovq %xmm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 216 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,1,0,2]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc2x4i64_8i32:			; AVX2-LABEL: trunc2x4i64_8i32:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = <0,2,4,6,u,u,u,u>			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,0,2,4,6,4,6]
	; AVX2-NEXT: vpermd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,2,3]
	; AVX2-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,0,2,4,6,4,6]
				; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,3,2,3]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc2x4i64_8i32:			; AVX512BW-LABEL: trunc2x4i64_8i32:
	; AVX512BW: # BB#0: # %entry			; AVX512BW: # BB#0: # %entry
	; AVX512BW-NEXT: vpmovqd %zmm0, %ymm0			; AVX512BW-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512BW-NEXT: vpmovqd %zmm1, %ymm1			; AVX512BW-NEXT: vpmovqd %zmm1, %ymm1
	; AVX512BW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX512BW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc2x4i64_8i16:			; AVX2-LABEL: trunc2x4i64_8i16:
	; AVX2: # BB#0: # %entry			; AVX2: # BB#0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = <0,2,4,6,u,u,u,u>			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,0,2,4,6,4,6]
	; AVX2-NEXT: vpermd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,2,3]
	; AVX2-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,0,2,4,6,4,6]
				; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,3,2,3]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc2x4i64_8i16:			; AVX512BW-LABEL: trunc2x4i64_8i16:
	▲ Show 20 Lines • Show All 283 Lines • Show Last 20 Lines