This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
lib/Target/X86/
-
Target/
-
X86/
-
X86ISelLowering.cpp
-
X86InstrSSE.td
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
avx512-shuffles/
-
partial_permute.ll
-
combine-sdiv.ll
-
insertelement-ones.ll
-
known-signbits-vector.ll
-
masked_load.ll
-
masked_store.ll
-
oddshuffles.ll
-
packss.ll
-
pr34592.ll
-
prefer-avx256-mask-shuffle.ll
-
sse2.ll
-
vector-reduce-smax.ll
-
vector-reduce-smin.ll
-
vector-shift-ashr-256.ll
-
vector-shuffle-128-v8.ll
-
vector-shuffle-256-v16.ll
-
vector-shuffle-256-v32.ll

Differential D57888

[X86][SSE] Generalize X86ISD::BLENDI support to more value types (WIP)
ClosedPublic

Authored by RKSimon on Feb 7 2019, 5:28 AM.

Download Raw Diff

Details

Reviewers

craig.topper
andreadb
spatel
lebedev.ri
sammccall
dlj

Commits

rG0b3b9424ca8a: [X86][SSE] Generalize X86ISD::BLENDI support to more value types
rL354363: [X86][SSE] Generalize X86ISD::BLENDI support to more value types
rG690a2889d81f: [X86][SSE] Generalize X86ISD::BLENDI support to more value types
rL353610: [X86][SSE] Generalize X86ISD::BLENDI support to more value types

Summary

WIP patch for comments.

D42042 introduced the ability for the ExecutionDomainFixPass to more easily change between BLENDPD/BLENDPS/PBLENDW as the domains required.

With this ability, we can avoid most bitcasts/scaling in the DAG that was occurring with X86ISD::BLENDI lowering/combining, blend with the vXi32/vXi64 vectors directly and use isel patterns to lower to the float vector equivalent vectors.

This helps the shuffle combining and SimplifyDemandedVectorElts be more aggressive as we lose track of fewer UNDEF elements than when we go up/down through bitcasts.

I've introduced a basic blend(bitcast(x),bitcast(y)) -> bitcast(blend(x,y)) fold, there are more generalizations I can do there (e.g. widening/scaling and handling the tricky v16i16 repeated mask case).

I haven't gotten to the bottom of the vector-reduce-smin/smax regression either yet.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Feb 7 2019, 5:28 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 7 2019, 5:28 AM

LGTM. I assume you'll continue following up on the reduce-smin/smax regression.

This revision is now accepted and ready to land.Feb 8 2019, 8:51 AM

Closed by commit rL353610: [X86][SSE] Generalize X86ISD::BLENDI support to more value types (authored by RKSimon). · Explain WhyFeb 9 2019, 5:14 AM

This revision was automatically updated to reflect the committed changes.

Let's try this again....

Reopening as it was reverted at rL353699 due to a rather weird regression.....

@dlj @sammccall Please can you post your repros here?

This revision is now accepted and ready to land.Feb 11 2019, 6:45 AM

elfcore.c198 BDownload

I bootstrapped clang with this patch applied: on x86-64 with -O3 -msse4.2 and assertions off.

clang -c elfcore.c

yields the following

/usr/local/google/home/sammccall/elfcore.c:4:14: warning: format string contains '\0' within the string body [-Wformat]
void run() { MACRO2(a + b + c); }
             ^~~~~~~~~~~~~~~~~
/usr/local/google/home/sammccall/elfcore.c:3:19: note: expanded from macro 'MACRO2'
#define MACRO2(x) PASTE_AND_FORMAT(a, x)
                  ^~~~~~~~~~~~~~~~~~~~~~
/usr/local/google/home/sammccall/elfcore.c:2:42: note: expanded from macro 'PASTE_AND_FORMAT'
#define PASTE_AND_FORMAT(a, b) format(#a #b)
                                      ~~~^~
<scratch space>:3:8: note: expanded from here
"a P b <U+0000> c"
       ^
1 warning generated.

operator tokens (and some other characters like () get deterministically garbled when tokens are pasted in scratch space.

Thanks @sammccall I've been able to repro it now.

Herald added a subscriber: jdoerfert. · View Herald TranscriptFeb 12 2019, 9:16 AM

RKSimon mentioned this in rL354358: [X86][AVX2] Hide VPBLENDD instructions behind AVX2 predicate.Feb 19 2019, 9:23 AM

RKSimon mentioned this in rGdce9c2a8119c: [X86][AVX2] Hide VPBLENDD instructions behind AVX2 predicate.

RKSimon mentioned this in rL354360: [X86][SSE] Add pblendw commuted load test case.Feb 19 2019, 9:55 AM

RKSimon mentioned this in rGe31838f88b60: [X86][SSE] Add pblendw commuted load test case.

Closed by commit rL354363: [X86][SSE] Generalize X86ISD::BLENDI support to more value types (authored by RKSimon). · Explain WhyFeb 19 2019, 10:05 AM

This revision was automatically updated to reflect the committed changes.

@dlj @sammccall I think I've fixed the root issue now (rL354358) - please reply on this ticket if there are any more issues. Cheers!

In D57888#1402556, @RKSimon wrote:

@dlj @sammccall I think I've fixed the root issue now (rL354358) - please reply on this ticket if there are any more issues. Cheers!

I think I need to revert this again, the following fails after this commit:

$ cat autofit.cpp
typedef struct {
  long b, c;
  long d, f
} g;
typedef struct {
  long h;
  long height;
  long i;
  long j
} k;
struct l {
  int library;
  int *e;
  struct l *n;
  int o;
  k metrics
};
struct l *p;
q() {
  g bbox;
  r(bbox);
  bbox.d = bbox.d & 3;
  bbox.f = bbox.f & 3;
  p->metrics.h = bbox.d - bbox.b;
  p->metrics.height = bbox.f - bbox.c;
  p->metrics.i = bbox.b;
  p->metrics.j = bbox.f;
}

$ clang -cc1 -triple x86_64-unknown-linux-android -emit-obj -disable-free -main-file-name autofit.c -mrelocation-model pic -pic-level 2 -mthread-model posix -fmerge-all-constants -relaxed-aliasing -masm-verbose -mconstructor-aliases -munwind-tables -fuse-init-array -target-cpu x86-64 -target-feature +sse4.2 -target-feature +popcnt -momit-leaf-frame-pointer -ffunction-sections -fdata-sections -Oz -std=c11 -ferror-limit 1 -vectorize-slp  -x c -fcomplete-member-pointers -w autofit.cpp
...
clang: /usr/local/google/home/rnk/llvm-project/llvm/include/llvm/CodeGen/MachineInstr.h:418: llvm::MachineOperand &llvm::MachineInstr::getOperand(unsigned int): Assertion `i < getNumOperands() && "getOperand() out of range!"' failed.

The issue is that blendps/blendpd can be commuted to movss/movsd under optsize. This changes the number of operands. The code in TwoAddressInstructionPass tries to look for other commutable operands after making a commute in order to handle FMA3 and VPTERNLOG instructions. But the loop doesn't handle the number of operands changing.

Apparently this wasn't a problem before because FP types start with MOVSS/MOVSD due to a shuffle combine. So we leave isel with movss/movsd and two address instruction pass can commute that to blend, but won't go the other way. This increases the number of operands which isn't an issue.

To fix this I propose to use PBLENDW for the 128-bit integer case in the new isel patterns added by this patch. This keeps the blend in the integer domain and avoids the possibility of commuting to movss/movsd. I'll also fix two address instruction pass to resample the operand count after commuting to avoid this issue if there are any corner cases we haven't found yet.

craig.topper mentioned this in D58574: [X86][SSE] Generalize X86ISD::BLENDI support to more value types with fix for revert from r354713.Feb 23 2019, 1:58 AM

Revision Contents

Path

Size

lib/

Target/

X86/

	X86ISelLowering.cpp
	X86ISelLowering.cpp (revision 353381)

100 lines

	X86InstrSSE.td
	X86InstrSSE.td (revision 353381)

23 lines

test/

CodeGen/

X86/

avx512-shuffles/

	partial_permute.ll
	partial_permute.ll (revision 353381)

25 lines

	combine-sdiv.ll
	combine-sdiv.ll (revision 353381)

9 lines

	insertelement-ones.ll
	insertelement-ones.ll (revision 353381)

10 lines

	known-signbits-vector.ll
	known-signbits-vector.ll (revision 353381)

10 lines

	masked_load.ll
	masked_load.ll (revision 353381)

32 lines

	masked_store.ll
	masked_store.ll (revision 353381)

18 lines

	oddshuffles.ll
	oddshuffles.ll (revision 353381)

76 lines

	packss.ll
	packss.ll (revision 353381)

40 lines

	pr34592.ll
	pr34592.ll (revision 353381)

14 lines

	prefer-avx256-mask-shuffle.ll
	prefer-avx256-mask-shuffle.ll (revision 353381)

9 lines

	sse2.ll
	sse2.ll (revision 353381)

3 lines

	vector-reduce-smax.ll
	vector-reduce-smax.ll (revision 353381)

43 lines

	vector-reduce-smin.ll
	vector-reduce-smin.ll (revision 353381)

63 lines

	vector-shift-ashr-256.ll
	vector-shift-ashr-256.ll (revision 353381)

6 lines

	vector-shuffle-128-v8.ll
	vector-shuffle-128-v8.ll (revision 353381)

9 lines

	vector-shuffle-256-v16.ll
	vector-shuffle-256-v16.ll (revision 353381)

27 lines

	vector-shuffle-256-v32.ll
	vector-shuffle-256-v32.ll (revision 353381)

158 lines

Diff 185749

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 10,402 Lines • ▼ Show 20 Lines	static SDValue lowerShuffleAsBlend(const SDLoc &DL, MVT VT, SDValue V1,

// Create a REAL zero vector - ISD::isBuildVectorAllZeros allows UNDEFs.		// Create a REAL zero vector - ISD::isBuildVectorAllZeros allows UNDEFs.
if (ForceV1Zero)		if (ForceV1Zero)
V1 = getZeroVector(VT, Subtarget, DAG, DL);		V1 = getZeroVector(VT, Subtarget, DAG, DL);
if (ForceV2Zero)		if (ForceV2Zero)
V2 = getZeroVector(VT, Subtarget, DAG, DL);		V2 = getZeroVector(VT, Subtarget, DAG, DL);

switch (VT.SimpleTy) {		switch (VT.SimpleTy) {
case MVT::v2f64:
case MVT::v4f32:
case MVT::v4f64:
case MVT::v8f32:
return DAG.getNode(X86ISD::BLENDI, DL, VT, V1, V2,
DAG.getConstant(BlendMask, DL, MVT::i8));
case MVT::v4i64:		case MVT::v4i64:
case MVT::v8i32:		case MVT::v8i32:
assert(Subtarget.hasAVX2() && "256-bit integer blends require AVX2!");		assert(Subtarget.hasAVX2() && "256-bit integer blends require AVX2!");
LLVM_FALLTHROUGH;		LLVM_FALLTHROUGH;
		case MVT::v4f64:
		case MVT::v8f32:
		assert(Subtarget.hasAVX() && "256-bit float blends require AVX!");
		LLVM_FALLTHROUGH;
		case MVT::v2f64:
case MVT::v2i64:		case MVT::v2i64:
		case MVT::v4f32:
case MVT::v4i32:		case MVT::v4i32:
// If we have AVX2 it is faster to use VPBLENDD when the shuffle fits into		case MVT::v8i16:
// that instruction.		assert(Subtarget.hasSSE41() && "128-bit blends require SSE41!");
if (Subtarget.hasAVX2()) {		return DAG.getNode(X86ISD::BLENDI, DL, VT, V1, V2,
// Scale the blend by the number of 32-bit dwords per element.		DAG.getConstant(BlendMask, DL, MVT::i8));
int Scale = VT.getScalarSizeInBits() / 32;
BlendMask = scaleVectorShuffleBlendMask(BlendMask, Mask.size(), Scale);
MVT BlendVT = VT.getSizeInBits() > 128 ? MVT::v8i32 : MVT::v4i32;
V1 = DAG.getBitcast(BlendVT, V1);
V2 = DAG.getBitcast(BlendVT, V2);
return DAG.getBitcast(
VT, DAG.getNode(X86ISD::BLENDI, DL, BlendVT, V1, V2,
DAG.getConstant(BlendMask, DL, MVT::i8)));
}
LLVM_FALLTHROUGH;
case MVT::v8i16: {
// For integer shuffles we need to expand the mask and cast the inputs to
// v8i16s prior to blending.
int Scale = 8 / VT.getVectorNumElements();
BlendMask = scaleVectorShuffleBlendMask(BlendMask, Mask.size(), Scale);
V1 = DAG.getBitcast(MVT::v8i16, V1);
V2 = DAG.getBitcast(MVT::v8i16, V2);
return DAG.getBitcast(VT,
DAG.getNode(X86ISD::BLENDI, DL, MVT::v8i16, V1, V2,
DAG.getConstant(BlendMask, DL, MVT::i8)));
}
case MVT::v16i16: {		case MVT::v16i16: {
assert(Subtarget.hasAVX2() && "256-bit integer blends require AVX2!");		assert(Subtarget.hasAVX2() && "v16i16 blends require AVX2!");
SmallVector<int, 8> RepeatedMask;		SmallVector<int, 8> RepeatedMask;
if (is128BitLaneRepeatedShuffleMask(MVT::v16i16, Mask, RepeatedMask)) {		if (is128BitLaneRepeatedShuffleMask(MVT::v16i16, Mask, RepeatedMask)) {
// We can lower these with PBLENDW which is mirrored across 128-bit lanes.		// We can lower these with PBLENDW which is mirrored across 128-bit lanes.
assert(RepeatedMask.size() == 8 && "Repeated mask size doesn't match!");		assert(RepeatedMask.size() == 8 && "Repeated mask size doesn't match!");
BlendMask = 0;		BlendMask = 0;
for (int i = 0; i < 8; ++i)		for (int i = 0; i < 8; ++i)
if (RepeatedMask[i] >= 8)		if (RepeatedMask[i] >= 8)
BlendMask \|= 1ull << i;		BlendMask \|= 1ull << i;
Show All 11 Lines	if (LoMask == 0 \|\| LoMask == 255 \|\| HiMask == 0 \|\| HiMask == 255) {
SDValue Hi = DAG.getNode(X86ISD::BLENDI, DL, MVT::v16i16, V1, V2,		SDValue Hi = DAG.getNode(X86ISD::BLENDI, DL, MVT::v16i16, V1, V2,
DAG.getConstant(HiMask, DL, MVT::i8));		DAG.getConstant(HiMask, DL, MVT::i8));
return DAG.getVectorShuffle(		return DAG.getVectorShuffle(
MVT::v16i16, DL, Lo, Hi,		MVT::v16i16, DL, Lo, Hi,
{0, 1, 2, 3, 4, 5, 6, 7, 24, 25, 26, 27, 28, 29, 30, 31});		{0, 1, 2, 3, 4, 5, 6, 7, 24, 25, 26, 27, 28, 29, 30, 31});
}		}
LLVM_FALLTHROUGH;		LLVM_FALLTHROUGH;
}		}
case MVT::v16i8:		case MVT::v32i8:
case MVT::v32i8: {		assert(Subtarget.hasAVX2() && "256-bit byte-blends require AVX2 support!");
assert((VT.is128BitVector() \|\| Subtarget.hasAVX2()) &&		LLVM_FALLTHROUGH;
"256-bit byte-blends require AVX2 support!");		case MVT::v16i8: {
		assert(Subtarget.hasSSE41() && "128-bit byte-blends require SSE41 support!");

// Attempt to lower to a bitmask if we can. VPAND is faster than VPBLENDVB.		// Attempt to lower to a bitmask if we can. VPAND is faster than VPBLENDVB.
if (SDValue Masked = lowerShuffleAsBitMask(DL, VT, V1, V2, Mask, Zeroable,		if (SDValue Masked = lowerShuffleAsBitMask(DL, VT, V1, V2, Mask, Zeroable,
DAG))		DAG))
return Masked;		return Masked;

if (Subtarget.hasBWI() && Subtarget.hasVLX()) {		if (Subtarget.hasBWI() && Subtarget.hasVLX()) {
MVT IntegerType =		MVT IntegerType =
▲ Show 20 Lines • Show All 20,470 Lines • ▼ Show 20 Lines	if (matchVectorShuffleAsBlend(V1, V2, TargetMask, ForceV1Zero, ForceV2Zero,
PermuteImm \|= 1 << i;		PermuteImm \|= 1 << i;
V1 = ForceV1Zero ? getZeroVector(MaskVT, Subtarget, DAG, DL) : V1;		V1 = ForceV1Zero ? getZeroVector(MaskVT, Subtarget, DAG, DL) : V1;
V2 = ForceV2Zero ? getZeroVector(MaskVT, Subtarget, DAG, DL) : V2;		V2 = ForceV2Zero ? getZeroVector(MaskVT, Subtarget, DAG, DL) : V2;
Shuffle = X86ISD::BLENDI;		Shuffle = X86ISD::BLENDI;
ShuffleVT = MaskVT;		ShuffleVT = MaskVT;
return true;		return true;
}		}
} else {		} else {
// Determine a type compatible with X86ISD::BLENDI.
ShuffleVT = MaskVT;
if (Subtarget.hasAVX2()) {
if (ShuffleVT == MVT::v4i64)
ShuffleVT = MVT::v8i32;
else if (ShuffleVT == MVT::v2i64)
ShuffleVT = MVT::v4i32;
} else {
if (ShuffleVT == MVT::v2i64 \|\| ShuffleVT == MVT::v4i32)
ShuffleVT = MVT::v8i16;
else if (ShuffleVT == MVT::v4i64)
ShuffleVT = MVT::v4f64;
else if (ShuffleVT == MVT::v8i32)
ShuffleVT = MVT::v8f32;
}

if (!ShuffleVT.isFloatingPoint()) {
int Scale = EltSizeInBits / ShuffleVT.getScalarSizeInBits();
BlendMask =
scaleVectorShuffleBlendMask(BlendMask, NumMaskElts, Scale);
ShuffleVT = MVT::getIntegerVT(EltSizeInBits / Scale);
ShuffleVT = MVT::getVectorVT(ShuffleVT, NumMaskElts * Scale);
}

V1 = ForceV1Zero ? getZeroVector(MaskVT, Subtarget, DAG, DL) : V1;		V1 = ForceV1Zero ? getZeroVector(MaskVT, Subtarget, DAG, DL) : V1;
V2 = ForceV2Zero ? getZeroVector(MaskVT, Subtarget, DAG, DL) : V2;		V2 = ForceV2Zero ? getZeroVector(MaskVT, Subtarget, DAG, DL) : V2;
PermuteImm = (unsigned)BlendMask;		PermuteImm = (unsigned)BlendMask;
Shuffle = X86ISD::BLENDI;		Shuffle = X86ISD::BLENDI;
		ShuffleVT = MaskVT;
return true;		return true;
}		}
}		}
}		}

// Attempt to combine to INSERTPS.		// Attempt to combine to INSERTPS.
if (AllowFloatDomain && EltSizeInBits == 32 && Subtarget.hasSSE41() &&		if (AllowFloatDomain && EltSizeInBits == 32 && Subtarget.hasSSE41() &&
MaskVT.is128BitVector()) {		MaskVT.is128BitVector()) {
▲ Show 20 Lines • Show All 1,148 Lines • ▼ Show 20 Lines	for (SDNode *User : Src->uses())
if (User != N.getNode() && User->getOpcode() == X86ISD::VBROADCAST &&		if (User != N.getNode() && User->getOpcode() == X86ISD::VBROADCAST &&
User->getValueSizeInBits(0) > VT.getSizeInBits()) {		User->getValueSizeInBits(0) > VT.getSizeInBits()) {
return extractSubVector(SDValue(User, 0), 0, DAG, DL,		return extractSubVector(SDValue(User, 0), 0, DAG, DL,
VT.getSizeInBits());		VT.getSizeInBits());
}		}

return SDValue();		return SDValue();
}		}
		case X86ISD::BLENDI: {
		SDValue N0 = N.getOperand(0);
		SDValue N1 = N.getOperand(1);

		// blend(bitcast(x),bitcast(y)) -> bitcast(blend(x,y)) to narrower types.
		// TODO: Handle MVT::v16i16 repeated blend mask.
		if (N0.getOpcode() == ISD::BITCAST && N1.getOpcode() == ISD::BITCAST &&
		N0.getOperand(0).getValueType() == N1.getOperand(0).getValueType()) {
		MVT SrcVT = N0.getOperand(0).getSimpleValueType();
		if ((VT.getScalarSizeInBits() % SrcVT.getScalarSizeInBits()) == 0 &&
		SrcVT.getScalarSizeInBits() >= 32) {
		unsigned Mask = N.getConstantOperandVal(2);
		unsigned Size = VT.getVectorNumElements();
		unsigned Scale = VT.getScalarSizeInBits() / SrcVT.getScalarSizeInBits();
		unsigned ScaleMask = scaleVectorShuffleBlendMask(Mask, Size, Scale);
		return DAG.getBitcast(
		VT, DAG.getNode(X86ISD::BLENDI, DL, SrcVT, N0.getOperand(0),
		N1.getOperand(0),
		DAG.getConstant(ScaleMask, DL, MVT::i8)));
		}
		}
		return SDValue();
		}
case X86ISD::PSHUFD:		case X86ISD::PSHUFD:
case X86ISD::PSHUFLW:		case X86ISD::PSHUFLW:
case X86ISD::PSHUFHW:		case X86ISD::PSHUFHW:
Mask = getPSHUFShuffleMask(N);		Mask = getPSHUFShuffleMask(N);
assert(Mask.size() == 4);		assert(Mask.size() == 4);
break;		break;
case X86ISD::MOVSD:		case X86ISD::MOVSD:
case X86ISD::MOVSS: {		case X86ISD::MOVSS: {
▲ Show 20 Lines • Show All 11,241 Lines • Show Last 20 Lines

lib/Target/X86/X86InstrSSE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 6,507 Lines • ▼ Show 20 Lines

	let Predicates = [HasAVX2] in {			let Predicates = [HasAVX2] in {
	defm VPBLENDWY : SS41I_blend_rmi<0x0E, "vpblendw", X86Blendi, v16i16,			defm VPBLENDWY : SS41I_blend_rmi<0x0E, "vpblendw", X86Blendi, v16i16,
	VR256, load, i256mem, 0, SSEPackedInt,			VR256, load, i256mem, 0, SSEPackedInt,
	SchedWriteBlend.YMM, BlendCommuteImm8>,			SchedWriteBlend.YMM, BlendCommuteImm8>,
	VEX_4V, VEX_L, VEX_WIG;			VEX_4V, VEX_L, VEX_WIG;
	}			}

				// Emulate vXi32/vXi64 blends with vXf32/vXf64.
				// ExecutionDomainFixPass will cleanup domains later on.
				let Predicates = [HasAVX] in {
				def : Pat<(X86Blendi (v4i64 VR256:$src1), (v4i64 VR256:$src2), (iPTR imm:$src3)),
				(VBLENDPDYrri VR256:$src1, VR256:$src2, imm:$src3)>;
				def : Pat<(X86Blendi (v2i64 VR128:$src1), (v2i64 VR128:$src2), (iPTR imm:$src3)),
				(VBLENDPDrri VR128:$src1, VR128:$src2, imm:$src3)>;
				}

				let Predicates = [HasAVX1Only] in {
				def : Pat<(X86Blendi (v8i32 VR256:$src1), (v8i32 VR256:$src2), (iPTR imm:$src3)),
				(VBLENDPSYrri VR256:$src1, VR256:$src2, imm:$src3)>;
				def : Pat<(X86Blendi (v4i32 VR128:$src1), (v4i32 VR128:$src2), (iPTR imm:$src3)),
				(VBLENDPSrri VR128:$src1, VR128:$src2, imm:$src3)>;
				}

	defm BLENDPS : SS41I_blend_rmi<0x0C, "blendps", X86Blendi, v4f32,			defm BLENDPS : SS41I_blend_rmi<0x0C, "blendps", X86Blendi, v4f32,
	VR128, memop, f128mem, 1, SSEPackedSingle,			VR128, memop, f128mem, 1, SSEPackedSingle,
	SchedWriteFBlend.XMM, BlendCommuteImm4>;			SchedWriteFBlend.XMM, BlendCommuteImm4>;
	defm BLENDPD : SS41I_blend_rmi<0x0D, "blendpd", X86Blendi, v2f64,			defm BLENDPD : SS41I_blend_rmi<0x0D, "blendpd", X86Blendi, v2f64,
	VR128, memop, f128mem, 1, SSEPackedDouble,			VR128, memop, f128mem, 1, SSEPackedDouble,
	SchedWriteFBlend.XMM, BlendCommuteImm2>;			SchedWriteFBlend.XMM, BlendCommuteImm2>;
	defm PBLENDW : SS41I_blend_rmi<0x0E, "pblendw", X86Blendi, v8i16,			defm PBLENDW : SS41I_blend_rmi<0x0E, "pblendw", X86Blendi, v8i16,
	VR128, memop, i128mem, 1, SSEPackedInt,			VR128, memop, i128mem, 1, SSEPackedInt,
	SchedWriteBlend.XMM, BlendCommuteImm8>;			SchedWriteBlend.XMM, BlendCommuteImm8>;

				let Predicates = [UseSSE41] in {
				def : Pat<(X86Blendi (v2i64 VR128:$src1), (v2i64 VR128:$src2), (iPTR imm:$src3)),
				(BLENDPDrri VR128:$src1, VR128:$src2, imm:$src3)>;
				def : Pat<(X86Blendi (v4i32 VR128:$src1), (v4i32 VR128:$src2), (iPTR imm:$src3)),
				(BLENDPSrri VR128:$src1, VR128:$src2, imm:$src3)>;
				}

	// For insertion into the zero index (low half) of a 256-bit vector, it is			// For insertion into the zero index (low half) of a 256-bit vector, it is
	// more efficient to generate a blend with immediate instead of an insert*128.			// more efficient to generate a blend with immediate instead of an insert*128.
	let Predicates = [HasAVX] in {			let Predicates = [HasAVX] in {
	def : Pat<(insert_subvector (v4f64 VR256:$src1), (v2f64 VR128:$src2), (iPTR 0)),			def : Pat<(insert_subvector (v4f64 VR256:$src1), (v2f64 VR128:$src2), (iPTR 0)),
	(VBLENDPDYrri VR256:$src1,			(VBLENDPDYrri VR256:$src1,
	(INSERT_SUBREG (v4f64 (IMPLICIT_DEF)),			(INSERT_SUBREG (v4f64 (IMPLICIT_DEF)),
	VR128:$src2, sub_xmm), 0x3)>;			VR128:$src2, sub_xmm), 0x3)>;
	def : Pat<(insert_subvector (v8f32 VR256:$src1), (v4f32 VR128:$src2), (iPTR 0)),			def : Pat<(insert_subvector (v8f32 VR256:$src1), (v4f32 VR128:$src2), (iPTR 0)),
	▲ Show 20 Lines • Show All 1,893 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-shuffles/partial_permute.ll

Show First 20 Lines • Show All 1,906 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%cmp = icmp eq <2 x i64> %mask, zeroinitializer		%cmp = icmp eq <2 x i64> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer		%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer
ret <2 x i64> %res		ret <2 x i64> %res
}		}

define <2 x i64> @test_masked_4xi64_to_2xi64_perm_mem_mask1(<4 x i64>* %vp, <2 x i64> %vec2, <2 x i64> %mask) {		define <2 x i64> @test_masked_4xi64_to_2xi64_perm_mem_mask1(<4 x i64>* %vp, <2 x i64> %vec2, <2 x i64> %mask) {
; CHECK-LABEL: test_masked_4xi64_to_2xi64_perm_mem_mask1:		; CHECK-LABEL: test_masked_4xi64_to_2xi64_perm_mem_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovdqa 16(%rdi), %xmm2		; CHECK-NEXT: vmovdqa (%rdi), %xmm2
; CHECK-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1],mem[2,3]		; CHECK-NEXT: vpblendd {{.*#+}} xmm2 = mem[0,1],xmm2[2,3]
; CHECK-NEXT: vptestnmq %xmm1, %xmm1, %k1		; CHECK-NEXT: vptestnmq %xmm1, %xmm1, %k1
; CHECK-NEXT: vmovdqa64 %xmm2, %xmm0 {%k1}		; CHECK-NEXT: vmovdqa64 %xmm2, %xmm0 {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <4 x i64>, <4 x i64>* %vp		%vec = load <4 x i64>, <4 x i64>* %vp
%shuf = shufflevector <4 x i64> %vec, <4 x i64> undef, <2 x i32> <i32 2, i32 1>		%shuf = shufflevector <4 x i64> %vec, <4 x i64> undef, <2 x i32> <i32 2, i32 1>
%cmp = icmp eq <2 x i64> %mask, zeroinitializer		%cmp = icmp eq <2 x i64> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> %vec2		%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> %vec2
ret <2 x i64> %res		ret <2 x i64> %res
}		}

define <2 x i64> @test_masked_z_4xi64_to_2xi64_perm_mem_mask1(<4 x i64>* %vp, <2 x i64> %mask) {		define <2 x i64> @test_masked_z_4xi64_to_2xi64_perm_mem_mask1(<4 x i64>* %vp, <2 x i64> %mask) {
; CHECK-LABEL: test_masked_z_4xi64_to_2xi64_perm_mem_mask1:		; CHECK-LABEL: test_masked_z_4xi64_to_2xi64_perm_mem_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovdqa 16(%rdi), %xmm1		; CHECK-NEXT: vmovdqa (%rdi), %xmm1
; CHECK-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0,1],mem[2,3]		; CHECK-NEXT: vpblendd {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]
; CHECK-NEXT: vptestnmq %xmm0, %xmm0, %k1		; CHECK-NEXT: vptestnmq %xmm0, %xmm0, %k1
; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0 {%k1} {z}		; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0 {%k1} {z}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <4 x i64>, <4 x i64>* %vp		%vec = load <4 x i64>, <4 x i64>* %vp
%shuf = shufflevector <4 x i64> %vec, <4 x i64> undef, <2 x i32> <i32 2, i32 1>		%shuf = shufflevector <4 x i64> %vec, <4 x i64> undef, <2 x i32> <i32 2, i32 1>
%cmp = icmp eq <2 x i64> %mask, zeroinitializer		%cmp = icmp eq <2 x i64> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer		%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer
ret <2 x i64> %res		ret <2 x i64> %res
▲ Show 20 Lines • Show All 608 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%cmp = icmp eq <4 x i64> %mask, zeroinitializer		%cmp = icmp eq <4 x i64> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> zeroinitializer		%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> zeroinitializer
ret <4 x i64> %res		ret <4 x i64> %res
}		}

define <2 x i64> @test_8xi64_to_2xi64_perm_mem_mask0(<8 x i64>* %vp) {		define <2 x i64> @test_8xi64_to_2xi64_perm_mem_mask0(<8 x i64>* %vp) {
; CHECK-LABEL: test_8xi64_to_2xi64_perm_mem_mask0:		; CHECK-LABEL: test_8xi64_to_2xi64_perm_mem_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; CHECK-NEXT: vmovaps (%rdi), %xmm0
; CHECK-NEXT: vmovaps 32(%rdi), %xmm1		; CHECK-NEXT: vblendps {{.*#+}} xmm0 = mem[0,1],xmm0[2,3]
; CHECK-NEXT: vmovlhps {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <8 x i64>, <8 x i64>* %vp		%vec = load <8 x i64>, <8 x i64>* %vp
%res = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>		%res = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>
ret <2 x i64> %res		ret <2 x i64> %res
}		}
define <2 x i64> @test_masked_8xi64_to_2xi64_perm_mem_mask0(<8 x i64>* %vp, <2 x i64> %vec2, <2 x i64> %mask) {		define <2 x i64> @test_masked_8xi64_to_2xi64_perm_mem_mask0(<8 x i64>* %vp, <2 x i64> %vec2, <2 x i64> %mask) {
; CHECK-LABEL: test_masked_8xi64_to_2xi64_perm_mem_mask0:		; CHECK-LABEL: test_masked_8xi64_to_2xi64_perm_mem_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; CHECK-NEXT: vmovdqa (%rdi), %xmm2
; CHECK-NEXT: vmovdqa 32(%rdi), %xmm3		; CHECK-NEXT: vpblendd {{.*#+}} xmm2 = mem[0,1],xmm2[2,3]
; CHECK-NEXT: vptestnmq %xmm1, %xmm1, %k1		; CHECK-NEXT: vptestnmq %xmm1, %xmm1, %k1
; CHECK-NEXT: vpunpcklqdq {{.*#+}} xmm0 {%k1} = xmm3[0],xmm2[0]		; CHECK-NEXT: vmovdqa64 %xmm2, %xmm0 {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <8 x i64>, <8 x i64>* %vp		%vec = load <8 x i64>, <8 x i64>* %vp
%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>		%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>
%cmp = icmp eq <2 x i64> %mask, zeroinitializer		%cmp = icmp eq <2 x i64> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> %vec2		%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> %vec2
ret <2 x i64> %res		ret <2 x i64> %res
}		}

define <2 x i64> @test_masked_z_8xi64_to_2xi64_perm_mem_mask0(<8 x i64>* %vp, <2 x i64> %mask) {		define <2 x i64> @test_masked_z_8xi64_to_2xi64_perm_mem_mask0(<8 x i64>* %vp, <2 x i64> %mask) {
; CHECK-LABEL: test_masked_z_8xi64_to_2xi64_perm_mem_mask0:		; CHECK-LABEL: test_masked_z_8xi64_to_2xi64_perm_mem_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; CHECK-NEXT: vmovdqa (%rdi), %xmm1
; CHECK-NEXT: vmovdqa 32(%rdi), %xmm2		; CHECK-NEXT: vpblendd {{.*#+}} xmm1 = mem[0,1],xmm1[2,3]
; CHECK-NEXT: vptestnmq %xmm0, %xmm0, %k1		; CHECK-NEXT: vptestnmq %xmm0, %xmm0, %k1
; CHECK-NEXT: vpunpcklqdq {{.*#+}} xmm0 {%k1} {z} = xmm2[0],xmm1[0]		; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0 {%k1} {z}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <8 x i64>, <8 x i64>* %vp		%vec = load <8 x i64>, <8 x i64>* %vp
%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>		%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>
%cmp = icmp eq <2 x i64> %mask, zeroinitializer		%cmp = icmp eq <2 x i64> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer		%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer
ret <2 x i64> %res		ret <2 x i64> %res
}		}

▲ Show 20 Lines • Show All 1,892 Lines • Show Last 20 Lines

test/CodeGen/X86/combine-sdiv.ll

	Show First 20 Lines • Show All 1,695 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpsrlq $3, %xmm1, %xmm1			; AVX1-NEXT: vpsrlq $3, %xmm1, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1152921504606846976,576460752303423488]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1152921504606846976,576460752303423488]
	; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm2			; AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $62, %xmm2, %xmm2			; AVX1-NEXT: vpsrlq $62, %xmm2, %xmm2
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpsrlq $2, %xmm2, %xmm3			; AVX1-NEXT: vpsrlq $2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,2305843009213693952]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,2305843009213693952]
	; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v4i64:			; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v4i64:
	▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpsrlq $3, %xmm3, %xmm3			; AVX1-NEXT: vpsrlq $3, %xmm3, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm4[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm4[4,5,6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [1152921504606846976,576460752303423488]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [1152921504606846976,576460752303423488]
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsubq %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpsubq %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm5			; AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm5
	; AVX1-NEXT: vpsrlq $62, %xmm5, %xmm5			; AVX1-NEXT: vpsrlq $62, %xmm5, %xmm5
	; AVX1-NEXT: vpaddq %xmm5, %xmm0, %xmm5			; AVX1-NEXT: vpaddq %xmm5, %xmm0, %xmm5
	; AVX1-NEXT: vpsrlq $2, %xmm5, %xmm6			; AVX1-NEXT: vpsrlq $2, %xmm5, %xmm5
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm5[0,1,2,3],xmm6[4,5,6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [9223372036854775808,2305843009213693952]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [9223372036854775808,2305843009213693952]
	; AVX1-NEXT: vpxor %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vpxor %xmm6, %xmm5, %xmm5
	; AVX1-NEXT: vpsubq %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vpsubq %xmm6, %xmm5, %xmm5
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm3[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm3[2,3,4,5,6,7]
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm5			; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm5
	; AVX1-NEXT: vpsrlq $60, %xmm5, %xmm7			; AVX1-NEXT: vpsrlq $60, %xmm5, %xmm7
	; AVX1-NEXT: vpsrlq $61, %xmm5, %xmm5			; AVX1-NEXT: vpsrlq $61, %xmm5, %xmm5
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm5[0,1,2,3],xmm7[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm5[0,1,2,3],xmm7[4,5,6,7]
	; AVX1-NEXT: vpaddq %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpaddq %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlq $4, %xmm3, %xmm5			; AVX1-NEXT: vpsrlq $4, %xmm3, %xmm5
	; AVX1-NEXT: vpsrlq $3, %xmm3, %xmm3			; AVX1-NEXT: vpsrlq $3, %xmm3, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm5[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm5[4,5,6,7]
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsubq %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpsubq %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpcmpgtq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $62, %xmm2, %xmm2			; AVX1-NEXT: vpsrlq $62, %xmm2, %xmm2
	; AVX1-NEXT: vpaddq %xmm2, %xmm1, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm1, %xmm2
	; AVX1-NEXT: vpsrlq $2, %xmm2, %xmm4			; AVX1-NEXT: vpsrlq $2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm4[4,5,6,7]
	; AVX1-NEXT: vpxor %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm2[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm2[2,3,4,5,6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v8i64:			; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	▲ Show 20 Lines • Show All 1,213 Lines • Show Last 20 Lines

test/CodeGen/X86/insertelement-ones.ll

	Show First 20 Lines • Show All 285 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vorps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vorps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vorps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vorps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: insert_v16i16_x12345x789ABCDEx:			; AVX2-LABEL: insert_v16i16_x12345x789ABCDEx:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1			; AVX2-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1
	; AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm1[0],ymm0[1,2,3,4,5,6,7],ymm1[8],ymm0[9,10,11,12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm1[0],ymm0[1,2,3,4,5],ymm1[6],ymm0[7],ymm1[8],ymm0[9,10,11,12,13],ymm1[14],ymm0[15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm1[6],ymm2[7,8,9,10,11,12,13],ymm1[14],ymm2[15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: insert_v16i16_x12345x789ABCDEx:			; AVX512-LABEL: insert_v16i16_x12345x789ABCDEx:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1			; AVX512-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1
	; AVX512-NEXT: vpblendw {{.*#+}} ymm2 = ymm1[0],ymm0[1,2,3,4,5,6,7],ymm1[8],ymm0[9,10,11,12,13,14,15]			; AVX512-NEXT: vpblendw {{.*#+}} ymm2 = ymm1[0],ymm0[1,2,3,4,5],ymm1[6],ymm0[7],ymm1[8],ymm0[9,10,11,12,13],ymm1[14],ymm0[15]
	; AVX512-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX512-NEXT: vpblendw {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm1[6],ymm2[7,8,9,10,11,12,13],ymm1[14],ymm2[15]
	; AVX512-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX512-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]			; AVX512-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
	; AVX512-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]			; AVX512-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = insertelement <16 x i16> %a, i16 -1, i32 0			%1 = insertelement <16 x i16> %a, i16 -1, i32 0
	%2 = insertelement <16 x i16> %1, i16 -1, i32 6			%2 = insertelement <16 x i16> %1, i16 -1, i32 6
	%3 = insertelement <16 x i16> %2, i16 -1, i32 15			%3 = insertelement <16 x i16> %2, i16 -1, i32 15
	ret <16 x i16> %3			ret <16 x i16> %3
	}			}
	▲ Show 20 Lines • Show All 171 Lines • Show Last 20 Lines

test/CodeGen/X86/known-signbits-vector.ll

Show First 20 Lines • Show All 83 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
ret float %3		ret float %3
}		}

define float @signbits_ashr_extract_sitofp_1(<2 x i64> %a0) nounwind {		define float @signbits_ashr_extract_sitofp_1(<2 x i64> %a0) nounwind {
; X32-LABEL: signbits_ashr_extract_sitofp_1:		; X32-LABEL: signbits_ashr_extract_sitofp_1:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: pushl %eax		; X32-NEXT: pushl %eax
; X32-NEXT: vpsrlq $32, %xmm0, %xmm0		; X32-NEXT: vpsrlq $32, %xmm0, %xmm0
; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [0,32768,0,0,1,0,0,0]		; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [2147483648,0,1,0]
; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0		; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0
; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0		; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0
; X32-NEXT: vcvtdq2ps %xmm0, %xmm0		; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
; X32-NEXT: vmovss %xmm0, (%esp)		; X32-NEXT: vmovss %xmm0, (%esp)
; X32-NEXT: flds (%esp)		; X32-NEXT: flds (%esp)
; X32-NEXT: popl %eax		; X32-NEXT: popl %eax
; X32-NEXT: retl		; X32-NEXT: retl
;		;
Show All 9 Lines	; X64-NEXT: retq
ret float %3		ret float %3
}		}

define float @signbits_ashr_shl_extract_sitofp(<2 x i64> %a0) nounwind {		define float @signbits_ashr_shl_extract_sitofp(<2 x i64> %a0) nounwind {
; X32-LABEL: signbits_ashr_shl_extract_sitofp:		; X32-LABEL: signbits_ashr_shl_extract_sitofp:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: pushl %eax		; X32-NEXT: pushl %eax
; X32-NEXT: vpsrlq $61, %xmm0, %xmm0		; X32-NEXT: vpsrlq $61, %xmm0, %xmm0
; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [4,0,0,0,8,0,0,0]		; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [4,0,8,0]
; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0		; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0
; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0		; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0
; X32-NEXT: vpsllq $20, %xmm0, %xmm0		; X32-NEXT: vpsllq $20, %xmm0, %xmm0
; X32-NEXT: vcvtdq2ps %xmm0, %xmm0		; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
; X32-NEXT: vmovss %xmm0, (%esp)		; X32-NEXT: vmovss %xmm0, (%esp)
; X32-NEXT: flds (%esp)		; X32-NEXT: flds (%esp)
; X32-NEXT: popl %eax		; X32-NEXT: popl %eax
; X32-NEXT: retl		; X32-NEXT: retl
▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
ret <2 x double> %6		ret <2 x double> %6
}		}

define float @signbits_ashr_sext_sextinreg_and_extract_sitofp(<2 x i64> %a0, <2 x i64> %a1, i32 %a2) nounwind {		define float @signbits_ashr_sext_sextinreg_and_extract_sitofp(<2 x i64> %a0, <2 x i64> %a1, i32 %a2) nounwind {
; X32-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:		; X32-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: pushl %eax		; X32-NEXT: pushl %eax
; X32-NEXT: vpsrlq $61, %xmm0, %xmm0		; X32-NEXT: vpsrlq $61, %xmm0, %xmm0
; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [4,0,0,0,8,0,0,0]		; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [4,0,8,0]
; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0		; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0
; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0		; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0
; X32-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; X32-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; X32-NEXT: vpand %xmm1, %xmm0, %xmm0		; X32-NEXT: vpand %xmm1, %xmm0, %xmm0
; X32-NEXT: vcvtdq2ps %xmm0, %xmm0		; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
; X32-NEXT: vmovss %xmm0, (%esp)		; X32-NEXT: vmovss %xmm0, (%esp)
; X32-NEXT: flds (%esp)		; X32-NEXT: flds (%esp)
; X32-NEXT: popl %eax		; X32-NEXT: popl %eax
Show All 24 Lines

define float @signbits_ashr_sextvecinreg_bitops_extract_sitofp(<2 x i64> %a0, <4 x i32> %a1) nounwind {		define float @signbits_ashr_sextvecinreg_bitops_extract_sitofp(<2 x i64> %a0, <4 x i32> %a1) nounwind {
; X32-LABEL: signbits_ashr_sextvecinreg_bitops_extract_sitofp:		; X32-LABEL: signbits_ashr_sextvecinreg_bitops_extract_sitofp:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: pushl %eax		; X32-NEXT: pushl %eax
; X32-NEXT: vpsrlq $60, %xmm0, %xmm2		; X32-NEXT: vpsrlq $60, %xmm0, %xmm2
; X32-NEXT: vpsrlq $61, %xmm0, %xmm0		; X32-NEXT: vpsrlq $61, %xmm0, %xmm0
; X32-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]		; X32-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
; X32-NEXT: vmovdqa {{.*#+}} xmm2 = [4,0,0,0,8,0,0,0]		; X32-NEXT: vmovdqa {{.*#+}} xmm2 = [4,0,8,0]
; X32-NEXT: vpxor %xmm2, %xmm0, %xmm0		; X32-NEXT: vpxor %xmm2, %xmm0, %xmm0
; X32-NEXT: vpsubq %xmm2, %xmm0, %xmm0		; X32-NEXT: vpsubq %xmm2, %xmm0, %xmm0
; X32-NEXT: vpmovsxdq %xmm1, %xmm1		; X32-NEXT: vpmovsxdq %xmm1, %xmm1
; X32-NEXT: vpand %xmm1, %xmm0, %xmm2		; X32-NEXT: vpand %xmm1, %xmm0, %xmm2
; X32-NEXT: vpor %xmm1, %xmm2, %xmm1		; X32-NEXT: vpor %xmm1, %xmm2, %xmm1
; X32-NEXT: vpxor %xmm0, %xmm1, %xmm0		; X32-NEXT: vpxor %xmm0, %xmm1, %xmm0
; X32-NEXT: vcvtdq2ps %xmm0, %xmm0		; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
; X32-NEXT: vmovss %xmm0, (%esp)		; X32-NEXT: vmovss %xmm0, (%esp)
Show All 33 Lines
; X32-NEXT: pushl %ebp		; X32-NEXT: pushl %ebp
; X32-NEXT: movl %esp, %ebp		; X32-NEXT: movl %esp, %ebp
; X32-NEXT: andl $-16, %esp		; X32-NEXT: andl $-16, %esp
; X32-NEXT: subl $16, %esp		; X32-NEXT: subl $16, %esp
; X32-NEXT: vpmovsxdq 16(%ebp), %xmm3		; X32-NEXT: vpmovsxdq 16(%ebp), %xmm3
; X32-NEXT: vpmovsxdq 8(%ebp), %xmm4		; X32-NEXT: vpmovsxdq 8(%ebp), %xmm4
; X32-NEXT: vextractf128 $1, %ymm2, %xmm5		; X32-NEXT: vextractf128 $1, %ymm2, %xmm5
; X32-NEXT: vpsrlq $33, %xmm5, %xmm5		; X32-NEXT: vpsrlq $33, %xmm5, %xmm5
; X32-NEXT: vmovdqa {{.*#+}} xmm6 = [0,16384,0,0,1,0,0,0]		; X32-NEXT: vmovdqa {{.*#+}} xmm6 = [1073741824,0,1,0]
; X32-NEXT: vpxor %xmm6, %xmm5, %xmm5		; X32-NEXT: vpxor %xmm6, %xmm5, %xmm5
; X32-NEXT: vpsubq %xmm6, %xmm5, %xmm5		; X32-NEXT: vpsubq %xmm6, %xmm5, %xmm5
; X32-NEXT: vpsrlq $33, %xmm2, %xmm2		; X32-NEXT: vpsrlq $33, %xmm2, %xmm2
; X32-NEXT: vpxor %xmm6, %xmm2, %xmm2		; X32-NEXT: vpxor %xmm6, %xmm2, %xmm2
; X32-NEXT: vpsubq %xmm6, %xmm2, %xmm2		; X32-NEXT: vpsubq %xmm6, %xmm2, %xmm2
; X32-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2		; X32-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
; X32-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3		; X32-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3
; X32-NEXT: vextractf128 $1, %ymm1, %xmm4		; X32-NEXT: vextractf128 $1, %ymm1, %xmm4
▲ Show 20 Lines • Show All 97 Lines • Show Last 20 Lines

test/CodeGen/X86/masked_load.ll

	Show First 20 Lines • Show All 1,255 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: LBB10_4: ## %else2			; SSE2-NEXT: LBB10_4: ## %else2
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_v2f32_v2i32:			; SSE42-LABEL: load_v2f32_v2i32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pxor %xmm2, %xmm2			; SSE42-NEXT: pxor %xmm2, %xmm2
	; SSE42-NEXT: movdqa %xmm0, %xmm3			; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE42-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]			; SSE42-NEXT: pcmpeqq %xmm2, %xmm0
	; SSE42-NEXT: pcmpeqq %xmm2, %xmm3			; SSE42-NEXT: pextrb $0, %xmm0, %eax
	; SSE42-NEXT: pextrb $0, %xmm3, %eax
	; SSE42-NEXT: testb $1, %al			; SSE42-NEXT: testb $1, %al
	; SSE42-NEXT: je LBB10_2			; SSE42-NEXT: je LBB10_2
	; SSE42-NEXT: ## %bb.1: ## %cond.load			; SSE42-NEXT: ## %bb.1: ## %cond.load
	; SSE42-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero			; SSE42-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm3[0,1],xmm1[2,3,4,5,6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3,4,5,6,7]
	; SSE42-NEXT: LBB10_2: ## %else			; SSE42-NEXT: LBB10_2: ## %else
	; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE42-NEXT: pcmpeqq %xmm2, %xmm0
	; SSE42-NEXT: pextrb $8, %xmm0, %eax			; SSE42-NEXT: pextrb $8, %xmm0, %eax
	; SSE42-NEXT: testb $1, %al			; SSE42-NEXT: testb $1, %al
	; SSE42-NEXT: je LBB10_4			; SSE42-NEXT: je LBB10_4
	; SSE42-NEXT: ## %bb.3: ## %cond.load1			; SSE42-NEXT: ## %bb.3: ## %cond.load1
	; SSE42-NEXT: insertps {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[2,3]			; SSE42-NEXT: insertps {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[2,3]
	; SSE42-NEXT: LBB10_4: ## %else2			; SSE42-NEXT: LBB10_4: ## %else2
	; SSE42-NEXT: movaps %xmm1, %xmm0			; SSE42-NEXT: movaps %xmm1, %xmm0
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; SSE2-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE2-NEXT: LBB11_4: ## %else2			; SSE2-NEXT: LBB11_4: ## %else2
	; SSE2-NEXT: movapd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_v2i32_v2i32:			; SSE42-LABEL: load_v2i32_v2i32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pxor %xmm2, %xmm2			; SSE42-NEXT: pxor %xmm2, %xmm2
	; SSE42-NEXT: movdqa %xmm0, %xmm3			; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE42-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]			; SSE42-NEXT: pcmpeqq %xmm2, %xmm0
	; SSE42-NEXT: pcmpeqq %xmm2, %xmm3			; SSE42-NEXT: pextrb $0, %xmm0, %eax
	; SSE42-NEXT: pextrb $0, %xmm3, %eax
	; SSE42-NEXT: testb $1, %al			; SSE42-NEXT: testb $1, %al
	; SSE42-NEXT: je LBB11_2			; SSE42-NEXT: je LBB11_2
	; SSE42-NEXT: ## %bb.1: ## %cond.load			; SSE42-NEXT: ## %bb.1: ## %cond.load
	; SSE42-NEXT: movl (%rdi), %eax			; SSE42-NEXT: movl (%rdi), %eax
	; SSE42-NEXT: pinsrq $0, %rax, %xmm1			; SSE42-NEXT: pinsrq $0, %rax, %xmm1
	; SSE42-NEXT: LBB11_2: ## %else			; SSE42-NEXT: LBB11_2: ## %else
	; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE42-NEXT: pcmpeqq %xmm2, %xmm0
	; SSE42-NEXT: pextrb $8, %xmm0, %eax			; SSE42-NEXT: pextrb $8, %xmm0, %eax
	; SSE42-NEXT: testb $1, %al			; SSE42-NEXT: testb $1, %al
	; SSE42-NEXT: je LBB11_4			; SSE42-NEXT: je LBB11_4
	; SSE42-NEXT: ## %bb.3: ## %cond.load1			; SSE42-NEXT: ## %bb.3: ## %cond.load1
	; SSE42-NEXT: movl 4(%rdi), %eax			; SSE42-NEXT: movl 4(%rdi), %eax
	; SSE42-NEXT: pinsrq $1, %rax, %xmm1			; SSE42-NEXT: pinsrq $1, %rax, %xmm1
	; SSE42-NEXT: LBB11_4: ## %else2			; SSE42-NEXT: LBB11_4: ## %else2
	; SSE42-NEXT: movdqa %xmm1, %xmm0			; SSE42-NEXT: movdqa %xmm1, %xmm0
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: LBB12_4: ## %else2			; SSE2-NEXT: LBB12_4: ## %else2
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_undef_v2f32_v2i32:			; SSE42-LABEL: load_undef_v2f32_v2i32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm1			; SSE42-NEXT: movdqa %xmm0, %xmm1
	; SSE42-NEXT: pxor %xmm2, %xmm2			; SSE42-NEXT: pxor %xmm0, %xmm0
	; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]
	; SSE42-NEXT: pcmpeqq %xmm2, %xmm0			; SSE42-NEXT: pcmpeqq %xmm0, %xmm1
	; SSE42-NEXT: pextrb $0, %xmm0, %eax			; SSE42-NEXT: pextrb $0, %xmm1, %eax
	; SSE42-NEXT: testb $1, %al			; SSE42-NEXT: testb $1, %al
	; SSE42-NEXT: ## implicit-def: $xmm0			; SSE42-NEXT: ## implicit-def: $xmm0
	; SSE42-NEXT: je LBB12_2			; SSE42-NEXT: je LBB12_2
	; SSE42-NEXT: ## %bb.1: ## %cond.load			; SSE42-NEXT: ## %bb.1: ## %cond.load
	; SSE42-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE42-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE42-NEXT: LBB12_2: ## %else			; SSE42-NEXT: LBB12_2: ## %else
	; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; SSE42-NEXT: pcmpeqq %xmm2, %xmm1
	; SSE42-NEXT: pextrb $8, %xmm1, %eax			; SSE42-NEXT: pextrb $8, %xmm1, %eax
	; SSE42-NEXT: testb $1, %al			; SSE42-NEXT: testb $1, %al
	; SSE42-NEXT: je LBB12_4			; SSE42-NEXT: je LBB12_4
	; SSE42-NEXT: ## %bb.3: ## %cond.load1			; SSE42-NEXT: ## %bb.3: ## %cond.load1
	; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]			; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
	; SSE42-NEXT: LBB12_4: ## %else2			; SSE42-NEXT: LBB12_4: ## %else2
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 651 Lines • Show Last 20 Lines

test/CodeGen/X86/masked_store.ll

	Show First 20 Lines • Show All 324 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1,2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1,2,3]
	; SSE2-NEXT: movss %xmm1, 4(%rdi)			; SSE2-NEXT: movss %xmm1, 4(%rdi)
	; SSE2-NEXT: LBB3_4: ## %else2			; SSE2-NEXT: LBB3_4: ## %else2
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE4-LABEL: store_v2f32_v2i32:			; SSE4-LABEL: store_v2f32_v2i32:
	; SSE4: ## %bb.0:			; SSE4: ## %bb.0:
	; SSE4-NEXT: pxor %xmm2, %xmm2			; SSE4-NEXT: pxor %xmm2, %xmm2
	; SSE4-NEXT: movdqa %xmm0, %xmm3			; SSE4-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE4-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]			; SSE4-NEXT: pcmpeqq %xmm2, %xmm0
	; SSE4-NEXT: pcmpeqq %xmm2, %xmm3			; SSE4-NEXT: pextrb $0, %xmm0, %eax
	; SSE4-NEXT: pextrb $0, %xmm3, %eax
	; SSE4-NEXT: testb $1, %al			; SSE4-NEXT: testb $1, %al
	; SSE4-NEXT: je LBB3_2			; SSE4-NEXT: je LBB3_2
	; SSE4-NEXT: ## %bb.1: ## %cond.store			; SSE4-NEXT: ## %bb.1: ## %cond.store
	; SSE4-NEXT: movss %xmm1, (%rdi)			; SSE4-NEXT: movss %xmm1, (%rdi)
	; SSE4-NEXT: LBB3_2: ## %else			; SSE4-NEXT: LBB3_2: ## %else
	; SSE4-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE4-NEXT: pcmpeqq %xmm2, %xmm0
	; SSE4-NEXT: pextrb $8, %xmm0, %eax			; SSE4-NEXT: pextrb $8, %xmm0, %eax
	; SSE4-NEXT: testb $1, %al			; SSE4-NEXT: testb $1, %al
	; SSE4-NEXT: je LBB3_4			; SSE4-NEXT: je LBB3_4
	; SSE4-NEXT: ## %bb.3: ## %cond.store1			; SSE4-NEXT: ## %bb.3: ## %cond.store1
	; SSE4-NEXT: extractps $1, %xmm1, 4(%rdi)			; SSE4-NEXT: extractps $1, %xmm1, 4(%rdi)
	; SSE4-NEXT: LBB3_4: ## %else2			; SSE4-NEXT: LBB3_4: ## %else2
	; SSE4-NEXT: retq			; SSE4-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE2-NEXT: movd %xmm0, 4(%rdi)			; SSE2-NEXT: movd %xmm0, 4(%rdi)
	; SSE2-NEXT: LBB4_4: ## %else2			; SSE2-NEXT: LBB4_4: ## %else2
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE4-LABEL: store_v2i32_v2i32:			; SSE4-LABEL: store_v2i32_v2i32:
	; SSE4: ## %bb.0:			; SSE4: ## %bb.0:
	; SSE4-NEXT: pxor %xmm2, %xmm2			; SSE4-NEXT: pxor %xmm2, %xmm2
	; SSE4-NEXT: movdqa %xmm0, %xmm3			; SSE4-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE4-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]			; SSE4-NEXT: pcmpeqq %xmm2, %xmm0
	; SSE4-NEXT: pcmpeqq %xmm2, %xmm3			; SSE4-NEXT: pextrb $0, %xmm0, %eax
	; SSE4-NEXT: pextrb $0, %xmm3, %eax
	; SSE4-NEXT: testb $1, %al			; SSE4-NEXT: testb $1, %al
	; SSE4-NEXT: je LBB4_2			; SSE4-NEXT: je LBB4_2
	; SSE4-NEXT: ## %bb.1: ## %cond.store			; SSE4-NEXT: ## %bb.1: ## %cond.store
	; SSE4-NEXT: movss %xmm1, (%rdi)			; SSE4-NEXT: movss %xmm1, (%rdi)
	; SSE4-NEXT: LBB4_2: ## %else			; SSE4-NEXT: LBB4_2: ## %else
	; SSE4-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE4-NEXT: pcmpeqq %xmm2, %xmm0
	; SSE4-NEXT: pextrb $8, %xmm0, %eax			; SSE4-NEXT: pextrb $8, %xmm0, %eax
	; SSE4-NEXT: testb $1, %al			; SSE4-NEXT: testb $1, %al
	; SSE4-NEXT: je LBB4_4			; SSE4-NEXT: je LBB4_4
	; SSE4-NEXT: ## %bb.3: ## %cond.store1			; SSE4-NEXT: ## %bb.3: ## %cond.store1
	; SSE4-NEXT: extractps $2, %xmm1, 4(%rdi)			; SSE4-NEXT: extractps $2, %xmm1, 4(%rdi)
	; SSE4-NEXT: LBB4_4: ## %else2			; SSE4-NEXT: LBB4_4: ## %else2
	; SSE4-NEXT: retq			; SSE4-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 502 Lines • Show Last 20 Lines

test/CodeGen/X86/oddshuffles.ll

	Show First 20 Lines • Show All 1,030 Lines • ▼ Show 20 Lines
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqu (%rdi), %xmm0			; SSE42-NEXT: movdqu (%rdi), %xmm0
	; SSE42-NEXT: movdqu 16(%rdi), %xmm1			; SSE42-NEXT: movdqu 16(%rdi), %xmm1
	; SSE42-NEXT: movdqu 32(%rdi), %xmm2			; SSE42-NEXT: movdqu 32(%rdi), %xmm2
	; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,1,2,1]			; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,1,2,1]
	; SSE42-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5,6,5]			; SSE42-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5,6,5]
	; SSE42-NEXT: movdqa %xmm0, %xmm4			; SSE42-NEXT: movdqa %xmm0, %xmm4
	; SSE42-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0],xmm1[1],xmm4[2,3],xmm1[4],xmm4[5,6],xmm1[7]			; SSE42-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0],xmm1[1],xmm4[2,3],xmm1[4],xmm4[5,6],xmm1[7]
	; SSE42-NEXT: pshufb {{.*#+}} xmm4 = xmm4[0,1,6,7,12,13,2,3,8,9,14,15,u,u,u,u]			; SSE42-NEXT: pshufb {{.*#+}} xmm4 = xmm4[0,1,6,7,12,13,2,3,8,9,14,15,12,13,14,15]
	; SSE42-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,5],xmm3[6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,5],xmm3[6,7]
	; SSE42-NEXT: movdqa %xmm2, %xmm3			; SSE42-NEXT: movdqa %xmm2, %xmm3
	; SSE42-NEXT: pshufb {{.*#+}} xmm3 = xmm3[0,1,6,7,4,5,6,7,0,1,0,1,6,7,12,13]			; SSE42-NEXT: pshufb {{.*#+}} xmm3 = xmm3[0,1,6,7,4,5,6,7,0,1,0,1,6,7,12,13]
	; SSE42-NEXT: movdqa %xmm0, %xmm5			; SSE42-NEXT: movdqa %xmm0, %xmm5
	; SSE42-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1],xmm1[2],xmm5[3,4],xmm1[5],xmm5[6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1],xmm1[2],xmm5[3,4],xmm1[5],xmm5[6,7]
	; SSE42-NEXT: pshufb {{.*#+}} xmm5 = xmm5[2,3,8,9,14,15,4,5,10,11,10,11,8,9,14,15]			; SSE42-NEXT: pshufb {{.*#+}} xmm5 = xmm5[2,3,8,9,14,15,4,5,10,11,10,11,8,9,14,15]
	; SSE42-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1,2,3,4],xmm3[5,6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1,2,3,4],xmm3[5,6,7]
	; SSE42-NEXT: pshufb {{.*#+}} xmm2 = xmm2[0,1,2,3,4,5,6,7,8,9,2,3,8,9,14,15]			; SSE42-NEXT: pshufb {{.*#+}} xmm2 = xmm2[0,1,2,3,4,5,6,7,8,9,2,3,8,9,14,15]
	; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2],xmm1[3,4],xmm0[5],xmm1[6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2],xmm1[3,4],xmm0[5],xmm1[6,7]
	; SSE42-NEXT: pshufb {{.*#+}} xmm1 = xmm1[4,5,10,11,0,1,6,7,12,13,14,15,0,1,2,3]			; SSE42-NEXT: pshufb {{.*#+}} xmm1 = xmm1[4,5,10,11,0,1,6,7,12,13,14,15,0,1,2,3]
	; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3,4],xmm2[5,6,7]			; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3,4],xmm2[5,6,7]
	; SSE42-NEXT: movdqu %xmm4, (%rsi)			; SSE42-NEXT: movdqu %xmm4, (%rsi)
	; SSE42-NEXT: movdqu %xmm5, (%rdx)			; SSE42-NEXT: movdqu %xmm5, (%rdx)
	; SSE42-NEXT: movdqu %xmm1, (%rcx)			; SSE42-NEXT: movdqu %xmm1, (%rcx)
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: interleave_24i16_out:			; AVX1-LABEL: interleave_24i16_out:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqu (%rdi), %xmm0			; AVX1-NEXT: vmovdqu (%rdi), %xmm0
	; AVX1-NEXT: vmovdqu 16(%rdi), %xmm1			; AVX1-NEXT: vmovdqu 16(%rdi), %xmm1
	; AVX1-NEXT: vmovdqu 32(%rdi), %xmm2			; AVX1-NEXT: vmovdqu 32(%rdi), %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[0,1,2,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[0,1,2,1]
	; AVX1-NEXT: vpshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5,6,5]			; AVX1-NEXT: vpshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5,6,5]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm0[0],xmm1[1],xmm0[2,3],xmm1[4],xmm0[5,6],xmm1[7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm0[0],xmm1[1],xmm0[2,3],xmm1[4],xmm0[5,6],xmm1[7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = xmm4[0,1,6,7,12,13,2,3,8,9,14,15,u,u,u,u]			; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = xmm4[0,1,6,7,12,13,2,3,8,9,14,15,12,13,14,15]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3,4,5],xmm3[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3,4,5],xmm3[6,7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = xmm2[0,1,6,7,4,5,6,7,0,1,0,1,6,7,12,13]			; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = xmm2[0,1,6,7,4,5,6,7,0,1,0,1,6,7,12,13]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm0[0,1],xmm1[2],xmm0[3,4],xmm1[5],xmm0[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm0[0,1],xmm1[2],xmm0[3,4],xmm1[5],xmm0[6,7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm5 = xmm5[2,3,8,9,14,15,4,5,10,11,u,u,u,u,u,u]			; AVX1-NEXT: vpshufb {{.*#+}} xmm5 = xmm5[2,3,8,9,14,15,4,5,10,11,u,u,u,u,u,u]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3,4],xmm4[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3,4],xmm4[5,6,7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = xmm2[0,1,2,3,4,5,6,7,8,9,2,3,8,9,14,15]			; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = xmm2[0,1,2,3,4,5,6,7,8,9,2,3,8,9,14,15]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2],xmm1[3,4],xmm0[5],xmm1[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2],xmm1[3,4],xmm0[5],xmm1[6,7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4,5,10,11,0,1,6,7,12,13,14,15,0,1,2,3]			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[4,5,10,11,0,1,6,7,12,13,14,15,0,1,2,3]
	▲ Show 20 Lines • Show All 505 Lines • ▼ Show 20 Lines
	; SSE42-NEXT: movdqu %xmm3, 16(%rdi)			; SSE42-NEXT: movdqu %xmm3, 16(%rdi)
	; SSE42-NEXT: movdqu %xmm0, (%rdi)			; SSE42-NEXT: movdqu %xmm0, (%rdi)
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: interleave_24i32_in:			; AVX1-LABEL: interleave_24i32_in:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovupd (%rsi), %ymm0			; AVX1-NEXT: vmovupd (%rsi), %ymm0
	; AVX1-NEXT: vmovupd (%rcx), %ymm1			; AVX1-NEXT: vmovupd (%rcx), %ymm1
	; AVX1-NEXT: vmovups 16(%rcx), %xmm2			; AVX1-NEXT: vmovups (%rdx), %xmm2
	; AVX1-NEXT: vmovups (%rdx), %xmm3			; AVX1-NEXT: vmovups 16(%rdx), %xmm3
	; AVX1-NEXT: vmovups 16(%rdx), %xmm4
	; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm4[3,0],xmm2[3,0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm2[2,1],xmm5[0,2]
	; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[1,0],xmm4[1,0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[2,0],xmm4[2,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm4 = ymm0[1,1,3,3]
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm4[2,3,2,3]
	; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm4[2],ymm2[3,4],ymm4[5],ymm2[6,7]
	; AVX1-NEXT: vmovups (%rsi), %xmm4			; AVX1-NEXT: vmovups (%rsi), %xmm4
	; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm4[2,0],xmm3[2,0]			; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm4[2,0],xmm2[2,0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm3[1,1],xmm5[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm2[1,1],xmm5[0,2]
	; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,0],xmm4[0,0]			; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,0],xmm4[0,0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm3[2,0],xmm4[2,1]			; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[2,0],xmm4[2,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm3, %ymm3			; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
	; AVX1-NEXT: vmovddup {{.*#+}} xmm4 = xmm1[0,0]			; AVX1-NEXT: vmovddup {{.*#+}} xmm4 = xmm1[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm4, %ymm4			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm4, %ymm4
				; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm4[2],ymm2[3,4],ymm4[5],ymm2[6,7]
				; AVX1-NEXT: vmovups 16(%rcx), %xmm4
				; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm3[3,0],xmm4[3,0]
				; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm4[2,1],xmm5[0,2]
				; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm4[1,0],xmm3[1,0]
				; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm4[2,0],xmm3[2,2]
				; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm3, %ymm3
				; AVX1-NEXT: vpermilpd {{.*#+}} ymm4 = ymm0[1,1,3,3]
				; AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm4[2,3,2,3]
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1],ymm4[2],ymm3[3,4],ymm4[5],ymm3[6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1],ymm4[2],ymm3[3,4],ymm4[5],ymm3[6,7]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,2]			; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,2]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[1,1,2,2]			; AVX1-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[1,1,2,2]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2,3],ymm0[4],ymm1[5,6],ymm0[7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2,3],ymm0[4],ymm1[5,6],ymm0[7]
	; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]			; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
	; AVX1-NEXT: vmovups %ymm0, 32(%rdi)			; AVX1-NEXT: vmovups %ymm0, 32(%rdi)
	; AVX1-NEXT: vmovups %ymm3, (%rdi)			; AVX1-NEXT: vmovups %ymm3, 64(%rdi)
	; AVX1-NEXT: vmovups %ymm2, 64(%rdi)			; AVX1-NEXT: vmovups %ymm2, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: interleave_24i32_in:			; AVX2-SLOW-LABEL: interleave_24i32_in:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vmovups (%rsi), %ymm0			; AVX2-SLOW-NEXT: vmovups (%rsi), %ymm0
	; AVX2-SLOW-NEXT: vmovups (%rdx), %ymm1			; AVX2-SLOW-NEXT: vmovups (%rdx), %ymm1
	; AVX2-SLOW-NEXT: vmovups (%rcx), %ymm2			; AVX2-SLOW-NEXT: vmovups (%rcx), %ymm2
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vmovups %ymm3, 64(%rdi)			; AVX2-FAST-NEXT: vmovups %ymm3, 64(%rdi)
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; XOP-LABEL: interleave_24i32_in:			; XOP-LABEL: interleave_24i32_in:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vmovupd (%rsi), %ymm0			; XOP-NEXT: vmovupd (%rsi), %ymm0
	; XOP-NEXT: vmovups (%rcx), %ymm1			; XOP-NEXT: vmovups (%rcx), %ymm1
	; XOP-NEXT: vmovups 16(%rcx), %xmm2			; XOP-NEXT: vmovups (%rdx), %xmm2
	; XOP-NEXT: vmovups (%rdx), %xmm3			; XOP-NEXT: vmovups 16(%rdx), %xmm3
	; XOP-NEXT: vmovups 16(%rdx), %xmm4
	; XOP-NEXT: vshufps {{.*#+}} xmm5 = xmm4[3,0],xmm2[3,0]
	; XOP-NEXT: vshufps {{.*#+}} xmm5 = xmm2[2,1],xmm5[0,2]
	; XOP-NEXT: vshufps {{.*#+}} xmm2 = xmm2[1,0],xmm4[1,0]
	; XOP-NEXT: vshufps {{.*#+}} xmm2 = xmm2[2,0],xmm4[2,2]
	; XOP-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
	; XOP-NEXT: vpermilpd {{.*#+}} ymm4 = ymm0[1,1,3,3]
	; XOP-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm4[2,3,2,3]
	; XOP-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm4[2],ymm2[3,4],ymm4[5],ymm2[6,7]
	; XOP-NEXT: vmovups (%rsi), %xmm4			; XOP-NEXT: vmovups (%rsi), %xmm4
	; XOP-NEXT: vshufps {{.*#+}} xmm5 = xmm4[2,0],xmm3[2,0]			; XOP-NEXT: vshufps {{.*#+}} xmm5 = xmm4[2,0],xmm2[2,0]
	; XOP-NEXT: vshufps {{.*#+}} xmm5 = xmm3[1,1],xmm5[0,2]			; XOP-NEXT: vshufps {{.*#+}} xmm5 = xmm2[1,1],xmm5[0,2]
	; XOP-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,0],xmm4[0,0]			; XOP-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,0],xmm4[0,0]
	; XOP-NEXT: vshufps {{.*#+}} xmm3 = xmm3[2,0],xmm4[2,1]			; XOP-NEXT: vshufps {{.*#+}} xmm2 = xmm2[2,0],xmm4[2,1]
	; XOP-NEXT: vinsertf128 $1, %xmm5, %ymm3, %ymm3			; XOP-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
	; XOP-NEXT: vmovddup {{.*#+}} xmm4 = xmm1[0,0]			; XOP-NEXT: vmovddup {{.*#+}} xmm4 = xmm1[0,0]
	; XOP-NEXT: vinsertf128 $1, %xmm4, %ymm4, %ymm4			; XOP-NEXT: vinsertf128 $1, %xmm4, %ymm4, %ymm4
				; XOP-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm4[2],ymm2[3,4],ymm4[5],ymm2[6,7]
				; XOP-NEXT: vmovups 16(%rcx), %xmm4
				; XOP-NEXT: vshufps {{.*#+}} xmm5 = xmm3[3,0],xmm4[3,0]
				; XOP-NEXT: vshufps {{.*#+}} xmm5 = xmm4[2,1],xmm5[0,2]
				; XOP-NEXT: vshufps {{.*#+}} xmm4 = xmm4[1,0],xmm3[1,0]
				; XOP-NEXT: vshufps {{.*#+}} xmm3 = xmm4[2,0],xmm3[2,2]
				; XOP-NEXT: vinsertf128 $1, %xmm5, %ymm3, %ymm3
				; XOP-NEXT: vpermilpd {{.*#+}} ymm4 = ymm0[1,1,3,3]
				; XOP-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm4[2,3,2,3]
	; XOP-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1],ymm4[2],ymm3[3,4],ymm4[5],ymm3[6,7]			; XOP-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1],ymm4[2],ymm3[3,4],ymm4[5],ymm3[6,7]
	; XOP-NEXT: vpermil2ps {{.*#+}} ymm0 = ymm1[2],ymm0[3],ymm1[2,3],ymm0[4],ymm1[5,4],ymm0[5]			; XOP-NEXT: vpermil2ps {{.*#+}} ymm0 = ymm1[2],ymm0[3],ymm1[2,3],ymm0[4],ymm1[5,4],ymm0[5]
	; XOP-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]			; XOP-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]
	; XOP-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]			; XOP-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
	; XOP-NEXT: vmovups %ymm0, 32(%rdi)			; XOP-NEXT: vmovups %ymm0, 32(%rdi)
	; XOP-NEXT: vmovups %ymm3, (%rdi)			; XOP-NEXT: vmovups %ymm3, 64(%rdi)
	; XOP-NEXT: vmovups %ymm2, 64(%rdi)			; XOP-NEXT: vmovups %ymm2, (%rdi)
	; XOP-NEXT: vzeroupper			; XOP-NEXT: vzeroupper
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%s1 = load <8 x i32>, <8 x i32>* %q1, align 4			%s1 = load <8 x i32>, <8 x i32>* %q1, align 4
	%s2 = load <8 x i32>, <8 x i32>* %q2, align 4			%s2 = load <8 x i32>, <8 x i32>* %q2, align 4
	%s3 = load <8 x i32>, <8 x i32>* %q3, align 4			%s3 = load <8 x i32>, <8 x i32>* %q3, align 4
	%t1 = shufflevector <8 x i32> %s1, <8 x i32> %s2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%t1 = shufflevector <8 x i32> %s1, <8 x i32> %s2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%t2 = shufflevector <8 x i32> %s3, <8 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%t2 = shufflevector <8 x i32> %s3, <8 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%interleaved = shufflevector <16 x i32> %t1, <16 x i32> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>			%interleaved = shufflevector <16 x i32> %t1, <16 x i32> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>
	▲ Show 20 Lines • Show All 59 Lines • Show Last 20 Lines

test/CodeGen/X86/packss.ll

	Show First 20 Lines • Show All 166 Lines • ▼ Show 20 Lines
	; X86-SSE-NEXT: psubq %xmm2, %xmm1			; X86-SSE-NEXT: psubq %xmm2, %xmm1
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]			; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]			; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; X86-SSE-NEXT: packssdw %xmm1, %xmm0			; X86-SSE-NEXT: packssdw %xmm1, %xmm0
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX1-LABEL: trunc_ashr_v4i64_demandedelts:			; X86-AVX1-LABEL: trunc_ashr_v4i64_demandedelts:
	; X86-AVX1: # %bb.0:			; X86-AVX1: # %bb.0:
	; X86-AVX1-NEXT: vpsllq $63, %xmm0, %xmm1			; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; X86-AVX1-NEXT: vpsllq $63, %xmm1, %xmm2
	; X86-AVX1-NEXT: vpsllq $63, %xmm2, %xmm3			; X86-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; X86-AVX1-NEXT: vpsrlq $63, %xmm3, %xmm3			; X86-AVX1-NEXT: vpsllq $63, %xmm0, %xmm2
	; X86-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
	; X86-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,0,0,0,0,0,0,32768]
	; X86-AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; X86-AVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2
	; X86-AVX1-NEXT: vpsrlq $63, %xmm1, %xmm1			; X86-AVX1-NEXT: vpsrlq $63, %xmm1, %xmm1
	; X86-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]			; X86-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,0,0,2147483648]
				; X86-AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1
				; X86-AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1
				; X86-AVX1-NEXT: vpsrlq $63, %xmm2, %xmm2
				; X86-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm2[0,1,2,3],xmm0[4,5,6,7]
	; X86-AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0			; X86-AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0
	; X86-AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0			; X86-AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; X86-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X86-AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]			; X86-AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]
	; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-AVX1-NEXT: vpackssdw %xmm1, %xmm0, %xmm0			; X86-AVX1-NEXT: vpackssdw %xmm1, %xmm0, %xmm0
	; X86-AVX1-NEXT: vzeroupper			; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: trunc_ashr_v4i64_demandedelts:			; X86-AVX2-LABEL: trunc_ashr_v4i64_demandedelts:
	; X86-AVX2: # %bb.0:			; X86-AVX2: # %bb.0:
	Show All 23 Lines
	; X64-SSE-NEXT: psubq %xmm2, %xmm1			; X64-SSE-NEXT: psubq %xmm2, %xmm1
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; X64-SSE-NEXT: packssdw %xmm1, %xmm0			; X64-SSE-NEXT: packssdw %xmm1, %xmm0
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX1-LABEL: trunc_ashr_v4i64_demandedelts:			; X64-AVX1-LABEL: trunc_ashr_v4i64_demandedelts:
	; X64-AVX1: # %bb.0:			; X64-AVX1: # %bb.0:
	; X64-AVX1-NEXT: vpsllq $63, %xmm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; X64-AVX1-NEXT: vpsllq $63, %xmm1, %xmm2
	; X64-AVX1-NEXT: vpsllq $63, %xmm2, %xmm3			; X64-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; X64-AVX1-NEXT: vpsrlq $63, %xmm3, %xmm3			; X64-AVX1-NEXT: vpsllq $63, %xmm0, %xmm2
	; X64-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
	; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,9223372036854775808]
	; X64-AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; X64-AVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2
	; X64-AVX1-NEXT: vpsrlq $63, %xmm1, %xmm1			; X64-AVX1-NEXT: vpsrlq $63, %xmm1, %xmm1
	; X64-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]			; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,9223372036854775808]
				; X64-AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1
				; X64-AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1
				; X64-AVX1-NEXT: vpsrlq $63, %xmm2, %xmm2
				; X64-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm2[0,1,2,3],xmm0[4,5,6,7]
	; X64-AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0			; X64-AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0
	; X64-AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0			; X64-AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X64-AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]			; X64-AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vpackssdw %xmm1, %xmm0, %xmm0			; X64-AVX1-NEXT: vpackssdw %xmm1, %xmm0, %xmm0
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: trunc_ashr_v4i64_demandedelts:			; X64-AVX2-LABEL: trunc_ashr_v4i64_demandedelts:
	; X64-AVX2: # %bb.0:			; X64-AVX2: # %bb.0:
	Show All 18 Lines

test/CodeGen/X86/pr34592.ll

	Show All 13 Lines
	; CHECK-NEXT: vmovaps 240(%rbp), %ymm8			; CHECK-NEXT: vmovaps 240(%rbp), %ymm8
	; CHECK-NEXT: vmovaps 208(%rbp), %ymm9			; CHECK-NEXT: vmovaps 208(%rbp), %ymm9
	; CHECK-NEXT: vmovaps 176(%rbp), %ymm10			; CHECK-NEXT: vmovaps 176(%rbp), %ymm10
	; CHECK-NEXT: vmovaps 144(%rbp), %ymm11			; CHECK-NEXT: vmovaps 144(%rbp), %ymm11
	; CHECK-NEXT: vmovaps 112(%rbp), %ymm12			; CHECK-NEXT: vmovaps 112(%rbp), %ymm12
	; CHECK-NEXT: vmovaps 80(%rbp), %ymm13			; CHECK-NEXT: vmovaps 80(%rbp), %ymm13
	; CHECK-NEXT: vmovaps 48(%rbp), %ymm14			; CHECK-NEXT: vmovaps 48(%rbp), %ymm14
	; CHECK-NEXT: vmovaps 16(%rbp), %ymm15			; CHECK-NEXT: vmovaps 16(%rbp), %ymm15
	; CHECK-NEXT: vpblendd {{.*#+}} ymm2 = ymm6[0,1,2,3,4,5],ymm2[6,7]			; CHECK-NEXT: vblendpd {{.*#+}} ymm2 = ymm6[0,1,2],ymm2[3]
	; CHECK-NEXT: vmovaps %xmm9, %xmm6			; CHECK-NEXT: vmovaps %xmm9, %xmm6
	; CHECK-NEXT: vmovdqa %xmm6, %xmm9			; CHECK-NEXT: vmovdqa %xmm6, %xmm9
	; CHECK-NEXT: # kill: def $ymm9 killed $xmm9			; CHECK-NEXT: # kill: def $ymm9 killed $xmm9
	; CHECK-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vxorps %xmm0, %xmm0, %xmm0			; CHECK-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: # implicit-def: $ymm0			; CHECK-NEXT: # implicit-def: $ymm0
	; CHECK-NEXT: vinserti128 $1, %xmm6, %ymm0, %ymm0			; CHECK-NEXT: vinserti128 $1, %xmm6, %ymm0, %ymm0
	; CHECK-NEXT: vpalignr {{.*#+}} ymm11 = ymm2[8,9,10,11,12,13,14,15],ymm11[0,1,2,3,4,5,6,7],ymm2[24,25,26,27,28,29,30,31],ymm11[16,17,18,19,20,21,22,23]			; CHECK-NEXT: vpalignr {{.*#+}} ymm11 = ymm2[8,9,10,11,12,13,14,15],ymm11[0,1,2,3,4,5,6,7],ymm2[24,25,26,27,28,29,30,31],ymm11[16,17,18,19,20,21,22,23]
	; CHECK-NEXT: vpermq {{.*#+}} ymm11 = ymm11[2,3,2,0]			; CHECK-NEXT: vpermq {{.*#+}} ymm11 = ymm11[2,3,2,0]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm11[0,1,2,3],ymm0[4,5],ymm11[6,7]			; CHECK-NEXT: vblendpd {{.*#+}} ymm0 = ymm11[0,1],ymm0[2],ymm11[3]
	; CHECK-NEXT: vmovaps %xmm2, %xmm6			; CHECK-NEXT: vmovaps %xmm2, %xmm6
	; CHECK-NEXT: # implicit-def: $ymm2			; CHECK-NEXT: # implicit-def: $ymm2
	; CHECK-NEXT: vinserti128 $1, %xmm6, %ymm2, %ymm2			; CHECK-NEXT: vinserti128 $1, %xmm6, %ymm2, %ymm2
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %ymm11 # 32-byte Reload			; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %ymm11 # 32-byte Reload
	; CHECK-NEXT: vpblendd {{.*#+}} ymm11 = ymm7[0,1],ymm11[2,3],ymm7[4,5],ymm11[6,7]			; CHECK-NEXT: vblendpd {{.*#+}} ymm11 = ymm7[0],ymm11[1],ymm7[2],ymm11[3]
	; CHECK-NEXT: vpermq {{.*#+}} ymm11 = ymm11[2,1,2,3]			; CHECK-NEXT: vpermq {{.*#+}} ymm11 = ymm11[2,1,2,3]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm2 = ymm11[0,1,2,3],ymm2[4,5,6,7]			; CHECK-NEXT: vblendpd {{.*#+}} ymm2 = ymm11[0,1],ymm2[2,3]
	; CHECK-NEXT: vmovaps %xmm7, %xmm6			; CHECK-NEXT: vmovaps %xmm7, %xmm6
	; CHECK-NEXT: vpslldq {{.*#+}} xmm6 = zero,zero,zero,zero,zero,zero,zero,zero,xmm6[0,1,2,3,4,5,6,7]			; CHECK-NEXT: vpslldq {{.*#+}} xmm6 = zero,zero,zero,zero,zero,zero,zero,zero,xmm6[0,1,2,3,4,5,6,7]
	; CHECK-NEXT: # implicit-def: $ymm11			; CHECK-NEXT: # implicit-def: $ymm11
	; CHECK-NEXT: vmovaps %xmm6, %xmm11			; CHECK-NEXT: vmovaps %xmm6, %xmm11
	; CHECK-NEXT: vpalignr {{.*#+}} ymm9 = ymm9[8,9,10,11,12,13,14,15],ymm5[0,1,2,3,4,5,6,7],ymm9[24,25,26,27,28,29,30,31],ymm5[16,17,18,19,20,21,22,23]			; CHECK-NEXT: vpalignr {{.*#+}} ymm9 = ymm9[8,9,10,11,12,13,14,15],ymm5[0,1,2,3,4,5,6,7],ymm9[24,25,26,27,28,29,30,31],ymm5[16,17,18,19,20,21,22,23]
	; CHECK-NEXT: vpermq {{.*#+}} ymm9 = ymm9[0,1,0,3]			; CHECK-NEXT: vpermq {{.*#+}} ymm9 = ymm9[0,1,0,3]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm9 = ymm11[0,1,2,3],ymm9[4,5,6,7]			; CHECK-NEXT: vblendpd {{.*#+}} ymm9 = ymm11[0,1],ymm9[2,3]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm7 = ymm7[0,1],ymm8[2,3],ymm7[4,5,6,7]			; CHECK-NEXT: vblendpd {{.*#+}} ymm7 = ymm7[0],ymm8[1],ymm7[2,3]
	; CHECK-NEXT: vpermq {{.*#+}} ymm7 = ymm7[2,1,1,3]			; CHECK-NEXT: vpermq {{.*#+}} ymm7 = ymm7[2,1,1,3]
	; CHECK-NEXT: vpshufd {{.*#+}} ymm5 = ymm5[0,1,0,1,4,5,4,5]			; CHECK-NEXT: vpshufd {{.*#+}} ymm5 = ymm5[0,1,0,1,4,5,4,5]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm5 = ymm7[0,1,2,3,4,5],ymm5[6,7]			; CHECK-NEXT: vblendpd {{.*#+}} ymm5 = ymm7[0,1,2],ymm5[3]
	; CHECK-NEXT: vmovaps %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm5, %ymm1			; CHECK-NEXT: vmovaps %ymm5, %ymm1
	; CHECK-NEXT: vmovaps %ymm3, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm3, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm9, %ymm3			; CHECK-NEXT: vmovaps %ymm9, %ymm3
	; CHECK-NEXT: vmovaps %ymm10, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm10, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm12, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm12, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm13, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm13, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm14, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm14, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	Show All 13 Lines

test/CodeGen/X86/prefer-avx256-mask-shuffle.ll

	Show First 20 Lines • Show All 190 Lines • ▼ Show 20 Lines
	; AVX512NOBW-NEXT: vpmovdb %zmm0, %xmm0			; AVX512NOBW-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512NOBW-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0			; AVX512NOBW-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
	; AVX512NOBW-NEXT: retq			; AVX512NOBW-NEXT: retq
	;			;
	; AVX256VLBW-LABEL: shuf32i1_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0:			; AVX256VLBW-LABEL: shuf32i1_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0:
	; AVX256VLBW: # %bb.0:			; AVX256VLBW: # %bb.0:
	; AVX256VLBW-NEXT: vptestnmb %ymm0, %ymm0, %k0			; AVX256VLBW-NEXT: vptestnmb %ymm0, %ymm0, %k0
	; AVX256VLBW-NEXT: vpmovm2b %k0, %ymm0			; AVX256VLBW-NEXT: vpmovm2b %k0, %ymm0
	; AVX256VLBW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX256VLBW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,2,3]
	; AVX256VLBW-NEXT: vpblendd {{.*#+}} ymm2 = ymm1[0,1,2,3],ymm0[4,5,6,7]			; AVX256VLBW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[1,1,2,1,5,5,6,5]
	; AVX256VLBW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[1,1,2,1,5,5,6,5]			; AVX256VLBW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,1,0,1]
	; AVX256VLBW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX256VLBW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[3,6,u,12,3,7,7,0,3,6,1,13,3,u,7,0,19,22,u,28,19,23,23,16,19,22,17,29,19,u,23,16]			; AVX256VLBW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[3,6,u,12,3,7,7,0,3,6,1,13,3,u,7,0,19,22,u,28,19,23,23,16,19,22,17,29,19,u,23,16]
	; AVX256VLBW-NEXT: movl $537141252, %eax # imm = 0x20042004			; AVX256VLBW-NEXT: movl $537141252, %eax # imm = 0x20042004
	; AVX256VLBW-NEXT: kmovd %eax, %k1			; AVX256VLBW-NEXT: kmovd %eax, %k1
	; AVX256VLBW-NEXT: vmovdqu8 %ymm2, %ymm0 {%k1}			; AVX256VLBW-NEXT: vmovdqu8 %ymm1, %ymm0 {%k1}
	; AVX256VLBW-NEXT: vpmovb2m %ymm0, %k0			; AVX256VLBW-NEXT: vpmovb2m %ymm0, %k0
	; AVX256VLBW-NEXT: vpmovm2b %k0, %ymm0			; AVX256VLBW-NEXT: vpmovm2b %k0, %ymm0
	; AVX256VLBW-NEXT: retq			; AVX256VLBW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: shuf32i1_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0:			; AVX512VLBW-LABEL: shuf32i1_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0_3_6_22_12_3_7_7_0_3_6_1_13_3_21_7_0:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vptestnmb %ymm0, %ymm0, %k0			; AVX512VLBW-NEXT: vptestnmb %ymm0, %ymm0, %k0
	; AVX512VLBW-NEXT: vpmovm2w %k0, %zmm0			; AVX512VLBW-NEXT: vpmovm2w %k0, %zmm0
	Show All 22 Lines

test/CodeGen/X86/sse2.ll

	Show First 20 Lines • Show All 703 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX512-LABEL: PR19721:			; X64-AVX512-LABEL: PR19721:
	; X64-AVX512: # %bb.0:			; X64-AVX512: # %bb.0:
	; X64-AVX512-NEXT: vmovq %xmm0, %rax			; X64-AVX512-NEXT: vmovq %xmm0, %rax
	; X64-AVX512-NEXT: movabsq $-4294967296, %rcx # imm = 0xFFFFFFFF00000000			; X64-AVX512-NEXT: movabsq $-4294967296, %rcx # imm = 0xFFFFFFFF00000000
	; X64-AVX512-NEXT: andq %rax, %rcx			; X64-AVX512-NEXT: andq %rax, %rcx
	; X64-AVX512-NEXT: vmovq %rcx, %xmm1			; X64-AVX512-NEXT: vmovq %rcx, %xmm1
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; X64-AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%bc = bitcast <4 x i32> %i to i128			%bc = bitcast <4 x i32> %i to i128
	%insert = and i128 %bc, -4294967296			%insert = and i128 %bc, -4294967296
	%bc2 = bitcast i128 %insert to <4 x i32>			%bc2 = bitcast i128 %insert to <4 x i32>
	ret <4 x i32> %bc2			ret <4 x i32> %bc2
	}			}

	define <4 x i32> @test_mul(<4 x i32> %x, <4 x i32> %y) {			define <4 x i32> @test_mul(<4 x i32> %x, <4 x i32> %y) {
	Show All 18 Lines

test/CodeGen/X86/vector-reduce-smax.ll

	Show First 20 Lines • Show All 703 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psllq $32, %xmm1			; SSE41-NEXT: psllq $32, %xmm1
	; SSE41-NEXT: psrad $31, %xmm1			; SSE41-NEXT: psrad $31, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,2,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,2,3,3]
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[0,2,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[0,2,2,3]
	; SSE41-NEXT: psrad $31, %xmm3			; SSE41-NEXT: psrad $31, %xmm3
	; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm2
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm0, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm2			; SSE41-NEXT: pxor %xmm1, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pcmpgtd %xmm2, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpeqd %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
				; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movd %xmm3, %eax			; SSE41-NEXT: movd %xmm3, %eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v2i32:			; AVX1-LABEL: test_v2i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm1			; AVX1-NEXT: vpsllq $32, %xmm0, %xmm1
	; AVX1-NEXT: vpsrad $31, %xmm1, %xmm1			; AVX1-NEXT: vpsrad $31, %xmm1, %xmm1
	▲ Show 20 Lines • Show All 435 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: psrad $16, %xmm1			; SSE41-NEXT: psrad $16, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm3, %xmm2			; SSE41-NEXT: movdqa %xmm3, %xmm2
	; SSE41-NEXT: pxor %xmm0, %xmm2			; SSE41-NEXT: pxor %xmm0, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: pxor %xmm1, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm4			; SSE41-NEXT: movdqa %xmm2, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpeqd %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
				; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: movd %xmm1, %eax			; SSE41-NEXT: movd %xmm1, %eax
	; SSE41-NEXT: # kill: def $ax killed $ax killed $eax			; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v2i16:			; AVX1-LABEL: test_v2i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $48, %xmm0, %xmm1			; AVX1-NEXT: vpsllq $48, %xmm0, %xmm1
	▲ Show 20 Lines • Show All 465 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: psrad $24, %xmm1			; SSE41-NEXT: psrad $24, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm3, %xmm2			; SSE41-NEXT: movdqa %xmm3, %xmm2
	; SSE41-NEXT: pxor %xmm0, %xmm2			; SSE41-NEXT: pxor %xmm0, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: pxor %xmm1, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm4			; SSE41-NEXT: movdqa %xmm2, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpeqd %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
				; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: pextrb $0, %xmm1, %eax			; SSE41-NEXT: pextrb $0, %xmm1, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v2i8:			; AVX1-LABEL: test_v2i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $56, %xmm0, %xmm1			; AVX1-NEXT: vpsllq $56, %xmm0, %xmm1
	▲ Show 20 Lines • Show All 677 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-smin.ll

	Show First 20 Lines • Show All 702 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psllq $32, %xmm1			; SSE41-NEXT: psllq $32, %xmm1
	; SSE41-NEXT: psrad $31, %xmm1			; SSE41-NEXT: psrad $31, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,2,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,2,3,3]
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[0,2,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[0,2,2,3]
	; SSE41-NEXT: psrad $31, %xmm3			; SSE41-NEXT: psrad $31, %xmm3
	; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm0, %xmm2
	; SSE41-NEXT: pxor %xmm3, %xmm2			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pcmpgtd %xmm2, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpeqd %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
				; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movd %xmm3, %eax			; SSE41-NEXT: movd %xmm3, %eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v2i32:			; AVX1-LABEL: test_v2i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm1			; AVX1-NEXT: vpsllq $32, %xmm0, %xmm1
	; AVX1-NEXT: vpsrad $31, %xmm1, %xmm1			; AVX1-NEXT: vpsrad $31, %xmm1, %xmm1
	▲ Show 20 Lines • Show All 430 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]
	; SSE41-NEXT: psllq $48, %xmm1			; SSE41-NEXT: psllq $48, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: psrad $31, %xmm0			; SSE41-NEXT: psrad $31, %xmm0
	; SSE41-NEXT: psrad $16, %xmm1			; SSE41-NEXT: psrad $16, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm2
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm0, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm2			; SSE41-NEXT: pxor %xmm1, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pcmpgtd %xmm2, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpeqd %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
				; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: movd %xmm1, %eax			; SSE41-NEXT: movd %xmm1, %eax
	; SSE41-NEXT: # kill: def $ax killed $ax killed $eax			; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v2i16:			; AVX1-LABEL: test_v2i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $48, %xmm0, %xmm1			; AVX1-NEXT: vpsllq $48, %xmm0, %xmm1
	▲ Show 20 Lines • Show All 460 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]
	; SSE41-NEXT: psllq $56, %xmm1			; SSE41-NEXT: psllq $56, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: psrad $31, %xmm0			; SSE41-NEXT: psrad $31, %xmm0
	; SSE41-NEXT: psrad $24, %xmm1			; SSE41-NEXT: psrad $24, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm2
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm0, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm2			; SSE41-NEXT: pxor %xmm1, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pcmpgtd %xmm2, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpeqd %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
				; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: pextrb $0, %xmm1, %eax			; SSE41-NEXT: pextrb $0, %xmm1, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v2i8:			; AVX1-LABEL: test_v2i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $56, %xmm0, %xmm1			; AVX1-NEXT: vpsllq $56, %xmm0, %xmm1
	▲ Show 20 Lines • Show All 677 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-ashr-256.ll

	Show First 20 Lines • Show All 1,064 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-AVX1-LABEL: constant_shift_v4i64:			; X32-AVX1-LABEL: constant_shift_v4i64:
	; X32-AVX1: # %bb.0:			; X32-AVX1: # %bb.0:
	; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X32-AVX1-NEXT: vpsrlq $62, %xmm1, %xmm2			; X32-AVX1-NEXT: vpsrlq $62, %xmm1, %xmm2
	; X32-AVX1-NEXT: vpsrlq $31, %xmm1, %xmm1			; X32-AVX1-NEXT: vpsrlq $31, %xmm1, %xmm1
	; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]			; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,0,1,0,2,0,0,0]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,2,0]
	; X32-AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1			; X32-AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; X32-AVX1-NEXT: vpsubq %xmm2, %xmm1, %xmm1			; X32-AVX1-NEXT: vpsubq %xmm2, %xmm1, %xmm1
	; X32-AVX1-NEXT: vpsrlq $7, %xmm0, %xmm2			; X32-AVX1-NEXT: vpsrlq $7, %xmm0, %xmm2
	; X32-AVX1-NEXT: vpsrlq $1, %xmm0, %xmm0			; X32-AVX1-NEXT: vpsrlq $1, %xmm0, %xmm0
	; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]			; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,0,0,16384,0,0,0,256]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1073741824,0,16777216]
	; X32-AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0			; X32-AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; X32-AVX1-NEXT: vpsubq %xmm2, %xmm0, %xmm0			; X32-AVX1-NEXT: vpsubq %xmm2, %xmm0, %xmm0
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X32-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X32-AVX1-NEXT: retl			; X32-AVX1-NEXT: retl
	;			;
	; X32-AVX2-LABEL: constant_shift_v4i64:			; X32-AVX2-LABEL: constant_shift_v4i64:
	; X32-AVX2: # %bb.0:			; X32-AVX2: # %bb.0:
	; X32-AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [1,0,7,0,31,0,62,0]			; X32-AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [1,0,7,0,31,0,62,0]
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_shift_v16i16:			; AVX2-LABEL: constant_shift_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulhw {{.*}}(%rip), %ymm0, %ymm1			; AVX2-NEXT: vpmulhw {{.*}}(%rip), %ymm0, %ymm1
	; AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: vpsraw $1, %ymm0, %ymm0			; AVX2-NEXT: vpsraw $1, %ymm0, %ymm0
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2,3,4,5,6,7,8],ymm0[9],ymm2[10,11,12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2,3,4,5,6,7,8],ymm0[9],ymm2[10,11,12,13,14,15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: constant_shift_v16i16:			; XOPAVX1-LABEL: constant_shift_v16i16:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vpshaw {{.*}}(%rip), %xmm0, %xmm1			; XOPAVX1-NEXT: vpshaw {{.*}}(%rip), %xmm0, %xmm1
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; X32-AVX1-NEXT: vpmulhw {{\.LCPI.*}}, %xmm0, %xmm0			; X32-AVX1-NEXT: vpmulhw {{\.LCPI.*}}, %xmm0, %xmm0
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; X32-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; X32-AVX1-NEXT: retl			; X32-AVX1-NEXT: retl
	;			;
	; X32-AVX2-LABEL: constant_shift_v16i16:			; X32-AVX2-LABEL: constant_shift_v16i16:
	; X32-AVX2: # %bb.0:			; X32-AVX2: # %bb.0:
	; X32-AVX2-NEXT: vpmulhw {{\.LCPI.*}}, %ymm0, %ymm1			; X32-AVX2-NEXT: vpmulhw {{\.LCPI.*}}, %ymm0, %ymm1
	; X32-AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]			; X32-AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]
	; X32-AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; X32-AVX2-NEXT: vpsraw $1, %ymm0, %ymm0			; X32-AVX2-NEXT: vpsraw $1, %ymm0, %ymm0
	; X32-AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2,3,4,5,6,7,8],ymm0[9],ymm2[10,11,12,13,14,15]			; X32-AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2,3,4,5,6,7,8],ymm0[9],ymm2[10,11,12,13,14,15]
	; X32-AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; X32-AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; X32-AVX2-NEXT: retl			; X32-AVX2-NEXT: retl
	%shift = ashr <16 x i16> %a, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>			%shift = ashr <16 x i16> %a, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>
	ret <16 x i16> %shift			ret <16 x i16> %shift
	}			}

	▲ Show 20 Lines • Show All 409 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shuffle-128-v8.ll

	Show First 20 Lines • Show All 1,161 Lines • ▼ Show 20 Lines
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[8,9,12,13,10,11,14,15,8,9,12,13,10,11,14,15]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[8,9,12,13,10,11,14,15,8,9,12,13,10,11,14,15]
	; AVX2-FAST-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]			; AVX2-FAST-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]
	; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512VL-SLOW-LABEL: shuffle_v8i16_0213cedf:			; AVX512VL-SLOW-LABEL: shuffle_v8i16_0213cedf:
	; AVX512VL-SLOW: # %bb.0:			; AVX512VL-SLOW: # %bb.0:
	; AVX512VL-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]
	; AVX512VL-SLOW-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,5,7]			; AVX512VL-SLOW-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,5,7]
	; AVX512VL-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]			; AVX512VL-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]
	; AVX512VL-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512VL-SLOW-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512VL-SLOW-NEXT: retq			; AVX512VL-SLOW-NEXT: retq
	;			;
	; AVX512VL-FAST-LABEL: shuffle_v8i16_0213cedf:			; AVX512VL-FAST-LABEL: shuffle_v8i16_0213cedf:
	; AVX512VL-FAST: # %bb.0:			; AVX512VL-FAST: # %bb.0:
	; AVX512VL-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[8,9,12,13,10,11,14,15,8,9,12,13,10,11,14,15]			; AVX512VL-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[8,9,12,13,10,11,14,15,8,9,12,13,10,11,14,15]
	; AVX512VL-FAST-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]			; AVX512VL-FAST-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]
	; AVX512VL-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512VL-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512VL-FAST-NEXT: retq			; AVX512VL-FAST-NEXT: retq
	▲ Show 20 Lines • Show All 370 Lines • ▼ Show 20 Lines
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,8,9,u,u],zero,zero,zero,zero,zero,zero,xmm0[u,u]			; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[u,u,u,u,8,9,u,u],zero,zero,zero,zero,zero,zero,xmm0[u,u]
	; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = xmm1[u,u,u,u],zero,zero,xmm1[u,u,0,1,4,5,8,9,u,u]			; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = xmm1[u,u,u,u],zero,zero,xmm1[u,u,0,1,4,5,8,9,u,u]
	; SSSE3-NEXT: por %xmm1, %xmm0			; SSSE3-NEXT: por %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: shuffle_v8i16_XX4X8acX:			; SSE41-LABEL: shuffle_v8i16_XX4X8acX:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pshufb {{.*#+}} xmm1 = xmm1[u,u,u,u,u,u,u,u,0,1,4,5,8,9,4,5]			; SSE41-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: shuffle_v8i16_XX4X8acX:			; AVX1-LABEL: shuffle_v8i16_XX4X8acX:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[u,u,u,u,u,u,u,u,0,1,4,5,8,9,4,5]			; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2OR512VL-LABEL: shuffle_v8i16_XX4X8acX:			; AVX2OR512VL-LABEL: shuffle_v8i16_XX4X8acX:
	; AVX2OR512VL: # %bb.0:			; AVX2OR512VL: # %bb.0:
	; AVX2OR512VL-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5]			; AVX2OR512VL-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5]
	; AVX2OR512VL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]			; AVX2OR512VL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
	▲ Show 20 Lines • Show All 1,268 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shuffle-256-v16.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 307 Lines • ▼ Show 20 Lines
; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; AVX1-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,0,0,1,4,5,6,7]		; AVX1-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,0,0,1,4,5,6,7]
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,0,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,0,1]
; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,2,3,4,5,6,7]		; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,2,3,4,5,6,7]
; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]		; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-SLOW-LABEL: shuffle_v16i16_00_00_00_00_00_00_00_08_00_00_00_00_00_00_00_00:		; AVX2-LABEL: shuffle_v16i16_00_00_00_00_00_00_00_08_00_00_00_00_00_00_00_00:
; AVX2-SLOW: # %bb.0:		; AVX2: # %bb.0:
; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]
; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]		; AVX2-NEXT: vpslldq {{.*#+}} ymm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[0,1],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[16,17]
; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,0,2,3,4,5,6,7,8,8,10,11,12,13,14,15]		; AVX2-NEXT: vpbroadcastw %xmm0, %ymm0
; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]		; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
; AVX2-SLOW-NEXT: vpslldq {{.*#+}} ymm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[0,1],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[16,17]		; AVX2-NEXT: retq
; AVX2-SLOW-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
; AVX2-SLOW-NEXT: retq
;
; AVX2-FAST-LABEL: shuffle_v16i16_00_00_00_00_00_00_00_08_00_00_00_00_00_00_00_00:
; AVX2-FAST: # %bb.0:
; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]
; AVX2-FAST-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,16,17,16,17,16,17,16,17,16,17,16,17,16,17,16,17]
; AVX2-FAST-NEXT: vpslldq {{.*#+}} ymm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[0,1],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[16,17]
; AVX2-FAST-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
; AVX2-FAST-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_00_00_00_08_00_00_00_00_00_00_00_00:		; AVX512VL-LABEL: shuffle_v16i16_00_00_00_00_00_00_00_08_00_00_00_00_00_00_00_00:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0]		; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0]
; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0		; AVX512VL-NEXT: vpermw %ymm0, %ymm1, %ymm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 8, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>		%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 8, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
ret <16 x i16> %shuffle		ret <16 x i16> %shuffle
▲ Show 20 Lines • Show All 3,561 Lines • ▼ Show 20 Lines	; AVX512VL-NEXT: retq
%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 1, i32 undef, i32 5, i32 7, i32 25, i32 undef, i32 undef, i32 undef, i32 9, i32 undef, i32 13, i32 15, i32 25>		%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 1, i32 undef, i32 5, i32 7, i32 25, i32 undef, i32 undef, i32 undef, i32 9, i32 undef, i32 13, i32 15, i32 25>
ret <16 x i16> %shuffle		ret <16 x i16> %shuffle
}		}

define <16 x i16> @shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu(<16 x i16> %a, <16 x i16> %b) {		define <16 x i16> @shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu(<16 x i16> %a, <16 x i16> %b) {
; AVX1-LABEL: shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu:		; AVX1-LABEL: shuffle_v16i16_uu_uu_04_uu_16_18_20_uu_uu_uu_12_uu_24_26_28_uu:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = <u,u,u,u,u,u,u,u,0,1,4,5,8,9,4,5>		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5]
; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm4[2,2,3,3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm4[2,2,3,3]
; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0,1,2,3],xmm2[4,5,6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0,1,2,3],xmm2[4,5,6,7]
; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
▲ Show 20 Lines • Show All 899 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shuffle-256-v32.ll

	Show First 20 Lines • Show All 572 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1]			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX2-NEXT: vpbroadcastb %xmm0, %ymm1
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpslldq {{.*#+}} ymm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[16]
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpslldq {{.*#+}} ymm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[16]
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0]
	; AVX2-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLBW-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX512VLBW-NEXT: vpermpd {{.*#+}} ymm1 = ymm0[2,3,0,1]
	; AVX512VLBW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX512VLBW-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512VLBW-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX512VLBW-NEXT: vpslldq {{.*#+}} ymm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[16]			; AVX512VLBW-NEXT: vpslldq {{.*#+}} ymm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm1[16]
				; AVX512VLBW-NEXT: vpbroadcastb %xmm0, %ymm0
	; AVX512VLBW-NEXT: movl $-2147450880, %eax # imm = 0x80008000			; AVX512VLBW-NEXT: movl $-2147450880, %eax # imm = 0x80008000
	; AVX512VLBW-NEXT: kmovd %eax, %k1			; AVX512VLBW-NEXT: kmovd %eax, %k1
	; AVX512VLBW-NEXT: vmovdqu8 %ymm1, %ymm0 {%k1}			; AVX512VLBW-NEXT: vmovdqu8 %ymm1, %ymm0 {%k1}
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_16_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI: # %bb.0:			; AVX512VLVBMI: # %bb.0:
	; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	▲ Show 20 Lines • Show All 314 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLBW-SLOW-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLBW-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-SLOW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX512VLBW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX512VLBW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VLBW-NEXT: retq
	; AVX512VLBW-SLOW-NEXT: retq
	;
	; AVX512VLBW-FAST-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-FAST: # %bb.0:
	; AVX512VLBW-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-FAST-NEXT: retq
	;			;
	; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_00_00_00_00_24_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI: # %bb.0:			; AVX512VLVBMI: # %bb.0:
	; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,24,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,0,24,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0			; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0
	; AVX512VLVBMI-NEXT: retq			; AVX512VLVBMI-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 24, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 24, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	Show All 11 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,9,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,9,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLBW-SLOW-LABEL: shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLBW-LABEL: shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-SLOW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX512VLBW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX512VLBW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,9,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,9,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VLBW-NEXT: retq
	; AVX512VLBW-SLOW-NEXT: retq
	;
	; AVX512VLBW-FAST-LABEL: shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-FAST: # %bb.0:
	; AVX512VLBW-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,0,9,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-FAST-NEXT: retq
	;			;
	; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_00_00_00_25_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI: # %bb.0:			; AVX512VLVBMI: # %bb.0:
	; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,25,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,0,25,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0			; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0
	; AVX512VLVBMI-NEXT: retq			; AVX512VLVBMI-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 25, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 25, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	Show All 11 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,10,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,10,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLBW-SLOW-LABEL: shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLBW-LABEL: shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-SLOW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX512VLBW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX512VLBW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,10,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,10,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VLBW-NEXT: retq
	; AVX512VLBW-SLOW-NEXT: retq
	;
	; AVX512VLBW-FAST-LABEL: shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-FAST: # %bb.0:
	; AVX512VLBW-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,0,10,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-FAST-NEXT: retq
	;			;
	; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_00_00_26_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI: # %bb.0:			; AVX512VLVBMI: # %bb.0:
	; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,26,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,0,26,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0			; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0
	; AVX512VLVBMI-NEXT: retq			; AVX512VLVBMI-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 26, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 26, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	Show All 11 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,11,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,11,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLBW-SLOW-LABEL: shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLBW-LABEL: shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-SLOW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX512VLBW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX512VLBW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,11,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,11,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VLBW-NEXT: retq
	; AVX512VLBW-SLOW-NEXT: retq
	;
	; AVX512VLBW-FAST-LABEL: shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-FAST: # %bb.0:
	; AVX512VLBW-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,0,11,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-FAST-NEXT: retq
	;			;
	; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_00_27_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI: # %bb.0:			; AVX512VLVBMI: # %bb.0:
	; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,27,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,0,27,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0			; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0
	; AVX512VLVBMI-NEXT: retq			; AVX512VLVBMI-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 27, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 27, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	Show All 11 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,12,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,12,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLBW-SLOW-LABEL: shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLBW-LABEL: shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-SLOW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX512VLBW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX512VLBW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,12,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,12,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VLBW-NEXT: retq
	; AVX512VLBW-SLOW-NEXT: retq
	;
	; AVX512VLBW-FAST-LABEL: shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-FAST: # %bb.0:
	; AVX512VLBW-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,0,12,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-FAST-NEXT: retq
	;			;
	; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_00_28_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI: # %bb.0:			; AVX512VLVBMI: # %bb.0:
	; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,28,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,0,28,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0			; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0
	; AVX512VLVBMI-NEXT: retq			; AVX512VLVBMI-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 28, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 0, i32 28, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	Show All 11 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,13,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,13,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLBW-SLOW-LABEL: shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLBW-LABEL: shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-SLOW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX512VLBW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX512VLBW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,13,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,13,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VLBW-NEXT: retq
	; AVX512VLBW-SLOW-NEXT: retq
	;
	; AVX512VLBW-FAST-LABEL: shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-FAST: # %bb.0:
	; AVX512VLBW-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,0,13,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-FAST-NEXT: retq
	;			;
	; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-LABEL: shuffle_v32i8_00_00_29_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI: # %bb.0:			; AVX512VLVBMI: # %bb.0:
	; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,29,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,0,29,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0			; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0
	; AVX512VLVBMI-NEXT: retq			; AVX512VLVBMI-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 29, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 0, i32 29, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	Show All 11 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,14,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,14,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLBW-SLOW-LABEL: shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLBW-LABEL: shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-SLOW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX512VLBW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX512VLBW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,14,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,14,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VLBW-NEXT: retq
	; AVX512VLBW-SLOW-NEXT: retq
	;
	; AVX512VLBW-FAST-LABEL: shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-FAST: # %bb.0:
	; AVX512VLBW-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,14,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512VLBW-FAST-NEXT: retq
	;			;
	; AVX512VLVBMI-LABEL: shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-LABEL: shuffle_v32i8_00_30_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI: # %bb.0:			; AVX512VLVBMI: # %bb.0:
	; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,30,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]			; AVX512VLVBMI-NEXT: vmovdqa {{.*#+}} ymm1 = [0,30,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0			; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0
	; AVX512VLVBMI-NEXT: retq			; AVX512VLVBMI-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 30, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 0, i32 30, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	ret <32 x i8> %shuffle			ret <32 x i8> %shuffle
	Show All 13 Lines
	; AVX2-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX2-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX2-NEXT: movl $15, %eax			; AVX2-NEXT: movl $15, %eax
	; AVX2-NEXT: vmovd %eax, %xmm1			; AVX2-NEXT: vmovd %eax, %xmm1
	; AVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLBW-SLOW-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLBW-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-SLOW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX512VLBW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX512VLBW-NEXT: movl $15, %eax
	; AVX512VLBW-SLOW-NEXT: movl $15, %eax			; AVX512VLBW-NEXT: vmovd %eax, %xmm1
	; AVX512VLBW-SLOW-NEXT: vmovd %eax, %xmm1			; AVX512VLBW-NEXT: vpshufb %ymm1, %ymm0, %ymm0
	; AVX512VLBW-SLOW-NEXT: vpshufb %ymm1, %ymm0, %ymm0			; AVX512VLBW-NEXT: retq
	; AVX512VLBW-SLOW-NEXT: retq
	;
	; AVX512VLBW-FAST-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLBW-FAST: # %bb.0:
	; AVX512VLBW-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,3,0,1]
	; AVX512VLBW-FAST-NEXT: movl $15, %eax
	; AVX512VLBW-FAST-NEXT: vmovd %eax, %xmm1
	; AVX512VLBW-FAST-NEXT: vpshufb %ymm1, %ymm0, %ymm0
	; AVX512VLBW-FAST-NEXT: retq
	;			;
	; AVX512VLVBMI-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:			; AVX512VLVBMI-LABEL: shuffle_v32i8_31_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00_00:
	; AVX512VLVBMI: # %bb.0:			; AVX512VLVBMI: # %bb.0:
	; AVX512VLVBMI-NEXT: movl $31, %eax			; AVX512VLVBMI-NEXT: movl $31, %eax
	; AVX512VLVBMI-NEXT: vmovd %eax, %xmm1			; AVX512VLVBMI-NEXT: vmovd %eax, %xmm1
	; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0			; AVX512VLVBMI-NEXT: vpermb %ymm0, %ymm1, %ymm0
	; AVX512VLVBMI-NEXT: retq			; AVX512VLVBMI-NEXT: retq
	%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 31, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>			%shuffle = shufflevector <32 x i8> %a, <32 x i8> %b, <32 x i32> <i32 31, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0>
	▲ Show 20 Lines • Show All 2,115 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Generalize X86ISD::BLENDI support to more value types (WIP)ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 185749

lib/Target/X86/X86ISelLowering.cpp

lib/Target/X86/X86InstrSSE.td

test/CodeGen/X86/avx512-shuffles/partial_permute.ll

test/CodeGen/X86/combine-sdiv.ll

test/CodeGen/X86/insertelement-ones.ll

test/CodeGen/X86/known-signbits-vector.ll

test/CodeGen/X86/masked_load.ll

test/CodeGen/X86/masked_store.ll

test/CodeGen/X86/oddshuffles.ll

test/CodeGen/X86/packss.ll

test/CodeGen/X86/pr34592.ll

test/CodeGen/X86/prefer-avx256-mask-shuffle.ll

test/CodeGen/X86/sse2.ll

test/CodeGen/X86/vector-reduce-smax.ll

test/CodeGen/X86/vector-reduce-smin.ll

test/CodeGen/X86/vector-shift-ashr-256.ll

test/CodeGen/X86/vector-shuffle-128-v8.ll

test/CodeGen/X86/vector-shuffle-256-v16.ll

test/CodeGen/X86/vector-shuffle-256-v32.ll

[X86][SSE] Generalize X86ISD::BLENDI support to more value types (WIP)
ClosedPublic