This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] SimplifyDemandedVectorEltsForTargetNode - add general shuffle combining support
ClosedPublic

Authored by RKSimon on Aug 9 2019, 4:13 AM.

Download Raw Diff

Details

Reviewers

craig.topper
spatel
andreadb
lebedev.ri

Commits

rG21d02dc59579: [X86][SSE] SimplifyDemandedVectorEltsForTargetNode - add general shuffle…

Summary

This patch uses partial DemandedElts masks to further simplify target shuffle chains and finally starts making target shuffle combining part of SimplifyDemandedBits/SimplifyDemandedVectorElts.

We already manage this for Depth == 0 cases, where combineX86ShuffleChain would early-out if the shuffle combined to the same op, but the patch generalizes this by manipulating the depth handling of combineX86ShufflesRecursively - calling with a new Depth = 0 and reducing the maximum shuffle combine depth accordingly.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

RKSimon created this revision.Aug 9 2019, 4:13 AM

Herald added a project: Restricted Project. · View Herald TranscriptAug 9 2019, 4:13 AM

RKSimon mentioned this in D56387: [DAGCombiner] Enable SimplifyDemandedBits vector support for TRUNCATE.Aug 12 2019, 4:18 AM

RKSimon mentioned this in rL368307: [X86] SimplifyDemandedVectorElts - attempt to recombine target shuffle using….Aug 16 2019, 7:55 AM

Can this patch solve bad codegen for 'f5'?

https://godbolt.org/z/3YpVg-

In D66004#1647773, @xbolva00 wrote:

Can this patch solve bad codegen for 'f5'?

https://godbolt.org/z/3YpVg-

I don't think any amount of shuffle combining is going to recover that. I think we need to look at lowerShuffleAsLanePermuteAndRepeatedMask

In D66004#1647822, @craig.topper wrote:

In D66004#1647773, @xbolva00 wrote:

Can this patch solve bad codegen for 'f5'?

https://godbolt.org/z/3YpVg-

I don't think any amount of shuffle combining is going to recover that. I think we need to look at lowerShuffleAsLanePermuteAndRepeatedMask

Nevermind, that won't fix it. The two lanes have different controls for the shufpd in gcc's code. I think we need a new strategy.

They improved f1 and f2 cases to save one instruction wrt LLVM’s codegen

https://gcc.gnu.org/ml/gcc-patches/2019-08/msg01952.html

RKSimon mentioned this in rL370613: [X86][AVX] Rename + cleanup lowerShuffleAsLanePermuteAndBlend. NFCI..Sep 1 2019, 9:05 AM

RKSimon mentioned this in rG07de5292e5cf: [X86][AVX] Rename + cleanup lowerShuffleAsLanePermuteAndBlend. NFCI..

RKSimon mentioned this in rL371314: [X86][AVX] Add 'f5' v4f64 shuffle test mentioned in D66004.Sep 7 2019, 9:12 AM

RKSimon mentioned this in rG31c98abda3f9: [X86][AVX] Add 'f5' v4f64 shuffle test mentioned in D66004.

Rebase this?

WIP - PR27854 and PR43024 need to be finished first.

RKSimon mentioned this in rG9f0885d38d82: [X86][SSE] Avoid unnecessary PMOVZX in v4i8 sum reduction.Oct 12 2019, 8:19 AM

RKSimon mentioned this in rL374658: [X86][SSE] Avoid unnecessary PMOVZX in v4i8 sum reduction.

RKSimon mentioned this in rG31ed36d0447d: [X86] SimplifyDemandedVectorElts - attempt to recombine target shuffle using….Nov 4 2019, 3:53 AM

rebase - still work to do to improve unpck vs insertps selection

Herald added a subscriber: hiraditya. · View Herald TranscriptNov 4 2019, 4:32 AM

RKSimon planned changes to this revision.Nov 4 2019, 5:09 AM

rebase

RKSimon mentioned this in rG3804ac63d5d8: [X86][AVX] Add tests for v8f32/v8i32 089abcde and 0189abcd shuffles.Jan 10 2020, 2:47 AM

RKSimon mentioned this in rGce35010d782c: [X86][AVX] Add lowerShuffleAsLanePermuteAndSHUFP lowering.Jan 11 2020, 4:56 AM

RKSimon mentioned this in D72575: [x86] try harder to form 256-bit unpck*.Jan 13 2020, 11:51 AM

rebase (still looking at this)

rebase

RKSimon mentioned this in rGe71fb46a8fd1: [TargetLowering] SimplifyDemandedVectorElts - add DemandedElts mask to ISD….Mar 10 2020, 6:59 AM

RKSimon mentioned this in rGc6e5531f9b56: [X86][AVX] Combine shuffles to TRUNCATE/VTRUNC patterns.Mar 25 2020, 10:48 AM

RKSimon mentioned this in D79335: [X86][SSE] Move VZEXT_MOVL removal into SimplifyDemandedVectorEltsForTargetNode.May 4 2020, 9:21 AM

Status of this patch?

In D66004#2078352, @xbolva00 wrote:

Status of this patch?

I'm still looking at this - it both affects and is affected by so much code its a yak shaving nightmare to handle it all.

The big remaining issue is the loss of INSERTPS for some BUILDVECTOR patterns, which means we lose load folding on SSE41+ targets.

Additionally, we need to stop creating nodes on the fly inside combineX86ShufflesRecursively (see PR45974) as this screws up hasOneUse checks which are often vital in SimplifyDemandedBits/SimplifyDemandedVectorElts.

RKSimon mentioned this in rG8d30945ab96a: [X86][SSE] combineX86ShuffleChain - combine INSERT_VECTOR_ELT patterns to….Jun 12 2020, 4:17 AM

RKSimon mentioned this in D81791: [X86][SSE] Add SimplifyDemandedVectorEltsForTargetShuffle to handle target shuffle variable masks..Jun 13 2020, 11:12 AM

RKSimon mentioned this in rGfb9f9dc318d6: [X86][SSE] Add SimplifyDemandedVectorEltsForTargetShuffle to handle target….Jun 21 2020, 3:41 AM

rebased - the variable shuffle mask simplification has helped but theres still some work to do - next is to fix the movhlps(x,movss) vs insertps regression

Harbormaster failed remote builds in B61167: Diff 272307!Jun 21 2020, 7:56 AM

fix movhlps(x,scalar_to_vector(y)) -> insertps handling

Harbormaster completed remote builds in B61170: Diff 272316.Jun 21 2020, 12:11 PM

xbolva00 added inline comments.Jun 21 2020, 12:34 PM

llvm/test/CodeGen/X86/avx512bwvl-intrinsics-upgrade.ll
5637 ↗	(On Diff #272316)	Regression
llvm/test/CodeGen/X86/buildvec-insertvec.ll
408	Extra instructio (vs sse2)
llvm/test/CodeGen/X86/masked_expandload.ll
1299	Regression
llvm/test/CodeGen/X86/shuffle-vs-trunc-512.ll
332	Worse
417	Ouch

cheers @xbolva00 for what its worth, this is still a WIP, and SimplifyDemanded improvements do have a tendency to expose existing limitations (as well as find some awesome improvements.....)

llvm/test/CodeGen/X86/avx512bwvl-intrinsics-upgrade.ll
5637 ↗	(On Diff #272316)	The original vzext_movl (which isel would consume into the movd) has been replaced with a zero_extend_vector_inreg.
llvm/test/CodeGen/X86/buildvec-insertvec.ll
408	The original vzext_movl (which isel would consume into the movd) has been replaced with a zero_extend_vector_inreg.
llvm/test/CodeGen/X86/masked_expandload.ll
1299	We've managed to change the order of load combines and we prematurely end up with different element sizes which we then can't combine together later. This is an existing problem, we've just exposed it more.
llvm/test/CodeGen/X86/shuffle-vs-trunc-512.ll
332	still looking at these regressions - but we've always been very weak at shuffle combining different src/dst vector widths.

Fixed the vpmovzx regressions

Harbormaster failed remote builds in B62707: Diff 275153!Jul 2 2020, 10:48 AM

rebase

Harbormaster completed remote builds in B63714: Diff 276954.Jul 10 2020, 2:28 AM

rebase

Harbormaster failed remote builds in B65720: Diff 280728!Jul 26 2020, 7:18 AM

RKSimon mentioned this in rG1b1901536a7d: [X86][AVX] Extend v2f64 BROADCAST(LOAD) -> BROADCAST_LOAD to v2i64/v4f32/v4i32.Aug 1 2020, 4:29 AM

rebase

Harbormaster completed remote builds in B66658: Diff 282388.Aug 1 2020, 5:31 AM

RKSimon mentioned this in rGb60f99885945: [X86][SSE] Fold 128-bit PACK(EXTEND(X),EXTEND(Y)) -> CONCAT(X,Y) subvectors.Aug 5 2020, 10:29 AM

rebase

Harbormaster completed remote builds in B67138: Diff 283301.Aug 5 2020, 11:59 AM

RKSimon mentioned this in D85416: [ScalarizeMaskedMemIntrin] Scalarize constant mask expandload as shuffle(build_vector,pass_through).Aug 6 2020, 3:04 AM

RKSimon mentioned this in rG13b4db4ec206: [X86][SSE] Expose all memory offsets in expand load tests.Aug 6 2020, 3:28 AM

RKSimon mentioned this in rGc0c3b9a25fee: [ScalarizeMaskedMemIntrin] Scalarize constant mask expandload as shuffle….Aug 10 2020, 3:06 AM

rebase

Harbormaster completed remote builds in B67691: Diff 284306.Aug 10 2020, 4:26 AM

RKSimon mentioned this in rG1d2ede87eacb: [X86][AVX] Move lowerShuffleWithVPMOV inside explicit shuffle lowering cases.Aug 17 2020, 4:10 AM

RKSimon mentioned this in D86093: [X86][AVX] Lower v16i8/v8i16 shuffles using VTRUNC/TRUNCATE.Aug 17 2020, 10:50 AM

RKSimon mentioned this in rGd2057a8015e9: [X86][AVX] Lower v16i8/v8i16 binary shuffles using VTRUNC/TRUNCATE.Aug 18 2020, 3:12 AM

RKSimon mentioned this in rG87122c3480e2: [X86] Regenerate load-slice test labels. NFCI..Aug 18 2020, 8:09 AM

All regressions should now be covered.

Amazing work Simon!

Harbormaster completed remote builds in B68755: Diff 286284.Aug 18 2020, 8:49 AM

ping - I think this is ready for commital now, I delayed pinging as I knew I'd be away on holiday this week and a patch like this is likely to cause a few unexpected regressions that will need addressing.

LGTM

This revision is now accepted and ready to land.Aug 28 2020, 3:32 PM

Herald added a subscriber: danielkiss. · View Herald TranscriptAug 28 2020, 3:32 PM

This revision was landed with ongoing or failed builds.Sep 2 2020, 1:25 AM

Closed by commit rG21d02dc59579: [X86][SSE] SimplifyDemandedVectorEltsForTargetNode - add general shuffle… (authored by RKSimon). · Explain Why

This revision was automatically updated to reflect the committed changes.

RKSimon added a commit: rG21d02dc59579: [X86][SSE] SimplifyDemandedVectorEltsForTargetNode - add general shuffle….

RKSimon mentioned this in D86429: [X86] Make lowerShuffleAsLanePermuteAndPermute use sublanes on AVX2.Sep 2 2020, 2:19 AM

RKSimon mentioned this in D87005: [ScalarizeMaskedMemIntrin] Scalarize constant mask load as shuffle(build_vector,pass_through).Sep 2 2020, 3:47 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

81 lines

test/

CodeGen/

X86/

avg.ll

4 lines

avx-trunc.ll

2 lines

avx512-intrinsics-fast-isel.ll

4 lines

bitcast-and-setcc-128.ll

8 lines

bitcast-setcc-128.ll

4 lines

buildvec-extract.ll

7 lines

buildvec-insertvec.ll

11 lines

combine-fcopysign.ll

2 lines

combine-shl.ll

24 lines

haddsub-undef.ll

2 lines

insert-into-constant-vector.ll

16 lines

insertelement-shuffle.ll

4 lines

known-signbits-vector.ll

18 lines

load-partial.ll

81 lines

masked_expandload.ll

60 lines

masked_load.ll

74 lines

masked_store_trunc.ll

2 lines

140 lines

54 lines

103 lines

287 lines

4 lines

12 lines

6 lines

8 lines

8 lines

shuffle-strided-with-offset-128.ll

22 lines

shuffle-vs-trunc-256.ll

2 lines

shuffle-vs-trunc-512.ll

5 lines

srem-seteq-vec-nonsplat.ll

160 lines

4 lines

16 lines

25 lines

43 lines

urem-seteq-vec-nonsplat.ll

515 lines

urem-seteq-vec-nonzero.ll

12 lines

8 lines

8 lines

8 lines

10 lines

2 lines

vector-idiv-udiv-256.ll

4 lines

vector-pack-256.ll

2 lines

vector-reduce-and-bool.ll

2 lines

vector-reduce-mul.ll

126 lines

vector-reduce-or-bool.ll

2 lines

vector-reduce-xor-bool.ll

2 lines

vector-shuffle-128-v16.ll

10 lines

vector-shuffle-128-v4.ll

140 lines

vector-shuffle-128-v8.ll

10 lines

vector-shuffle-256-v16.ll

57 lines

vector-shuffle-256-v8.ll

12 lines

vector-shuffle-combining.ll

33 lines

vector-shuffle-variable-128.ll

76 lines

28 lines

19 lines

2 lines

2 lines

42 lines

Diff 289364

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 34,165 Lines • ▼ Show 20 Lines	static bool matchUnaryShuffle(MVT MaskVT, ArrayRef<int> Mask,
bool AllowFloatDomain, bool AllowIntDomain,		bool AllowFloatDomain, bool AllowIntDomain,
SDValue &V1, const SDLoc &DL, SelectionDAG &DAG,		SDValue &V1, const SDLoc &DL, SelectionDAG &DAG,
const X86Subtarget &Subtarget, unsigned &Shuffle,		const X86Subtarget &Subtarget, unsigned &Shuffle,
MVT &SrcVT, MVT &DstVT) {		MVT &SrcVT, MVT &DstVT) {
unsigned NumMaskElts = Mask.size();		unsigned NumMaskElts = Mask.size();
unsigned MaskEltSize = MaskVT.getScalarSizeInBits();		unsigned MaskEltSize = MaskVT.getScalarSizeInBits();

// Match against a VZEXT_MOVL vXi32 zero-extending instruction.		// Match against a VZEXT_MOVL vXi32 zero-extending instruction.
if (MaskEltSize == 32 && isUndefOrEqual(Mask[0], 0) &&		if (MaskEltSize == 32 && Mask[0] == 0) {
isUndefOrZero(Mask[1]) && isUndefInRange(Mask, 2, NumMaskElts - 2)) {		if (isUndefOrZero(Mask[1]) && isUndefInRange(Mask, 2, NumMaskElts - 2)) {
Shuffle = X86ISD::VZEXT_MOVL;		Shuffle = X86ISD::VZEXT_MOVL;
SrcVT = DstVT = !Subtarget.hasSSE2() ? MVT::v4f32 : MaskVT;		SrcVT = DstVT = !Subtarget.hasSSE2() ? MVT::v4f32 : MaskVT;
return true;		return true;
}		}
		if (V1.getOpcode() == ISD::SCALAR_TO_VECTOR &&
		isUndefOrZeroInRange(Mask, 1, NumMaskElts - 1)) {
		Shuffle = X86ISD::VZEXT_MOVL;
		SrcVT = DstVT = !Subtarget.hasSSE2() ? MVT::v4f32 : MaskVT;
		return true;
		}
		}

// Match against a ANY/ZERO_EXTEND_VECTOR_INREG instruction.		// Match against a ANY/ZERO_EXTEND_VECTOR_INREG instruction.
// TODO: Add 512-bit vector support (split AVX512F and AVX512BW).		// TODO: Add 512-bit vector support (split AVX512F and AVX512BW).
if (AllowIntDomain && ((MaskVT.is128BitVector() && Subtarget.hasSSE41()) \|\|		if (AllowIntDomain && ((MaskVT.is128BitVector() && Subtarget.hasSSE41()) \|\|
(MaskVT.is256BitVector() && Subtarget.hasInt256()))) {		(MaskVT.is256BitVector() && Subtarget.hasInt256()))) {
unsigned MaxScale = 64 / MaskEltSize;		unsigned MaxScale = 64 / MaskEltSize;
for (unsigned Scale = 2; Scale <= MaxScale; Scale *= 2) {		for (unsigned Scale = 2; Scale <= MaxScale; Scale *= 2) {
bool MatchAny = true;		bool MatchAny = true;
▲ Show 20 Lines • Show All 839 Lines • ▼ Show 20 Lines	if (matchUnaryPermuteShuffle(MaskVT, Mask, Zeroable, AllowFloatDomain,
return DAG.getBitcast(RootVT, Res);		return DAG.getBitcast(RootVT, Res);
}		}
}		}

// Attempt to combine to INSERTPS, but only if the inserted element has come		// Attempt to combine to INSERTPS, but only if the inserted element has come
// from a scalar.		// from a scalar.
// TODO: Handle other insertions here as well?		// TODO: Handle other insertions here as well?
if (!UnaryShuffle && AllowFloatDomain && RootSizeInBits == 128 &&		if (!UnaryShuffle && AllowFloatDomain && RootSizeInBits == 128 &&
MaskEltSizeInBits == 32 && Subtarget.hasSSE41() &&		Subtarget.hasSSE41() && !isTargetShuffleEquivalent(Mask, {4, 1, 2, 3})) {
!isTargetShuffleEquivalent(Mask, {4, 1, 2, 3})) {		if (MaskEltSizeInBits == 32) {
SDValue SrcV1 = V1, SrcV2 = V2;		SDValue SrcV1 = V1, SrcV2 = V2;
if (matchShuffleAsInsertPS(SrcV1, SrcV2, PermuteImm, Zeroable, Mask, DAG) &&		if (matchShuffleAsInsertPS(SrcV1, SrcV2, PermuteImm, Zeroable, Mask,
		DAG) &&
SrcV2.getOpcode() == ISD::SCALAR_TO_VECTOR) {		SrcV2.getOpcode() == ISD::SCALAR_TO_VECTOR) {
if (Depth == 0 && Root.getOpcode() == X86ISD::INSERTPS)		if (Depth == 0 && Root.getOpcode() == X86ISD::INSERTPS)
return SDValue(); // Nothing to do!		return SDValue(); // Nothing to do!
Res = DAG.getNode(X86ISD::INSERTPS, DL, MVT::v4f32,		Res = DAG.getNode(X86ISD::INSERTPS, DL, MVT::v4f32,
DAG.getBitcast(MVT::v4f32, SrcV1),		DAG.getBitcast(MVT::v4f32, SrcV1),
DAG.getBitcast(MVT::v4f32, SrcV2),		DAG.getBitcast(MVT::v4f32, SrcV2),
DAG.getTargetConstant(PermuteImm, DL, MVT::i8));		DAG.getTargetConstant(PermuteImm, DL, MVT::i8));
return DAG.getBitcast(RootVT, Res);		return DAG.getBitcast(RootVT, Res);
}		}
}		}
		if (MaskEltSizeInBits == 64 && isTargetShuffleEquivalent(Mask, {0, 2}) &&
		V2.getOpcode() == ISD::SCALAR_TO_VECTOR &&
		V2.getScalarValueSizeInBits() <= 32) {
		if (Depth == 0 && Root.getOpcode() == X86ISD::INSERTPS)
		return SDValue(); // Nothing to do!
		PermuteImm = (/DstIdx/2 << 4) \| (/SrcIdx/0 << 0);
		Res = DAG.getNode(X86ISD::INSERTPS, DL, MVT::v4f32,
		DAG.getBitcast(MVT::v4f32, V1),
		DAG.getBitcast(MVT::v4f32, V2),
		DAG.getTargetConstant(PermuteImm, DL, MVT::i8));
		return DAG.getBitcast(RootVT, Res);
		}
		}

SDValue NewV1 = V1; // Save operands in case early exit happens.		SDValue NewV1 = V1; // Save operands in case early exit happens.
SDValue NewV2 = V2;		SDValue NewV2 = V2;
if (matchBinaryShuffle(MaskVT, Mask, AllowFloatDomain, AllowIntDomain, NewV1,		if (matchBinaryShuffle(MaskVT, Mask, AllowFloatDomain, AllowIntDomain, NewV1,
NewV2, DL, DAG, Subtarget, Shuffle, ShuffleSrcVT,		NewV2, DL, DAG, Subtarget, Shuffle, ShuffleSrcVT,
ShuffleVT, UnaryShuffle) &&		ShuffleVT, UnaryShuffle) &&
(!IsMaskedShuffle \|\| (NumRootElts == ShuffleVT.getVectorNumElements()))) {		(!IsMaskedShuffle \|\| (NumRootElts == ShuffleVT.getVectorNumElements()))) {
if (Depth == 0 && Root.getOpcode() == Shuffle)		if (Depth == 0 && Root.getOpcode() == Shuffle)
▲ Show 20 Lines • Show All 642 Lines • ▼ Show 20 Lines	static SDValue combineX86ShufflesConstants(ArrayRef<SDValue> Ops,
MVT MaskVT = MVT::getVectorVT(MaskSVT, NumMaskElts);		MVT MaskVT = MVT::getVectorVT(MaskSVT, NumMaskElts);
if (!DAG.getTargetLoweringInfo().isTypeLegal(MaskVT))		if (!DAG.getTargetLoweringInfo().isTypeLegal(MaskVT))
return SDValue();		return SDValue();

SDValue CstOp = getConstVector(ConstantBitData, UndefElts, MaskVT, DAG, DL);		SDValue CstOp = getConstVector(ConstantBitData, UndefElts, MaskVT, DAG, DL);
return DAG.getBitcast(VT, CstOp);		return DAG.getBitcast(VT, CstOp);
}		}

		namespace llvm {
		namespace X86 {
		enum {
		MaxShuffleCombineDepth = 8
		};
		};
		}; // namespace llvm

/// Fully generic combining of x86 shuffle instructions.		/// Fully generic combining of x86 shuffle instructions.
///		///
/// This should be the last combine run over the x86 shuffle instructions. Once		/// This should be the last combine run over the x86 shuffle instructions. Once
/// they have been fully optimized, this will recursively consider all chains		/// they have been fully optimized, this will recursively consider all chains
/// of single-use shuffle instructions, build a generic model of the cumulative		/// of single-use shuffle instructions, build a generic model of the cumulative
/// shuffle operation, and check for simpler instructions which implement this		/// shuffle operation, and check for simpler instructions which implement this
/// operation. We use this primarily for two purposes:		/// operation. We use this primarily for two purposes:
///		///
Show All 16 Lines
///		///
/// FIXME: We will currently miss some cases where the redundant shuffling		/// FIXME: We will currently miss some cases where the redundant shuffling
/// would simplify under the threshold for PSHUFB formation because of		/// would simplify under the threshold for PSHUFB formation because of
/// combine-ordering. To fix this, we should do the redundant instruction		/// combine-ordering. To fix this, we should do the redundant instruction
/// combining in this recursive walk.		/// combining in this recursive walk.
static SDValue combineX86ShufflesRecursively(		static SDValue combineX86ShufflesRecursively(
ArrayRef<SDValue> SrcOps, int SrcOpIndex, SDValue Root,		ArrayRef<SDValue> SrcOps, int SrcOpIndex, SDValue Root,
ArrayRef<int> RootMask, ArrayRef<const SDNode *> SrcNodes, unsigned Depth,		ArrayRef<int> RootMask, ArrayRef<const SDNode *> SrcNodes, unsigned Depth,
bool HasVariableMask, bool AllowVariableMask, SelectionDAG &DAG,		unsigned MaxDepth, bool HasVariableMask, bool AllowVariableMask,
const X86Subtarget &Subtarget) {		SelectionDAG &DAG, const X86Subtarget &Subtarget) {
assert(RootMask.size() > 0 &&		assert(RootMask.size() > 0 &&
(RootMask.size() > 1 \|\| (RootMask[0] == 0 && SrcOpIndex == 0)) &&		(RootMask.size() > 1 \|\| (RootMask[0] == 0 && SrcOpIndex == 0)) &&
"Illegal shuffle root mask");		"Illegal shuffle root mask");
assert(Root.getSimpleValueType().isVector() &&		assert(Root.getSimpleValueType().isVector() &&
"Shuffles operate on vector types!");		"Shuffles operate on vector types!");
unsigned RootSizeInBits = Root.getSimpleValueType().getSizeInBits();		unsigned RootSizeInBits = Root.getSimpleValueType().getSizeInBits();

// Bound the depth of our recursive combine because this is ultimately		// Bound the depth of our recursive combine because this is ultimately
// quadratic in nature.		// quadratic in nature.
const unsigned MaxRecursionDepth = 8;		if (Depth >= MaxDepth)
if (Depth >= MaxRecursionDepth)
return SDValue();		return SDValue();

// Directly rip through bitcasts to find the underlying operand.		// Directly rip through bitcasts to find the underlying operand.
SDValue Op = SrcOps[SrcOpIndex];		SDValue Op = SrcOps[SrcOpIndex];
Op = peekThroughOneUseBitcasts(Op);		Op = peekThroughOneUseBitcasts(Op);

MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
if (!VT.isVector())		if (!VT.isVector())
▲ Show 20 Lines • Show All 182 Lines • ▼ Show 20 Lines	static SDValue combineX86ShufflesRecursively(

// See if we can recurse into each shuffle source op (if it's a target		// See if we can recurse into each shuffle source op (if it's a target
// shuffle). The source op should only be generally combined if it either has		// shuffle). The source op should only be generally combined if it either has
// a single use (i.e. current Op) or all its users have already been combined,		// a single use (i.e. current Op) or all its users have already been combined,
// if not then we can still combine but should prevent generation of variable		// if not then we can still combine but should prevent generation of variable
// shuffles to avoid constant pool bloat.		// shuffles to avoid constant pool bloat.
// Don't recurse if we already have more source ops than we can combine in		// Don't recurse if we already have more source ops than we can combine in
// the remaining recursion depth.		// the remaining recursion depth.
if (Ops.size() < (MaxRecursionDepth - Depth)) {		if (Ops.size() < (MaxDepth - Depth)) {
for (int i = 0, e = Ops.size(); i < e; ++i) {		for (int i = 0, e = Ops.size(); i < e; ++i) {
// For empty roots, we need to resolve zeroable elements before combining		// For empty roots, we need to resolve zeroable elements before combining
// them with other shuffles.		// them with other shuffles.
SmallVector<int, 64> ResolvedMask = Mask;		SmallVector<int, 64> ResolvedMask = Mask;
if (EmptyRoot)		if (EmptyRoot)
resolveTargetShuffleFromZeroables(ResolvedMask, OpUndef, OpZero);		resolveTargetShuffleFromZeroables(ResolvedMask, OpUndef, OpZero);
bool AllowVar = false;		bool AllowVar = false;
if (Ops[i].getNode()->hasOneUse() \|\|		if (Ops[i].getNode()->hasOneUse() \|\|
SDNode::areOnlyUsersOf(CombinedNodes, Ops[i].getNode()))		SDNode::areOnlyUsersOf(CombinedNodes, Ops[i].getNode()))
AllowVar = AllowVariableMask;		AllowVar = AllowVariableMask;
if (SDValue Res = combineX86ShufflesRecursively(		if (SDValue Res = combineX86ShufflesRecursively(
Ops, i, Root, ResolvedMask, CombinedNodes, Depth + 1,		Ops, i, Root, ResolvedMask, CombinedNodes, Depth + 1, MaxDepth,
HasVariableMask, AllowVar, DAG, Subtarget))		HasVariableMask, AllowVar, DAG, Subtarget))
return Res;		return Res;
}		}
}		}

// Attempt to constant fold all of the constant source ops.		// Attempt to constant fold all of the constant source ops.
if (SDValue Cst = combineX86ShufflesConstants(		if (SDValue Cst = combineX86ShufflesConstants(
Ops, Mask, Root, HasVariableMask, DAG, Subtarget))		Ops, Mask, Root, HasVariableMask, DAG, Subtarget))
Show All 35 Lines	return combineX86ShuffleChainWithExtract(Ops, Root, Mask, Depth,
HasVariableMask, AllowVariableMask,		HasVariableMask, AllowVariableMask,
DAG, Subtarget);		DAG, Subtarget);
}		}

/// Helper entry wrapper to combineX86ShufflesRecursively.		/// Helper entry wrapper to combineX86ShufflesRecursively.
static SDValue combineX86ShufflesRecursively(SDValue Op, SelectionDAG &DAG,		static SDValue combineX86ShufflesRecursively(SDValue Op, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
return combineX86ShufflesRecursively({Op}, 0, Op, {0}, {}, /Depth/ 0,		return combineX86ShufflesRecursively({Op}, 0, Op, {0}, {}, /Depth/ 0,
		X86::MaxShuffleCombineDepth,
/HasVarMask/ false,		/HasVarMask/ false,
/AllowVarMask/ true, DAG, Subtarget);		/AllowVarMask/ true, DAG, Subtarget);
}		}

/// Get the PSHUF-style mask from PSHUF node.		/// Get the PSHUF-style mask from PSHUF node.
///		///
/// This is a very minor wrapper around getTargetShuffleMask to easy forming v4		/// This is a very minor wrapper around getTargetShuffleMask to easy forming v4
/// PSHUF-style masks that can be reused with such instructions.		/// PSHUF-style masks that can be reused with such instructions.
▲ Show 20 Lines • Show All 289 Lines • ▼ Show 20 Lines	if (isTargetShuffle(BC.getOpcode()) &&
VT.getScalarSizeInBits() % BCVT.getScalarSizeInBits() == 0) {		VT.getScalarSizeInBits() % BCVT.getScalarSizeInBits() == 0) {
unsigned Scale = VT.getScalarSizeInBits() / BCVT.getScalarSizeInBits();		unsigned Scale = VT.getScalarSizeInBits() / BCVT.getScalarSizeInBits();
SmallVector<int, 16> DemandedMask(BCVT.getVectorNumElements(),		SmallVector<int, 16> DemandedMask(BCVT.getVectorNumElements(),
SM_SentinelUndef);		SM_SentinelUndef);
for (unsigned i = 0; i != Scale; ++i)		for (unsigned i = 0; i != Scale; ++i)
DemandedMask[i] = i;		DemandedMask[i] = i;
if (SDValue Res = combineX86ShufflesRecursively(		if (SDValue Res = combineX86ShufflesRecursively(
{BC}, 0, BC, DemandedMask, {}, /Depth/ 0,		{BC}, 0, BC, DemandedMask, {}, /Depth/ 0,
		X86::MaxShuffleCombineDepth,
/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))		/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))
return DAG.getNode(X86ISD::VBROADCAST, DL, VT,		return DAG.getNode(X86ISD::VBROADCAST, DL, VT,
DAG.getBitcast(SrcVT, Res));		DAG.getBitcast(SrcVT, Res));
}		}

// broadcast(bitcast(src)) -> bitcast(broadcast(src))		// broadcast(bitcast(src)) -> bitcast(broadcast(src))
// 32-bit targets have to bitcast i64 to f64, so better to bitcast upward.		// 32-bit targets have to bitcast i64 to f64, so better to bitcast upward.
if (Src.getOpcode() == ISD::BITCAST &&		if (Src.getOpcode() == ISD::BITCAST &&
▲ Show 20 Lines • Show All 1,467 Lines • ▼ Show 20 Lines	for (int Src = 0; Src != NumSrcs; ++Src) {
APInt SrcUndef, SrcZero;		APInt SrcUndef, SrcZero;
if (SimplifyDemandedVectorElts(OpInputs[Src], SrcElts, SrcUndef, SrcZero,		if (SimplifyDemandedVectorElts(OpInputs[Src], SrcElts, SrcUndef, SrcZero,
TLO, Depth + 1))		TLO, Depth + 1))
return true;		return true;
}		}

// If we don't demand all elements, then attempt to combine to a simpler		// If we don't demand all elements, then attempt to combine to a simpler
// shuffle.		// shuffle.
// TODO: Handle other depths, but first we need to handle the fact that		// We need to convert the depth to something combineX86ShufflesRecursively
// it might combine to the same shuffle.		// can handle - so pretend its Depth == 0 again, and reduce the max depth
if (!DemandedElts.isAllOnesValue() && Depth == 0) {		// to match. This prevents combineX86ShuffleChain from returning a
		// combined shuffle that's the same as the original root, causing an
		// infinite loop.
		if (!DemandedElts.isAllOnesValue()) {
		assert(Depth < X86::MaxShuffleCombineDepth && "Depth out of range");

SmallVector<int, 64> DemandedMask(NumElts, SM_SentinelUndef);		SmallVector<int, 64> DemandedMask(NumElts, SM_SentinelUndef);
for (int i = 0; i != NumElts; ++i)		for (int i = 0; i != NumElts; ++i)
if (DemandedElts[i])		if (DemandedElts[i])
DemandedMask[i] = i;		DemandedMask[i] = i;

SDValue NewShuffle = combineX86ShufflesRecursively(		SDValue NewShuffle = combineX86ShufflesRecursively(
{Op}, 0, Op, DemandedMask, {}, Depth, /HasVarMask/ false,		{Op}, 0, Op, DemandedMask, {}, 0, X86::MaxShuffleCombineDepth - Depth,
		/HasVarMask/ false,
/AllowVarMask/ true, TLO.DAG, Subtarget);		/AllowVarMask/ true, TLO.DAG, Subtarget);
if (NewShuffle)		if (NewShuffle)
return TLO.CombineTo(Op, NewShuffle);		return TLO.CombineTo(Op, NewShuffle);
}		}

return false;		return false;
}		}

▲ Show 20 Lines • Show All 5,581 Lines • ▼ Show 20 Lines	if (VT == SrcVecVT.getScalarType() &&
continue;		continue;
int VecIdx = Scale * Idx + i;		int VecIdx = Scale * Idx + i;
ShuffleMask[VecIdx] =		ShuffleMask[VecIdx] =
EltBits[i].isNullValue() ? SM_SentinelZero : VecIdx;		EltBits[i].isNullValue() ? SM_SentinelZero : VecIdx;
}		}

if (SDValue Shuffle = combineX86ShufflesRecursively(		if (SDValue Shuffle = combineX86ShufflesRecursively(
{SrcVec}, 0, SrcVec, ShuffleMask, {}, /Depth/ 1,		{SrcVec}, 0, SrcVec, ShuffleMask, {}, /Depth/ 1,
		X86::MaxShuffleCombineDepth,
/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))		/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))
return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SDLoc(N), VT, Shuffle,		return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SDLoc(N), VT, Shuffle,
N->getOperand(0).getOperand(1));		N->getOperand(0).getOperand(1));
}		}
}		}

return SDValue();		return SDValue();
}		}
▲ Show 20 Lines • Show All 7,362 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avg.ll

	Show First 20 Lines • Show All 2,740 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vmovq %r12, %xmm4			; AVX2-NEXT: vmovq %r12, %xmm4
	; AVX2-NEXT: vmovq %rbx, %xmm5			; AVX2-NEXT: vmovq %rbx, %xmm5
	; AVX2-NEXT: vmovq %rax, %xmm6			; AVX2-NEXT: vmovq %rax, %xmm6
	; AVX2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; AVX2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; AVX2-NEXT: shrq %rax			; AVX2-NEXT: shrq %rax
	; AVX2-NEXT: vmovq %rax, %xmm7			; AVX2-NEXT: vmovq %rax, %xmm7
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm8 = xmm9[0],xmm8[0],xmm9[1],xmm8[1],xmm9[2],xmm8[2],xmm9[3],xmm8[3],xmm9[4],xmm8[4],xmm9[5],xmm8[5],xmm9[6],xmm8[6],xmm9[7],xmm8[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm8 = xmm9[0],xmm8[0],xmm9[1],xmm8[1],xmm9[2],xmm8[2],xmm9[3],xmm8[3],xmm9[4],xmm8[4],xmm9[5],xmm8[5],xmm9[6],xmm8[6],xmm9[7],xmm8[7]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm9 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm9 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; AVX2-NEXT: vpslldq {{.*#+}} xmm8 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm8[0,1]			; AVX2-NEXT: vpbroadcastw %xmm8, %xmm8
	; AVX2-NEXT: vpbroadcastw %xmm9, %xmm0			; AVX2-NEXT: vpbroadcastw %xmm9, %xmm0
	; AVX2-NEXT: vpblendw {{.*#+}} xmm8 = xmm0[0,1,2,3,4,5,6],xmm8[7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm8 = xmm0[0,1,2,3,4,5,6],xmm8[7]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm13[0],xmm12[0],xmm13[1],xmm12[1],xmm13[2],xmm12[2],xmm13[3],xmm12[3],xmm13[4],xmm12[4],xmm13[5],xmm12[5],xmm13[6],xmm12[6],xmm13[7],xmm12[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm13[0],xmm12[0],xmm13[1],xmm12[1],xmm13[2],xmm12[2],xmm13[3],xmm12[3],xmm13[4],xmm12[4],xmm13[5],xmm12[5],xmm13[6],xmm12[6],xmm13[7],xmm12[7]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm9 = xmm15[0],xmm14[0],xmm15[1],xmm14[1],xmm15[2],xmm14[2],xmm15[3],xmm14[3],xmm15[4],xmm14[4],xmm15[5],xmm14[5],xmm15[6],xmm14[6],xmm15[7],xmm14[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm9 = xmm15[0],xmm14[0],xmm15[1],xmm14[1],xmm15[2],xmm14[2],xmm15[3],xmm14[3],xmm15[4],xmm14[4],xmm15[5],xmm14[5],xmm15[6],xmm14[6],xmm15[7],xmm14[7]
	; AVX2-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]			; AVX2-NEXT: vpbroadcastw %xmm0, %xmm0
	; AVX2-NEXT: vpbroadcastw %xmm9, %xmm1			; AVX2-NEXT: vpbroadcastw %xmm9, %xmm1
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3,4],xmm0[5],xmm1[6,7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3,4],xmm0[5],xmm1[6,7]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1,2],xmm8[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1,2],xmm8[3]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm11[0],xmm10[0],xmm11[1],xmm10[1],xmm11[2],xmm10[2],xmm11[3],xmm10[3],xmm11[4],xmm10[4],xmm11[5],xmm10[5],xmm11[6],xmm10[6],xmm11[7],xmm10[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm11[0],xmm10[0],xmm11[1],xmm10[1],xmm11[2],xmm10[2],xmm11[3],xmm10[3],xmm11[4],xmm10[4],xmm11[5],xmm10[5],xmm11[6],xmm10[6],xmm11[7],xmm10[7]
	; AVX2-NEXT: vpsllq $48, %xmm1, %xmm1			; AVX2-NEXT: vpsllq $48, %xmm1, %xmm1
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
	; AVX2-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX2-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX2-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[3],xmm2[4,5,6,7]			; AVX2-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[3],xmm2[4,5,6,7]
	▲ Show 20 Lines • Show All 355 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx-trunc.ll

Show All 10 Lines	; CHECK-NEXT: retq
%B = trunc <4 x i64> %A to <4 x i32>		%B = trunc <4 x i64> %A to <4 x i32>
ret <4 x i32>%B		ret <4 x i32>%B
}		}

define <8 x i16> @trunc_32_16(<8 x i32> %A) nounwind uwtable readnone ssp{		define <8 x i16> @trunc_32_16(<8 x i32> %A) nounwind uwtable readnone ssp{
; CHECK-LABEL: trunc_32_16:		; CHECK-LABEL: trunc_32_16:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1		; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1
; CHECK-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; CHECK-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
; CHECK-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; CHECK-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; CHECK-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; CHECK-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; CHECK-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%B = trunc <8 x i32> %A to <8 x i16>		%B = trunc <8 x i32> %A to <8 x i16>
ret <8 x i16>%B		ret <8 x i16>%B
}		}
Show All 14 Lines

llvm/test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 6,631 Lines • ▼ Show 20 Lines
	; X64-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; X64-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; X64-NEXT: vpsrlq $32, %xmm1, %xmm3			; X64-NEXT: vpsrlq $32, %xmm1, %xmm3
	; X64-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; X64-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X64-NEXT: vpsllq $32, %xmm2, %xmm2			; X64-NEXT: vpsllq $32, %xmm2, %xmm2
	; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; X64-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; X64-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; X64-NEXT: vpmuludq %xmm0, %xmm2, %xmm2			; X64-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
	; X64-NEXT: vpsrlq $32, %xmm0, %xmm3			; X64-NEXT: vpsrlq $32, %xmm0, %xmm3
	; X64-NEXT: vpmuludq %xmm3, %xmm1, %xmm3			; X64-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
	; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X64-NEXT: vpsllq $32, %xmm2, %xmm2			; X64-NEXT: vpsllq $32, %xmm2, %xmm2
	; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0			; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X64-NEXT: vmovq %xmm0, %rax			; X64-NEXT: vmovq %xmm0, %rax
	▲ Show 20 Lines • Show All 191 Lines • ▼ Show 20 Lines
	; X64-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; X64-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; X64-NEXT: vpsrlq $32, %xmm1, %xmm3			; X64-NEXT: vpsrlq $32, %xmm1, %xmm3
	; X64-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; X64-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X64-NEXT: vpsllq $32, %xmm2, %xmm2			; X64-NEXT: vpsllq $32, %xmm2, %xmm2
	; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; X64-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; X64-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[3,3,3,3]
	; X64-NEXT: vpmuludq %xmm0, %xmm2, %xmm2			; X64-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
	; X64-NEXT: vpsrlq $32, %xmm0, %xmm3			; X64-NEXT: vpsrlq $32, %xmm0, %xmm3
	; X64-NEXT: vpmuludq %xmm3, %xmm1, %xmm3			; X64-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
	; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X64-NEXT: vpsllq $32, %xmm2, %xmm2			; X64-NEXT: vpsllq $32, %xmm2, %xmm2
	; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0			; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X64-NEXT: vmovq %xmm0, %rax			; X64-NEXT: vmovq %xmm0, %rax
	▲ Show 20 Lines • Show All 3,090 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/bitcast-and-setcc-128.ll

Show First 20 Lines • Show All 176 Lines • ▼ Show 20 Lines	; AVX512BW-NEXT: retq
ret i16 %res		ret i16 %res
}		}

define i2 @v2i8(<2 x i8> %a, <2 x i8> %b, <2 x i8> %c, <2 x i8> %d) {		define i2 @v2i8(<2 x i8> %a, <2 x i8> %b, <2 x i8> %c, <2 x i8> %d) {
; SSE2-LABEL: v2i8:		; SSE2-LABEL: v2i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pcmpgtb %xmm1, %xmm0		; SSE2-NEXT: pcmpgtb %xmm1, %xmm0
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]
; SSE2-NEXT: pcmpgtb %xmm3, %xmm2		; SSE2-NEXT: pcmpgtb %xmm3, %xmm2
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,0,2,1,4,5,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
; SSE2-NEXT: pand %xmm0, %xmm1		; SSE2-NEXT: pand %xmm0, %xmm1
; SSE2-NEXT: movmskpd %xmm1, %eax		; SSE2-NEXT: movmskpd %xmm1, %eax
; SSE2-NEXT: # kill: def $al killed $al killed $eax		; SSE2-NEXT: # kill: def $al killed $al killed $eax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v2i8:		; SSSE3-LABEL: v2i8:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines	; AVX512BW-NEXT: retq
%res = bitcast <2 x i1> %y to i2		%res = bitcast <2 x i1> %y to i2
ret i2 %res		ret i2 %res
}		}

define i2 @v2i16(<2 x i16> %a, <2 x i16> %b, <2 x i16> %c, <2 x i16> %d) {		define i2 @v2i16(<2 x i16> %a, <2 x i16> %b, <2 x i16> %c, <2 x i16> %d) {
; SSE2-SSSE3-LABEL: v2i16:		; SSE2-SSSE3-LABEL: v2i16:
; SSE2-SSSE3: # %bb.0:		; SSE2-SSSE3: # %bb.0:
; SSE2-SSSE3-NEXT: pcmpgtw %xmm1, %xmm0		; SSE2-SSSE3-NEXT: pcmpgtw %xmm1, %xmm0
; SSE2-SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]		; SSE2-SSSE3-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]		; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]
; SSE2-SSSE3-NEXT: pcmpgtw %xmm3, %xmm2		; SSE2-SSSE3-NEXT: pcmpgtw %xmm3, %xmm2
; SSE2-SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]		; SSE2-SSSE3-NEXT: pshuflw {{.*#+}} xmm1 = xmm2[0,0,2,1,4,5,6,7]
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]		; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
; SSE2-SSSE3-NEXT: pand %xmm0, %xmm1		; SSE2-SSSE3-NEXT: pand %xmm0, %xmm1
; SSE2-SSSE3-NEXT: movmskpd %xmm1, %eax		; SSE2-SSSE3-NEXT: movmskpd %xmm1, %eax
; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax		; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax
; SSE2-SSSE3-NEXT: retq		; SSE2-SSSE3-NEXT: retq
;		;
; AVX12-LABEL: v2i16:		; AVX12-LABEL: v2i16:
; AVX12: # %bb.0:		; AVX12: # %bb.0:
▲ Show 20 Lines • Show All 341 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/bitcast-setcc-128.ll

Show First 20 Lines • Show All 142 Lines • ▼ Show 20 Lines	; AVX512BW-NEXT: retq
ret i16 %res		ret i16 %res
}		}

define i2 @v2i8(<2 x i8> %a, <2 x i8> %b) {		define i2 @v2i8(<2 x i8> %a, <2 x i8> %b) {
; SSE2-LABEL: v2i8:		; SSE2-LABEL: v2i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pcmpgtb %xmm1, %xmm0		; SSE2-NEXT: pcmpgtb %xmm1, %xmm0
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]
; SSE2-NEXT: movmskpd %xmm0, %eax		; SSE2-NEXT: movmskpd %xmm0, %eax
; SSE2-NEXT: # kill: def $al killed $al killed $eax		; SSE2-NEXT: # kill: def $al killed $al killed $eax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v2i8:		; SSSE3-LABEL: v2i8:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: pcmpgtb %xmm1, %xmm0		; SSSE3-NEXT: pcmpgtb %xmm1, %xmm0
Show All 30 Lines	; AVX512BW-NEXT: retq
%res = bitcast <2 x i1> %x to i2		%res = bitcast <2 x i1> %x to i2
ret i2 %res		ret i2 %res
}		}

define i2 @v2i16(<2 x i16> %a, <2 x i16> %b) {		define i2 @v2i16(<2 x i16> %a, <2 x i16> %b) {
; SSE2-SSSE3-LABEL: v2i16:		; SSE2-SSSE3-LABEL: v2i16:
; SSE2-SSSE3: # %bb.0:		; SSE2-SSSE3: # %bb.0:
; SSE2-SSSE3-NEXT: pcmpgtw %xmm1, %xmm0		; SSE2-SSSE3-NEXT: pcmpgtw %xmm1, %xmm0
; SSE2-SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]		; SSE2-SSSE3-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]		; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]
; SSE2-SSSE3-NEXT: movmskpd %xmm0, %eax		; SSE2-SSSE3-NEXT: movmskpd %xmm0, %eax
; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax		; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax
; SSE2-SSSE3-NEXT: retq		; SSE2-SSSE3-NEXT: retq
;		;
; AVX12-LABEL: v2i16:		; AVX12-LABEL: v2i16:
; AVX12: # %bb.0:		; AVX12: # %bb.0:
; AVX12-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0		; AVX12-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0
▲ Show 20 Lines • Show All 486 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/buildvec-extract.ll

Show First 20 Lines • Show All 401 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%z = zext i16 %e to i64		%z = zext i16 %e to i64
%r = insertelement <2 x i64> zeroinitializer, i64 %z, i32 0		%r = insertelement <2 x i64> zeroinitializer, i64 %z, i32 0
ret <2 x i64> %r		ret <2 x i64> %r
}		}

define <2 x i64> @extract1_i16_zext_insert0_i64_undef(<8 x i16> %x) {		define <2 x i64> @extract1_i16_zext_insert0_i64_undef(<8 x i16> %x) {
; SSE-LABEL: extract1_i16_zext_insert0_i64_undef:		; SSE-LABEL: extract1_i16_zext_insert0_i64_undef:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
; SSE-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; SSE-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: extract1_i16_zext_insert0_i64_undef:		; AVX-LABEL: extract1_i16_zext_insert0_i64_undef:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3]		; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
; AVX-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX-NEXT: retq		; AVX-NEXT: retq
%e = extractelement <8 x i16> %x, i32 1		%e = extractelement <8 x i16> %x, i32 1
%z = zext i16 %e to i64		%z = zext i16 %e to i64
%r = insertelement <2 x i64> undef, i64 %z, i32 0		%r = insertelement <2 x i64> undef, i64 %z, i32 0
ret <2 x i64> %r		ret <2 x i64> %r
}		}

▲ Show 20 Lines • Show All 220 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%z = zext i16 %e to i64		%z = zext i16 %e to i64
%r = insertelement <2 x i64> zeroinitializer, i64 %z, i32 1		%r = insertelement <2 x i64> zeroinitializer, i64 %z, i32 1
ret <2 x i64> %r		ret <2 x i64> %r
}		}

define <2 x i64> @extract3_i16_zext_insert1_i64_undef(<8 x i16> %x) {		define <2 x i64> @extract3_i16_zext_insert1_i64_undef(<8 x i16> %x) {
; SSE2-LABEL: extract3_i16_zext_insert1_i64_undef:		; SSE2-LABEL: extract3_i16_zext_insert1_i64_undef:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5,6,7]		; SSE2-NEXT: psrlq $48, %xmm0
; SSE2-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; SSE2-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5,6,7]		; SSE2-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5,6,7]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: extract3_i16_zext_insert1_i64_undef:		; SSE41-LABEL: extract3_i16_zext_insert1_i64_undef:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12,13]		; SSE41-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,xmm0[0,1,2,3,4,5,6,7,8,9,10,11,12,13]
; SSE41-NEXT: pxor %xmm1, %xmm1		; SSE41-NEXT: pxor %xmm1, %xmm1
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4],xmm1[5,6,7]		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4],xmm1[5,6,7]
Show All 34 Lines

llvm/test/CodeGen/X86/buildvec-insertvec.ll

	Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	}			}

	; Verify that the DAGCombiner doesn't wrongly fold a build_vector into a			; Verify that the DAGCombiner doesn't wrongly fold a build_vector into a
	; blend with a zero vector if the build_vector contains negative zero.			; blend with a zero vector if the build_vector contains negative zero.

	define <4 x float> @test_negative_zero_1(<4 x float> %A) {			define <4 x float> @test_negative_zero_1(<4 x float> %A) {
	; SSE2-LABEL: test_negative_zero_1:			; SSE2-LABEL: test_negative_zero_1:
	; SSE2: # %bb.0: # %entry			; SSE2: # %bb.0: # %entry
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: xorps %xmm1, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: unpckhps {{.*#+}} xmm2 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE2-NEXT: xorps %xmm2, %xmm2			; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
	; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_negative_zero_1:			; SSE41-LABEL: test_negative_zero_1:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2],zero			; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2],zero
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 334 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pinsrw $4, %edx, %xmm0			; SSE-NEXT: pinsrw $4, %edx, %xmm0
	; SSE-NEXT: pinsrw $5, %ecx, %xmm0			; SSE-NEXT: pinsrw $5, %ecx, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_buildvector_v8i16_register_zero:			; AVX-LABEL: test_buildvector_v8i16_register_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: movzwl %di, %eax			; AVX-NEXT: movzwl %di, %eax
	; AVX-NEXT: vmovd %eax, %xmm0			; AVX-NEXT: vmovd %eax, %xmm0
	; AVX-NEXT: vpinsrw $3, %esi, %xmm0, %xmm0			; AVX-NEXT: vpinsrw $3, %esi, %xmm0, %xmm0
				xbolva00Unsubmitted Not Done Reply Inline Actions Extra instructio (vs sse2) xbolva00: Extra instructio (vs sse2)
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions The original vzext_movl (which isel would consume into the movd) has been replaced with a zero_extend_vector_inreg. RKSimon: The original vzext_movl (which isel would consume into the movd) has been replaced with a…
	; AVX-NEXT: vpinsrw $4, %edx, %xmm0, %xmm0			; AVX-NEXT: vpinsrw $4, %edx, %xmm0, %xmm0
	; AVX-NEXT: vpinsrw $5, %ecx, %xmm0, %xmm0			; AVX-NEXT: vpinsrw $5, %ecx, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%ins0 = insertelement <8 x i16> undef, i16 %a0, i32 0			%ins0 = insertelement <8 x i16> undef, i16 %a0, i32 0
	%ins1 = insertelement <8 x i16> %ins0, i16 0, i32 1			%ins1 = insertelement <8 x i16> %ins0, i16 0, i32 1
	%ins2 = insertelement <8 x i16> %ins1, i16 0, i32 2			%ins2 = insertelement <8 x i16> %ins1, i16 0, i32 2
	%ins3 = insertelement <8 x i16> %ins2, i16 %a3, i32 3			%ins3 = insertelement <8 x i16> %ins2, i16 %a3, i32 3
	%ins4 = insertelement <8 x i16> %ins3, i16 %a4, i32 4			%ins4 = insertelement <8 x i16> %ins3, i16 %a4, i32 4
	▲ Show 20 Lines • Show All 416 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/combine-fcopysign.ll

	Show First 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	; SSE-NEXT: orps %xmm7, %xmm3			; SSE-NEXT: orps %xmm7, %xmm3
	; SSE-NEXT: movshdup {{.*#+}} xmm5 = xmm0[1,1,3,3]			; SSE-NEXT: movshdup {{.*#+}} xmm5 = xmm0[1,1,3,3]
	; SSE-NEXT: andps %xmm4, %xmm5			; SSE-NEXT: andps %xmm4, %xmm5
	; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]
	; SSE-NEXT: cvtsd2ss %xmm1, %xmm1			; SSE-NEXT: cvtsd2ss %xmm1, %xmm1
	; SSE-NEXT: andps {{.*}}(%rip), %xmm1			; SSE-NEXT: andps {{.*}}(%rip), %xmm1
	; SSE-NEXT: orps %xmm5, %xmm1			; SSE-NEXT: orps %xmm5, %xmm1
	; SSE-NEXT: unpcklps {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
	; SSE-NEXT: insertps {{.*#+}} xmm3 = xmm3[0,1],xmm6[0],xmm3[3]			; SSE-NEXT: movlhps {{.*#+}} xmm3 = xmm3[0],xmm6[0]
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; SSE-NEXT: andps %xmm4, %xmm0			; SSE-NEXT: andps %xmm4, %xmm0
	; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]			; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]
	; SSE-NEXT: xorps %xmm1, %xmm1			; SSE-NEXT: xorps %xmm1, %xmm1
	; SSE-NEXT: cvtsd2ss %xmm2, %xmm1			; SSE-NEXT: cvtsd2ss %xmm2, %xmm1
	; SSE-NEXT: andnps %xmm1, %xmm4			; SSE-NEXT: andnps %xmm1, %xmm4
	; SSE-NEXT: orps %xmm0, %xmm4			; SSE-NEXT: orps %xmm0, %xmm4
	; SSE-NEXT: insertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]			; SSE-NEXT: insertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]
	Show All 21 Lines

llvm/test/CodeGen/X86/combine-shl.ll

Show First 20 Lines • Show All 408 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%2 = shl <4 x i32> %1, <i32 5, i32 5, i32 5, i32 5>		%2 = shl <4 x i32> %1, <i32 5, i32 5, i32 5, i32 5>
ret <4 x i32> %2		ret <4 x i32> %2
}		}

define <4 x i32> @combine_vec_shl_ge_ashr_extact1(<4 x i32> %x) {		define <4 x i32> @combine_vec_shl_ge_ashr_extact1(<4 x i32> %x) {
; SSE2-LABEL: combine_vec_shl_ge_ashr_extact1:		; SSE2-LABEL: combine_vec_shl_ge_ashr_extact1:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrad $5, %xmm1		; SSE2-NEXT: psrad $3, %xmm1
; SSE2-NEXT: movdqa %xmm0, %xmm2		; SSE2-NEXT: movdqa %xmm0, %xmm2
; SSE2-NEXT: psrad $3, %xmm2		; SSE2-NEXT: psrad $5, %xmm2
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm1[2,3]		; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrad $8, %xmm1		; SSE2-NEXT: psrad $8, %xmm1
; SSE2-NEXT: psrad $4, %xmm0		; SSE2-NEXT: psrad $4, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[3,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[3,3]
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [32,64,128,256]		; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [32,64,128,256]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; SSE2-NEXT: pmuludq %xmm0, %xmm3		; SSE2-NEXT: pmuludq %xmm0, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%2 = shl <4 x i32> %1, <i32 3, i32 3, i32 3, i32 3>		%2 = shl <4 x i32> %1, <i32 3, i32 3, i32 3, i32 3>
ret <4 x i32> %2		ret <4 x i32> %2
}		}

define <4 x i32> @combine_vec_shl_lt_ashr_extact1(<4 x i32> %x) {		define <4 x i32> @combine_vec_shl_lt_ashr_extact1(<4 x i32> %x) {
; SSE2-LABEL: combine_vec_shl_lt_ashr_extact1:		; SSE2-LABEL: combine_vec_shl_lt_ashr_extact1:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrad $7, %xmm1		; SSE2-NEXT: psrad $5, %xmm1
; SSE2-NEXT: movdqa %xmm0, %xmm2		; SSE2-NEXT: movdqa %xmm0, %xmm2
; SSE2-NEXT: psrad $5, %xmm2		; SSE2-NEXT: psrad $7, %xmm2
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm1[2,3]		; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrad $8, %xmm1		; SSE2-NEXT: psrad $8, %xmm1
; SSE2-NEXT: psrad $6, %xmm0		; SSE2-NEXT: psrad $6, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[3,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[3,3]
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [8,16,32,256]		; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [8,16,32,256]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; SSE2-NEXT: pmuludq %xmm0, %xmm3		; SSE2-NEXT: pmuludq %xmm0, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%2 = shl <4 x i32> %1, <i32 5, i32 5, i32 5, i32 5>		%2 = shl <4 x i32> %1, <i32 5, i32 5, i32 5, i32 5>
ret <4 x i32> %2		ret <4 x i32> %2
}		}

define <4 x i32> @combine_vec_shl_gt_lshr1(<4 x i32> %x) {		define <4 x i32> @combine_vec_shl_gt_lshr1(<4 x i32> %x) {
; SSE2-LABEL: combine_vec_shl_gt_lshr1:		; SSE2-LABEL: combine_vec_shl_gt_lshr1:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrld $5, %xmm1		; SSE2-NEXT: psrld $3, %xmm1
; SSE2-NEXT: movdqa %xmm0, %xmm2		; SSE2-NEXT: movdqa %xmm0, %xmm2
; SSE2-NEXT: psrld $3, %xmm2		; SSE2-NEXT: psrld $5, %xmm2
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm1[2,3]		; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrld $8, %xmm1		; SSE2-NEXT: psrld $8, %xmm1
; SSE2-NEXT: psrld $4, %xmm0		; SSE2-NEXT: psrld $4, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[3,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[3,3]
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [32,64,128,256]		; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [32,64,128,256]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; SSE2-NEXT: pmuludq %xmm0, %xmm3		; SSE2-NEXT: pmuludq %xmm0, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%2 = shl <4 x i32> %1, <i32 3, i32 3, i32 3, i32 3>		%2 = shl <4 x i32> %1, <i32 3, i32 3, i32 3, i32 3>
ret <4 x i32> %2		ret <4 x i32> %2
}		}

define <4 x i32> @combine_vec_shl_le_lshr1(<4 x i32> %x) {		define <4 x i32> @combine_vec_shl_le_lshr1(<4 x i32> %x) {
; SSE2-LABEL: combine_vec_shl_le_lshr1:		; SSE2-LABEL: combine_vec_shl_le_lshr1:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrld $7, %xmm1		; SSE2-NEXT: psrld $5, %xmm1
; SSE2-NEXT: movdqa %xmm0, %xmm2		; SSE2-NEXT: movdqa %xmm0, %xmm2
; SSE2-NEXT: psrld $5, %xmm2		; SSE2-NEXT: psrld $7, %xmm2
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm1[2,3]		; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrld $8, %xmm1		; SSE2-NEXT: psrld $8, %xmm1
; SSE2-NEXT: psrld $6, %xmm0		; SSE2-NEXT: psrld $6, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[3,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[3,3]
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [8,16,32,256]		; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [8,16,32,256]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; SSE2-NEXT: pmuludq %xmm0, %xmm3		; SSE2-NEXT: pmuludq %xmm0, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
▲ Show 20 Lines • Show All 317 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/haddsub-undef.ll

	Show First 20 Lines • Show All 1,045 Lines • ▼ Show 20 Lines
	; SSE-SLOW-LABEL: PR34724_add_v4f32_0u23:			; SSE-SLOW-LABEL: PR34724_add_v4f32_0u23:
	; SSE-SLOW: # %bb.0:			; SSE-SLOW: # %bb.0:
	; SSE-SLOW-NEXT: movshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; SSE-SLOW-NEXT: movshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE-SLOW-NEXT: addps %xmm2, %xmm0			; SSE-SLOW-NEXT: addps %xmm2, %xmm0
	; SSE-SLOW-NEXT: movshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; SSE-SLOW-NEXT: movshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; SSE-SLOW-NEXT: addps %xmm1, %xmm2			; SSE-SLOW-NEXT: addps %xmm1, %xmm2
	; SSE-SLOW-NEXT: movsldup {{.*#+}} xmm3 = xmm1[0,0,2,2]			; SSE-SLOW-NEXT: movsldup {{.*#+}} xmm3 = xmm1[0,0,2,2]
	; SSE-SLOW-NEXT: addps %xmm1, %xmm3			; SSE-SLOW-NEXT: addps %xmm1, %xmm3
	; SSE-SLOW-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,0],xmm2[0,0]			; SSE-SLOW-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,1],xmm2[0,3]
	; SSE-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,0]			; SSE-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,0]
	; SSE-SLOW-NEXT: retq			; SSE-SLOW-NEXT: retq
	;			;
	; SSE-FAST-LABEL: PR34724_add_v4f32_0u23:			; SSE-FAST-LABEL: PR34724_add_v4f32_0u23:
	; SSE-FAST: # %bb.0:			; SSE-FAST: # %bb.0:
	; SSE-FAST-NEXT: haddps %xmm1, %xmm0			; SSE-FAST-NEXT: haddps %xmm1, %xmm0
	; SSE-FAST-NEXT: retq			; SSE-FAST-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 291 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/insert-into-constant-vector.ll

Show First 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
; X64AVX-NEXT: retq		; X64AVX-NEXT: retq
%ins = insertelement <8 x i16> <i16 42, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7>, i16 %x, i32 5		%ins = insertelement <8 x i16> <i16 42, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7>, i16 %x, i32 5
ret <8 x i16> %ins		ret <8 x i16> %ins
}		}

define <4 x i32> @elt3_v4i32(i32 %x) {		define <4 x i32> @elt3_v4i32(i32 %x) {
; X32SSE2-LABEL: elt3_v4i32:		; X32SSE2-LABEL: elt3_v4i32:
; X32SSE2: # %bb.0:		; X32SSE2: # %bb.0:
; X32SSE2-NEXT: movaps {{.*#+}} xmm0 = <42,1,2,u>
; X32SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; X32SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; X32SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; X32SSE2-NEXT: movaps {{.*#+}} xmm0 = <42,1,2,u>
		; X32SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; X32SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; X32SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; X32SSE2-NEXT: retl		; X32SSE2-NEXT: retl
;		;
; X64SSE2-LABEL: elt3_v4i32:		; X64SSE2-LABEL: elt3_v4i32:
; X64SSE2: # %bb.0:		; X64SSE2: # %bb.0:
; X64SSE2-NEXT: movd %edi, %xmm1		; X64SSE2-NEXT: movd %edi, %xmm1
; X64SSE2-NEXT: movaps {{.*#+}} xmm0 = <42,1,2,u>		; X64SSE2-NEXT: movaps {{.*#+}} xmm0 = <42,1,2,u>
; X64SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; X64SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; X64SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; X64SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; X64SSE2-NEXT: retq		; X64SSE2-NEXT: retq
;		;
; X32SSE4-LABEL: elt3_v4i32:		; X32SSE4-LABEL: elt3_v4i32:
; X32SSE4: # %bb.0:		; X32SSE4: # %bb.0:
; X32SSE4-NEXT: movdqa {{.*#+}} xmm0 = <42,1,2,u>		; X32SSE4-NEXT: movdqa {{.*#+}} xmm0 = <42,1,2,u>
; X32SSE4-NEXT: pinsrd $3, {{[0-9]+}}(%esp), %xmm0		; X32SSE4-NEXT: pinsrd $3, {{[0-9]+}}(%esp), %xmm0
; X32SSE4-NEXT: retl		; X32SSE4-NEXT: retl
▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	; X64AVX-NEXT: retq
ret <2 x i64> %ins		ret <2 x i64> %ins
}		}

define <4 x float> @elt1_v4f32(float %x) {		define <4 x float> @elt1_v4f32(float %x) {
; X32SSE2-LABEL: elt1_v4f32:		; X32SSE2-LABEL: elt1_v4f32:
; X32SSE2: # %bb.0:		; X32SSE2: # %bb.0:
; X32SSE2-NEXT: movaps {{.*#+}} xmm1 = <4.2E+1,u,2.0E+0,3.0E+0>		; X32SSE2-NEXT: movaps {{.*#+}} xmm1 = <4.2E+1,u,2.0E+0,3.0E+0>
; X32SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; X32SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; X32SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]		; X32SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; X32SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; X32SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; X32SSE2-NEXT: retl		; X32SSE2-NEXT: retl
;		;
; X64SSE2-LABEL: elt1_v4f32:		; X64SSE2-LABEL: elt1_v4f32:
; X64SSE2: # %bb.0:		; X64SSE2: # %bb.0:
; X64SSE2-NEXT: movaps {{.*#+}} xmm1 = <4.2E+1,u,2.0E+0,3.0E+0>		; X64SSE2-NEXT: movaps {{.*#+}} xmm1 = <4.2E+1,u,2.0E+0,3.0E+0>
; X64SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]		; X64SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; X64SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; X64SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; X64SSE2-NEXT: retq		; X64SSE2-NEXT: retq
;		;
; X32SSE4-LABEL: elt1_v4f32:		; X32SSE4-LABEL: elt1_v4f32:
; X32SSE4: # %bb.0:		; X32SSE4: # %bb.0:
; X32SSE4-NEXT: movaps {{.*#+}} xmm0 = <4.2E+1,u,2.0E+0,3.0E+0>		; X32SSE4-NEXT: movaps {{.*#+}} xmm0 = <4.2E+1,u,2.0E+0,3.0E+0>
; X32SSE4-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]		; X32SSE4-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
; X32SSE4-NEXT: retl		; X32SSE4-NEXT: retl
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
; X64AVX-NEXT: retq		; X64AVX-NEXT: retq
%ins = insertelement <2 x double> <double 42.0, double 1.0>, double %x, i32 1		%ins = insertelement <2 x double> <double 42.0, double 1.0>, double %x, i32 1
ret <2 x double> %ins		ret <2 x double> %ins
}		}

define <8 x i32> @elt7_v8i32(i32 %x) {		define <8 x i32> @elt7_v8i32(i32 %x) {
; X32SSE2-LABEL: elt7_v8i32:		; X32SSE2-LABEL: elt7_v8i32:
; X32SSE2: # %bb.0:		; X32SSE2: # %bb.0:
; X32SSE2-NEXT: movaps {{.*#+}} xmm1 = <4,5,6,u>
; X32SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; X32SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; X32SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[2,0]		; X32SSE2-NEXT: movaps {{.*#+}} xmm1 = <4,5,6,u>
		; X32SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
; X32SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]		; X32SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]
; X32SSE2-NEXT: movaps {{.*#+}} xmm0 = [42,1,2,3]		; X32SSE2-NEXT: movaps {{.*#+}} xmm0 = [42,1,2,3]
; X32SSE2-NEXT: retl		; X32SSE2-NEXT: retl
;		;
; X64SSE2-LABEL: elt7_v8i32:		; X64SSE2-LABEL: elt7_v8i32:
; X64SSE2: # %bb.0:		; X64SSE2: # %bb.0:
; X64SSE2-NEXT: movd %edi, %xmm0		; X64SSE2-NEXT: movd %edi, %xmm0
; X64SSE2-NEXT: movaps {{.*#+}} xmm1 = <4,5,6,u>		; X64SSE2-NEXT: movaps {{.*#+}} xmm1 = <4,5,6,u>
; X64SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[2,0]		; X64SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
; X64SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]		; X64SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]
; X64SSE2-NEXT: movaps {{.*#+}} xmm0 = [42,1,2,3]		; X64SSE2-NEXT: movaps {{.*#+}} xmm0 = [42,1,2,3]
; X64SSE2-NEXT: retq		; X64SSE2-NEXT: retq
;		;
; X32SSE4-LABEL: elt7_v8i32:		; X32SSE4-LABEL: elt7_v8i32:
; X32SSE4: # %bb.0:		; X32SSE4: # %bb.0:
; X32SSE4-NEXT: movdqa {{.*#+}} xmm1 = <4,5,6,u>		; X32SSE4-NEXT: movdqa {{.*#+}} xmm1 = <4,5,6,u>
; X32SSE4-NEXT: pinsrd $3, {{[0-9]+}}(%esp), %xmm1		; X32SSE4-NEXT: pinsrd $3, {{[0-9]+}}(%esp), %xmm1
▲ Show 20 Lines • Show All 257 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/insertelement-shuffle.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=avx2 \| FileCheck %s --check-prefixes=X86,X86_AVX256			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=avx2 \| FileCheck %s --check-prefixes=X86,X86_AVX256
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx2 \| FileCheck %s --check-prefixes=X64,X64_AVX256			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx2 \| FileCheck %s --check-prefixes=X64,X64_AVX256
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=avx512f \| FileCheck %s --check-prefixes=X86,X86_AVX512			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=avx512f \| FileCheck %s --check-prefixes=X86,X86_AVX512
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512f \| FileCheck %s --check-prefixes=X64,X64_AVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512f \| FileCheck %s --check-prefixes=X64,X64_AVX512

	define <8 x float> @insert_subvector_256(i16 %x0, i16 %x1, <8 x float> %v) nounwind {			define <8 x float> @insert_subvector_256(i16 %x0, i16 %x1, <8 x float> %v) nounwind {
	; X86-LABEL: insert_subvector_256:			; X86-LABEL: insert_subvector_256:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X86-NEXT: vpinsrw $1, {{[0-9]+}}(%esp), %xmm1, %xmm1			; X86-NEXT: vpinsrw $1, {{[0-9]+}}(%esp), %xmm1, %xmm1
	; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]			; X86-NEXT: vpbroadcastd %xmm1, %xmm1
	; X86-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7]			; X86-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7]
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: insert_subvector_256:			; X64-LABEL: insert_subvector_256:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vmovd %edi, %xmm1			; X64-NEXT: vmovd %edi, %xmm1
	; X64-NEXT: vpinsrw $1, %esi, %xmm1, %xmm1			; X64-NEXT: vpinsrw $1, %esi, %xmm1, %xmm1
	; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]			; X64-NEXT: vpbroadcastd %xmm1, %xmm1
	; X64-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7]			; X64-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2,3,4,5,6,7]
	; X64-NEXT: retq			; X64-NEXT: retq
	%ins1 = insertelement <2 x i16> undef, i16 %x0, i32 0			%ins1 = insertelement <2 x i16> undef, i16 %x0, i32 0
	%ins2 = insertelement <2 x i16> %ins1, i16 %x1, i32 1			%ins2 = insertelement <2 x i16> %ins1, i16 %x1, i32 1
	%bc = bitcast <2 x i16> %ins2 to float			%bc = bitcast <2 x i16> %ins2 to float
	%ins3 = insertelement <8 x float> %v, float %bc, i32 1			%ins3 = insertelement <8 x float> %v, float %bc, i32 1
	ret <8 x float> %ins3			ret <8 x float> %ins3
	}			}
	▲ Show 20 Lines • Show All 77 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/known-signbits-vector.ll

	Show First 20 Lines • Show All 315 Lines • ▼ Show 20 Lines
	; X64-AVX2-NEXT: vcvtdq2pd %xmm0, %xmm0			; X64-AVX2-NEXT: vcvtdq2pd %xmm0, %xmm0
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	%1 = sext <2 x i16> %a0 to <2 x i64>			%1 = sext <2 x i16> %a0 to <2 x i64>
	%2 = shl <2 x i64> %1, <i64 11, i64 5>			%2 = shl <2 x i64> %1, <i64 11, i64 5>
	%3 = sitofp <2 x i64> %2 to <2 x double>			%3 = sitofp <2 x i64> %2 to <2 x double>
	ret <2 x double> %3			ret <2 x double> %3
	}			}

	; TODO: Fix vpshufd+vpsrlq -> vpshufd/vpermilps
	define <2 x double> @signbits_ashr_concat_ashr_extract_sitofp(<2 x i64> %a0, <4 x i64> %a1) nounwind {			define <2 x double> @signbits_ashr_concat_ashr_extract_sitofp(<2 x i64> %a0, <4 x i64> %a1) nounwind {
	; X86-LABEL: signbits_ashr_concat_ashr_extract_sitofp:			; CHECK-LABEL: signbits_ashr_concat_ashr_extract_sitofp:
	; X86: # %bb.0:			; CHECK: # %bb.0:
	; X86-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]			; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; X86-NEXT: vcvtdq2pd %xmm0, %xmm0			; CHECK-NEXT: vcvtdq2pd %xmm0, %xmm0
	; X86-NEXT: retl			; CHECK-NEXT: ret{{[l\|q]}}
	;
	; X64-LABEL: signbits_ashr_concat_ashr_extract_sitofp:
	; X64: # %bb.0:
	; X64-NEXT: vpsrlq $32, %xmm0, %xmm0
	; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-NEXT: vcvtdq2pd %xmm0, %xmm0
	; X64-NEXT: retq
	%1 = ashr <2 x i64> %a0, <i64 16, i64 16>			%1 = ashr <2 x i64> %a0, <i64 16, i64 16>
	%2 = shufflevector <2 x i64> %1, <2 x i64> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>			%2 = shufflevector <2 x i64> %1, <2 x i64> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
	%3 = shufflevector <4 x i64> %a1, <4 x i64> %2, <4 x i32> <i32 0, i32 1, i32 4, i32 5>			%3 = shufflevector <4 x i64> %a1, <4 x i64> %2, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
	%4 = ashr <4 x i64> %3, <i64 16, i64 16, i64 16, i64 16>			%4 = ashr <4 x i64> %3, <i64 16, i64 16, i64 16, i64 16>
	%5 = shufflevector <4 x i64> %4, <4 x i64> undef, <2 x i32> <i32 2, i32 3>			%5 = shufflevector <4 x i64> %4, <4 x i64> undef, <2 x i32> <i32 2, i32 3>
	%6 = sitofp <2 x i64> %5 to <2 x double>			%6 = sitofp <2 x i64> %5 to <2 x double>
	ret <2 x double> %6			ret <2 x double> %6
	}			}
	▲ Show 20 Lines • Show All 463 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/load-partial.ll

Show First 20 Lines • Show All 340 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%1 = load <2 x i8>, <2 x i8>* bitcast (i8* @h to <2 x i8>*), align 1		%1 = load <2 x i8>, <2 x i8>* bitcast (i8* @h to <2 x i8>*), align 1
%2 = shufflevector <2 x i8> %1, <2 x i8> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>		%2 = shufflevector <2 x i8> %1, <2 x i8> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
%3 = insertelement <4 x i8> %2, i8 2, i32 2		%3 = insertelement <4 x i8> %2, i8 2, i32 2
%4 = bitcast <4 x i8> %3 to i32		%4 = bitcast <4 x i8> %3 to i32
ret i32 %4		ret i32 %4
}		}

define void @PR43227(i32* %explicit_0, <8 x i32>* %explicit_1) {		define void @PR43227(i32* %explicit_0, <8 x i32>* %explicit_1) {
; SSE2-LABEL: PR43227:		; SSE-LABEL: PR43227:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,1,1]		; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: psrlq $32, %xmm0
; SSE2-NEXT: xorps %xmm2, %xmm2		; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: movss {{.*#+}} xmm2 = xmm0[0],xmm2[1,2,3]		; SSE-NEXT: pxor %xmm1, %xmm1
; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE-NEXT: movdqa %xmm1, 672(%rsi)
; SSE2-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm0[0]		; SSE-NEXT: movdqa %xmm0, 688(%rsi)
; SSE2-NEXT: movaps %xmm1, 672(%rsi)		; SSE-NEXT: retq
; SSE2-NEXT: movaps %xmm2, 688(%rsi)
; SSE2-NEXT: retq
;
; SSSE3-LABEL: PR43227:
; SSSE3: # %bb.0:
; SSSE3-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,1,1]
; SSSE3-NEXT: xorps %xmm1, %xmm1
; SSSE3-NEXT: xorps %xmm2, %xmm2
; SSSE3-NEXT: movss {{.*#+}} xmm2 = xmm0[0],xmm2[1,2,3]
; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm0[0]
; SSSE3-NEXT: movaps %xmm1, 672(%rsi)
; SSSE3-NEXT: movaps %xmm2, 688(%rsi)
; SSSE3-NEXT: retq
;
; SSE41-LABEL: PR43227:
; SSE41: # %bb.0:
; SSE41-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,1,1]
; SSE41-NEXT: pxor %xmm1, %xmm1
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3,4,5,6,7]
; SSE41-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSE41-NEXT: movdqa %xmm1, 672(%rsi)
; SSE41-NEXT: movdqa %xmm0, 688(%rsi)
; SSE41-NEXT: retq
;		;
; AVX-LABEL: PR43227:		; AVX1-LABEL: PR43227:
; AVX: # %bb.0:		; AVX1: # %bb.0:
; AVX-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,1,1,1]		; AVX1-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vmovaps %ymm0, 672(%rsi)
; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vzeroupper
; AVX-NEXT: vmovaps %ymm0, 672(%rsi)		; AVX1-NEXT: retq
; AVX-NEXT: vzeroupper		;
; AVX-NEXT: retq		; AVX2-LABEL: PR43227:
		; AVX2: # %bb.0:
		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
		; AVX2-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm0
		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
		; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
		; AVX2-NEXT: vmovdqa %ymm0, 672(%rsi)
		; AVX2-NEXT: vzeroupper
		; AVX2-NEXT: retq
%1 = getelementptr i32, i32* %explicit_0, i64 63		%1 = getelementptr i32, i32* %explicit_0, i64 63
%2 = bitcast i32* %1 to <3 x i32>*		%2 = bitcast i32* %1 to <3 x i32>*
%3 = load <3 x i32>, <3 x i32>* %2, align 1		%3 = load <3 x i32>, <3 x i32>* %2, align 1
%4 = shufflevector <3 x i32> %3, <3 x i32> undef, <2 x i32> <i32 1, i32 2>		%4 = shufflevector <3 x i32> %3, <3 x i32> undef, <2 x i32> <i32 1, i32 2>
%5 = shufflevector <2 x i32> %4, <2 x i32> undef, <8 x i32> <i32 0, i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%5 = shufflevector <2 x i32> %4, <2 x i32> undef, <8 x i32> <i32 0, i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%6 = shufflevector <8 x i32> <i32 0, i32 0, i32 0, i32 0, i32 undef, i32 0, i32 undef, i32 0>, <8 x i32> %5, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 8, i32 5, i32 9, i32 7>		%6 = shufflevector <8 x i32> <i32 0, i32 0, i32 0, i32 0, i32 undef, i32 0, i32 undef, i32 0>, <8 x i32> %5, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 8, i32 5, i32 9, i32 7>
%7 = getelementptr inbounds <8 x i32>, <8 x i32>* %explicit_1, i64 21		%7 = getelementptr inbounds <8 x i32>, <8 x i32>* %explicit_1, i64 21
store <8 x i32> %6, <8 x i32>* %7, align 32		store <8 x i32> %6, <8 x i32>* %7, align 32
ret void		ret void
}		}

llvm/test/CodeGen/X86/masked_expandload.ll

Show First 20 Lines • Show All 1,130 Lines • ▼ Show 20 Lines
; SSE2-NEXT: LBB4_1: ## %cond.load		; SSE2-NEXT: LBB4_1: ## %cond.load
; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
; SSE2-NEXT: addq $4, %rdi		; SSE2-NEXT: addq $4, %rdi
; SSE2-NEXT: testb $2, %al		; SSE2-NEXT: testb $2, %al
; SSE2-NEXT: je LBB4_4		; SSE2-NEXT: je LBB4_4
; SSE2-NEXT: LBB4_3: ## %cond.load1		; SSE2-NEXT: LBB4_3: ## %cond.load1
; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: expandload_v2f32_v2i1:		; SSE42-LABEL: expandload_v2f32_v2i1:
; SSE42: ## %bb.0:		; SSE42: ## %bb.0:
; SSE42-NEXT: pxor %xmm2, %xmm2		; SSE42-NEXT: pxor %xmm2, %xmm2
; SSE42-NEXT: pcmpeqd %xmm1, %xmm2		; SSE42-NEXT: pcmpeqd %xmm1, %xmm2
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	; AVX512VLBW-NEXT: retq
%mask = icmp eq <2 x i32> %trigger, zeroinitializer		%mask = icmp eq <2 x i32> %trigger, zeroinitializer
%res = call <2 x float> @llvm.masked.expandload.v2f32(float* %base, <2 x i1> %mask, <2 x float> %src0)		%res = call <2 x float> @llvm.masked.expandload.v2f32(float* %base, <2 x i1> %mask, <2 x float> %src0)
ret <2 x float> %res		ret <2 x float> %res
}		}

define <4 x float> @expandload_v4f32_const(float* %base, <4 x float> %src0) {		define <4 x float> @expandload_v4f32_const(float* %base, <4 x float> %src0) {
; SSE2-LABEL: expandload_v4f32_const:		; SSE2-LABEL: expandload_v4f32_const:
; SSE2: ## %bb.0:		; SSE2: ## %bb.0:
; SSE2-NEXT: movss 8(%rdi), %xmm2 ## xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: movsd (%rdi), %xmm1 ## xmm1 = mem[0],zero		; SSE2-NEXT: movsd (%rdi), %xmm1 ## xmm1 = mem[0],zero
; SSE2-NEXT: movaps %xmm1, %xmm3		; SSE2-NEXT: movss 8(%rdi), %xmm2 ## xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: movlhps {{.*#+}} xmm3 = xmm3[0],xmm2[0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1],xmm2[0,3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,0],xmm3[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: expandload_v4f32_const:		; SSE42-LABEL: expandload_v4f32_const:
; SSE42: ## %bb.0:		; SSE42: ## %bb.0:
; SSE42-NEXT: movsd (%rdi), %xmm1 ## xmm1 = mem[0],zero		; SSE42-NEXT: movsd (%rdi), %xmm1 ## xmm1 = mem[0],zero
; SSE42-NEXT: insertps $32, 8(%rdi), %xmm1 ## xmm1 = xmm1[0,1],mem[0],xmm1[3]		; SSE42-NEXT: insertps $32, 8(%rdi), %xmm1 ## xmm1 = xmm1[0,1],mem[0],xmm1[3]
Show All 32 Lines
; AVX512VLBW-NEXT: retq		; AVX512VLBW-NEXT: retq
%res = call <4 x float> @llvm.masked.expandload.v4f32(float* %base, <4 x i1> <i1 true, i1 true, i1 true, i1 false>, <4 x float> %src0)		%res = call <4 x float> @llvm.masked.expandload.v4f32(float* %base, <4 x i1> <i1 true, i1 true, i1 true, i1 false>, <4 x float> %src0)
ret <4 x float>%res		ret <4 x float>%res
}		}

define <16 x float> @expandload_v16f32_const(float* %base, <16 x float> %src0) {		define <16 x float> @expandload_v16f32_const(float* %base, <16 x float> %src0) {
; SSE2-LABEL: expandload_v16f32_const:		; SSE2-LABEL: expandload_v16f32_const:
; SSE2: ## %bb.0:		; SSE2: ## %bb.0:
; SSE2-NEXT: movss 52(%rdi), %xmm0 ## xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movsd 44(%rdi), %xmm4 ## xmm4 = mem[0],zero
; SSE2-NEXT: movaps %xmm4, %xmm6
; SSE2-NEXT: movlhps {{.*#+}} xmm6 = xmm6[0],xmm0[0]
; SSE2-NEXT: movss 40(%rdi), %xmm0 ## xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movsd 32(%rdi), %xmm5 ## xmm5 = mem[0],zero
; SSE2-NEXT: movaps %xmm5, %xmm7
; SSE2-NEXT: movlhps {{.*#+}} xmm7 = xmm7[0],xmm0[0]
; SSE2-NEXT: movups (%rdi), %xmm0		; SSE2-NEXT: movups (%rdi), %xmm0
; SSE2-NEXT: movups 16(%rdi), %xmm1		; SSE2-NEXT: movups 16(%rdi), %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[3,0],xmm7[2,0]		; SSE2-NEXT: movsd 44(%rdi), %xmm4 ## xmm4 = mem[0],zero
		; SSE2-NEXT: movss 52(%rdi), %xmm6 ## xmm6 = mem[0],zero,zero,zero
		; SSE2-NEXT: movsd 32(%rdi), %xmm5 ## xmm5 = mem[0],zero
		; SSE2-NEXT: movss 40(%rdi), %xmm7 ## xmm7 = mem[0],zero,zero,zero
		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[3,1],xmm7[0,3]
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,1],xmm2[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,1],xmm2[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,0],xmm6[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,1],xmm6[0,3]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm3[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm3[2,0]
; SSE2-NEXT: movaps %xmm5, %xmm2		; SSE2-NEXT: movaps %xmm5, %xmm2
; SSE2-NEXT: movaps %xmm4, %xmm3		; SSE2-NEXT: movaps %xmm4, %xmm3
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: expandload_v16f32_const:		; SSE42-LABEL: expandload_v16f32_const:
; SSE42: ## %bb.0:		; SSE42: ## %bb.0:
; SSE42-NEXT: movsd 44(%rdi), %xmm4 ## xmm4 = mem[0],zero		; SSE42-NEXT: movsd 44(%rdi), %xmm4 ## xmm4 = mem[0],zero
; SSE42-NEXT: insertps $32, 52(%rdi), %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]		; SSE42-NEXT: insertps $32, 52(%rdi), %xmm4 ## xmm4 = xmm4[0,1],mem[0],xmm4[3]
; SSE42-NEXT: movsd 32(%rdi), %xmm5 ## xmm5 = mem[0],zero		; SSE42-NEXT: movsd 32(%rdi), %xmm5 ## xmm5 = mem[0],zero
; SSE42-NEXT: insertps $32, 40(%rdi), %xmm5 ## xmm5 = xmm5[0,1],mem[0],xmm5[3]		; SSE42-NEXT: insertps $32, 40(%rdi), %xmm5 ## xmm5 = xmm5[0,1],mem[0],xmm5[3]
; SSE42-NEXT: movups (%rdi), %xmm0		; SSE42-NEXT: movups (%rdi), %xmm0
; SSE42-NEXT: movups 16(%rdi), %xmm1		; SSE42-NEXT: movups 16(%rdi), %xmm1
; SSE42-NEXT: blendps {{.*#+}} xmm2 = xmm5[0,1,2],xmm2[3]		; SSE42-NEXT: blendps {{.*#+}} xmm2 = xmm5[0,1,2],xmm2[3]
; SSE42-NEXT: blendps {{.*#+}} xmm3 = xmm4[0,1,2],xmm3[3]		; SSE42-NEXT: blendps {{.*#+}} xmm3 = xmm4[0,1,2],xmm3[3]
		xbolva00Unsubmitted Not Done Reply Inline Actions Regression xbolva00: Regression
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions We've managed to change the order of load combines and we prematurely end up with different element sizes which we then can't combine together later. This is an existing problem, we've just exposed it more. RKSimon: We've managed to change the order of load combines and we prematurely end up with different…
; SSE42-NEXT: retq		; SSE42-NEXT: retq
;		;
; AVX1OR2-LABEL: expandload_v16f32_const:		; AVX1OR2-LABEL: expandload_v16f32_const:
; AVX1OR2: ## %bb.0:		; AVX1OR2: ## %bb.0:
; AVX1OR2-NEXT: vmovsd 44(%rdi), %xmm0 ## xmm0 = mem[0],zero		; AVX1OR2-NEXT: vmovsd 44(%rdi), %xmm0 ## xmm0 = mem[0],zero
; AVX1OR2-NEXT: vinsertps $32, 52(%rdi), %xmm0, %xmm0 ## xmm0 = xmm0[0,1],mem[0],xmm0[3]		; AVX1OR2-NEXT: vinsertps $32, 52(%rdi), %xmm0, %xmm0 ## xmm0 = xmm0[0,1],mem[0],xmm0[3]
; AVX1OR2-NEXT: vmovsd 32(%rdi), %xmm2 ## xmm2 = mem[0],zero		; AVX1OR2-NEXT: vmovsd 32(%rdi), %xmm2 ## xmm2 = mem[0],zero
; AVX1OR2-NEXT: vinsertps $32, 40(%rdi), %xmm2, %xmm2 ## xmm2 = xmm2[0,1],mem[0],xmm2[3]		; AVX1OR2-NEXT: vinsertps $32, 40(%rdi), %xmm2, %xmm2 ## xmm2 = xmm2[0,1],mem[0],xmm2[3]
▲ Show 20 Lines • Show All 201 Lines • ▼ Show 20 Lines
; SSE2-NEXT: LBB8_60: ## %else114		; SSE2-NEXT: LBB8_60: ## %else114
; SSE2-NEXT: testl $1073741824, %ecx ## imm = 0x40000000		; SSE2-NEXT: testl $1073741824, %ecx ## imm = 0x40000000
; SSE2-NEXT: jne LBB8_61		; SSE2-NEXT: jne LBB8_61
; SSE2-NEXT: LBB8_62: ## %else118		; SSE2-NEXT: LBB8_62: ## %else118
; SSE2-NEXT: testl $-2147483648, %ecx ## imm = 0x80000000		; SSE2-NEXT: testl $-2147483648, %ecx ## imm = 0x80000000
; SSE2-NEXT: je LBB8_64		; SSE2-NEXT: je LBB8_64
; SSE2-NEXT: LBB8_63: ## %cond.load121		; SSE2-NEXT: LBB8_63: ## %cond.load121
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm7[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,1],xmm7[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,1],xmm8[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,1],xmm8[2,0]
; SSE2-NEXT: LBB8_64: ## %else122		; SSE2-NEXT: LBB8_64: ## %else122
; SSE2-NEXT: movaps %xmm0, (%rax)		; SSE2-NEXT: movaps %xmm0, (%rax)
; SSE2-NEXT: movaps %xmm1, 16(%rax)		; SSE2-NEXT: movaps %xmm1, 16(%rax)
; SSE2-NEXT: movaps %xmm2, 32(%rax)		; SSE2-NEXT: movaps %xmm2, 32(%rax)
; SSE2-NEXT: movaps %xmm3, 48(%rax)		; SSE2-NEXT: movaps %xmm3, 48(%rax)
; SSE2-NEXT: movaps %xmm4, 64(%rax)		; SSE2-NEXT: movaps %xmm4, 64(%rax)
; SSE2-NEXT: movaps %xmm5, 80(%rax)		; SSE2-NEXT: movaps %xmm5, 80(%rax)
; SSE2-NEXT: movaps %xmm6, 96(%rax)		; SSE2-NEXT: movaps %xmm6, 96(%rax)
; SSE2-NEXT: movaps %xmm7, 112(%rax)		; SSE2-NEXT: movaps %xmm7, 112(%rax)
; SSE2-NEXT: retq		; SSE2-NEXT: retq
; SSE2-NEXT: LBB8_1: ## %cond.load		; SSE2-NEXT: LBB8_1: ## %cond.load
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm8[0],xmm0[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm8[0],xmm0[1,2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testb $2, %cl		; SSE2-NEXT: testb $2, %cl
; SSE2-NEXT: je LBB8_4		; SSE2-NEXT: je LBB8_4
; SSE2-NEXT: LBB8_3: ## %cond.load1		; SSE2-NEXT: LBB8_3: ## %cond.load1
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm0[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm8 = xmm8[0],xmm0[0]
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm0[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm0[2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: movaps %xmm8, %xmm0		; SSE2-NEXT: movaps %xmm8, %xmm0
; SSE2-NEXT: testb $4, %cl		; SSE2-NEXT: testb $4, %cl
; SSE2-NEXT: je LBB8_6		; SSE2-NEXT: je LBB8_6
; SSE2-NEXT: LBB8_5: ## %cond.load5		; SSE2-NEXT: LBB8_5: ## %cond.load5
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm0[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm0[3,0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm8[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm8[0,2]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testb $8, %cl		; SSE2-NEXT: testb $8, %cl
; SSE2-NEXT: je LBB8_8		; SSE2-NEXT: je LBB8_8
; SSE2-NEXT: LBB8_7: ## %cond.load9		; SSE2-NEXT: LBB8_7: ## %cond.load9
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,1],xmm0[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm8[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm8[2,0]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testb $16, %cl		; SSE2-NEXT: testb $16, %cl
; SSE2-NEXT: je LBB8_10		; SSE2-NEXT: je LBB8_10
; SSE2-NEXT: LBB8_9: ## %cond.load13		; SSE2-NEXT: LBB8_9: ## %cond.load13
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm8[0],xmm1[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm8[0],xmm1[1,2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testb $32, %cl		; SSE2-NEXT: testb $32, %cl
; SSE2-NEXT: je LBB8_12		; SSE2-NEXT: je LBB8_12
; SSE2-NEXT: LBB8_11: ## %cond.load17		; SSE2-NEXT: LBB8_11: ## %cond.load17
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm1[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm8 = xmm8[0],xmm1[0]
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm1[2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: movaps %xmm8, %xmm1		; SSE2-NEXT: movaps %xmm8, %xmm1
; SSE2-NEXT: testb $64, %cl		; SSE2-NEXT: testb $64, %cl
; SSE2-NEXT: je LBB8_14		; SSE2-NEXT: je LBB8_14
; SSE2-NEXT: LBB8_13: ## %cond.load21		; SSE2-NEXT: LBB8_13: ## %cond.load21
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm1[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm1[3,0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm8[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm8[0,2]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testb $-128, %cl		; SSE2-NEXT: testb $-128, %cl
; SSE2-NEXT: je LBB8_16		; SSE2-NEXT: je LBB8_16
; SSE2-NEXT: LBB8_15: ## %cond.load25		; SSE2-NEXT: LBB8_15: ## %cond.load25
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm1[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,1],xmm1[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm8[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm8[2,0]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $256, %ecx ## imm = 0x100		; SSE2-NEXT: testl $256, %ecx ## imm = 0x100
; SSE2-NEXT: je LBB8_18		; SSE2-NEXT: je LBB8_18
; SSE2-NEXT: LBB8_17: ## %cond.load29		; SSE2-NEXT: LBB8_17: ## %cond.load29
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm2 = xmm8[0],xmm2[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm2 = xmm8[0],xmm2[1,2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $512, %ecx ## imm = 0x200		; SSE2-NEXT: testl $512, %ecx ## imm = 0x200
; SSE2-NEXT: je LBB8_20		; SSE2-NEXT: je LBB8_20
; SSE2-NEXT: LBB8_19: ## %cond.load33		; SSE2-NEXT: LBB8_19: ## %cond.load33
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm2[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm8 = xmm8[0],xmm2[0]
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm2[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm2[2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: movaps %xmm8, %xmm2		; SSE2-NEXT: movaps %xmm8, %xmm2
; SSE2-NEXT: testl $1024, %ecx ## imm = 0x400		; SSE2-NEXT: testl $1024, %ecx ## imm = 0x400
; SSE2-NEXT: je LBB8_22		; SSE2-NEXT: je LBB8_22
; SSE2-NEXT: LBB8_21: ## %cond.load37		; SSE2-NEXT: LBB8_21: ## %cond.load37
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm2[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm2[3,0]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm8[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm8[0,2]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $2048, %ecx ## imm = 0x800		; SSE2-NEXT: testl $2048, %ecx ## imm = 0x800
; SSE2-NEXT: je LBB8_24		; SSE2-NEXT: je LBB8_24
; SSE2-NEXT: LBB8_23: ## %cond.load41		; SSE2-NEXT: LBB8_23: ## %cond.load41
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm2[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,1],xmm2[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm8[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm8[2,0]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $4096, %ecx ## imm = 0x1000		; SSE2-NEXT: testl $4096, %ecx ## imm = 0x1000
; SSE2-NEXT: je LBB8_26		; SSE2-NEXT: je LBB8_26
; SSE2-NEXT: LBB8_25: ## %cond.load45		; SSE2-NEXT: LBB8_25: ## %cond.load45
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm3 = xmm8[0],xmm3[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm3 = xmm8[0],xmm3[1,2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $8192, %ecx ## imm = 0x2000		; SSE2-NEXT: testl $8192, %ecx ## imm = 0x2000
; SSE2-NEXT: je LBB8_28		; SSE2-NEXT: je LBB8_28
; SSE2-NEXT: LBB8_27: ## %cond.load49		; SSE2-NEXT: LBB8_27: ## %cond.load49
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm3[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm8 = xmm8[0],xmm3[0]
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm3[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm3[2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: movaps %xmm8, %xmm3		; SSE2-NEXT: movaps %xmm8, %xmm3
; SSE2-NEXT: testl $16384, %ecx ## imm = 0x4000		; SSE2-NEXT: testl $16384, %ecx ## imm = 0x4000
; SSE2-NEXT: je LBB8_30		; SSE2-NEXT: je LBB8_30
; SSE2-NEXT: LBB8_29: ## %cond.load53		; SSE2-NEXT: LBB8_29: ## %cond.load53
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm3[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm3[3,0]
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm8[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm8[0,2]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $32768, %ecx ## imm = 0x8000		; SSE2-NEXT: testl $32768, %ecx ## imm = 0x8000
; SSE2-NEXT: je LBB8_32		; SSE2-NEXT: je LBB8_32
; SSE2-NEXT: LBB8_31: ## %cond.load57		; SSE2-NEXT: LBB8_31: ## %cond.load57
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm3[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,1],xmm3[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm8[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm8[2,0]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $65536, %ecx ## imm = 0x10000		; SSE2-NEXT: testl $65536, %ecx ## imm = 0x10000
; SSE2-NEXT: je LBB8_34		; SSE2-NEXT: je LBB8_34
; SSE2-NEXT: LBB8_33: ## %cond.load61		; SSE2-NEXT: LBB8_33: ## %cond.load61
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm4 = xmm8[0],xmm4[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm4 = xmm8[0],xmm4[1,2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $131072, %ecx ## imm = 0x20000		; SSE2-NEXT: testl $131072, %ecx ## imm = 0x20000
; SSE2-NEXT: je LBB8_36		; SSE2-NEXT: je LBB8_36
; SSE2-NEXT: LBB8_35: ## %cond.load65		; SSE2-NEXT: LBB8_35: ## %cond.load65
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm4[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm8 = xmm8[0],xmm4[0]
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm4[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm4[2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: movaps %xmm8, %xmm4		; SSE2-NEXT: movaps %xmm8, %xmm4
; SSE2-NEXT: testl $262144, %ecx ## imm = 0x40000		; SSE2-NEXT: testl $262144, %ecx ## imm = 0x40000
; SSE2-NEXT: je LBB8_38		; SSE2-NEXT: je LBB8_38
; SSE2-NEXT: LBB8_37: ## %cond.load69		; SSE2-NEXT: LBB8_37: ## %cond.load69
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm4[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm4[3,0]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm8[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm8[0,2]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $524288, %ecx ## imm = 0x80000		; SSE2-NEXT: testl $524288, %ecx ## imm = 0x80000
; SSE2-NEXT: je LBB8_40		; SSE2-NEXT: je LBB8_40
; SSE2-NEXT: LBB8_39: ## %cond.load73		; SSE2-NEXT: LBB8_39: ## %cond.load73
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm4[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,1],xmm4[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm8[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm8[2,0]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $1048576, %ecx ## imm = 0x100000		; SSE2-NEXT: testl $1048576, %ecx ## imm = 0x100000
; SSE2-NEXT: je LBB8_42		; SSE2-NEXT: je LBB8_42
; SSE2-NEXT: LBB8_41: ## %cond.load77		; SSE2-NEXT: LBB8_41: ## %cond.load77
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm5 = xmm8[0],xmm5[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm5 = xmm8[0],xmm5[1,2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $2097152, %ecx ## imm = 0x200000		; SSE2-NEXT: testl $2097152, %ecx ## imm = 0x200000
; SSE2-NEXT: je LBB8_44		; SSE2-NEXT: je LBB8_44
; SSE2-NEXT: LBB8_43: ## %cond.load81		; SSE2-NEXT: LBB8_43: ## %cond.load81
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm5[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm8 = xmm8[0],xmm5[0]
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm5[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm5[2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: movaps %xmm8, %xmm5		; SSE2-NEXT: movaps %xmm8, %xmm5
; SSE2-NEXT: testl $4194304, %ecx ## imm = 0x400000		; SSE2-NEXT: testl $4194304, %ecx ## imm = 0x400000
; SSE2-NEXT: je LBB8_46		; SSE2-NEXT: je LBB8_46
; SSE2-NEXT: LBB8_45: ## %cond.load85		; SSE2-NEXT: LBB8_45: ## %cond.load85
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm5[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm5[3,0]
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,1],xmm8[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,1],xmm8[0,2]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $8388608, %ecx ## imm = 0x800000		; SSE2-NEXT: testl $8388608, %ecx ## imm = 0x800000
; SSE2-NEXT: je LBB8_48		; SSE2-NEXT: je LBB8_48
; SSE2-NEXT: LBB8_47: ## %cond.load89		; SSE2-NEXT: LBB8_47: ## %cond.load89
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm5[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,1],xmm5[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,1],xmm8[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,1],xmm8[2,0]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $16777216, %ecx ## imm = 0x1000000		; SSE2-NEXT: testl $16777216, %ecx ## imm = 0x1000000
; SSE2-NEXT: je LBB8_50		; SSE2-NEXT: je LBB8_50
; SSE2-NEXT: LBB8_49: ## %cond.load93		; SSE2-NEXT: LBB8_49: ## %cond.load93
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm6 = xmm8[0],xmm6[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm6 = xmm8[0],xmm6[1,2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $33554432, %ecx ## imm = 0x2000000		; SSE2-NEXT: testl $33554432, %ecx ## imm = 0x2000000
; SSE2-NEXT: je LBB8_52		; SSE2-NEXT: je LBB8_52
; SSE2-NEXT: LBB8_51: ## %cond.load97		; SSE2-NEXT: LBB8_51: ## %cond.load97
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm6[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm8 = xmm8[0],xmm6[0]
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm6[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm6[2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: movaps %xmm8, %xmm6		; SSE2-NEXT: movaps %xmm8, %xmm6
; SSE2-NEXT: testl $67108864, %ecx ## imm = 0x4000000		; SSE2-NEXT: testl $67108864, %ecx ## imm = 0x4000000
; SSE2-NEXT: je LBB8_54		; SSE2-NEXT: je LBB8_54
; SSE2-NEXT: LBB8_53: ## %cond.load101		; SSE2-NEXT: LBB8_53: ## %cond.load101
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm6[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm6[3,0]
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm8[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm8[0,2]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $134217728, %ecx ## imm = 0x8000000		; SSE2-NEXT: testl $134217728, %ecx ## imm = 0x8000000
; SSE2-NEXT: je LBB8_56		; SSE2-NEXT: je LBB8_56
; SSE2-NEXT: LBB8_55: ## %cond.load105		; SSE2-NEXT: LBB8_55: ## %cond.load105
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm6[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,1],xmm6[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm8[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm8[2,0]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $268435456, %ecx ## imm = 0x10000000		; SSE2-NEXT: testl $268435456, %ecx ## imm = 0x10000000
; SSE2-NEXT: je LBB8_58		; SSE2-NEXT: je LBB8_58
; SSE2-NEXT: LBB8_57: ## %cond.load109		; SSE2-NEXT: LBB8_57: ## %cond.load109
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm7 = xmm8[0],xmm7[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm7 = xmm8[0],xmm7[1,2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: testl $536870912, %ecx ## imm = 0x20000000		; SSE2-NEXT: testl $536870912, %ecx ## imm = 0x20000000
; SSE2-NEXT: je LBB8_60		; SSE2-NEXT: je LBB8_60
; SSE2-NEXT: LBB8_59: ## %cond.load113		; SSE2-NEXT: LBB8_59: ## %cond.load113
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm7[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm8 = xmm8[0],xmm7[0]
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm7[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm7[2,3]
; SSE2-NEXT: addq $4, %rsi		; SSE2-NEXT: addq $4, %rsi
; SSE2-NEXT: movaps %xmm8, %xmm7		; SSE2-NEXT: movaps %xmm8, %xmm7
; SSE2-NEXT: testl $1073741824, %ecx ## imm = 0x40000000		; SSE2-NEXT: testl $1073741824, %ecx ## imm = 0x40000000
; SSE2-NEXT: je LBB8_62		; SSE2-NEXT: je LBB8_62
; SSE2-NEXT: LBB8_61: ## %cond.load117		; SSE2-NEXT: LBB8_61: ## %cond.load117
; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rsi), %xmm8 ## xmm8 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm7[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[0,0],xmm7[3,0]
▲ Show 20 Lines • Show All 1,061 Lines • ▼ Show 20 Lines
; SSE2-NEXT: LBB10_1: ## %cond.load		; SSE2-NEXT: LBB10_1: ## %cond.load
; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
; SSE2-NEXT: addq $4, %rdi		; SSE2-NEXT: addq $4, %rdi
; SSE2-NEXT: testb $2, %al		; SSE2-NEXT: testb $2, %al
; SSE2-NEXT: je LBB10_4		; SSE2-NEXT: je LBB10_4
; SSE2-NEXT: LBB10_3: ## %cond.load1		; SSE2-NEXT: LBB10_3: ## %cond.load1
; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]
; SSE2-NEXT: addq $4, %rdi		; SSE2-NEXT: addq $4, %rdi
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: testb $4, %al		; SSE2-NEXT: testb $4, %al
; SSE2-NEXT: je LBB10_6		; SSE2-NEXT: je LBB10_6
; SSE2-NEXT: LBB10_5: ## %cond.load5		; SSE2-NEXT: LBB10_5: ## %cond.load5
; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
; SSE2-NEXT: addq $4, %rdi		; SSE2-NEXT: addq $4, %rdi
; SSE2-NEXT: testb $8, %al		; SSE2-NEXT: testb $8, %al
; SSE2-NEXT: je LBB10_8		; SSE2-NEXT: je LBB10_8
; SSE2-NEXT: LBB10_7: ## %cond.load9		; SSE2-NEXT: LBB10_7: ## %cond.load9
; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss (%rdi), %xmm1 ## xmm1 = mem[0],zero,zero,zero
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: expandload_v4i32_v4i32:		; SSE42-LABEL: expandload_v4i32_v4i32:
; SSE42: ## %bb.0:		; SSE42: ## %bb.0:
; SSE42-NEXT: pxor %xmm2, %xmm2		; SSE42-NEXT: pxor %xmm2, %xmm2
; SSE42-NEXT: pcmpeqd %xmm1, %xmm2		; SSE42-NEXT: pcmpeqd %xmm1, %xmm2
; SSE42-NEXT: movmskps %xmm2, %eax		; SSE42-NEXT: movmskps %xmm2, %eax
▲ Show 20 Lines • Show All 1,384 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_load.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 736 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	; SSE2-NEXT: LBB7_1: ## %cond.load			; SSE2-NEXT: LBB7_1: ## %cond.load
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]
	; SSE2-NEXT: testb $2, %al			; SSE2-NEXT: testb $2, %al
	; SSE2-NEXT: je LBB7_4			; SSE2-NEXT: je LBB7_4
	; SSE2-NEXT: LBB7_3: ## %cond.load1			; SSE2-NEXT: LBB7_3: ## %cond.load1
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_v2f32_v2i32:			; SSE42-LABEL: load_v2f32_v2i32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pxor %xmm2, %xmm2			; SSE42-NEXT: pxor %xmm2, %xmm2
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: LBB8_4: ## %else2			; SSE2-NEXT: LBB8_4: ## %else2
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	; SSE2-NEXT: LBB8_1: ## %cond.load			; SSE2-NEXT: LBB8_1: ## %cond.load
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: testb $2, %al			; SSE2-NEXT: testb $2, %al
	; SSE2-NEXT: je LBB8_4			; SSE2-NEXT: je LBB8_4
	; SSE2-NEXT: LBB8_3: ## %cond.load1			; SSE2-NEXT: LBB8_3: ## %cond.load1
	; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_v2f32_v2i32_undef:			; SSE42-LABEL: load_v2f32_v2i32_undef:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pxor %xmm1, %xmm1			; SSE42-NEXT: pxor %xmm1, %xmm1
	; SSE42-NEXT: pcmpeqd %xmm0, %xmm1			; SSE42-NEXT: pcmpeqd %xmm0, %xmm1
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	; SSE2-NEXT: LBB9_1: ## %cond.load			; SSE2-NEXT: LBB9_1: ## %cond.load
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]
	; SSE2-NEXT: testb $2, %al			; SSE2-NEXT: testb $2, %al
	; SSE2-NEXT: je LBB9_4			; SSE2-NEXT: je LBB9_4
	; SSE2-NEXT: LBB9_3: ## %cond.load1			; SSE2-NEXT: LBB9_3: ## %cond.load1
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: testb $4, %al			; SSE2-NEXT: testb $4, %al
	; SSE2-NEXT: je LBB9_6			; SSE2-NEXT: je LBB9_6
	; SSE2-NEXT: LBB9_5: ## %cond.load4			; SSE2-NEXT: LBB9_5: ## %cond.load4
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,2]
	; SSE2-NEXT: testb $8, %al			; SSE2-NEXT: testb $8, %al
	; SSE2-NEXT: je LBB9_8			; SSE2-NEXT: je LBB9_8
	; SSE2-NEXT: LBB9_7: ## %cond.load7			; SSE2-NEXT: LBB9_7: ## %cond.load7
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_v4f32_v4i32:			; SSE42-LABEL: load_v4f32_v4i32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pxor %xmm2, %xmm2			; SSE42-NEXT: pxor %xmm2, %xmm2
	; SSE42-NEXT: pcmpeqd %xmm0, %xmm2			; SSE42-NEXT: pcmpeqd %xmm0, %xmm2
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: LBB10_16: ## %else20			; SSE2-NEXT: LBB10_16: ## %else20
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	; SSE2-NEXT: LBB10_1: ## %cond.load			; SSE2-NEXT: LBB10_1: ## %cond.load
	; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: xorps %xmm1, %xmm1			; SSE2-NEXT: xorps %xmm1, %xmm1
	; SSE2-NEXT: testb $2, %al			; SSE2-NEXT: testb $2, %al
	; SSE2-NEXT: je LBB10_4			; SSE2-NEXT: je LBB10_4
	; SSE2-NEXT: LBB10_3: ## %cond.load1			; SSE2-NEXT: LBB10_3: ## %cond.load1
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm0[0,0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm0[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm0[2,3]
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: testb $4, %al			; SSE2-NEXT: testb $4, %al
	; SSE2-NEXT: je LBB10_6			; SSE2-NEXT: je LBB10_6
	; SSE2-NEXT: LBB10_5: ## %cond.load4			; SSE2-NEXT: LBB10_5: ## %cond.load4
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm0[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm0[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0,2]
	; SSE2-NEXT: testb $8, %al			; SSE2-NEXT: testb $8, %al
	; SSE2-NEXT: je LBB10_8			; SSE2-NEXT: je LBB10_8
	; SSE2-NEXT: LBB10_7: ## %cond.load7			; SSE2-NEXT: LBB10_7: ## %cond.load7
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm0[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,0]
	; SSE2-NEXT: testb $16, %al			; SSE2-NEXT: testb $16, %al
	; SSE2-NEXT: je LBB10_10			; SSE2-NEXT: je LBB10_10
	; SSE2-NEXT: LBB10_9: ## %cond.load10			; SSE2-NEXT: LBB10_9: ## %cond.load10
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm2[0],xmm1[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm2[0],xmm1[1,2,3]
	; SSE2-NEXT: testb $32, %al			; SSE2-NEXT: testb $32, %al
	; SSE2-NEXT: je LBB10_12			; SSE2-NEXT: je LBB10_12
	; SSE2-NEXT: LBB10_11: ## %cond.load13			; SSE2-NEXT: LBB10_11: ## %cond.load13
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm1[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,3]
	; SSE2-NEXT: movaps %xmm2, %xmm1			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: testb $64, %al			; SSE2-NEXT: testb $64, %al
	; SSE2-NEXT: je LBB10_14			; SSE2-NEXT: je LBB10_14
	; SSE2-NEXT: LBB10_13: ## %cond.load16			; SSE2-NEXT: LBB10_13: ## %cond.load16
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
	; SSE2-NEXT: testb $-128, %al			; SSE2-NEXT: testb $-128, %al
	; SSE2-NEXT: je LBB10_16			; SSE2-NEXT: je LBB10_16
	; SSE2-NEXT: LBB10_15: ## %cond.load19			; SSE2-NEXT: LBB10_15: ## %cond.load19
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_v8f32_v8i1_zero:			; SSE42-LABEL: load_v8f32_v8i1_zero:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: psllw $15, %xmm0			; SSE42-NEXT: psllw $15, %xmm0
	; SSE42-NEXT: packsswb %xmm0, %xmm0			; SSE42-NEXT: packsswb %xmm0, %xmm0
	; SSE42-NEXT: pmovmskb %xmm0, %eax			; SSE42-NEXT: pmovmskb %xmm0, %eax
	▲ Show 20 Lines • Show All 131 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: LBB11_12: ## %else14			; SSE2-NEXT: LBB11_12: ## %else14
	; SSE2-NEXT: testb $64, %al			; SSE2-NEXT: testb $64, %al
	; SSE2-NEXT: jne LBB11_13			; SSE2-NEXT: jne LBB11_13
	; SSE2-NEXT: LBB11_14: ## %else17			; SSE2-NEXT: LBB11_14: ## %else17
	; SSE2-NEXT: testb $-128, %al			; SSE2-NEXT: testb $-128, %al
	; SSE2-NEXT: je LBB11_16			; SSE2-NEXT: je LBB11_16
	; SSE2-NEXT: LBB11_15: ## %cond.load19			; SSE2-NEXT: LBB11_15: ## %cond.load19
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm3[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm0[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm0[2,0]
	; SSE2-NEXT: LBB11_16: ## %else20			; SSE2-NEXT: LBB11_16: ## %else20
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: movaps %xmm3, %xmm1			; SSE2-NEXT: movaps %xmm3, %xmm1
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	; SSE2-NEXT: LBB11_1: ## %cond.load			; SSE2-NEXT: LBB11_1: ## %cond.load
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm2 = xmm0[0],xmm2[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm2 = xmm0[0],xmm2[1,2,3]
	; SSE2-NEXT: testb $2, %al			; SSE2-NEXT: testb $2, %al
	; SSE2-NEXT: je LBB11_4			; SSE2-NEXT: je LBB11_4
	; SSE2-NEXT: LBB11_3: ## %cond.load1			; SSE2-NEXT: LBB11_3: ## %cond.load1
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm2[2,3]
	; SSE2-NEXT: movaps %xmm0, %xmm2			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: testb $4, %al			; SSE2-NEXT: testb $4, %al
	; SSE2-NEXT: je LBB11_6			; SSE2-NEXT: je LBB11_6
	; SSE2-NEXT: LBB11_5: ## %cond.load4			; SSE2-NEXT: LBB11_5: ## %cond.load4
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[0,2]
	; SSE2-NEXT: testb $8, %al			; SSE2-NEXT: testb $8, %al
	; SSE2-NEXT: je LBB11_8			; SSE2-NEXT: je LBB11_8
	; SSE2-NEXT: LBB11_7: ## %cond.load7			; SSE2-NEXT: LBB11_7: ## %cond.load7
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[2,0]
	; SSE2-NEXT: testb $16, %al			; SSE2-NEXT: testb $16, %al
	; SSE2-NEXT: je LBB11_10			; SSE2-NEXT: je LBB11_10
	; SSE2-NEXT: LBB11_9: ## %cond.load10			; SSE2-NEXT: LBB11_9: ## %cond.load10
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm3 = xmm0[0],xmm3[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm3 = xmm0[0],xmm3[1,2,3]
	; SSE2-NEXT: testb $32, %al			; SSE2-NEXT: testb $32, %al
	; SSE2-NEXT: je LBB11_12			; SSE2-NEXT: je LBB11_12
	; SSE2-NEXT: LBB11_11: ## %cond.load13			; SSE2-NEXT: LBB11_11: ## %cond.load13
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm3[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm3[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm3[2,3]
	; SSE2-NEXT: movaps %xmm0, %xmm3			; SSE2-NEXT: movaps %xmm0, %xmm3
	; SSE2-NEXT: testb $64, %al			; SSE2-NEXT: testb $64, %al
	; SSE2-NEXT: je LBB11_14			; SSE2-NEXT: je LBB11_14
	; SSE2-NEXT: LBB11_13: ## %cond.load16			; SSE2-NEXT: LBB11_13: ## %cond.load16
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm3[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm3[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm0[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm0[0,2]
	▲ Show 20 Lines • Show All 775 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	; SSE2-NEXT: LBB17_1: ## %cond.load			; SSE2-NEXT: LBB17_1: ## %cond.load
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]
	; SSE2-NEXT: testb $2, %al			; SSE2-NEXT: testb $2, %al
	; SSE2-NEXT: je LBB17_4			; SSE2-NEXT: je LBB17_4
	; SSE2-NEXT: LBB17_3: ## %cond.load1			; SSE2-NEXT: LBB17_3: ## %cond.load1
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_v2i32_v2i32:			; SSE42-LABEL: load_v2i32_v2i32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pxor %xmm2, %xmm2			; SSE42-NEXT: pxor %xmm2, %xmm2
	▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	; SSE2-NEXT: LBB18_1: ## %cond.load			; SSE2-NEXT: LBB18_1: ## %cond.load
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]
	; SSE2-NEXT: testb $2, %al			; SSE2-NEXT: testb $2, %al
	; SSE2-NEXT: je LBB18_4			; SSE2-NEXT: je LBB18_4
	; SSE2-NEXT: LBB18_3: ## %cond.load1			; SSE2-NEXT: LBB18_3: ## %cond.load1
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: testb $4, %al			; SSE2-NEXT: testb $4, %al
	; SSE2-NEXT: je LBB18_6			; SSE2-NEXT: je LBB18_6
	; SSE2-NEXT: LBB18_5: ## %cond.load4			; SSE2-NEXT: LBB18_5: ## %cond.load4
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,2]
	; SSE2-NEXT: testb $8, %al			; SSE2-NEXT: testb $8, %al
	; SSE2-NEXT: je LBB18_8			; SSE2-NEXT: je LBB18_8
	; SSE2-NEXT: LBB18_7: ## %cond.load7			; SSE2-NEXT: LBB18_7: ## %cond.load7
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_v4i32_v4i32:			; SSE42-LABEL: load_v4i32_v4i32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pxor %xmm2, %xmm2			; SSE42-NEXT: pxor %xmm2, %xmm2
	; SSE42-NEXT: pcmpeqd %xmm0, %xmm2			; SSE42-NEXT: pcmpeqd %xmm0, %xmm2
	▲ Show 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: LBB19_12: ## %else14			; SSE2-NEXT: LBB19_12: ## %else14
	; SSE2-NEXT: testb $64, %al			; SSE2-NEXT: testb $64, %al
	; SSE2-NEXT: jne LBB19_13			; SSE2-NEXT: jne LBB19_13
	; SSE2-NEXT: LBB19_14: ## %else17			; SSE2-NEXT: LBB19_14: ## %else17
	; SSE2-NEXT: testb $-128, %al			; SSE2-NEXT: testb $-128, %al
	; SSE2-NEXT: je LBB19_16			; SSE2-NEXT: je LBB19_16
	; SSE2-NEXT: LBB19_15: ## %cond.load19			; SSE2-NEXT: LBB19_15: ## %cond.load19
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[2,0]
	; SSE2-NEXT: LBB19_16: ## %else20			; SSE2-NEXT: LBB19_16: ## %else20
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm2, %xmm1			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	; SSE2-NEXT: LBB19_1: ## %cond.load			; SSE2-NEXT: LBB19_1: ## %cond.load
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]
	; SSE2-NEXT: testb $2, %al			; SSE2-NEXT: testb $2, %al
	; SSE2-NEXT: je LBB19_4			; SSE2-NEXT: je LBB19_4
	; SSE2-NEXT: LBB19_3: ## %cond.load1			; SSE2-NEXT: LBB19_3: ## %cond.load1
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: testb $4, %al			; SSE2-NEXT: testb $4, %al
	; SSE2-NEXT: je LBB19_6			; SSE2-NEXT: je LBB19_6
	; SSE2-NEXT: LBB19_5: ## %cond.load4			; SSE2-NEXT: LBB19_5: ## %cond.load4
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,2]
	; SSE2-NEXT: testb $8, %al			; SSE2-NEXT: testb $8, %al
	; SSE2-NEXT: je LBB19_8			; SSE2-NEXT: je LBB19_8
	; SSE2-NEXT: LBB19_7: ## %cond.load7			; SSE2-NEXT: LBB19_7: ## %cond.load7
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]
	; SSE2-NEXT: testb $16, %al			; SSE2-NEXT: testb $16, %al
	; SSE2-NEXT: je LBB19_10			; SSE2-NEXT: je LBB19_10
	; SSE2-NEXT: LBB19_9: ## %cond.load10			; SSE2-NEXT: LBB19_9: ## %cond.load10
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm2 = xmm0[0],xmm2[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm2 = xmm0[0],xmm2[1,2,3]
	; SSE2-NEXT: testb $32, %al			; SSE2-NEXT: testb $32, %al
	; SSE2-NEXT: je LBB19_12			; SSE2-NEXT: je LBB19_12
	; SSE2-NEXT: LBB19_11: ## %cond.load13			; SSE2-NEXT: LBB19_11: ## %cond.load13
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm2[2,3]
	; SSE2-NEXT: movaps %xmm0, %xmm2			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: testb $64, %al			; SSE2-NEXT: testb $64, %al
	; SSE2-NEXT: je LBB19_14			; SSE2-NEXT: je LBB19_14
	; SSE2-NEXT: LBB19_13: ## %cond.load16			; SSE2-NEXT: LBB19_13: ## %cond.load16
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[0,2]
	▲ Show 20 Lines • Show All 146 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: LBB20_16: ## %else20			; SSE2-NEXT: LBB20_16: ## %else20
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	; SSE2-NEXT: LBB20_1: ## %cond.load			; SSE2-NEXT: LBB20_1: ## %cond.load
	; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: xorps %xmm1, %xmm1			; SSE2-NEXT: xorps %xmm1, %xmm1
	; SSE2-NEXT: testb $2, %al			; SSE2-NEXT: testb $2, %al
	; SSE2-NEXT: je LBB20_4			; SSE2-NEXT: je LBB20_4
	; SSE2-NEXT: LBB20_3: ## %cond.load1			; SSE2-NEXT: LBB20_3: ## %cond.load1
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm0[0,0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm0[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm0[2,3]
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: testb $4, %al			; SSE2-NEXT: testb $4, %al
	; SSE2-NEXT: je LBB20_6			; SSE2-NEXT: je LBB20_6
	; SSE2-NEXT: LBB20_5: ## %cond.load4			; SSE2-NEXT: LBB20_5: ## %cond.load4
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm0[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm0[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0,2]
	; SSE2-NEXT: testb $8, %al			; SSE2-NEXT: testb $8, %al
	; SSE2-NEXT: je LBB20_8			; SSE2-NEXT: je LBB20_8
	; SSE2-NEXT: LBB20_7: ## %cond.load7			; SSE2-NEXT: LBB20_7: ## %cond.load7
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm0[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,0]
	; SSE2-NEXT: testb $16, %al			; SSE2-NEXT: testb $16, %al
	; SSE2-NEXT: je LBB20_10			; SSE2-NEXT: je LBB20_10
	; SSE2-NEXT: LBB20_9: ## %cond.load10			; SSE2-NEXT: LBB20_9: ## %cond.load10
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm2[0],xmm1[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm2[0],xmm1[1,2,3]
	; SSE2-NEXT: testb $32, %al			; SSE2-NEXT: testb $32, %al
	; SSE2-NEXT: je LBB20_12			; SSE2-NEXT: je LBB20_12
	; SSE2-NEXT: LBB20_11: ## %cond.load13			; SSE2-NEXT: LBB20_11: ## %cond.load13
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm1[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,3]
	; SSE2-NEXT: movaps %xmm2, %xmm1			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: testb $64, %al			; SSE2-NEXT: testb $64, %al
	; SSE2-NEXT: je LBB20_14			; SSE2-NEXT: je LBB20_14
	; SSE2-NEXT: LBB20_13: ## %cond.load16			; SSE2-NEXT: LBB20_13: ## %cond.load16
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
	; SSE2-NEXT: testb $-128, %al			; SSE2-NEXT: testb $-128, %al
	; SSE2-NEXT: je LBB20_16			; SSE2-NEXT: je LBB20_16
	; SSE2-NEXT: LBB20_15: ## %cond.load19			; SSE2-NEXT: LBB20_15: ## %cond.load19
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: load_v8i32_v8i1_zero:			; SSE42-LABEL: load_v8i32_v8i1_zero:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: psllw $15, %xmm0			; SSE42-NEXT: psllw $15, %xmm0
	; SSE42-NEXT: packsswb %xmm0, %xmm0			; SSE42-NEXT: packsswb %xmm0, %xmm0
	; SSE42-NEXT: pmovmskb %xmm0, %eax			; SSE42-NEXT: pmovmskb %xmm0, %eax
	▲ Show 20 Lines • Show All 3,570 Lines • ▼ Show 20 Lines
	; 128-bit FP vectors are supported with AVX.			; 128-bit FP vectors are supported with AVX.

	define <4 x float> @mload_constmask_v4f32(<4 x float>* %addr, <4 x float> %dst) {			define <4 x float> @mload_constmask_v4f32(<4 x float>* %addr, <4 x float> %dst) {
	; SSE2-LABEL: mload_constmask_v4f32:			; SSE2-LABEL: mload_constmask_v4f32:
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
	; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
				; SSE2-NEXT: movlhps {{.*#+}} xmm3 = xmm3[0],xmm2[0]
	; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]			; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
	; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
	; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,0],xmm1[2,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: mload_constmask_v4f32:			; SSE42-LABEL: mload_constmask_v4f32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE42-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE42-NEXT: blendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]			; SSE42-NEXT: blendps {{.*#+}} xmm0 = xmm1[0],xmm0[1],xmm1[2,3]
	; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]			; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
	; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]			; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1OR2-LABEL: mload_constmask_v4f32:			; AVX1OR2-LABEL: mload_constmask_v4f32:
	; AVX1OR2: ## %bb.0:			; AVX1OR2: ## %bb.0:
	; AVX1OR2-NEXT: vblendps {{.*#+}} xmm0 = mem[0],xmm0[1],mem[2,3]			; AVX1OR2-NEXT: vblendps {{.*#+}} xmm0 = mem[0],xmm0[1],mem[2,3]
	; AVX1OR2-NEXT: retq			; AVX1OR2-NEXT: retq
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	}			}

	; 128-bit integer vectors are supported with AVX2.			; 128-bit integer vectors are supported with AVX2.

	define <4 x i32> @mload_constmask_v4i32(<4 x i32>* %addr, <4 x i32> %dst) {			define <4 x i32> @mload_constmask_v4i32(<4 x i32>* %addr, <4 x i32> %dst) {
	; SSE2-LABEL: mload_constmask_v4i32:			; SSE2-LABEL: mload_constmask_v4i32:
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
	; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm0[0,2]
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[2,0]			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm0[0]
				; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[2,0]
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: mload_constmask_v4i32:			; SSE42-LABEL: mload_constmask_v4i32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pinsrd $1, 4(%rdi), %xmm0			; SSE42-NEXT: pinsrd $1, 4(%rdi), %xmm0
	; SSE42-NEXT: pinsrd $2, 8(%rdi), %xmm0			; SSE42-NEXT: pinsrd $2, 8(%rdi), %xmm0
	; SSE42-NEXT: pinsrd $3, 12(%rdi), %xmm0			; SSE42-NEXT: pinsrd $3, 12(%rdi), %xmm0
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines

	; 256-bit FP vectors are supported with AVX.			; 256-bit FP vectors are supported with AVX.

	define <8 x float> @mload_constmask_v8f32(<8 x float>* %addr, <8 x float> %dst) {			define <8 x float> @mload_constmask_v8f32(<8 x float>* %addr, <8 x float> %dst) {
	; SSE2-LABEL: mload_constmask_v8f32:			; SSE2-LABEL: mload_constmask_v8f32:
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
	; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm3[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm3[0]
	; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,0],xmm0[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,0],xmm0[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm3[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm3[0,2]
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: mload_constmask_v8f32:			; SSE42-LABEL: mload_constmask_v8f32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE42-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE42-NEXT: blendps {{.*#+}} xmm0 = xmm2[0],xmm0[1,2,3]			; SSE42-NEXT: blendps {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3]
	; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]			; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
	; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]			; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1OR2-LABEL: mload_constmask_v8f32:			; AVX1OR2-LABEL: mload_constmask_v8f32:
	; AVX1OR2: ## %bb.0:			; AVX1OR2: ## %bb.0:
	; AVX1OR2-NEXT: vmovaps {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,0,0,0,0,0]			; AVX1OR2-NEXT: vmovaps {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,0,0,0,0,0]
	; AVX1OR2-NEXT: vmaskmovps (%rdi), %ymm1, %ymm1			; AVX1OR2-NEXT: vmaskmovps (%rdi), %ymm1, %ymm1
	▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines

	; 256-bit integer vectors are supported with AVX2.			; 256-bit integer vectors are supported with AVX2.

	define <8 x i32> @mload_constmask_v8i32(<8 x i32>* %addr, <8 x i32> %dst) {			define <8 x i32> @mload_constmask_v8i32(<8 x i32>* %addr, <8 x i32> %dst) {
	; SSE2-LABEL: mload_constmask_v8i32:			; SSE2-LABEL: mload_constmask_v8i32:
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
	; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm3[0,0]			; SSE2-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm3[0]
	; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,0],xmm0[3,0]			; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,0],xmm0[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm3[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm3[0,2]
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: mload_constmask_v8i32:			; SSE42-LABEL: mload_constmask_v8i32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pinsrd $0, (%rdi), %xmm0			; SSE42-NEXT: pinsrd $0, (%rdi), %xmm0
	; SSE42-NEXT: pinsrd $1, 4(%rdi), %xmm0			; SSE42-NEXT: pinsrd $1, 4(%rdi), %xmm0
	▲ Show 20 Lines • Show All 399 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_store_trunc.ll

	Show First 20 Lines • Show All 3,466 Lines • ▼ Show 20 Lines
	; SSE4-NEXT: je .LBB11_16			; SSE4-NEXT: je .LBB11_16
	; SSE4-NEXT: .LBB11_15: # %cond.store13			; SSE4-NEXT: .LBB11_15: # %cond.store13
	; SSE4-NEXT: pextrw $7, %xmm0, 14(%rdi)			; SSE4-NEXT: pextrw $7, %xmm0, 14(%rdi)
	; SSE4-NEXT: retq			; SSE4-NEXT: retq
	;			;
	; AVX1-LABEL: truncstore_v8i32_v8i16:			; AVX1-LABEL: truncstore_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	▲ Show 20 Lines • Show All 3,082 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/oddshuffles.ll

Show First 20 Lines • Show All 506 Lines • ▼ Show 20 Lines	; XOP-NEXT: retq
store <12 x i16> %r, <12 x i16>* %p		store <12 x i16> %r, <12 x i16>* %p
ret void		ret void
}		}

define void @v12i32(<8 x i32> %a, <8 x i32> %b, <12 x i32>* %p) nounwind {		define void @v12i32(<8 x i32> %a, <8 x i32> %b, <12 x i32>* %p) nounwind {
; SSE2-LABEL: v12i32:		; SSE2-LABEL: v12i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movaps %xmm2, %xmm3		; SSE2-NEXT: movaps %xmm2, %xmm3
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,0],xmm0[1,0]		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm0[1,3]
; SSE2-NEXT: movaps %xmm0, %xmm4		; SSE2-NEXT: movaps %xmm0, %xmm4
; SSE2-NEXT: unpcklps {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm3[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm3[0,2]
; SSE2-NEXT: movaps %xmm0, %xmm3		; SSE2-NEXT: movaps %xmm0, %xmm3
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,0],xmm1[2,1]		; SSE2-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1],xmm1[1]
; SSE2-NEXT: movaps %xmm2, %xmm5		; SSE2-NEXT: movaps %xmm2, %xmm5
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[1,0],xmm1[1,0]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[1,0],xmm1[1,0]
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,0],xmm3[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,0],xmm3[0,2]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,2],xmm2[3,2]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3],xmm2[3,3]
; SSE2-NEXT: unpckhps {{.*#+}} xmm2 = xmm2[2],xmm0[2],xmm2[3],xmm0[3]		; SSE2-NEXT: unpckhps {{.*#+}} xmm2 = xmm2[2],xmm0[2],xmm2[3],xmm0[3]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm1[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm1[0,2]
; SSE2-NEXT: movaps %xmm2, 32(%rdi)		; SSE2-NEXT: movaps %xmm2, 32(%rdi)
; SSE2-NEXT: movaps %xmm5, 16(%rdi)		; SSE2-NEXT: movaps %xmm5, 16(%rdi)
; SSE2-NEXT: movaps %xmm4, (%rdi)		; SSE2-NEXT: movaps %xmm4, (%rdi)
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: v12i32:		; SSE42-LABEL: v12i32:
▲ Show 20 Lines • Show All 370 Lines • ▼ Show 20 Lines
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: pand %xmm1, %xmm4		; SSE2-NEXT: pand %xmm1, %xmm4
; SSE2-NEXT: pandn %xmm2, %xmm1		; SSE2-NEXT: pandn %xmm2, %xmm1
; SSE2-NEXT: por %xmm4, %xmm1		; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,1,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,1,3]
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,6,5,6,7]		; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,6,5,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,1,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,1,3]
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,3,2,1,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,3,2,1,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm1[0,1,2,3,4,7,6,7]		; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm2[0,1,2,3,4,7,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm8[0,1,2,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm8[0,1,2,1]
; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,4,5,6,5]		; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,4,5,6,5]
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[3,0],xmm4[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[3,0],xmm4[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm5[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm5[2,0]
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [65535,65535,0,65535,65535,0,65535,65535]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [65535,65535,0,65535,65535,0,65535,65535]
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: movdqa %xmm4, %xmm5
; SSE2-NEXT: pandn %xmm2, %xmm5		; SSE2-NEXT: pandn %xmm2, %xmm5
; SSE2-NEXT: movdqa %xmm3, %xmm6		; SSE2-NEXT: movdqa %xmm3, %xmm6
▲ Show 20 Lines • Show All 261 Lines • ▼ Show 20 Lines	; XOP-NEXT: retq
store <24 x i16> %interleaved, <24 x i16>* %p, align 4		store <24 x i16> %interleaved, <24 x i16>* %p, align 4
ret void		ret void
}		}

define void @interleave_24i32_out(<24 x i32>* %p, <8 x i32>* %q1, <8 x i32>* %q2, <8 x i32>* %q3) nounwind {		define void @interleave_24i32_out(<24 x i32>* %p, <8 x i32>* %q1, <8 x i32>* %q2, <8 x i32>* %q3) nounwind {
; SSE2-LABEL: interleave_24i32_out:		; SSE2-LABEL: interleave_24i32_out:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movups 80(%rdi), %xmm8		; SSE2-NEXT: movups 80(%rdi), %xmm8
; SSE2-NEXT: movups 64(%rdi), %xmm4		; SSE2-NEXT: movups 64(%rdi), %xmm3
; SSE2-NEXT: movdqu (%rdi), %xmm0		; SSE2-NEXT: movdqu (%rdi), %xmm1
; SSE2-NEXT: movups 16(%rdi), %xmm6		; SSE2-NEXT: movups 16(%rdi), %xmm5
; SSE2-NEXT: movups 32(%rdi), %xmm10		; SSE2-NEXT: movups 32(%rdi), %xmm10
; SSE2-NEXT: movups 48(%rdi), %xmm12		; SSE2-NEXT: movdqu 48(%rdi), %xmm2
; SSE2-NEXT: movdqa %xmm0, %xmm11		; SSE2-NEXT: movdqa %xmm1, %xmm11
; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm0[2,3,2,3]		; SSE2-NEXT: movaps %xmm10, %xmm7
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm6[0,0]		; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[2,1],xmm5[3,3]
; SSE2-NEXT: movaps %xmm0, %xmm1		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm6[3,3]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm5[0,0]
; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm6[1,1,1,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm5[1,1,1,1]
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[2,0],xmm10[1,0]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,3],xmm10[1,1]
; SSE2-NEXT: shufps {{.*#+}} xmm11 = xmm11[0,3],xmm6[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm11 = xmm11[0,3],xmm5[0,2]
; SSE2-NEXT: movaps %xmm12, %xmm6		; SSE2-NEXT: movdqa %xmm2, %xmm5
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[1,0],xmm4[0,0]		; SSE2-NEXT: movaps %xmm8, %xmm4
; SSE2-NEXT: movaps %xmm6, %xmm2		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[2,1],xmm3[3,3]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm2[2,3,2,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,1,1]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm3[0,0]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[2,0],xmm8[1,0]		; SSE2-NEXT: pshufd {{.*#+}} xmm12 = xmm3[1,1,1,1]
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm12[2,3,2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,3],xmm8[1,1]
; SSE2-NEXT: shufps {{.*#+}} xmm12 = xmm12[0,3],xmm4[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,3],xmm3[0,2]
; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,1],xmm8[0,3]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm7[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,2],xmm2[2,0]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm9[0],xmm0[1],xmm9[1]
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,2],xmm8[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm10[0,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm7 = xmm7[0],xmm9[0],xmm7[1],xmm9[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm12[0],xmm6[1],xmm12[1]
; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,1],xmm10[0,3]		; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm8[0,3]
; SSE2-NEXT: shufps {{.*#+}} xmm10 = xmm10[2,2],xmm1[2,0]		; SSE2-NEXT: movups %xmm5, 16(%rsi)
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm10[2,0]
; SSE2-NEXT: movups %xmm12, 16(%rsi)
; SSE2-NEXT: movups %xmm11, (%rsi)		; SSE2-NEXT: movups %xmm11, (%rsi)
; SSE2-NEXT: movups %xmm6, 16(%rdx)		; SSE2-NEXT: movups %xmm2, 16(%rdx)
; SSE2-NEXT: movups %xmm0, (%rdx)		; SSE2-NEXT: movups %xmm1, (%rdx)
; SSE2-NEXT: movups %xmm5, 16(%rcx)		; SSE2-NEXT: movups %xmm6, 16(%rcx)
; SSE2-NEXT: movups %xmm7, (%rcx)		; SSE2-NEXT: movups %xmm0, (%rcx)
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: interleave_24i32_out:		; SSE42-LABEL: interleave_24i32_out:
; SSE42: # %bb.0:		; SSE42: # %bb.0:
; SSE42-NEXT: movups 80(%rdi), %xmm8		; SSE42-NEXT: movups 80(%rdi), %xmm8
; SSE42-NEXT: movdqu 64(%rdi), %xmm9		; SSE42-NEXT: movdqu 64(%rdi), %xmm9
; SSE42-NEXT: movdqu (%rdi), %xmm4		; SSE42-NEXT: movdqu (%rdi), %xmm4
; SSE42-NEXT: movdqu 16(%rdi), %xmm2		; SSE42-NEXT: movdqu 16(%rdi), %xmm2
▲ Show 20 Lines • Show All 183 Lines • ▼ Show 20 Lines
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movups (%rsi), %xmm1		; SSE2-NEXT: movups (%rsi), %xmm1
; SSE2-NEXT: movups 16(%rsi), %xmm0		; SSE2-NEXT: movups 16(%rsi), %xmm0
; SSE2-NEXT: movups (%rdx), %xmm8		; SSE2-NEXT: movups (%rdx), %xmm8
; SSE2-NEXT: movups 16(%rdx), %xmm5		; SSE2-NEXT: movups 16(%rdx), %xmm5
; SSE2-NEXT: movups (%rcx), %xmm3		; SSE2-NEXT: movups (%rcx), %xmm3
; SSE2-NEXT: movups 16(%rcx), %xmm6		; SSE2-NEXT: movups 16(%rcx), %xmm6
; SSE2-NEXT: movaps %xmm3, %xmm7		; SSE2-NEXT: movaps %xmm3, %xmm7
; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,0],xmm1[1,0]		; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,1],xmm1[1,3]
; SSE2-NEXT: movaps %xmm1, %xmm9		; SSE2-NEXT: movaps %xmm1, %xmm9
; SSE2-NEXT: unpcklps {{.*#+}} xmm9 = xmm9[0],xmm8[0],xmm9[1],xmm8[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm9 = xmm9[0],xmm8[0],xmm9[1],xmm8[1]
; SSE2-NEXT: shufps {{.*#+}} xmm9 = xmm9[0,1],xmm7[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm9 = xmm9[0,1],xmm7[0,2]
; SSE2-NEXT: movaps %xmm5, %xmm7		; SSE2-NEXT: movaps %xmm5, %xmm7
; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[3,2],xmm6[3,2]		; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[3,3],xmm6[3,3]
; SSE2-NEXT: movaps %xmm6, %xmm4		; SSE2-NEXT: movaps %xmm6, %xmm4
; SSE2-NEXT: unpckhps {{.*#+}} xmm4 = xmm4[2],xmm0[2],xmm4[3],xmm0[3]		; SSE2-NEXT: unpckhps {{.*#+}} xmm4 = xmm4[2],xmm0[2],xmm4[3],xmm0[3]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,3],xmm7[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,3],xmm7[0,2]
; SSE2-NEXT: movaps %xmm0, %xmm7		; SSE2-NEXT: movaps %xmm0, %xmm7
; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[2,0],xmm5[2,1]		; SSE2-NEXT: unpckhpd {{.*#+}} xmm7 = xmm7[1],xmm5[1]
; SSE2-NEXT: movaps %xmm6, %xmm2		; SSE2-NEXT: movaps %xmm6, %xmm2
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm5[1,0]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm5[1,0]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm7[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm7[0,2]
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,0],xmm0[1,0]		; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm0[1,3]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm6[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm6[0,2]
; SSE2-NEXT: movaps %xmm8, %xmm5		; SSE2-NEXT: movaps %xmm8, %xmm5
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[3,2],xmm3[3,2]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[3,3],xmm3[3,3]
; SSE2-NEXT: movaps %xmm3, %xmm6		; SSE2-NEXT: movaps %xmm3, %xmm6
; SSE2-NEXT: unpckhps {{.*#+}} xmm6 = xmm6[2],xmm1[2],xmm6[3],xmm1[3]		; SSE2-NEXT: unpckhps {{.*#+}} xmm6 = xmm6[2],xmm1[2],xmm6[3],xmm1[3]
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,3],xmm5[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,3],xmm5[0,2]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm8[2,1]		; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm8[1]
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm8[1,0]		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm8[1,0]
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,0],xmm1[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,0],xmm1[0,2]
; SSE2-NEXT: movups %xmm3, 16(%rdi)		; SSE2-NEXT: movups %xmm3, 16(%rdi)
; SSE2-NEXT: movups %xmm6, 32(%rdi)		; SSE2-NEXT: movups %xmm6, 32(%rdi)
; SSE2-NEXT: movups %xmm0, 48(%rdi)		; SSE2-NEXT: movups %xmm0, 48(%rdi)
; SSE2-NEXT: movups %xmm2, 64(%rdi)		; SSE2-NEXT: movups %xmm2, 64(%rdi)
; SSE2-NEXT: movups %xmm4, 80(%rdi)		; SSE2-NEXT: movups %xmm4, 80(%rdi)
; SSE2-NEXT: movups %xmm9, (%rdi)		; SSE2-NEXT: movups %xmm9, (%rdi)
Show All 39 Lines
; SSE42-NEXT: movdqu %xmm0, 64(%rdi)		; SSE42-NEXT: movdqu %xmm0, 64(%rdi)
; SSE42-NEXT: movdqu %xmm7, 80(%rdi)		; SSE42-NEXT: movdqu %xmm7, 80(%rdi)
; SSE42-NEXT: movdqu %xmm1, (%rdi)		; SSE42-NEXT: movdqu %xmm1, (%rdi)
; SSE42-NEXT: retq		; SSE42-NEXT: retq
;		;
; AVX1-LABEL: interleave_24i32_in:		; AVX1-LABEL: interleave_24i32_in:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovups (%rdx), %xmm0		; AVX1-NEXT: vmovups (%rdx), %xmm0
; AVX1-NEXT: vmovups 16(%rdx), %xmm1		; AVX1-NEXT: vmovups (%rsi), %xmm1
; AVX1-NEXT: vmovups (%rsi), %xmm2		; AVX1-NEXT: vunpckhpd {{.*#+}} xmm2 = xmm1[1],xmm0[1]
; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm2[2,0],xmm0[2,0]		; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm0[1,1],xmm2[0,2]
; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm0[1,1],xmm3[0,2]		; AVX1-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[0,0]		; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,1]
; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],xmm2[2,1]		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0		; AVX1-NEXT: vbroadcastsd (%rcx), %ymm1
; AVX1-NEXT: vbroadcastsd (%rcx), %ymm2		; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm2[2],ymm0[3,4],ymm2[5],ymm0[6,7]		; AVX1-NEXT: vmovups 16(%rcx), %xmm1
; AVX1-NEXT: vmovups 16(%rcx), %xmm2		; AVX1-NEXT: vmovups 16(%rdx), %xmm2
; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm1[3,0],xmm2[3,0]		; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm2[3,0],xmm1[3,0]
; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm2[2,1],xmm3[0,2]		; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm1[2,1],xmm3[0,2]
; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[1,0],xmm1[1,0]		; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,0],xmm2[1,0]
; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm2[2,0],xmm1[2,2]		; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[2,2]
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1		; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
; AVX1-NEXT: vbroadcastsd 24(%rsi), %ymm2		; AVX1-NEXT: vbroadcastsd 24(%rsi), %ymm2
; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm2[2],ymm1[3,4],ymm2[5],ymm1[6,7]		; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm2[2],ymm1[3,4],ymm2[5],ymm1[6,7]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm2 = mem[1,0,2,2]		; AVX1-NEXT: vpermilpd {{.*#+}} ymm2 = mem[1,0,2,2]
; AVX1-NEXT: vpermilpd {{.*#+}} ymm3 = mem[1,1,2,2]		; AVX1-NEXT: vpermilpd {{.*#+}} ymm3 = mem[1,1,2,2]
; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm3[0],ymm2[1],ymm3[2,3],ymm2[4],ymm3[5,6],ymm2[7]		; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm3[0],ymm2[1],ymm3[2,3],ymm2[4],ymm3[5,6],ymm2[7]
; AVX1-NEXT: vpermilps {{.*#+}} ymm3 = mem[0,0,3,3,4,4,7,7]		; AVX1-NEXT: vpermilps {{.*#+}} ymm3 = mem[0,0,3,3,4,4,7,7]
; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4],ymm3[5],ymm2[6,7]		; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4],ymm3[5],ymm2[6,7]
▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
; AVX2-FAST-NEXT: retq		; AVX2-FAST-NEXT: retq
;		;
; XOP-LABEL: interleave_24i32_in:		; XOP-LABEL: interleave_24i32_in:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vmovups (%rsi), %ymm0		; XOP-NEXT: vmovups (%rsi), %ymm0
; XOP-NEXT: vmovups (%rcx), %ymm1		; XOP-NEXT: vmovups (%rcx), %ymm1
; XOP-NEXT: vpermil2ps {{.*#+}} ymm0 = ymm1[2],ymm0[3],ymm1[u,3],ymm0[4],ymm1[u,4],ymm0[5]		; XOP-NEXT: vpermil2ps {{.*#+}} ymm0 = ymm1[2],ymm0[3],ymm1[u,3],ymm0[4],ymm1[u,4],ymm0[5]
; XOP-NEXT: vmovups (%rdx), %xmm1		; XOP-NEXT: vmovups (%rdx), %xmm1
; XOP-NEXT: vmovups 16(%rdx), %xmm2		; XOP-NEXT: vmovups (%rsi), %xmm2
; XOP-NEXT: vmovups (%rsi), %xmm3		; XOP-NEXT: vunpckhpd {{.*#+}} xmm3 = xmm2[1],xmm1[1]
; XOP-NEXT: vshufps {{.*#+}} xmm4 = xmm3[2,0],xmm1[2,0]		; XOP-NEXT: vshufps {{.*#+}} xmm3 = xmm1[1,1],xmm3[0,2]
; XOP-NEXT: vshufps {{.*#+}} xmm4 = xmm1[1,1],xmm4[0,2]		; XOP-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; XOP-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,0],xmm3[0,0]		; XOP-NEXT: vshufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[2,1]
; XOP-NEXT: vshufps {{.*#+}} xmm1 = xmm1[2,0],xmm3[2,1]		; XOP-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
; XOP-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1		; XOP-NEXT: vbroadcastsd (%rcx), %ymm2
; XOP-NEXT: vbroadcastsd (%rcx), %ymm3		; XOP-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm2[2],ymm1[3,4],ymm2[5],ymm1[6,7]
; XOP-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm3[2],ymm1[3,4],ymm3[5],ymm1[6,7]		; XOP-NEXT: vmovups 16(%rcx), %xmm2
; XOP-NEXT: vmovups 16(%rcx), %xmm3		; XOP-NEXT: vmovups 16(%rdx), %xmm3
; XOP-NEXT: vshufps {{.*#+}} xmm4 = xmm2[3,0],xmm3[3,0]		; XOP-NEXT: vshufps {{.*#+}} xmm4 = xmm3[3,0],xmm2[3,0]
; XOP-NEXT: vshufps {{.*#+}} xmm4 = xmm3[2,1],xmm4[0,2]		; XOP-NEXT: vshufps {{.*#+}} xmm4 = xmm2[2,1],xmm4[0,2]
; XOP-NEXT: vshufps {{.*#+}} xmm3 = xmm3[1,0],xmm2[1,0]		; XOP-NEXT: vshufps {{.*#+}} xmm2 = xmm2[1,0],xmm3[1,0]
; XOP-NEXT: vshufps {{.*#+}} xmm2 = xmm3[2,0],xmm2[2,2]		; XOP-NEXT: vshufps {{.*#+}} xmm2 = xmm2[2,0],xmm3[2,2]
; XOP-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2		; XOP-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
; XOP-NEXT: vbroadcastsd 24(%rsi), %ymm3		; XOP-NEXT: vbroadcastsd 24(%rsi), %ymm3
; XOP-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4],ymm3[5],ymm2[6,7]		; XOP-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4],ymm3[5],ymm2[6,7]
; XOP-NEXT: vpermilps {{.*#+}} ymm3 = mem[0,0,3,3,4,4,7,7]		; XOP-NEXT: vpermilps {{.*#+}} ymm3 = mem[0,0,3,3,4,4,7,7]
; XOP-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm3[2],ymm0[3,4],ymm3[5],ymm0[6,7]		; XOP-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm3[2],ymm0[3,4],ymm3[5],ymm0[6,7]
; XOP-NEXT: vmovups %ymm0, 32(%rdi)		; XOP-NEXT: vmovups %ymm0, 32(%rdi)
; XOP-NEXT: vmovups %ymm2, 64(%rdi)		; XOP-NEXT: vmovups %ymm2, 64(%rdi)
; XOP-NEXT: vmovups %ymm1, (%rdi)		; XOP-NEXT: vmovups %ymm1, (%rdi)
▲ Show 20 Lines • Show All 524 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/oddsubvector.ll

	Show All 17 Lines
	; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE-NEXT: shrq $48, %rcx			; SSE-NEXT: shrq $48, %rcx
	; SSE-NEXT: movb %cl, 6(%rdi)			; SSE-NEXT: movb %cl, 6(%rdi)
	; SSE-NEXT: shrl $16, %eax			; SSE-NEXT: shrl $16, %eax
	; SSE-NEXT: movw %ax, 4(%rdi)			; SSE-NEXT: movw %ax, 4(%rdi)
	; SSE-NEXT: movd %xmm1, (%rdi)			; SSE-NEXT: movd %xmm1, (%rdi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: insert_v7i8_v2i16_2:			; AVX-LABEL: insert_v7i8_v2i16_2:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: movl (%rsi), %eax			; AVX-NEXT: movl (%rsi), %eax
	; AVX1-NEXT: vmovd %eax, %xmm0			; AVX-NEXT: vmovd %eax, %xmm0
	; AVX1-NEXT: movq (%rdi), %rcx			; AVX-NEXT: movq (%rdi), %rcx
	; AVX1-NEXT: vmovq %rcx, %xmm1			; AVX-NEXT: vmovq %rcx, %xmm1
	; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; AVX-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; AVX1-NEXT: shrq $48, %rcx			; AVX-NEXT: shrq $48, %rcx
	; AVX1-NEXT: movb %cl, 6(%rdi)			; AVX-NEXT: movb %cl, 6(%rdi)
	; AVX1-NEXT: shrl $16, %eax			; AVX-NEXT: shrl $16, %eax
	; AVX1-NEXT: movw %ax, 4(%rdi)			; AVX-NEXT: movw %ax, 4(%rdi)
	; AVX1-NEXT: vmovd %xmm0, (%rdi)			; AVX-NEXT: vmovd %xmm0, (%rdi)
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2-LABEL: insert_v7i8_v2i16_2:
	; AVX2: # %bb.0:
	; AVX2-NEXT: movl (%rsi), %eax
	; AVX2-NEXT: vmovd %eax, %xmm0
	; AVX2-NEXT: movq (%rdi), %rcx
	; AVX2-NEXT: vmovq %rcx, %xmm1
	; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; AVX2-NEXT: shrq $48, %rcx
	; AVX2-NEXT: movb %cl, 6(%rdi)
	; AVX2-NEXT: shrl $16, %eax
	; AVX2-NEXT: movw %ax, 4(%rdi)
	; AVX2-NEXT: vmovd %xmm0, (%rdi)
	; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: insert_v7i8_v2i16_2:			; AVX512-LABEL: insert_v7i8_v2i16_2:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: movl (%rsi), %eax			; AVX512-NEXT: movl (%rsi), %eax
	; AVX512-NEXT: vmovd %eax, %xmm0			; AVX512-NEXT: vmovd %eax, %xmm0
	; AVX512-NEXT: movq (%rdi), %rcx			; AVX512-NEXT: movq (%rdi), %rcx
	; AVX512-NEXT: vmovq %rcx, %xmm1			; AVX512-NEXT: vmovq %rcx, %xmm1
	; AVX512-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; AVX512-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; AVX512-NEXT: shrq $48, %rcx			; AVX512-NEXT: shrq $48, %rcx
	; AVX512-NEXT: movb %cl, 6(%rdi)			; AVX512-NEXT: movb %cl, 6(%rdi)
	; AVX512-NEXT: shrl $16, %eax			; AVX512-NEXT: shrl $16, %eax
	; AVX512-NEXT: movw %ax, 4(%rdi)			; AVX512-NEXT: movw %ax, 4(%rdi)
	; AVX512-NEXT: vmovd %xmm0, (%rdi)			; AVX512-NEXT: vmovd %xmm0, (%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;
	; XOP-LABEL: insert_v7i8_v2i16_2:
	; XOP: # %bb.0:
	; XOP-NEXT: movl (%rsi), %eax
	; XOP-NEXT: vmovd %eax, %xmm0
	; XOP-NEXT: movq (%rdi), %rcx
	; XOP-NEXT: vmovq %rcx, %xmm1
	; XOP-NEXT: insertq {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,1,2,3],xmm1[6,7,u,u,u,u,u,u,u,u]
	; XOP-NEXT: shrq $48, %rcx
	; XOP-NEXT: movb %cl, 6(%rdi)
	; XOP-NEXT: shrl $16, %eax
	; XOP-NEXT: movw %ax, 4(%rdi)
	; XOP-NEXT: vmovd %xmm1, (%rdi)
	; XOP-NEXT: retq
	%1 = load <2 x i16>, <2 x i16> *%a1			%1 = load <2 x i16>, <2 x i16> *%a1
	%2 = bitcast <2 x i16> %1 to <4 x i8>			%2 = bitcast <2 x i16> %1 to <4 x i8>
	%3 = shufflevector <4 x i8> %2, <4 x i8> undef, <7 x i32> <i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef>			%3 = shufflevector <4 x i8> %2, <4 x i8> undef, <7 x i32> <i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef>
	%4 = load <7 x i8>, <7 x i8> *%a0			%4 = load <7 x i8>, <7 x i8> *%a0
	%5 = shufflevector <7 x i8> %4, <7 x i8> %3, <7 x i32> <i32 0, i32 1, i32 7, i32 8, i32 9, i32 10, i32 6>			%5 = shufflevector <7 x i8> %4, <7 x i8> %3, <7 x i32> <i32 0, i32 1, i32 7, i32 8, i32 9, i32 10, i32 6>
	store <7 x i8> %5, <7 x i8>* %a0			store <7 x i8> %5, <7 x i8>* %a0
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 307 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/pmul.ll

Show First 20 Lines • Show All 1,230 Lines • ▼ Show 20 Lines	entry:
%rescast = bitcast <8 x i64> %res64 to <16 x i32>		%rescast = bitcast <8 x i64> %res64 to <16 x i32>
%res = shufflevector <16 x i32> %rescast, <16 x i32> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7,i32 9, i32 11, i32 13, i32 15 >		%res = shufflevector <16 x i32> %rescast, <16 x i32> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7,i32 9, i32 11, i32 13, i32 15 >
ret <8 x i32> %res		ret <8 x i32> %res
}		}

define <8 x i64> @mul_v8i64_sext(<8 x i16> %val1, <8 x i32> %val2) {		define <8 x i64> @mul_v8i64_sext(<8 x i16> %val1, <8 x i32> %val2) {
; SSE2-LABEL: mul_v8i64_sext:		; SSE2-LABEL: mul_v8i64_sext:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm1, %xmm12		; SSE2-NEXT: movdqa %xmm1, %xmm15
; SSE2-NEXT: punpckhwd {{.*#+}} xmm10 = xmm10[4],xmm0[4],xmm10[5],xmm0[5],xmm10[6],xmm0[6],xmm10[7],xmm0[7]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm14 = xmm14[4],xmm0[4],xmm14[5],xmm0[5],xmm14[6],xmm0[6],xmm14[7],xmm0[7]
; SSE2-NEXT: psrad $16, %xmm10		; SSE2-NEXT: psrad $16, %xmm14
; SSE2-NEXT: pxor %xmm8, %xmm8
; SSE2-NEXT: pxor %xmm13, %xmm13		; SSE2-NEXT: pxor %xmm13, %xmm13
; SSE2-NEXT: pcmpgtd %xmm10, %xmm13		; SSE2-NEXT: pxor %xmm10, %xmm10
; SSE2-NEXT: movdqa %xmm10, %xmm9		; SSE2-NEXT: pcmpgtd %xmm14, %xmm10
; SSE2-NEXT: punpckhdq {{.*#+}} xmm9 = xmm9[2],xmm13[2],xmm9[3],xmm13[3]		; SSE2-NEXT: movdqa %xmm14, %xmm8
; SSE2-NEXT: punpckldq {{.*#+}} xmm10 = xmm10[0],xmm13[0],xmm10[1],xmm13[1]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm8 = xmm8[2],xmm10[2],xmm8[3],xmm10[3]
		; SSE2-NEXT: punpckldq {{.*#+}} xmm14 = xmm14[0],xmm10[0],xmm14[1],xmm10[1]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
; SSE2-NEXT: psrad $16, %xmm0		; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: pxor %xmm15, %xmm15		; SSE2-NEXT: pxor %xmm5, %xmm5
; SSE2-NEXT: pcmpgtd %xmm0, %xmm15		; SSE2-NEXT: pcmpgtd %xmm0, %xmm5
; SSE2-NEXT: movdqa %xmm0, %xmm11		; SSE2-NEXT: movdqa %xmm0, %xmm11
; SSE2-NEXT: punpckhdq {{.*#+}} xmm11 = xmm11[2],xmm15[2],xmm11[3],xmm15[3]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm11 = xmm11[2],xmm5[2],xmm11[3],xmm5[3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm15[0],xmm0[1],xmm15[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[2,3,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[2,3,2,3]
; SSE2-NEXT: pxor %xmm14, %xmm14		; SSE2-NEXT: pxor %xmm9, %xmm9
; SSE2-NEXT: pcmpgtd %xmm3, %xmm14		; SSE2-NEXT: pcmpgtd %xmm3, %xmm9
; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1]
; SSE2-NEXT: pxor %xmm5, %xmm5		; SSE2-NEXT: pxor %xmm12, %xmm12
; SSE2-NEXT: pcmpgtd %xmm2, %xmm5		; SSE2-NEXT: pcmpgtd %xmm2, %xmm12
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm12[0],xmm2[1],xmm12[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]
; SSE2-NEXT: pxor %xmm6, %xmm6
; SSE2-NEXT: pcmpgtd %xmm1, %xmm6
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1]
; SSE2-NEXT: pxor %xmm7, %xmm7		; SSE2-NEXT: pxor %xmm7, %xmm7
; SSE2-NEXT: pcmpgtd %xmm12, %xmm7		; SSE2-NEXT: pcmpgtd %xmm1, %xmm7
; SSE2-NEXT: punpckldq {{.*#+}} xmm12 = xmm12[0],xmm7[0],xmm12[1],xmm7[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm7[0],xmm1[1],xmm7[1]
; SSE2-NEXT: movdqa %xmm15, %xmm4		; SSE2-NEXT: pcmpgtd %xmm15, %xmm13
; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm8[0],xmm4[1],xmm8[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm15 = xmm15[0],xmm13[0],xmm15[1],xmm13[1]
; SSE2-NEXT: pmuludq %xmm12, %xmm4		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,1,1,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm7 = xmm7[0],xmm8[0],xmm7[1],xmm8[1]		; SSE2-NEXT: pmuludq %xmm15, %xmm6
; SSE2-NEXT: pmuludq %xmm0, %xmm7		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm13[0,1,1,3]
; SSE2-NEXT: paddq %xmm4, %xmm7		; SSE2-NEXT: pmuludq %xmm0, %xmm4
; SSE2-NEXT: psllq $32, %xmm7		; SSE2-NEXT: paddq %xmm6, %xmm4
; SSE2-NEXT: pmuludq %xmm12, %xmm0		; SSE2-NEXT: psllq $32, %xmm4
; SSE2-NEXT: paddq %xmm7, %xmm0		; SSE2-NEXT: pmuludq %xmm15, %xmm0
; SSE2-NEXT: punpckhdq {{.*#+}} xmm15 = xmm15[2],xmm8[2],xmm15[3],xmm8[3]		; SSE2-NEXT: paddq %xmm4, %xmm0
; SSE2-NEXT: pmuludq %xmm1, %xmm15		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[2,1,3,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm8[0],xmm6[1],xmm8[1]		; SSE2-NEXT: pmuludq %xmm1, %xmm4
; SSE2-NEXT: pmuludq %xmm11, %xmm6		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[0,1,1,3]
; SSE2-NEXT: paddq %xmm15, %xmm6		; SSE2-NEXT: pmuludq %xmm11, %xmm5
; SSE2-NEXT: psllq $32, %xmm6		; SSE2-NEXT: paddq %xmm4, %xmm5
		; SSE2-NEXT: psllq $32, %xmm5
; SSE2-NEXT: pmuludq %xmm11, %xmm1		; SSE2-NEXT: pmuludq %xmm11, %xmm1
; SSE2-NEXT: paddq %xmm6, %xmm1		; SSE2-NEXT: paddq %xmm5, %xmm1
; SSE2-NEXT: movdqa %xmm13, %xmm4		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm10[0,1,1,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm8[0],xmm4[1],xmm8[1]
; SSE2-NEXT: pmuludq %xmm2, %xmm4		; SSE2-NEXT: pmuludq %xmm2, %xmm4
; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm8[0],xmm5[1],xmm8[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm12[0,1,1,3]
; SSE2-NEXT: pmuludq %xmm10, %xmm5		; SSE2-NEXT: pmuludq %xmm14, %xmm5
; SSE2-NEXT: paddq %xmm4, %xmm5		; SSE2-NEXT: paddq %xmm4, %xmm5
; SSE2-NEXT: psllq $32, %xmm5		; SSE2-NEXT: psllq $32, %xmm5
; SSE2-NEXT: pmuludq %xmm10, %xmm2		; SSE2-NEXT: pmuludq %xmm14, %xmm2
; SSE2-NEXT: paddq %xmm5, %xmm2		; SSE2-NEXT: paddq %xmm5, %xmm2
; SSE2-NEXT: punpckhdq {{.*#+}} xmm13 = xmm13[2],xmm8[2],xmm13[3],xmm8[3]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm10[2,1,3,3]
; SSE2-NEXT: pmuludq %xmm3, %xmm13		; SSE2-NEXT: pmuludq %xmm3, %xmm4
; SSE2-NEXT: punpckldq {{.*#+}} xmm14 = xmm14[0],xmm8[0],xmm14[1],xmm8[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm9[0,1,1,3]
; SSE2-NEXT: pmuludq %xmm9, %xmm14		; SSE2-NEXT: pmuludq %xmm8, %xmm5
; SSE2-NEXT: paddq %xmm13, %xmm14		; SSE2-NEXT: paddq %xmm4, %xmm5
; SSE2-NEXT: psllq $32, %xmm14		; SSE2-NEXT: psllq $32, %xmm5
; SSE2-NEXT: pmuludq %xmm9, %xmm3		; SSE2-NEXT: pmuludq %xmm8, %xmm3
; SSE2-NEXT: paddq %xmm14, %xmm3		; SSE2-NEXT: paddq %xmm5, %xmm3
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: mul_v8i64_sext:		; SSE41-LABEL: mul_v8i64_sext:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
; SSE41-NEXT: pmovsxwq %xmm3, %xmm4		; SSE41-NEXT: pmovsxwq %xmm3, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,2,3]		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,2,3]
; SSE41-NEXT: pmovsxwq %xmm3, %xmm5		; SSE41-NEXT: pmovsxwq %xmm3, %xmm5
Show All 34 Lines	; AVX512-NEXT: retq
%2 = sext <8 x i32> %val2 to <8 x i64>		%2 = sext <8 x i32> %val2 to <8 x i64>
%3 = mul <8 x i64> %1, %2		%3 = mul <8 x i64> %1, %2
ret <8 x i64> %3		ret <8 x i64> %3
}		}

define <2 x i64> @pmuldq_square(<2 x i64> %x) {		define <2 x i64> @pmuldq_square(<2 x i64> %x) {
; SSE2-LABEL: pmuldq_square:		; SSE2-LABEL: pmuldq_square:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
; SSE2-NEXT: psllq $32, %xmm0		; SSE2-NEXT: psllq $32, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,2,3]
; SSE2-NEXT: psrad $31, %xmm0		; SSE2-NEXT: psrad $31, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,3,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,3,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE2-NEXT: psrlq $32, %xmm0		; SSE2-NEXT: psrlq $32, %xmm0
; SSE2-NEXT: pmuludq %xmm1, %xmm0		; SSE2-NEXT: pmuludq %xmm1, %xmm0
; SSE2-NEXT: pmuludq %xmm1, %xmm1		; SSE2-NEXT: pmuludq %xmm1, %xmm1
; SSE2-NEXT: paddq %xmm0, %xmm0		; SSE2-NEXT: paddq %xmm0, %xmm0
; SSE2-NEXT: psllq $32, %xmm0		; SSE2-NEXT: psllq $32, %xmm0
Show All 32 Lines

llvm/test/CodeGen/X86/pmulh.ll

Show First 20 Lines • Show All 387 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%d = lshr <4 x i32> %c, <i32 16, i32 16, i32 16, i32 16>		%d = lshr <4 x i32> %c, <i32 16, i32 16, i32 16, i32 16>
ret <4 x i32> %d		ret <4 x i32> %d
}		}

define <4 x i32> @mulhsw_v4i16_ashr(<4 x i16> %a, <4 x i16> %b) {		define <4 x i32> @mulhsw_v4i16_ashr(<4 x i16> %a, <4 x i16> %b) {
; SSE2-LABEL: mulhsw_v4i16_ashr:		; SSE2-LABEL: mulhsw_v4i16_ashr:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pmulhw %xmm1, %xmm0		; SSE2-NEXT: pmulhw %xmm1, %xmm0
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm0[0,2,2,3,4,5,6,7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: psrad $16, %xmm1		; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: movdqa %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: mulhsw_v4i16_ashr:		; SSE41-LABEL: mulhsw_v4i16_ashr:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pmulhw %xmm1, %xmm0		; SSE41-NEXT: pmulhw %xmm1, %xmm0
; SSE41-NEXT: pmovsxwd %xmm0, %xmm0		; SSE41-NEXT: pmovsxwd %xmm0, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
▲ Show 20 Lines • Show All 1,091 Lines • ▼ Show 20 Lines	; AVX512BW-NEXT: retq
%c = mul <64 x i32> %a1, %b1		%c = mul <64 x i32> %a1, %b1
%d = ashr <64 x i32> %c, <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>		%d = ashr <64 x i32> %c, <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>
ret <64 x i32> %d		ret <64 x i32> %d
}		}

define <8 x i64> @mulhuw_v8i16_lshr_i64(<8 x i16> %a, <8 x i16> %b) {		define <8 x i64> @mulhuw_v8i16_lshr_i64(<8 x i16> %a, <8 x i16> %b) {
; SSE2-LABEL: mulhuw_v8i16_lshr_i64:		; SSE2-LABEL: mulhuw_v8i16_lshr_i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm1, %xmm3		; SSE2-NEXT: pxor %xmm2, %xmm2
; SSE2-NEXT: movdqa %xmm0, %xmm4		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: pxor %xmm5, %xmm5		; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
; SSE2-NEXT: movdqa %xmm0, %xmm2		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,1,1,3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1],xmm2[2],xmm5[2],xmm2[3],xmm5[3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,1,3,3]
; SSE2-NEXT: movdqa %xmm2, %xmm0		; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,1,1,3]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm5[2],xmm2[3],xmm5[3]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[2,1,3,3]
; SSE2-NEXT: punpckhwd {{.*#+}} xmm4 = xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
; SSE2-NEXT: movdqa %xmm4, %xmm6
; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm5[2],xmm4[3],xmm5[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
; SSE2-NEXT: movdqa %xmm1, %xmm7		; SSE2-NEXT: movdqa %xmm1, %xmm7
; SSE2-NEXT: punpckldq {{.*#+}} xmm7 = xmm7[0],xmm5[0],xmm7[1],xmm5[1]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm7 = xmm7[0],xmm2[0],xmm7[1],xmm2[1],xmm7[2],xmm2[2],xmm7[3],xmm2[3]
; SSE2-NEXT: pmuludq %xmm7, %xmm0		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,1,1,3]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm5[2],xmm1[3],xmm5[3]		; SSE2-NEXT: pmuludq %xmm4, %xmm0
; SSE2-NEXT: pmuludq %xmm2, %xmm1		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm7[2,1,3,3]
; SSE2-NEXT: punpckhwd {{.*#+}} xmm3 = xmm3[4],xmm5[4],xmm3[5],xmm5[5],xmm3[6],xmm5[6],xmm3[7],xmm5[7]		; SSE2-NEXT: pmuludq %xmm3, %xmm4
; SSE2-NEXT: movdqa %xmm3, %xmm2		; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,1,1,3]
; SSE2-NEXT: pmuludq %xmm6, %xmm2		; SSE2-NEXT: pmuludq %xmm5, %xmm2
; SSE2-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm5[2],xmm3[3],xmm5[3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,1,3,3]
; SSE2-NEXT: pmuludq %xmm4, %xmm3		; SSE2-NEXT: pmuludq %xmm6, %xmm3
; SSE2-NEXT: psrlq $16, %xmm0		; SSE2-NEXT: psrlq $16, %xmm0
; SSE2-NEXT: psrlq $16, %xmm1		; SSE2-NEXT: psrlq $16, %xmm4
; SSE2-NEXT: psrlq $16, %xmm2		; SSE2-NEXT: psrlq $16, %xmm2
; SSE2-NEXT: psrlq $16, %xmm3		; SSE2-NEXT: psrlq $16, %xmm3
		; SSE2-NEXT: movdqa %xmm4, %xmm1
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: mulhuw_v8i16_lshr_i64:		; SSE41-LABEL: mulhuw_v8i16_lshr_i64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pmulhuw %xmm1, %xmm0		; SSE41-NEXT: pmulhuw %xmm1, %xmm0
; SSE41-NEXT: pmovzxwq {{.*#+}} xmm4 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero		; SSE41-NEXT: pmovzxwq {{.*#+}} xmm4 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
; SSE41-NEXT: pmovzxwq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero		; SSE41-NEXT: pmovzxwq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero
Show All 22 Lines	; AVX512-NEXT: retq
%c = mul <8 x i64> %a1, %b1		%c = mul <8 x i64> %a1, %b1
%d = lshr <8 x i64> %c, <i64 16, i64 16, i64 16, i64 16, i64 16, i64 16, i64 16, i64 16>		%d = lshr <8 x i64> %c, <i64 16, i64 16, i64 16, i64 16, i64 16, i64 16, i64 16, i64 16>
ret <8 x i64> %d		ret <8 x i64> %d
}		}

define <8 x i64> @mulhsw_v8i16_lshr_i64(<8 x i16> %a, <8 x i16> %b) {		define <8 x i64> @mulhsw_v8i16_lshr_i64(<8 x i16> %a, <8 x i16> %b) {
; SSE2-LABEL: mulhsw_v8i16_lshr_i64:		; SSE2-LABEL: mulhsw_v8i16_lshr_i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: punpcklwd {{.*#+}} xmm12 = xmm12[0],xmm0[0],xmm12[1],xmm0[1],xmm12[2],xmm0[2],xmm12[3],xmm0[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm0[0],xmm6[1],xmm0[1],xmm6[2],xmm0[2],xmm6[3],xmm0[3]
; SSE2-NEXT: psrad $16, %xmm12		; SSE2-NEXT: psrad $16, %xmm6
; SSE2-NEXT: pxor %xmm8, %xmm8		; SSE2-NEXT: pxor %xmm13, %xmm13
; SSE2-NEXT: pxor %xmm14, %xmm14		; SSE2-NEXT: pxor %xmm10, %xmm10
; SSE2-NEXT: pcmpgtd %xmm12, %xmm14		; SSE2-NEXT: pcmpgtd %xmm6, %xmm10
; SSE2-NEXT: movdqa %xmm12, %xmm9		; SSE2-NEXT: movdqa %xmm6, %xmm8
; SSE2-NEXT: punpckldq {{.*#+}} xmm9 = xmm9[0],xmm14[0],xmm9[1],xmm14[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm8 = xmm8[0],xmm10[0],xmm8[1],xmm10[1]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm12 = xmm12[2],xmm14[2],xmm12[3],xmm14[3]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm6 = xmm6[2],xmm10[2],xmm6[3],xmm10[3]
; SSE2-NEXT: punpckhwd {{.*#+}} xmm7 = xmm7[4],xmm0[4],xmm7[5],xmm0[5],xmm7[6],xmm0[6],xmm7[7],xmm0[7]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm4 = xmm4[4],xmm0[4],xmm4[5],xmm0[5],xmm4[6],xmm0[6],xmm4[7],xmm0[7]
		; SSE2-NEXT: psrad $16, %xmm4
		; SSE2-NEXT: pxor %xmm5, %xmm5
		; SSE2-NEXT: pcmpgtd %xmm4, %xmm5
		; SSE2-NEXT: movdqa %xmm4, %xmm11
		; SSE2-NEXT: punpckldq {{.*#+}} xmm11 = xmm11[0],xmm5[0],xmm11[1],xmm5[1]
		; SSE2-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm5[2],xmm4[3],xmm5[3]
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm7 = xmm7[0],xmm1[0],xmm7[1],xmm1[1],xmm7[2],xmm1[2],xmm7[3],xmm1[3]
; SSE2-NEXT: psrad $16, %xmm7		; SSE2-NEXT: psrad $16, %xmm7
; SSE2-NEXT: pxor %xmm4, %xmm4		; SSE2-NEXT: pxor %xmm12, %xmm12
; SSE2-NEXT: pcmpgtd %xmm7, %xmm4		; SSE2-NEXT: pcmpgtd %xmm7, %xmm12
; SSE2-NEXT: movdqa %xmm7, %xmm11		; SSE2-NEXT: movdqa %xmm7, %xmm9
; SSE2-NEXT: punpckldq {{.*#+}} xmm11 = xmm11[0],xmm4[0],xmm11[1],xmm4[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm9 = xmm9[0],xmm12[0],xmm9[1],xmm12[1]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm7 = xmm7[2],xmm4[2],xmm7[3],xmm4[3]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm7 = xmm7[2],xmm12[2],xmm7[3],xmm12[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1],xmm5[2],xmm1[2],xmm5[3],xmm1[3]
; SSE2-NEXT: psrad $16, %xmm5
; SSE2-NEXT: pxor %xmm0, %xmm0
; SSE2-NEXT: pcmpgtd %xmm5, %xmm0
; SSE2-NEXT: movdqa %xmm5, %xmm10
; SSE2-NEXT: punpckldq {{.*#+}} xmm10 = xmm10[0],xmm0[0],xmm10[1],xmm0[1]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm5 = xmm5[2],xmm0[2],xmm5[3],xmm0[3]
; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4,4,5,5,6,6,7,7]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4,4,5,5,6,6,7,7]
; SSE2-NEXT: psrad $16, %xmm1		; SSE2-NEXT: psrad $16, %xmm1
; SSE2-NEXT: pxor %xmm2, %xmm2		; SSE2-NEXT: pcmpgtd %xmm1, %xmm13
; SSE2-NEXT: pcmpgtd %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm0
; SSE2-NEXT: movdqa %xmm1, %xmm13		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm13[0],xmm0[1],xmm13[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm13 = xmm13[0],xmm2[0],xmm13[1],xmm2[1]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm13[2],xmm1[3],xmm13[3]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm13[2,1,3,3]
; SSE2-NEXT: movdqa %xmm2, %xmm3		; SSE2-NEXT: pmuludq %xmm4, %xmm3
; SSE2-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm8[2],xmm3[3],xmm8[3]		; SSE2-NEXT: pmuludq %xmm1, %xmm4
; SSE2-NEXT: pmuludq %xmm7, %xmm3		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm5[2,1,3,3]
; SSE2-NEXT: pmuludq %xmm1, %xmm7		; SSE2-NEXT: pmuludq %xmm1, %xmm2
; SSE2-NEXT: movdqa %xmm4, %xmm6		; SSE2-NEXT: paddq %xmm2, %xmm3
; SSE2-NEXT: punpckhdq {{.*#+}} xmm6 = xmm6[2],xmm8[2],xmm6[3],xmm8[3]
; SSE2-NEXT: pmuludq %xmm1, %xmm6
; SSE2-NEXT: paddq %xmm6, %xmm3
; SSE2-NEXT: psllq $32, %xmm3		; SSE2-NEXT: psllq $32, %xmm3
; SSE2-NEXT: paddq %xmm7, %xmm3		; SSE2-NEXT: paddq %xmm4, %xmm3
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm8[0],xmm2[1],xmm8[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm13[0,1,1,3]
; SSE2-NEXT: pmuludq %xmm11, %xmm2		; SSE2-NEXT: pmuludq %xmm11, %xmm2
; SSE2-NEXT: pmuludq %xmm13, %xmm11		; SSE2-NEXT: pmuludq %xmm0, %xmm11
; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm8[0],xmm4[1],xmm8[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm5[0,1,1,3]
; SSE2-NEXT: pmuludq %xmm13, %xmm4		; SSE2-NEXT: pmuludq %xmm0, %xmm1
; SSE2-NEXT: paddq %xmm4, %xmm2		; SSE2-NEXT: paddq %xmm1, %xmm2
; SSE2-NEXT: psllq $32, %xmm2		; SSE2-NEXT: psllq $32, %xmm2
; SSE2-NEXT: paddq %xmm11, %xmm2		; SSE2-NEXT: paddq %xmm11, %xmm2
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm12[2,1,3,3]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm8[2],xmm1[3],xmm8[3]		; SSE2-NEXT: pmuludq %xmm6, %xmm1
; SSE2-NEXT: pmuludq %xmm12, %xmm1		; SSE2-NEXT: pmuludq %xmm7, %xmm6
; SSE2-NEXT: pmuludq %xmm5, %xmm12		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm10[2,1,3,3]
; SSE2-NEXT: movdqa %xmm14, %xmm4		; SSE2-NEXT: pmuludq %xmm7, %xmm0
; SSE2-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm8[2],xmm4[3],xmm8[3]		; SSE2-NEXT: paddq %xmm0, %xmm1
; SSE2-NEXT: pmuludq %xmm5, %xmm4
; SSE2-NEXT: paddq %xmm4, %xmm1
; SSE2-NEXT: psllq $32, %xmm1		; SSE2-NEXT: psllq $32, %xmm1
; SSE2-NEXT: paddq %xmm12, %xmm1		; SSE2-NEXT: paddq %xmm6, %xmm1
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm12[0,1,1,3]
; SSE2-NEXT: pmuludq %xmm9, %xmm0		; SSE2-NEXT: pmuludq %xmm8, %xmm0
; SSE2-NEXT: pmuludq %xmm10, %xmm9		; SSE2-NEXT: pmuludq %xmm9, %xmm8
; SSE2-NEXT: punpckldq {{.*#+}} xmm14 = xmm14[0],xmm8[0],xmm14[1],xmm8[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm10[0,1,1,3]
; SSE2-NEXT: pmuludq %xmm10, %xmm14		; SSE2-NEXT: pmuludq %xmm9, %xmm4
; SSE2-NEXT: paddq %xmm14, %xmm0		; SSE2-NEXT: paddq %xmm4, %xmm0
; SSE2-NEXT: psllq $32, %xmm0		; SSE2-NEXT: psllq $32, %xmm0
; SSE2-NEXT: paddq %xmm9, %xmm0		; SSE2-NEXT: paddq %xmm8, %xmm0
; SSE2-NEXT: psrlq $16, %xmm0		; SSE2-NEXT: psrlq $16, %xmm0
; SSE2-NEXT: psrlq $16, %xmm1		; SSE2-NEXT: psrlq $16, %xmm1
; SSE2-NEXT: psrlq $16, %xmm2		; SSE2-NEXT: psrlq $16, %xmm2
; SSE2-NEXT: psrlq $16, %xmm3		; SSE2-NEXT: psrlq $16, %xmm3
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: mulhsw_v8i16_lshr_i64:		; SSE41-LABEL: mulhsw_v8i16_lshr_i64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
Show All 26 Lines	; AVX512-NEXT: retq
%c = mul <8 x i64> %a1, %b1		%c = mul <8 x i64> %a1, %b1
%d = lshr <8 x i64> %c, <i64 16, i64 16, i64 16, i64 16, i64 16, i64 16, i64 16, i64 16>		%d = lshr <8 x i64> %c, <i64 16, i64 16, i64 16, i64 16, i64 16, i64 16, i64 16, i64 16>
ret <8 x i64> %d		ret <8 x i64> %d
}		}

define <8 x i64> @mulhsw_v8i16_ashr_i64(<8 x i16> %a, <8 x i16> %b) {		define <8 x i64> @mulhsw_v8i16_ashr_i64(<8 x i16> %a, <8 x i16> %b) {
; SSE2-LABEL: mulhsw_v8i16_ashr_i64:		; SSE2-LABEL: mulhsw_v8i16_ashr_i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: punpcklwd {{.*#+}} xmm12 = xmm12[0],xmm0[0],xmm12[1],xmm0[1],xmm12[2],xmm0[2],xmm12[3],xmm0[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm5 = xmm5[0],xmm0[0],xmm5[1],xmm0[1],xmm5[2],xmm0[2],xmm5[3],xmm0[3]
; SSE2-NEXT: psrad $16, %xmm12		; SSE2-NEXT: psrad $16, %xmm5
; SSE2-NEXT: pxor %xmm8, %xmm8		; SSE2-NEXT: pxor %xmm13, %xmm13
; SSE2-NEXT: pxor %xmm14, %xmm14		; SSE2-NEXT: pxor %xmm10, %xmm10
; SSE2-NEXT: pcmpgtd %xmm12, %xmm14		; SSE2-NEXT: pcmpgtd %xmm5, %xmm10
; SSE2-NEXT: movdqa %xmm12, %xmm9		; SSE2-NEXT: movdqa %xmm5, %xmm8
; SSE2-NEXT: punpckldq {{.*#+}} xmm9 = xmm9[0],xmm14[0],xmm9[1],xmm14[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm8 = xmm8[0],xmm10[0],xmm8[1],xmm10[1]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm12 = xmm12[2],xmm14[2],xmm12[3],xmm14[3]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm5 = xmm5[2],xmm10[2],xmm5[3],xmm10[3]
; SSE2-NEXT: punpckhwd {{.*#+}} xmm7 = xmm7[4],xmm0[4],xmm7[5],xmm0[5],xmm7[6],xmm0[6],xmm7[7],xmm0[7]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
; SSE2-NEXT: psrad $16, %xmm7		; SSE2-NEXT: psrad $16, %xmm2
; SSE2-NEXT: pxor %xmm2, %xmm2		; SSE2-NEXT: pxor %xmm3, %xmm3
; SSE2-NEXT: pcmpgtd %xmm7, %xmm2		; SSE2-NEXT: pcmpgtd %xmm2, %xmm3
; SSE2-NEXT: movdqa %xmm7, %xmm11		; SSE2-NEXT: movdqa %xmm2, %xmm11
; SSE2-NEXT: punpckldq {{.*#+}} xmm11 = xmm11[0],xmm2[0],xmm11[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm11 = xmm11[0],xmm3[0],xmm11[1],xmm3[1]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm7 = xmm7[2],xmm2[2],xmm7[3],xmm2[3]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm3[2],xmm2[3],xmm3[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSE2-NEXT: psrad $16, %xmm3		; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: pxor %xmm0, %xmm0		; SSE2-NEXT: pxor %xmm12, %xmm12
; SSE2-NEXT: pcmpgtd %xmm3, %xmm0		; SSE2-NEXT: pcmpgtd %xmm0, %xmm12
; SSE2-NEXT: movdqa %xmm3, %xmm10		; SSE2-NEXT: movdqa %xmm0, %xmm9
; SSE2-NEXT: punpckldq {{.*#+}} xmm10 = xmm10[0],xmm0[0],xmm10[1],xmm0[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm9 = xmm9[0],xmm12[0],xmm9[1],xmm12[1]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm0[2],xmm3[3],xmm0[3]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm12[2],xmm0[3],xmm12[3]
; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4,4,5,5,6,6,7,7]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4,4,5,5,6,6,7,7]
; SSE2-NEXT: psrad $16, %xmm1		; SSE2-NEXT: psrad $16, %xmm1
; SSE2-NEXT: pxor %xmm4, %xmm4		; SSE2-NEXT: pcmpgtd %xmm1, %xmm13
; SSE2-NEXT: pcmpgtd %xmm1, %xmm4		; SSE2-NEXT: movdqa %xmm1, %xmm6
; SSE2-NEXT: movdqa %xmm1, %xmm13		; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm13[0],xmm6[1],xmm13[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm13 = xmm13[0],xmm4[0],xmm13[1],xmm4[1]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm13[2],xmm1[3],xmm13[3]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm4[2],xmm1[3],xmm4[3]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm13[2,1,3,3]
; SSE2-NEXT: movdqa %xmm4, %xmm6		; SSE2-NEXT: pmuludq %xmm2, %xmm4
; SSE2-NEXT: punpckhdq {{.*#+}} xmm6 = xmm6[2],xmm8[2],xmm6[3],xmm8[3]		; SSE2-NEXT: pmuludq %xmm1, %xmm2
; SSE2-NEXT: pmuludq %xmm7, %xmm6		; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm3[2,1,3,3]
; SSE2-NEXT: pmuludq %xmm1, %xmm7		; SSE2-NEXT: pmuludq %xmm1, %xmm7
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: paddq %xmm7, %xmm4
; SSE2-NEXT: punpckhdq {{.*#+}} xmm5 = xmm5[2],xmm8[2],xmm5[3],xmm8[3]
; SSE2-NEXT: pmuludq %xmm1, %xmm5
; SSE2-NEXT: paddq %xmm5, %xmm6
; SSE2-NEXT: psllq $32, %xmm6
; SSE2-NEXT: paddq %xmm7, %xmm6
; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm8[0],xmm4[1],xmm8[1]
; SSE2-NEXT: pmuludq %xmm11, %xmm4
; SSE2-NEXT: pmuludq %xmm13, %xmm11
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm8[0],xmm2[1],xmm8[1]
; SSE2-NEXT: pmuludq %xmm13, %xmm2
; SSE2-NEXT: paddq %xmm2, %xmm4
; SSE2-NEXT: psllq $32, %xmm4		; SSE2-NEXT: psllq $32, %xmm4
; SSE2-NEXT: paddq %xmm11, %xmm4		; SSE2-NEXT: paddq %xmm2, %xmm4
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm13[0,1,1,3]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm8[2],xmm1[3],xmm8[3]		; SSE2-NEXT: pmuludq %xmm11, %xmm7
; SSE2-NEXT: pmuludq %xmm12, %xmm1		; SSE2-NEXT: pmuludq %xmm6, %xmm11
; SSE2-NEXT: pmuludq %xmm3, %xmm12		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,1,1,3]
; SSE2-NEXT: movdqa %xmm14, %xmm2		; SSE2-NEXT: pmuludq %xmm6, %xmm1
; SSE2-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm8[2],xmm2[3],xmm8[3]		; SSE2-NEXT: paddq %xmm1, %xmm7
; SSE2-NEXT: pmuludq %xmm3, %xmm2		; SSE2-NEXT: psllq $32, %xmm7
		; SSE2-NEXT: paddq %xmm11, %xmm7
		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm12[2,1,3,3]
		; SSE2-NEXT: pmuludq %xmm5, %xmm1
		; SSE2-NEXT: pmuludq %xmm0, %xmm5
		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm10[2,1,3,3]
		; SSE2-NEXT: pmuludq %xmm0, %xmm2
; SSE2-NEXT: paddq %xmm2, %xmm1		; SSE2-NEXT: paddq %xmm2, %xmm1
; SSE2-NEXT: psllq $32, %xmm1		; SSE2-NEXT: psllq $32, %xmm1
; SSE2-NEXT: paddq %xmm12, %xmm1		; SSE2-NEXT: paddq %xmm5, %xmm1
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm12[0,1,1,3]
; SSE2-NEXT: pmuludq %xmm9, %xmm0		; SSE2-NEXT: pmuludq %xmm8, %xmm0
; SSE2-NEXT: pmuludq %xmm10, %xmm9		; SSE2-NEXT: pmuludq %xmm9, %xmm8
; SSE2-NEXT: punpckldq {{.*#+}} xmm14 = xmm14[0],xmm8[0],xmm14[1],xmm8[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm10[0,1,1,3]
; SSE2-NEXT: pmuludq %xmm10, %xmm14		; SSE2-NEXT: pmuludq %xmm9, %xmm2
; SSE2-NEXT: paddq %xmm14, %xmm0		; SSE2-NEXT: paddq %xmm2, %xmm0
; SSE2-NEXT: psllq $32, %xmm0		; SSE2-NEXT: psllq $32, %xmm0
; SSE2-NEXT: paddq %xmm9, %xmm0		; SSE2-NEXT: paddq %xmm8, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm2		; SSE2-NEXT: movdqa %xmm0, %xmm2
; SSE2-NEXT: psrad $16, %xmm2		; SSE2-NEXT: psrad $16, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
; SSE2-NEXT: psrlq $16, %xmm0		; SSE2-NEXT: psrlq $16, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: psrad $16, %xmm2		; SSE2-NEXT: psrad $16, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
; SSE2-NEXT: psrlq $16, %xmm1		; SSE2-NEXT: psrlq $16, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE2-NEXT: movdqa %xmm4, %xmm2		; SSE2-NEXT: movdqa %xmm7, %xmm2
; SSE2-NEXT: psrad $16, %xmm2		; SSE2-NEXT: psrad $16, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,3,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,3,2,3]
; SSE2-NEXT: psrlq $16, %xmm4		; SSE2-NEXT: psrlq $16, %xmm7
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm7[0,2,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
; SSE2-NEXT: movdqa %xmm6, %xmm3		; SSE2-NEXT: movdqa %xmm4, %xmm3
; SSE2-NEXT: psrad $16, %xmm3		; SSE2-NEXT: psrad $16, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,3,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm3[1,3,2,3]
; SSE2-NEXT: psrlq $16, %xmm6		; SSE2-NEXT: psrlq $16, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm6[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: mulhsw_v8i16_ashr_i64:		; SSE41-LABEL: mulhsw_v8i16_ashr_i64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pmulhw %xmm1, %xmm0		; SSE41-NEXT: pmulhw %xmm1, %xmm0
; SSE41-NEXT: pmovsxwq %xmm0, %xmm4		; SSE41-NEXT: pmovsxwq %xmm0, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
; SSE41-NEXT: pmovsxwq %xmm1, %xmm1		; SSE41-NEXT: pmovsxwq %xmm1, %xmm1
Show All 26 Lines

llvm/test/CodeGen/X86/pr29112.ll

	Show All 28 Lines
	; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm11[0,1],xmm2[1],xmm11[3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm11[0,1],xmm2[1],xmm11[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm13 = xmm1[0,1,2],xmm3[1]			; CHECK-NEXT: vinsertps {{.*#+}} xmm13 = xmm1[0,1,2],xmm3[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm6 = xmm4[0,1,2],xmm3[1]			; CHECK-NEXT: vinsertps {{.*#+}} xmm6 = xmm4[0,1,2],xmm3[1]
	; CHECK-NEXT: vmovaps %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vextractf32x4 $2, %zmm3, %xmm4			; CHECK-NEXT: vextractf32x4 $2, %zmm3, %xmm4
	; CHECK-NEXT: vblendps {{.*#+}} xmm4 = xmm1[0,1,2],xmm4[3]			; CHECK-NEXT: vblendps {{.*#+}} xmm4 = xmm1[0,1,2],xmm4[3]
	; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm2[3,3,3,3]			; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm2[3,3,3,3]
	; CHECK-NEXT: vunpcklps {{.*#+}} xmm5 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]			; CHECK-NEXT: vunpcklps {{.*#+}} xmm5 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1],xmm2[1],xmm5[3]			; CHECK-NEXT: vshufps {{.*#+}} xmm5 = xmm5[0,1],xmm2[1,3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1,2],xmm3[1]			; CHECK-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1,2],xmm3[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm7[0,1],xmm2[1],xmm7[3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm7[0,1],xmm2[1],xmm7[3]
	; CHECK-NEXT: vblendps {{.*#+}} xmm7 = xmm0[0,1,2],xmm3[3]			; CHECK-NEXT: vblendps {{.*#+}} xmm7 = xmm0[0,1,2],xmm3[3]
	; CHECK-NEXT: vblendps {{.*#+}} xmm12 = xmm1[0,1,2],xmm3[3]			; CHECK-NEXT: vblendps {{.*#+}} xmm12 = xmm1[0,1,2],xmm3[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm8[0,1,2],xmm3[1]			; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm8[0,1,2],xmm3[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[1]			; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[1]
	; CHECK-NEXT: vaddps %xmm1, %xmm0, %xmm8			; CHECK-NEXT: vaddps %xmm1, %xmm0, %xmm8
	; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm11[0,1],xmm2[3],xmm11[3]			; CHECK-NEXT: vshufps {{.*#+}} xmm2 = xmm11[0,1],xmm2[3,3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[2]			; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[2]
	; CHECK-NEXT: vaddps %xmm2, %xmm14, %xmm2			; CHECK-NEXT: vaddps %xmm2, %xmm14, %xmm2
	; CHECK-NEXT: vmovaps %xmm13, %xmm1			; CHECK-NEXT: vmovaps %xmm13, %xmm1
	; CHECK-NEXT: vmovaps %xmm13, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm13, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vaddps %xmm10, %xmm13, %xmm10			; CHECK-NEXT: vaddps %xmm10, %xmm13, %xmm10
	; CHECK-NEXT: vaddps %xmm13, %xmm13, %xmm3			; CHECK-NEXT: vaddps %xmm13, %xmm13, %xmm3
	; CHECK-NEXT: vaddps %xmm12, %xmm14, %xmm0			; CHECK-NEXT: vaddps %xmm12, %xmm14, %xmm0
	; CHECK-NEXT: vaddps %xmm0, %xmm8, %xmm0			; CHECK-NEXT: vaddps %xmm0, %xmm8, %xmm0
	▲ Show 20 Lines • Show All 48 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/promote-cmp.ll

	Show All 23 Lines
	; SSE2-NEXT: pxor %xmm0, %xmm4			; SSE2-NEXT: pxor %xmm0, %xmm4
	; SSE2-NEXT: movdqa %xmm4, %xmm7			; SSE2-NEXT: movdqa %xmm4, %xmm7
	; SSE2-NEXT: pcmpgtd %xmm5, %xmm7			; SSE2-NEXT: pcmpgtd %xmm5, %xmm7
	; SSE2-NEXT: pcmpeqd %xmm5, %xmm4			; SSE2-NEXT: pcmpeqd %xmm5, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
	; SSE2-NEXT: pand %xmm7, %xmm4			; SSE2-NEXT: pand %xmm7, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]
	; SSE2-NEXT: por %xmm4, %xmm5			; SSE2-NEXT: por %xmm4, %xmm5
	; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,2],xmm6[0,2]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,2,2,3]
	; SSE2-NEXT: movaps {{.*#+}} xmm4 = <1,1,u,0>			; SSE2-NEXT: pxor {{.*}}(%rip), %xmm4
	; SSE2-NEXT: xorps %xmm5, %xmm4			; SSE2-NEXT: psllq $63, %xmm6
	; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,1,3,3]			; SSE2-NEXT: psrad $31, %xmm6
	; SSE2-NEXT: psllq $63, %xmm5			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]
	; SSE2-NEXT: psrad $31, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; SSE2-NEXT: pand %xmm5, %xmm1			; SSE2-NEXT: pand %xmm5, %xmm1
	; SSE2-NEXT: pandn %xmm3, %xmm5			; SSE2-NEXT: pandn %xmm3, %xmm5
	; SSE2-NEXT: por %xmm5, %xmm1			; SSE2-NEXT: por %xmm5, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,1,1,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,1,1,3]
	; SSE2-NEXT: psllq $63, %xmm3			; SSE2-NEXT: psllq $63, %xmm3
	; SSE2-NEXT: psrad $31, %xmm3			; SSE2-NEXT: psrad $31, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/psubus.ll

	Show First 20 Lines • Show All 552 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmaxud %xmm4, %xmm2, %xmm5			; AVX1-NEXT: vpmaxud %xmm4, %xmm2, %xmm5
	; AVX1-NEXT: vpcmpeqd %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpcmpeqd %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5
	; AVX1-NEXT: vpxor %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpmaxud %xmm1, %xmm3, %xmm6			; AVX1-NEXT: vpmaxud %xmm1, %xmm3, %xmm6
	; AVX1-NEXT: vpcmpeqd %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm6, %xmm3, %xmm3
	; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpackssdw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpackssdw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm3, %xmm4, %xmm4			; AVX1-NEXT: vpshufb %xmm3, %xmm4, %xmm4
	; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm4[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm4[0]
	; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpandn %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpandn %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 333 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpminud %xmm4, %xmm2, %xmm5			; AVX1-NEXT: vpminud %xmm4, %xmm2, %xmm5
	; AVX1-NEXT: vpcmpeqd %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpcmpeqd %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5
	; AVX1-NEXT: vpxor %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpminud %xmm1, %xmm3, %xmm6			; AVX1-NEXT: vpminud %xmm1, %xmm3, %xmm6
	; AVX1-NEXT: vpcmpeqd %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm6, %xmm3, %xmm3
	; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpackssdw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpackssdw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm3, %xmm4, %xmm4			; AVX1-NEXT: vpshufb %xmm3, %xmm4, %xmm4
	; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm4[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm4[0]
	; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpand %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmaxud %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpmaxud %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpcmpeqd %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5
	; AVX1-NEXT: vpxor %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpmaxud %xmm3, %xmm1, %xmm3			; AVX1-NEXT: vpmaxud %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm1, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpackssdw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpackssdw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm3, %xmm4, %xmm4			; AVX1-NEXT: vpshufb %xmm3, %xmm4, %xmm4
	; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm4[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm4[0]
	; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpand %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 1,598 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/shrink_vmul.ll

	Show First 20 Lines • Show All 893 Lines • ▼ Show 20 Lines
	; X86-SSE-NEXT: movd %edx, %xmm0			; X86-SSE-NEXT: movd %edx, %xmm0
	; X86-SSE-NEXT: movzwl (%eax,%ecx), %eax			; X86-SSE-NEXT: movzwl (%eax,%ecx), %eax
	; X86-SSE-NEXT: movd %eax, %xmm1			; X86-SSE-NEXT: movd %eax, %xmm1
	; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X86-SSE-NEXT: psraw $8, %xmm0			; X86-SSE-NEXT: psraw $8, %xmm0
	; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X86-SSE-NEXT: psraw $8, %xmm1			; X86-SSE-NEXT: psraw $8, %xmm1
	; X86-SSE-NEXT: pmullw %xmm0, %xmm1			; X86-SSE-NEXT: pmullw %xmm0, %xmm1
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm1[0,0,2,1,4,5,6,7]
	; X86-SSE-NEXT: psrad $16, %xmm0			; X86-SSE-NEXT: psrad $16, %xmm0
	; X86-SSE-NEXT: movq %xmm0, (%esi,%ecx,4)			; X86-SSE-NEXT: movq %xmm0, (%esi,%ecx,4)
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_sext:			; X86-AVX-LABEL: mul_2xi8_sext:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: pushl %esi			; X86-AVX-NEXT: pushl %esi
	Show All 19 Lines
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: movzwl (%rsi,%rdx), %ecx			; X64-SSE-NEXT: movzwl (%rsi,%rdx), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm1			; X64-SSE-NEXT: movd %ecx, %xmm1
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X64-SSE-NEXT: psraw $8, %xmm0			; X64-SSE-NEXT: psraw $8, %xmm0
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X64-SSE-NEXT: psraw $8, %xmm1			; X64-SSE-NEXT: psraw $8, %xmm1
	; X64-SSE-NEXT: pmullw %xmm0, %xmm1			; X64-SSE-NEXT: pmullw %xmm0, %xmm1
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X64-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm1[0,0,2,1,4,5,6,7]
	; X64-SSE-NEXT: psrad $16, %xmm0			; X64-SSE-NEXT: psrad $16, %xmm0
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rdx,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rdx,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_sext:			; X64-AVX-LABEL: mul_2xi8_sext:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: movzwl (%rdi,%rdx), %ecx			; X64-AVX-NEXT: movzwl (%rdi,%rdx), %ecx
	▲ Show 20 Lines • Show All 520 Lines • ▼ Show 20 Lines
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-SSE-NEXT: movl c, %edx			; X86-SSE-NEXT: movl c, %edx
	; X86-SSE-NEXT: movzwl (%ecx,%eax), %ecx			; X86-SSE-NEXT: movzwl (%ecx,%eax), %ecx
	; X86-SSE-NEXT: movd %ecx, %xmm0			; X86-SSE-NEXT: movd %ecx, %xmm0
	; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X86-SSE-NEXT: psraw $8, %xmm0			; X86-SSE-NEXT: psraw $8, %xmm0
	; X86-SSE-NEXT: pmullw {{\.LCPI.*}}, %xmm0			; X86-SSE-NEXT: pmullw {{\.LCPI.*}}, %xmm0
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
	; X86-SSE-NEXT: psrad $16, %xmm0			; X86-SSE-NEXT: psrad $16, %xmm0
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_varconst2:			; X86-AVX-LABEL: mul_2xi8_varconst2:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: movzwl (%ecx,%eax), %ecx			; X86-AVX-NEXT: movzwl (%ecx,%eax), %ecx
	; X86-AVX-NEXT: vmovd %ecx, %xmm0			; X86-AVX-NEXT: vmovd %ecx, %xmm0
	; X86-AVX-NEXT: vpmovsxbd %xmm0, %xmm0			; X86-AVX-NEXT: vpmovsxbd %xmm0, %xmm0
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8_varconst2:			; X64-SSE-LABEL: mul_2xi8_varconst2:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X64-SSE-NEXT: psraw $8, %xmm0			; X64-SSE-NEXT: psraw $8, %xmm0
	; X64-SSE-NEXT: pmullw {{.*}}(%rip), %xmm0			; X64-SSE-NEXT: pmullw {{.*}}(%rip), %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; X64-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
	; X64-SSE-NEXT: psrad $16, %xmm0			; X64-SSE-NEXT: psrad $16, %xmm0
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_varconst2:			; X64-AVX-LABEL: mul_2xi8_varconst2:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-AVX-NEXT: movzwl (%rdi,%rsi), %ecx
	▲ Show 20 Lines • Show All 1,043 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/shuffle-of-insert.ll

Show All 24 Lines	; AVX-NEXT: retq
%shuf = shufflevector <4 x i32> %ins, <4 x i32> %v2, <4 x i32> <i32 0, i32 5, i32 6, i32 7>		%shuf = shufflevector <4 x i32> %ins, <4 x i32> %v2, <4 x i32> <i32 0, i32 5, i32 6, i32 7>
ret <4 x i32> %shuf		ret <4 x i32> %shuf
}		}

define <4 x i32> @ins_elt_1(i32 %x, <4 x i32> %v1, <4 x i32> %v2) {		define <4 x i32> @ins_elt_1(i32 %x, <4 x i32> %v1, <4 x i32> %v2) {
; SSE2-LABEL: ins_elt_1:		; SSE2-LABEL: ins_elt_1:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movd %edi, %xmm0		; SSE2-NEXT: movd %edi, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE4-LABEL: ins_elt_1:		; SSE4-LABEL: ins_elt_1:
; SSE4: # %bb.0:		; SSE4: # %bb.0:
; SSE4-NEXT: movdqa %xmm1, %xmm0		; SSE4-NEXT: movdqa %xmm1, %xmm0
; SSE4-NEXT: pinsrd $1, %edi, %xmm0		; SSE4-NEXT: pinsrd $1, %edi, %xmm0
; SSE4-NEXT: retq		; SSE4-NEXT: retq
Show All 33 Lines	; AVX-NEXT: retq
ret <4 x i32> %shuf		ret <4 x i32> %shuf
}		}

define <4 x i32> @ins_elt_3_commute(i32 %x, <4 x i32> %v1, <4 x i32> %v2) {		define <4 x i32> @ins_elt_3_commute(i32 %x, <4 x i32> %v1, <4 x i32> %v2) {
; SSE2-LABEL: ins_elt_3_commute:		; SSE2-LABEL: ins_elt_3_commute:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: movd %edi, %xmm1		; SSE2-NEXT: movd %edi, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE4-LABEL: ins_elt_3_commute:		; SSE4-LABEL: ins_elt_3_commute:
; SSE4: # %bb.0:		; SSE4: # %bb.0:
; SSE4-NEXT: movdqa %xmm1, %xmm0		; SSE4-NEXT: movdqa %xmm1, %xmm0
; SSE4-NEXT: pinsrd $3, %edi, %xmm0		; SSE4-NEXT: pinsrd $3, %edi, %xmm0
; SSE4-NEXT: retq		; SSE4-NEXT: retq
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
ret <4 x i32> %shuf		ret <4 x i32> %shuf
}		}

define <4 x i32> @ins_elt_2_to_3(i32 %x, <4 x i32> %v1, <4 x i32> %v2) {		define <4 x i32> @ins_elt_2_to_3(i32 %x, <4 x i32> %v1, <4 x i32> %v2) {
; SSE2-LABEL: ins_elt_2_to_3:		; SSE2-LABEL: ins_elt_2_to_3:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: movd %edi, %xmm1		; SSE2-NEXT: movd %edi, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE4-LABEL: ins_elt_2_to_3:		; SSE4-LABEL: ins_elt_2_to_3:
; SSE4: # %bb.0:		; SSE4: # %bb.0:
; SSE4-NEXT: movdqa %xmm1, %xmm0		; SSE4-NEXT: movdqa %xmm1, %xmm0
; SSE4-NEXT: pinsrd $3, %edi, %xmm0		; SSE4-NEXT: pinsrd $3, %edi, %xmm0
; SSE4-NEXT: retq		; SSE4-NEXT: retq
;		;
; AVX-LABEL: ins_elt_2_to_3:		; AVX-LABEL: ins_elt_2_to_3:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpinsrd $3, %edi, %xmm1, %xmm0		; AVX-NEXT: vpinsrd $3, %edi, %xmm1, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%ins = insertelement <4 x i32> %v1, i32 %x, i32 2		%ins = insertelement <4 x i32> %v1, i32 %x, i32 2
%shuf = shufflevector <4 x i32> %v2, <4 x i32> %ins, <4 x i32> <i32 0, i32 1, i32 2, i32 6>		%shuf = shufflevector <4 x i32> %v2, <4 x i32> %ins, <4 x i32> <i32 0, i32 1, i32 2, i32 6>
ret <4 x i32> %shuf		ret <4 x i32> %shuf
}		}

define <4 x i32> @ins_elt_3_to_1(i32 %x, <4 x i32> %v1, <4 x i32> %v2) {		define <4 x i32> @ins_elt_3_to_1(i32 %x, <4 x i32> %v1, <4 x i32> %v2) {
; SSE2-LABEL: ins_elt_3_to_1:		; SSE2-LABEL: ins_elt_3_to_1:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movd %edi, %xmm0		; SSE2-NEXT: movd %edi, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE4-LABEL: ins_elt_3_to_1:		; SSE4-LABEL: ins_elt_3_to_1:
; SSE4: # %bb.0:		; SSE4: # %bb.0:
; SSE4-NEXT: movdqa %xmm1, %xmm0		; SSE4-NEXT: movdqa %xmm1, %xmm0
; SSE4-NEXT: pinsrd $1, %edi, %xmm0		; SSE4-NEXT: pinsrd $1, %edi, %xmm0
; SSE4-NEXT: retq		; SSE4-NEXT: retq
Show All 10 Lines

llvm/test/CodeGen/X86/shuffle-strided-with-offset-128.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE42			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE42
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2 --check-prefix=AVX2-SLOW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2 --check-prefix=AVX2-SLOW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+fast-variable-shuffle \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2 --check-prefix=AVX2-FAST			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+fast-variable-shuffle \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2 --check-prefix=AVX2-FAST
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512F			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512F
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl,+fast-variable-shuffle \| FileCheck %s --check-prefixes=AVX512,AVX512VL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl,+fast-variable-shuffle \| FileCheck %s --check-prefixes=AVX512,AVX512VL
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+fast-variable-shuffle \| FileCheck %s --check-prefixes=AVX512,AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+fast-variable-shuffle \| FileCheck %s --check-prefixes=AVX512,AVX512BW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl,+fast-variable-shuffle \| FileCheck %s --check-prefixes=AVX512,AVX512BWVL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl,+fast-variable-shuffle \| FileCheck %s --check-prefixes=AVX512,AVX512BWVL

	define void @shuffle_v16i8_to_v8i8_1(<16 x i8>* %L, <8 x i8>* %S) nounwind {			define void @shuffle_v16i8_to_v8i8_1(<16 x i8>* %L, <8 x i8>* %S) nounwind {
	; SSE2-LABEL: shuffle_v16i8_to_v8i8_1:			; SSE2-LABEL: shuffle_v16i8_to_v8i8_1:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa (%rdi), %xmm0			; SSE2-NEXT: movdqa (%rdi), %xmm0
	; SSE2-NEXT: pxor %xmm1, %xmm1			; SSE2-NEXT: psrlw $8, %xmm0
	; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[3,1,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,5,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[1,0,3,2,4,5,6,7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,1,2,3,4,5,6,7]
	; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,5,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE2-NEXT: packuswb %xmm0, %xmm0			; SSE2-NEXT: packuswb %xmm0, %xmm0
	; SSE2-NEXT: movq %xmm0, (%rsi)			; SSE2-NEXT: movq %xmm0, (%rsi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: shuffle_v16i8_to_v8i8_1:			; SSE42-LABEL: shuffle_v16i8_to_v8i8_1:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa (%rdi), %xmm0			; SSE42-NEXT: movdqa (%rdi), %xmm0
	; SSE42-NEXT: pshufb {{.*#+}} xmm0 = xmm0[1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u]			; SSE42-NEXT: pshufb {{.*#+}} xmm0 = xmm0[1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u]
	▲ Show 20 Lines • Show All 628 Lines • ▼ Show 20 Lines
	}			}

	define void @shuffle_v16i8_to_v2i8_7(<16 x i8>* %L, <2 x i8>* %S) nounwind {			define void @shuffle_v16i8_to_v2i8_7(<16 x i8>* %L, <2 x i8>* %S) nounwind {
	; SSE2-LABEL: shuffle_v16i8_to_v2i8_7:			; SSE2-LABEL: shuffle_v16i8_to_v2i8_7:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa (%rdi), %xmm0			; SSE2-NEXT: movdqa (%rdi), %xmm0
	; SSE2-NEXT: pxor %xmm1, %xmm1			; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE2-NEXT: psrlw $8, %xmm0
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[3,3,3,3]
	; SSE2-NEXT: packuswb %xmm0, %xmm0			; SSE2-NEXT: packuswb %xmm0, %xmm0
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movd %xmm0, %eax
	; SSE2-NEXT: movw %ax, (%rsi)			; SSE2-NEXT: movw %ax, (%rsi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: shuffle_v16i8_to_v2i8_7:			; SSE42-LABEL: shuffle_v16i8_to_v2i8_7:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa (%rdi), %xmm0			; SSE42-NEXT: movdqa (%rdi), %xmm0
	Show All 23 Lines

llvm/test/CodeGen/X86/shuffle-vs-trunc-256.ll

Show First 20 Lines • Show All 181 Lines • ▼ Show 20 Lines	; AVX512VBMIVL-NEXT: retq
ret void		ret void
}		}

define void @trunc_v8i32_to_v8i16(<16 x i16>* %L, <8 x i16>* %S) nounwind {		define void @trunc_v8i32_to_v8i16(<16 x i16>* %L, <8 x i16>* %S) nounwind {
; AVX1-LABEL: trunc_v8i32_to_v8i16:		; AVX1-LABEL: trunc_v8i32_to_v8i16:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovdqa (%rdi), %xmm0		; AVX1-NEXT: vmovdqa (%rdi), %xmm0
; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1		; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX1-NEXT: vmovdqa %xmm0, (%rsi)		; AVX1-NEXT: vmovdqa %xmm0, (%rsi)
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: trunc_v8i32_to_v8i16:		; AVX2-LABEL: trunc_v8i32_to_v8i16:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
▲ Show 20 Lines • Show All 1,122 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/shuffle-vs-trunc-512.ll

	Show First 20 Lines • Show All 323 Lines • ▼ Show 20 Lines
	; AVX512BWVL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX512BWVL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512VBMI-LABEL: trunc_shuffle_v64i8_01_05_09_13_17_21_25_29_33_37_41_45_49_53_57_61:			; AVX512VBMI-LABEL: trunc_shuffle_v64i8_01_05_09_13_17_21_25_29_33_37_41_45_49_53_57_61:
	; AVX512VBMI: # %bb.0:			; AVX512VBMI: # %bb.0:
	; AVX512VBMI-NEXT: vmovdqa {{.*#+}} ymm1 = <1,5,9,13,17,21,25,29,33,37,41,45,49,53,57,61,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u>			; AVX512VBMI-NEXT: vmovdqa {{.*#+}} ymm1 = <1,5,9,13,17,21,25,29,33,37,41,45,49,53,57,61,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
	; AVX512VBMI-NEXT: vpermt2b %zmm0, %zmm1, %zmm0			; AVX512VBMI-NEXT: vpermt2b %zmm0, %zmm1, %zmm0
	; AVX512VBMI-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512VBMI-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				xbolva00Unsubmitted Not Done Reply Inline Actions Worse xbolva00: Worse
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions still looking at these regressions - but we've always been very weak at shuffle combining different src/dst vector widths. RKSimon: still looking at these regressions - but we've always been very weak at shuffle combining…
	; AVX512VBMI-NEXT: vzeroupper			; AVX512VBMI-NEXT: vzeroupper
	; AVX512VBMI-NEXT: retq			; AVX512VBMI-NEXT: retq
	;			;
	; AVX512VBMIVL-LABEL: trunc_shuffle_v64i8_01_05_09_13_17_21_25_29_33_37_41_45_49_53_57_61:			; AVX512VBMIVL-LABEL: trunc_shuffle_v64i8_01_05_09_13_17_21_25_29_33_37_41_45_49_53_57_61:
	; AVX512VBMIVL: # %bb.0:			; AVX512VBMIVL: # %bb.0:
	; AVX512VBMIVL-NEXT: vmovdqa {{.*#+}} xmm1 = [1,5,9,13,17,21,25,29,33,37,41,45,49,53,57,61]			; AVX512VBMIVL-NEXT: vmovdqa {{.*#+}} xmm1 = [1,5,9,13,17,21,25,29,33,37,41,45,49,53,57,61]
	; AVX512VBMIVL-NEXT: vextracti64x4 $1, %zmm0, %ymm2			; AVX512VBMIVL-NEXT: vextracti64x4 $1, %zmm0, %ymm2
	; AVX512VBMIVL-NEXT: vpermt2b %ymm2, %ymm1, %ymm0			; AVX512VBMIVL-NEXT: vpermt2b %ymm2, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; AVX512BWVL-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]			; AVX512BWVL-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512VBMI-LABEL: trunc_shuffle_v64i8_01_05_09_13_17_21_25_29_33_37_41_45_49_53_57_62:			; AVX512VBMI-LABEL: trunc_shuffle_v64i8_01_05_09_13_17_21_25_29_33_37_41_45_49_53_57_62:
	; AVX512VBMI: # %bb.0:			; AVX512VBMI: # %bb.0:
	; AVX512VBMI-NEXT: vmovdqa {{.*#+}} ymm1 = <1,5,9,13,17,21,25,29,33,37,41,45,49,53,57,62,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u>			; AVX512VBMI-NEXT: vmovdqa {{.*#+}} ymm1 = <1,5,9,13,17,21,25,29,33,37,41,45,49,53,57,62,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
	; AVX512VBMI-NEXT: vpermt2b %zmm0, %zmm1, %zmm0			; AVX512VBMI-NEXT: vpermt2b %zmm0, %zmm1, %zmm0
	; AVX512VBMI-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512VBMI-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				xbolva00Unsubmitted Not Done Reply Inline Actions Ouch xbolva00: Ouch
	; AVX512VBMI-NEXT: vzeroupper			; AVX512VBMI-NEXT: vzeroupper
	; AVX512VBMI-NEXT: retq			; AVX512VBMI-NEXT: retq
	;			;
	; AVX512VBMIVL-LABEL: trunc_shuffle_v64i8_01_05_09_13_17_21_25_29_33_37_41_45_49_53_57_62:			; AVX512VBMIVL-LABEL: trunc_shuffle_v64i8_01_05_09_13_17_21_25_29_33_37_41_45_49_53_57_62:
	; AVX512VBMIVL: # %bb.0:			; AVX512VBMIVL: # %bb.0:
	; AVX512VBMIVL-NEXT: vmovdqa {{.*#+}} xmm1 = [1,5,9,13,17,21,25,29,33,37,41,45,49,53,57,62]			; AVX512VBMIVL-NEXT: vmovdqa {{.*#+}} xmm1 = [1,5,9,13,17,21,25,29,33,37,41,45,49,53,57,62]
	; AVX512VBMIVL-NEXT: vextracti64x4 $1, %zmm0, %ymm2			; AVX512VBMIVL-NEXT: vextracti64x4 $1, %zmm0, %ymm2
	; AVX512VBMIVL-NEXT: vpermt2b %ymm2, %ymm1, %ymm0			; AVX512VBMIVL-NEXT: vpermt2b %ymm2, %ymm1, %ymm0
	; AVX512VBMIVL-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512VBMIVL-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512VBMIVL-NEXT: vzeroupper			; AVX512VBMIVL-NEXT: vzeroupper
	; AVX512VBMIVL-NEXT: retq			; AVX512VBMIVL-NEXT: retq
	%res = shufflevector <64 x i8> %x, <64 x i8> %x, <16 x i32> <i32 1, i32 5, i32 9, i32 13, i32 17, i32 21, i32 25, i32 29, i32 33, i32 37, i32 41, i32 45, i32 49, i32 53, i32 57, i32 62>			%res = shufflevector <64 x i8> %x, <64 x i8> %x, <16 x i32> <i32 1, i32 5, i32 9, i32 13, i32 17, i32 21, i32 25, i32 29, i32 33, i32 37, i32 41, i32 45, i32 49, i32 53, i32 57, i32 62>
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

	define <4 x double> @PR34175(<32 x i16>* %p) {			define <4 x double> @PR34175(<32 x i16>* %p) {
	; AVX512F-LABEL: PR34175:			; AVX512F-LABEL: PR34175:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovdqu (%rdi), %xmm0			; AVX512F-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512F-NEXT: vmovdqu 32(%rdi), %xmm1			; AVX512F-NEXT: vmovdqu 32(%rdi), %xmm1
	; AVX512F-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; AVX512F-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]			; AVX512F-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]			; AVX512F-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]			; AVX512F-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX512F-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512F-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512F-NEXT: vcvtdq2pd %xmm0, %ymm0			; AVX512F-NEXT: vcvtdq2pd %xmm0, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: PR34175:			; AVX512VL-LABEL: PR34175:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqu (%rdi), %xmm0			; AVX512VL-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512VL-NEXT: vmovdqu 32(%rdi), %xmm1			; AVX512VL-NEXT: vmovdqu 32(%rdi), %xmm1
	▲ Show 20 Lines • Show All 59 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/srem-seteq-vec-nonsplat.ll

Show First 20 Lines • Show All 1,059 Lines • ▼ Show 20 Lines	; CHECK-AVX512VL-NEXT: retq
%ret = zext <4 x i1> %cmp to <4 x i32>		%ret = zext <4 x i1> %cmp to <4 x i32>
ret <4 x i32> %ret		ret <4 x i32> %ret
}		}

; One power-of-two divisor in odd+even divisor		; One power-of-two divisor in odd+even divisor
define <4 x i32> @test_srem_odd_even_poweroftwo(<4 x i32> %X) nounwind {		define <4 x i32> @test_srem_odd_even_poweroftwo(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_srem_odd_even_poweroftwo:		; CHECK-SSE2-LABEL: test_srem_odd_even_poweroftwo:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [0,1,1,0]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [1717986919,2454267027,2147483649,1374389535]
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,2,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm5 = [1717986919,2454267027,2147483649,1374389535]
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: pmuludq %xmm5, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm5[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pxor %xmm4, %xmm4		; CHECK-SSE2-NEXT: pxor %xmm5, %xmm5
; CHECK-SSE2-NEXT: pcmpgtd %xmm0, %xmm4		; CHECK-SSE2-NEXT: pcmpgtd %xmm0, %xmm5
; CHECK-SSE2-NEXT: pand %xmm5, %xmm4		; CHECK-SSE2-NEXT: pand %xmm2, %xmm5
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm5 = [0,4294967295,4294967295,0]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,4294967295,4294967295,0]
; CHECK-SSE2-NEXT: pand %xmm0, %xmm5		; CHECK-SSE2-NEXT: pand %xmm0, %xmm2
; CHECK-SSE2-NEXT: paddd %xmm4, %xmm5		; CHECK-SSE2-NEXT: paddd %xmm5, %xmm2
; CHECK-SSE2-NEXT: psubd %xmm5, %xmm2		; CHECK-SSE2-NEXT: psubd %xmm2, %xmm3
		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,1,1,0]
		; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm2
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm4
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1]
; CHECK-SSE2-NEXT: paddd %xmm3, %xmm2		; CHECK-SSE2-NEXT: paddd %xmm3, %xmm2
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3
; CHECK-SSE2-NEXT: psrad $5, %xmm3		; CHECK-SSE2-NEXT: psrad $5, %xmm3
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm4		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm4
; CHECK-SSE2-NEXT: psrad $3, %xmm4		; CHECK-SSE2-NEXT: psrad $3, %xmm4
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm5		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm5
; CHECK-SSE2-NEXT: psrad $1, %xmm5		; CHECK-SSE2-NEXT: psrad $1, %xmm5
; CHECK-SSE2-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm4[0]		; CHECK-SSE2-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm4[0]
▲ Show 20 Lines • Show All 285 Lines • ▼ Show 20 Lines	; CHECK-AVX512VL-NEXT: retq
%ret = zext <4 x i1> %cmp to <4 x i32>		%ret = zext <4 x i1> %cmp to <4 x i32>
ret <4 x i32> %ret		ret <4 x i32> %ret
}		}

; One one divisor in odd+even divisor		; One one divisor in odd+even divisor
define <4 x i32> @test_srem_odd_even_one(<4 x i32> %X) nounwind {		define <4 x i32> @test_srem_odd_even_one(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_srem_odd_even_one:		; CHECK-SSE2-LABEL: test_srem_odd_even_one:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [0,1,1,0]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [1717986919,2454267027,0,1374389535]
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,2,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm5 = [1717986919,2454267027,0,1374389535]
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: pmuludq %xmm5, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm5[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pxor %xmm4, %xmm4		; CHECK-SSE2-NEXT: pxor %xmm5, %xmm5
; CHECK-SSE2-NEXT: pcmpgtd %xmm0, %xmm4		; CHECK-SSE2-NEXT: pcmpgtd %xmm0, %xmm5
; CHECK-SSE2-NEXT: pand %xmm5, %xmm4		; CHECK-SSE2-NEXT: pand %xmm2, %xmm5
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm5 = [0,4294967295,0,0]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,4294967295,0,0]
; CHECK-SSE2-NEXT: pand %xmm0, %xmm5		; CHECK-SSE2-NEXT: pand %xmm0, %xmm2
; CHECK-SSE2-NEXT: paddd %xmm4, %xmm5		; CHECK-SSE2-NEXT: paddd %xmm5, %xmm2
; CHECK-SSE2-NEXT: psubd %xmm5, %xmm2		; CHECK-SSE2-NEXT: psubd %xmm2, %xmm3
		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,1,1,0]
		; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm2
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm4
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1]
; CHECK-SSE2-NEXT: paddd %xmm3, %xmm2		; CHECK-SSE2-NEXT: paddd %xmm3, %xmm2
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3
; CHECK-SSE2-NEXT: psrad $5, %xmm3		; CHECK-SSE2-NEXT: psrad $5, %xmm3
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm4		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm4
; CHECK-SSE2-NEXT: punpckhqdq {{.*#+}} xmm4 = xmm4[1],xmm3[1]		; CHECK-SSE2-NEXT: punpckhqdq {{.*#+}} xmm4 = xmm4[1],xmm3[1]
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3
; CHECK-SSE2-NEXT: psrad $3, %xmm3		; CHECK-SSE2-NEXT: psrad $3, %xmm3
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm5		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm5
▲ Show 20 Lines • Show All 1,262 Lines • ▼ Show 20 Lines
}		}

;------------------------------------------------------------------------------;		;------------------------------------------------------------------------------;

; One power-of-two divisor divisor and one divisor in odd divisor		; One power-of-two divisor divisor and one divisor in odd divisor
define <4 x i32> @test_srem_odd_poweroftwo_and_one(<4 x i32> %X) nounwind {		define <4 x i32> @test_srem_odd_poweroftwo_and_one(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_srem_odd_poweroftwo_and_one:		; CHECK-SSE2-LABEL: test_srem_odd_poweroftwo_and_one:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [0,1,1,0]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [1717986919,2147483649,0,1717986919]
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,2,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm5 = [1717986919,2147483649,0,1717986919]
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: pmuludq %xmm5, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm5[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pxor %xmm4, %xmm4		; CHECK-SSE2-NEXT: pxor %xmm5, %xmm5
; CHECK-SSE2-NEXT: pcmpgtd %xmm0, %xmm4		; CHECK-SSE2-NEXT: pcmpgtd %xmm0, %xmm5
; CHECK-SSE2-NEXT: pand %xmm5, %xmm4		; CHECK-SSE2-NEXT: pand %xmm2, %xmm5
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm5 = [0,4294967295,0,0]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,4294967295,0,0]
; CHECK-SSE2-NEXT: pand %xmm0, %xmm5		; CHECK-SSE2-NEXT: pand %xmm0, %xmm2
; CHECK-SSE2-NEXT: paddd %xmm4, %xmm5		; CHECK-SSE2-NEXT: paddd %xmm5, %xmm2
; CHECK-SSE2-NEXT: psubd %xmm5, %xmm2		; CHECK-SSE2-NEXT: psubd %xmm2, %xmm3
		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,1,1,0]
		; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm2
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm4
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1]
; CHECK-SSE2-NEXT: paddd %xmm3, %xmm2		; CHECK-SSE2-NEXT: paddd %xmm3, %xmm2
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3
; CHECK-SSE2-NEXT: psrad $1, %xmm3		; CHECK-SSE2-NEXT: psrad $1, %xmm3
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm4		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm4
; CHECK-SSE2-NEXT: punpckhqdq {{.*#+}} xmm4 = xmm4[1],xmm3[1]		; CHECK-SSE2-NEXT: punpckhqdq {{.*#+}} xmm4 = xmm4[1],xmm3[1]
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm5		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm5
; CHECK-SSE2-NEXT: psrad $3, %xmm5		; CHECK-SSE2-NEXT: psrad $3, %xmm5
; CHECK-SSE2-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm5[0]		; CHECK-SSE2-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm5[0]
▲ Show 20 Lines • Show All 230 Lines • ▼ Show 20 Lines	; CHECK-AVX512VL-NEXT: retq
%ret = zext <4 x i1> %cmp to <4 x i32>		%ret = zext <4 x i1> %cmp to <4 x i32>
ret <4 x i32> %ret		ret <4 x i32> %ret
}		}

; One power-of-two divisor divisor and one divisor in odd+even divisor		; One power-of-two divisor divisor and one divisor in odd+even divisor
define <4 x i32> @test_srem_odd_even_poweroftwo_and_one(<4 x i32> %X) nounwind {		define <4 x i32> @test_srem_odd_even_poweroftwo_and_one(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_srem_odd_even_poweroftwo_and_one:		; CHECK-SSE2-LABEL: test_srem_odd_even_poweroftwo_and_one:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [0,1,1,0]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [1717986919,2147483649,0,1374389535]
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,2,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm5 = [1717986919,2147483649,0,1374389535]
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: pmuludq %xmm5, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm5[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pxor %xmm4, %xmm4		; CHECK-SSE2-NEXT: pxor %xmm5, %xmm5
; CHECK-SSE2-NEXT: pcmpgtd %xmm0, %xmm4		; CHECK-SSE2-NEXT: pcmpgtd %xmm0, %xmm5
; CHECK-SSE2-NEXT: pand %xmm5, %xmm4		; CHECK-SSE2-NEXT: pand %xmm2, %xmm5
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm5 = [0,4294967295,0,0]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,4294967295,0,0]
; CHECK-SSE2-NEXT: pand %xmm0, %xmm5		; CHECK-SSE2-NEXT: pand %xmm0, %xmm2
; CHECK-SSE2-NEXT: paddd %xmm4, %xmm5		; CHECK-SSE2-NEXT: paddd %xmm5, %xmm2
; CHECK-SSE2-NEXT: psubd %xmm5, %xmm2		; CHECK-SSE2-NEXT: psubd %xmm2, %xmm3
		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,1,1,0]
		; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm2
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm4
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1]
; CHECK-SSE2-NEXT: paddd %xmm3, %xmm2		; CHECK-SSE2-NEXT: paddd %xmm3, %xmm2
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3
; CHECK-SSE2-NEXT: psrad $5, %xmm3		; CHECK-SSE2-NEXT: psrad $5, %xmm3
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm4		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm4
; CHECK-SSE2-NEXT: punpckhqdq {{.*#+}} xmm4 = xmm4[1],xmm3[1]		; CHECK-SSE2-NEXT: punpckhqdq {{.*#+}} xmm4 = xmm4[1],xmm3[1]
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm3
; CHECK-SSE2-NEXT: psrad $3, %xmm3		; CHECK-SSE2-NEXT: psrad $3, %xmm3
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm5		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm5
▲ Show 20 Lines • Show All 355 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/test-shrink-bug.ll

	Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; CHECK-X64-LABEL: fail:			; CHECK-X64-LABEL: fail:
	; CHECK-X64: # %bb.0:			; CHECK-X64: # %bb.0:
	; CHECK-X64-NEXT: pushq %rax			; CHECK-X64-NEXT: pushq %rax
	; CHECK-X64-NEXT: .cfi_def_cfa_offset 16			; CHECK-X64-NEXT: .cfi_def_cfa_offset 16
	; CHECK-X64-NEXT: testl $263, %edi # imm = 0x107			; CHECK-X64-NEXT: testl $263, %edi # imm = 0x107
	; CHECK-X64-NEXT: je .LBB1_3			; CHECK-X64-NEXT: je .LBB1_3
	; CHECK-X64-NEXT: # %bb.1:			; CHECK-X64-NEXT: # %bb.1:
	; CHECK-X64-NEXT: pcmpeqb {{.*}}(%rip), %xmm0			; CHECK-X64-NEXT: pcmpeqb {{.*}}(%rip), %xmm0
	; CHECK-X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; CHECK-X64-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5,6,7,8]
	; CHECK-X64-NEXT: pextrw $1, %xmm0, %eax			; CHECK-X64-NEXT: pextrw $4, %xmm0, %eax
	; CHECK-X64-NEXT: testb $1, %al			; CHECK-X64-NEXT: testb $1, %al
	; CHECK-X64-NEXT: jne .LBB1_3			; CHECK-X64-NEXT: jne .LBB1_3
	; CHECK-X64-NEXT: # %bb.2: # %no			; CHECK-X64-NEXT: # %bb.2: # %no
	; CHECK-X64-NEXT: callq bar			; CHECK-X64-NEXT: callq bar
	; CHECK-X64-NEXT: .LBB1_3: # %yes			; CHECK-X64-NEXT: .LBB1_3: # %yes
	; CHECK-X64-NEXT: popq %rax			; CHECK-X64-NEXT: popq %rax
	; CHECK-X64-NEXT: .cfi_def_cfa_offset 8			; CHECK-X64-NEXT: .cfi_def_cfa_offset 8
	; CHECK-X64-NEXT: retq			; CHECK-X64-NEXT: retq
	Show All 16 Lines

llvm/test/CodeGen/X86/trunc-subvector.ll

	Show First 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; SSE2-LABEL: test5:			; SSE2-LABEL: test5:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX2-LABEL: test5:			; AVX2-LABEL: test5:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX2-NEXT: vbroadcastsd {{.*#+}} ymm1 = [17179869187,17179869187,17179869187,17179869187]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [6,6,6,6]
	; AVX2-NEXT: vpermd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test5:			; AVX512-LABEL: test5:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovsxdq %ymm0, %zmm0			; AVX512-NEXT: vpmovsxdq %ymm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; SSE2-LABEL: test10:			; SSE2-LABEL: test10:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX2-LABEL: test10:			; AVX2-LABEL: test10:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX2-NEXT: vbroadcastsd {{.*#+}} ymm1 = [17179869187,17179869187,17179869187,17179869187]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5],ymm1[6,7]
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [6,6,6,6]
	; AVX2-NEXT: vpermd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test10:			; AVX512-LABEL: test10:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovzxdq {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	Show All 12 Lines

llvm/test/CodeGen/X86/udiv_fix.ll

Show First 20 Lines • Show All 232 Lines • ▼ Show 20 Lines	; X86-NEXT: retl
%tmp = call i16 @llvm.udiv.fix.i16(i16 %x, i16 %y, i32 16)		%tmp = call i16 @llvm.udiv.fix.i16(i16 %x, i16 %y, i32 16)
ret i16 %tmp		ret i16 %tmp
}		}

define <4 x i32> @vec(<4 x i32> %x, <4 x i32> %y) nounwind {		define <4 x i32> @vec(<4 x i32> %x, <4 x i32> %y) nounwind {
; X64-LABEL: vec:		; X64-LABEL: vec:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: pxor %xmm2, %xmm2		; X64-NEXT: pxor %xmm2, %xmm2
; X64-NEXT: movdqa %xmm1, %xmm4		; X64-NEXT: movdqa %xmm1, %xmm3
		; X64-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm2[2],xmm3[3],xmm2[3]
		; X64-NEXT: movq %xmm3, %rcx
		; X64-NEXT: movdqa %xmm0, %xmm4
; X64-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm2[2],xmm4[3],xmm2[3]		; X64-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm2[2],xmm4[3],xmm2[3]
; X64-NEXT: movq %xmm4, %rcx		; X64-NEXT: psllq $31, %xmm4
; X64-NEXT: movdqa %xmm0, %xmm5		; X64-NEXT: movq %xmm4, %rax
; X64-NEXT: punpckhdq {{.*#+}} xmm5 = xmm5[2],xmm2[2],xmm5[3],xmm2[3]
; X64-NEXT: psllq $31, %xmm5
; X64-NEXT: movq %xmm5, %rax
; X64-NEXT: xorl %edx, %edx		; X64-NEXT: xorl %edx, %edx
; X64-NEXT: divq %rcx		; X64-NEXT: divq %rcx
; X64-NEXT: movq %rax, %xmm3		; X64-NEXT: movq %rax, %xmm3
; X64-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,2,3]		; X64-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,2,3]
; X64-NEXT: movq %xmm4, %rcx
; X64-NEXT: pshufd {{.*#+}} xmm4 = xmm5[2,3,2,3]
; X64-NEXT: movq %xmm4, %rax		; X64-NEXT: movq %xmm4, %rax
		; X64-NEXT: movdqa %xmm1, %xmm4
		; X64-NEXT: psrldq {{.*#+}} xmm4 = xmm4[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
		; X64-NEXT: movq %xmm4, %rcx
; X64-NEXT: xorl %edx, %edx		; X64-NEXT: xorl %edx, %edx
; X64-NEXT: divq %rcx		; X64-NEXT: divq %rcx
; X64-NEXT: movq %rax, %xmm4		; X64-NEXT: movq %rax, %xmm4
; X64-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm4[0]		; X64-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm4[0]
; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; X64-NEXT: movq %xmm1, %rcx
; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
		; X64-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
		; X64-NEXT: movq %xmm2, %rcx
; X64-NEXT: psllq $31, %xmm0		; X64-NEXT: psllq $31, %xmm0
; X64-NEXT: movq %xmm0, %rax		; X64-NEXT: movq %xmm0, %rax
; X64-NEXT: xorl %edx, %edx		; X64-NEXT: xorl %edx, %edx
; X64-NEXT: divq %rcx		; X64-NEXT: divq %rcx
; X64-NEXT: movq %rax, %xmm2		; X64-NEXT: movq %rax, %xmm2
; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]
; X64-NEXT: movq %xmm1, %rcx
; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]		; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]
; X64-NEXT: movq %xmm0, %rax		; X64-NEXT: movq %xmm0, %rax
		; X64-NEXT: psrlq $32, %xmm1
		; X64-NEXT: movq %xmm1, %rcx
; X64-NEXT: xorl %edx, %edx		; X64-NEXT: xorl %edx, %edx
; X64-NEXT: divq %rcx		; X64-NEXT: divq %rcx
; X64-NEXT: movq %rax, %xmm0		; X64-NEXT: movq %rax, %xmm0
; X64-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm0[0]		; X64-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm0[0]
; X64-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]		; X64-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]
; X64-NEXT: movaps %xmm2, %xmm0		; X64-NEXT: movaps %xmm2, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
;		;
▲ Show 20 Lines • Show All 66 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/udiv_fix_sat.ll

	Show First 20 Lines • Show All 317 Lines • ▼ Show 20 Lines
	; X86-NEXT: retl			; X86-NEXT: retl
	%tmp = call i16 @llvm.udiv.fix.sat.i16(i16 %x, i16 %y, i32 16)			%tmp = call i16 @llvm.udiv.fix.sat.i16(i16 %x, i16 %y, i32 16)
	ret i16 %tmp			ret i16 %tmp
	}			}

	define <4 x i32> @vec(<4 x i32> %x, <4 x i32> %y) nounwind {			define <4 x i32> @vec(<4 x i32> %x, <4 x i32> %y) nounwind {
	; X64-LABEL: vec:			; X64-LABEL: vec:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pxor %xmm8, %xmm8			; X64-NEXT: pxor %xmm3, %xmm3
	; X64-NEXT: movdqa %xmm1, %xmm2			; X64-NEXT: movdqa %xmm1, %xmm2
	; X64-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm8[2],xmm2[3],xmm8[3]			; X64-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm3[2],xmm2[3],xmm3[3]
	; X64-NEXT: movq %xmm2, %rcx			; X64-NEXT: movq %xmm2, %rcx
	; X64-NEXT: movdqa %xmm0, %xmm4			; X64-NEXT: movdqa %xmm0, %xmm2
	; X64-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm8[2],xmm4[3],xmm8[3]			; X64-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm3[2],xmm2[3],xmm3[3]
	; X64-NEXT: paddq %xmm4, %xmm4			; X64-NEXT: paddq %xmm2, %xmm2
	; X64-NEXT: psllq $31, %xmm4			; X64-NEXT: psllq $31, %xmm2
	; X64-NEXT: movq %xmm4, %rax			; X64-NEXT: movq %xmm2, %rax
	; X64-NEXT: xorl %edx, %edx			; X64-NEXT: xorl %edx, %edx
	; X64-NEXT: divq %rcx			; X64-NEXT: divq %rcx
	; X64-NEXT: movq %rax, %xmm7			; X64-NEXT: movq %rax, %xmm7
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]			; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]
	; X64-NEXT: movq %xmm2, %rcx
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm4[2,3,2,3]
	; X64-NEXT: movq %xmm2, %rax			; X64-NEXT: movq %xmm2, %rax
				; X64-NEXT: movdqa %xmm1, %xmm2
				; X64-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
				; X64-NEXT: movq %xmm2, %rcx
	; X64-NEXT: xorl %edx, %edx			; X64-NEXT: xorl %edx, %edx
	; X64-NEXT: divq %rcx			; X64-NEXT: divq %rcx
	; X64-NEXT: movq %rax, %xmm2			; X64-NEXT: movq %rax, %xmm2
	; X64-NEXT: punpcklqdq {{.*#+}} xmm7 = xmm7[0],xmm2[0]			; X64-NEXT: punpcklqdq {{.*#+}} xmm7 = xmm7[0],xmm2[0]
	; X64-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]			; X64-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]
	; X64-NEXT: movdqa %xmm7, %xmm2			; X64-NEXT: movdqa %xmm7, %xmm2
	; X64-NEXT: pxor %xmm4, %xmm2			; X64-NEXT: pxor %xmm4, %xmm2
	; X64-NEXT: movdqa {{.*#+}} xmm9 = [9223372043297226751,9223372043297226751]			; X64-NEXT: movdqa {{.*#+}} xmm8 = [9223372043297226751,9223372043297226751]
	; X64-NEXT: movdqa %xmm9, %xmm6			; X64-NEXT: movdqa %xmm8, %xmm6
	; X64-NEXT: pcmpgtd %xmm2, %xmm6			; X64-NEXT: pcmpgtd %xmm2, %xmm6
	; X64-NEXT: pshufd {{.*#+}} xmm3 = xmm6[0,0,2,2]			; X64-NEXT: pshufd {{.*#+}} xmm9 = xmm6[0,0,2,2]
	; X64-NEXT: pcmpeqd %xmm9, %xmm2			; X64-NEXT: pcmpeqd %xmm8, %xmm2
	; X64-NEXT: pshufd {{.*#+}} xmm5 = xmm2[1,1,3,3]			; X64-NEXT: pshufd {{.*#+}} xmm5 = xmm2[1,1,3,3]
	; X64-NEXT: pand %xmm3, %xmm5			; X64-NEXT: pand %xmm9, %xmm5
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm6[1,1,3,3]			; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm6[1,1,3,3]
	; X64-NEXT: por %xmm5, %xmm2			; X64-NEXT: por %xmm5, %xmm2
	; X64-NEXT: movdqa {{.*#+}} xmm6 = [8589934591,8589934591]			; X64-NEXT: movdqa {{.*#+}} xmm6 = [8589934591,8589934591]
	; X64-NEXT: pand %xmm2, %xmm7			; X64-NEXT: pand %xmm2, %xmm7
	; X64-NEXT: pandn %xmm6, %xmm2			; X64-NEXT: pandn %xmm6, %xmm2
	; X64-NEXT: por %xmm7, %xmm2			; X64-NEXT: por %xmm7, %xmm2
	; X64-NEXT: psrlq $1, %xmm2			; X64-NEXT: psrlq $1, %xmm2
	; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm8[0],xmm1[1],xmm8[1]			; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
	; X64-NEXT: movq %xmm1, %rcx			; X64-NEXT: movss {{.*#+}} xmm3 = xmm1[0],xmm3[1,2,3]
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1]			; X64-NEXT: movq %xmm3, %rcx
	; X64-NEXT: paddq %xmm0, %xmm0			; X64-NEXT: paddq %xmm0, %xmm0
	; X64-NEXT: psllq $31, %xmm0			; X64-NEXT: psllq $31, %xmm0
	; X64-NEXT: movq %xmm0, %rax			; X64-NEXT: movq %xmm0, %rax
	; X64-NEXT: xorl %edx, %edx			; X64-NEXT: xorl %edx, %edx
	; X64-NEXT: divq %rcx			; X64-NEXT: divq %rcx
	; X64-NEXT: movq %rax, %xmm3			; X64-NEXT: movq %rax, %xmm3
	; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]
	; X64-NEXT: movq %xmm1, %rcx
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]
	; X64-NEXT: movq %xmm0, %rax			; X64-NEXT: movq %xmm0, %rax
				; X64-NEXT: psrlq $32, %xmm1
				; X64-NEXT: movq %xmm1, %rcx
	; X64-NEXT: xorl %edx, %edx			; X64-NEXT: xorl %edx, %edx
	; X64-NEXT: divq %rcx			; X64-NEXT: divq %rcx
	; X64-NEXT: movq %rax, %xmm0			; X64-NEXT: movq %rax, %xmm0
	; X64-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]			; X64-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]
	; X64-NEXT: pxor %xmm3, %xmm4			; X64-NEXT: pxor %xmm3, %xmm4
	; X64-NEXT: movdqa %xmm9, %xmm0			; X64-NEXT: movdqa %xmm8, %xmm0
	; X64-NEXT: pcmpgtd %xmm4, %xmm0			; X64-NEXT: pcmpgtd %xmm4, %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,2,2]			; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,2,2]
	; X64-NEXT: pcmpeqd %xmm9, %xmm4			; X64-NEXT: pcmpeqd %xmm8, %xmm4
	; X64-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]			; X64-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
	; X64-NEXT: pand %xmm1, %xmm4			; X64-NEXT: pand %xmm1, %xmm4
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; X64-NEXT: por %xmm4, %xmm0			; X64-NEXT: por %xmm4, %xmm0
	; X64-NEXT: pand %xmm0, %xmm3			; X64-NEXT: pand %xmm0, %xmm3
	; X64-NEXT: pandn %xmm6, %xmm0			; X64-NEXT: pandn %xmm6, %xmm0
	; X64-NEXT: por %xmm3, %xmm0			; X64-NEXT: por %xmm3, %xmm0
	; X64-NEXT: psrlq $1, %xmm0			; X64-NEXT: psrlq $1, %xmm0
	▲ Show 20 Lines • Show All 134 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/urem-seteq-vec-nonsplat.ll

Show First 20 Lines • Show All 194 Lines • ▼ Show 20 Lines

; One all-ones divisor in even divisor		; One all-ones divisor in even divisor
define <4 x i32> @test_urem_even_allones_eq(<4 x i32> %X) nounwind {		define <4 x i32> @test_urem_even_allones_eq(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_urem_even_allones_eq:		; CHECK-SSE2-LABEL: test_urem_even_allones_eq:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: psrld $1, %xmm1		; CHECK-SSE2-NEXT: psrld $1, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm1
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: psrld $2, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE2-NEXT: psrld $31, %xmm2
; CHECK-SSE2-NEXT: psrld $2, %xmm2		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; CHECK-SSE2-NEXT: psrld $31, %xmm1
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[3,0]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[0,2]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
		; CHECK-SSE2-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_even_allones_eq:		; CHECK-SSE41-LABEL: test_urem_even_allones_eq:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1
▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines	; CHECK-AVX512VL-NEXT: retq
ret <4 x i32> %ret		ret <4 x i32> %ret
}		}
define <4 x i32> @test_urem_even_allones_ne(<4 x i32> %X) nounwind {		define <4 x i32> @test_urem_even_allones_ne(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_urem_even_allones_ne:		; CHECK-SSE2-LABEL: test_urem_even_allones_ne:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: psrld $1, %xmm1		; CHECK-SSE2-NEXT: psrld $1, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm1
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: psrld $2, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE2-NEXT: psrld $31, %xmm2
; CHECK-SSE2-NEXT: psrld $2, %xmm2		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; CHECK-SSE2-NEXT: psrld $31, %xmm1
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[3,0]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[0,2]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
		; CHECK-SSE2-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pandn {{.*}}(%rip), %xmm0		; CHECK-SSE2-NEXT: pandn {{.*}}(%rip), %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_even_allones_ne:		; CHECK-SSE41-LABEL: test_urem_even_allones_ne:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1
▲ Show 20 Lines • Show All 302 Lines • ▼ Show 20 Lines
; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm1, %xmm2
; CHECK-SSE2-NEXT: psrld $2, %xmm2		; CHECK-SSE2-NEXT: psrld $2, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[3,0]		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm2[0],xmm1[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[0,2]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_odd_poweroftwo:		; CHECK-SSE41-LABEL: test_urem_odd_poweroftwo:
▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines

; One power-of-two divisor in even divisor		; One power-of-two divisor in even divisor
define <4 x i32> @test_urem_even_poweroftwo(<4 x i32> %X) nounwind {		define <4 x i32> @test_urem_even_poweroftwo(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_urem_even_poweroftwo:		; CHECK-SSE2-LABEL: test_urem_even_poweroftwo:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: psrld $1, %xmm1		; CHECK-SSE2-NEXT: psrld $1, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm1
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: psrld $2, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; CHECK-SSE2-NEXT: psrld $2, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[3,0]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[0,2]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
		; CHECK-SSE2-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_even_poweroftwo:		; CHECK-SSE41-LABEL: test_urem_even_poweroftwo:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1
▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines
; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE41-NEXT: psrld $1, %xmm1		; CHECK-SSE41-NEXT: psrld $1, %xmm1
; CHECK-SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[3,3]		; CHECK-SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[3,3]
; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm2 = [3435973837,2454267027,268435456,1374389535]		; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm2 = [3435973837,2454267027,268435456,1374389535]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; CHECK-SSE41-NEXT: pmuludq %xmm1, %xmm3		; CHECK-SSE41-NEXT: pmuludq %xmm1, %xmm3
; CHECK-SSE41-NEXT: pmuludq %xmm0, %xmm2		; CHECK-SSE41-NEXT: pmuludq %xmm0, %xmm2
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2
		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: psrld $2, %xmm2		; CHECK-SSE41-NEXT: psrld $2, %xmm2
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; CHECK-SSE41-NEXT: psrld $5, %xmm3		; CHECK-SSE41-NEXT: psrld $5, %xmm3
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm2[0,1,2,3],xmm3[4,5,6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm2[0,1,2,3],xmm3[4,5,6,7]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm3		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: psubd %xmm3, %xmm0		; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2
		; CHECK-SSE41-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE41-NEXT: psrld $31, %xmm0		; CHECK-SSE41-NEXT: psrld $31, %xmm0
; CHECK-SSE41-NEXT: retq		; CHECK-SSE41-NEXT: retq
;		;
; CHECK-AVX1-LABEL: test_urem_odd_even_poweroftwo:		; CHECK-AVX1-LABEL: test_urem_odd_even_poweroftwo:
; CHECK-AVX1: # %bb.0:		; CHECK-AVX1: # %bb.0:
; CHECK-AVX1-NEXT: vpsrld $1, %xmm0, %xmm1		; CHECK-AVX1-NEXT: vpsrld $1, %xmm0, %xmm1
; CHECK-AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[3,3]		; CHECK-AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[3,3]
; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [3435973837,2454267027,268435456,1374389535]		; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [3435973837,2454267027,268435456,1374389535]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; CHECK-AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm2		; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
; CHECK-AVX1-NEXT: vpsrld $2, %xmm2, %xmm3		; CHECK-AVX1-NEXT: vpsrld $2, %xmm3, %xmm3
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; CHECK-AVX1-NEXT: vpsrld $5, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpsrld $5, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm3[0,1,2,3],xmm1[4,5,6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm3[0,1,2,3],xmm1[4,5,6,7]
		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0
; CHECK-AVX1-NEXT: retq		; CHECK-AVX1-NEXT: retq
;		;
▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines

; One one divisor in even divisor		; One one divisor in even divisor
define <4 x i32> @test_urem_even_one(<4 x i32> %X) nounwind {		define <4 x i32> @test_urem_even_one(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_urem_even_one:		; CHECK-SSE2-LABEL: test_urem_even_one:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: psrld $1, %xmm1		; CHECK-SSE2-NEXT: psrld $1, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]		; CHECK-SSE2-NEXT: psrld $2, %xmm2
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
; CHECK-SSE2-NEXT: psrld $2, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
		; CHECK-SSE2-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_even_one:		; CHECK-SSE41-LABEL: test_urem_even_one:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1
▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm3		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm3
; CHECK-SSE2-NEXT: psrld $1, %xmm3		; CHECK-SSE2-NEXT: psrld $1, %xmm3
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm0[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm0[3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
; CHECK-SSE2-NEXT: psrld $2, %xmm2		; CHECK-SSE2-NEXT: psrld $2, %xmm2
; CHECK-SSE2-NEXT: movaps %xmm0, %xmm3
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,0],xmm2[3,0]
; CHECK-SSE2-NEXT: movaps %xmm2, %xmm4
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm3[0,2]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm3 = [5,14,1,100]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm4
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
; CHECK-SSE2-NEXT: psrld $5, %xmm1		; CHECK-SSE2-NEXT: psrld $5, %xmm1
		; CHECK-SSE2-NEXT: movaps %xmm0, %xmm3
		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm3 = xmm2[0],xmm3[1]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [5,14,1,100]
; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm4
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[0,2,2,3]
; CHECK-SSE2-NEXT: psubd %xmm4, %xmm0		; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm3
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,2,2,3]
		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
		; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_odd_even_one:		; CHECK-SSE41-LABEL: test_urem_odd_even_one:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1
▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm1, %xmm2
; CHECK-SSE2-NEXT: psrld $2, %xmm2		; CHECK-SSE2-NEXT: psrld $2, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[3,0]		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm2[0],xmm1[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[0,2]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_odd_INT_MIN:		; CHECK-SSE41-LABEL: test_urem_odd_INT_MIN:
▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines

; One INT_MIN divisor in even divisor		; One INT_MIN divisor in even divisor
define <4 x i32> @test_urem_even_INT_MIN(<4 x i32> %X) nounwind {		define <4 x i32> @test_urem_even_INT_MIN(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_urem_even_INT_MIN:		; CHECK-SSE2-LABEL: test_urem_even_INT_MIN:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: psrld $1, %xmm1		; CHECK-SSE2-NEXT: psrld $1, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm1
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: psrld $2, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
; CHECK-SSE2-NEXT: psrld $2, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[3,0]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[0,2]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm3		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]		; CHECK-SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
		; CHECK-SSE2-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_even_INT_MIN:		; CHECK-SSE41-LABEL: test_urem_even_INT_MIN:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1
▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines
; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE41-NEXT: psrld $1, %xmm1		; CHECK-SSE41-NEXT: psrld $1, %xmm1
; CHECK-SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[3,3]		; CHECK-SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[3,3]
; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm2 = [3435973837,2454267027,2,1374389535]		; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm2 = [3435973837,2454267027,2,1374389535]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; CHECK-SSE41-NEXT: pmuludq %xmm1, %xmm3		; CHECK-SSE41-NEXT: pmuludq %xmm1, %xmm3
; CHECK-SSE41-NEXT: pmuludq %xmm0, %xmm2		; CHECK-SSE41-NEXT: pmuludq %xmm0, %xmm2
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2
		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: psrld $2, %xmm2		; CHECK-SSE41-NEXT: psrld $2, %xmm2
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; CHECK-SSE41-NEXT: psrld $5, %xmm3		; CHECK-SSE41-NEXT: psrld $5, %xmm3
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm2[0,1,2,3],xmm3[4,5,6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm2[0,1,2,3],xmm3[4,5,6,7]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm3		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: psubd %xmm3, %xmm0		; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2
		; CHECK-SSE41-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE41-NEXT: psrld $31, %xmm0		; CHECK-SSE41-NEXT: psrld $31, %xmm0
; CHECK-SSE41-NEXT: retq		; CHECK-SSE41-NEXT: retq
;		;
; CHECK-AVX1-LABEL: test_urem_odd_even_INT_MIN:		; CHECK-AVX1-LABEL: test_urem_odd_even_INT_MIN:
; CHECK-AVX1: # %bb.0:		; CHECK-AVX1: # %bb.0:
; CHECK-AVX1-NEXT: vpsrld $1, %xmm0, %xmm1		; CHECK-AVX1-NEXT: vpsrld $1, %xmm0, %xmm1
; CHECK-AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[3,3]		; CHECK-AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[3,3]
; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [3435973837,2454267027,2,1374389535]		; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [3435973837,2454267027,2,1374389535]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; CHECK-AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm2		; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
; CHECK-AVX1-NEXT: vpsrld $2, %xmm2, %xmm3		; CHECK-AVX1-NEXT: vpsrld $2, %xmm3, %xmm3
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; CHECK-AVX1-NEXT: vpsrld $5, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpsrld $5, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm3[0,1,2,3],xmm1[4,5,6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm3[0,1,2,3],xmm1[4,5,6,7]
		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0
; CHECK-AVX1-NEXT: retq		; CHECK-AVX1-NEXT: retq
;		;
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm3		; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm3
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm1
; CHECK-SSE2-NEXT: psrld $2, %xmm1		; CHECK-SSE2-NEXT: psrld $2, %xmm1
		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [5,4294967295,16,5]
		; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm2
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: psrld $31, %xmm3		; CHECK-SSE2-NEXT: psrld $31, %xmm3
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm1[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm1[3,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,3],xmm2[2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,1,3,3]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [5,4294967295,16,5]		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1
; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm2		; CHECK-SSE2-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_odd_allones_and_poweroftwo:		; CHECK-SSE41-LABEL: test_urem_odd_allones_and_poweroftwo:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,3435973837]		; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,3435973837]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-SSE41-NEXT: pmuludq %xmm2, %xmm3		; CHECK-SSE41-NEXT: pmuludq %xmm2, %xmm3
; CHECK-SSE41-NEXT: pmuludq %xmm0, %xmm1		; CHECK-SSE41-NEXT: pmuludq %xmm0, %xmm1
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2
		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: psrld $2, %xmm2		; CHECK-SSE41-NEXT: psrld $2, %xmm2
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; CHECK-SSE41-NEXT: psrld $31, %xmm3		; CHECK-SSE41-NEXT: psrld $31, %xmm3
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm2[4,5,6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm3		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: psubd %xmm3, %xmm0		; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2
		; CHECK-SSE41-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE41-NEXT: psrld $31, %xmm0		; CHECK-SSE41-NEXT: psrld $31, %xmm0
; CHECK-SSE41-NEXT: retq		; CHECK-SSE41-NEXT: retq
;		;
; CHECK-AVX1-LABEL: test_urem_odd_allones_and_poweroftwo:		; CHECK-AVX1-LABEL: test_urem_odd_allones_and_poweroftwo:
; CHECK-AVX1: # %bb.0:		; CHECK-AVX1: # %bb.0:
; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,3435973837]		; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,3435973837]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2		; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2
; CHECK-AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm1		; CHECK-AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm1
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
; CHECK-AVX1-NEXT: vpsrld $2, %xmm1, %xmm3		; CHECK-AVX1-NEXT: vpsrld $2, %xmm3, %xmm3
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm3[0,1,2,3],xmm1[4,5,6,7]
; CHECK-AVX1-NEXT: vpsrld $31, %xmm2, %xmm2		; CHECK-AVX1-NEXT: vpsrld $31, %xmm2, %xmm2
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm3[4,5,6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm3[4,5,6,7]
		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm3[0,1,2,3],xmm1[4,5,6,7]
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0
; CHECK-AVX1-NEXT: retq		; CHECK-AVX1-NEXT: retq
;		;
Show All 35 Lines
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: psrld $1, %xmm1		; CHECK-SSE2-NEXT: psrld $1, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[3,3]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2454267027,2147483649,268435456,2454267027]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2454267027,2147483649,268435456,2454267027]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm4		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm4
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,3,2,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,3],xmm0[1,2]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2,3,1]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm1, %xmm2
; CHECK-SSE2-NEXT: psrld $2, %xmm2		; CHECK-SSE2-NEXT: psrld $2, %xmm2
		; CHECK-SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm2[0],xmm1[1]
		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm3 = [14,4294967295,16,14]
		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: psrld $31, %xmm4		; CHECK-SSE2-NEXT: psrld $31, %xmm4
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm2[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm2[3,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm1[2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [14,4294967295,16,14]		; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm2
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1		; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_even_allones_and_poweroftwo:		; CHECK-SSE41-LABEL: test_urem_even_allones_and_poweroftwo:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE41-NEXT: psrld $1, %xmm1		; CHECK-SSE41-NEXT: psrld $1, %xmm1
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3,4,5],xmm1[6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3,4,5],xmm1[6,7]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2454267027,2147483649,268435456,2454267027]		; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2454267027,2147483649,268435456,2454267027]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
; CHECK-SSE41-NEXT: pmuludq %xmm2, %xmm4		; CHECK-SSE41-NEXT: pmuludq %xmm2, %xmm4
; CHECK-SSE41-NEXT: pmuludq %xmm3, %xmm1		; CHECK-SSE41-NEXT: pmuludq %xmm3, %xmm1
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm4[2,3],xmm1[4,5],xmm4[6,7]
; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2
		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]
; CHECK-SSE41-NEXT: psrld $2, %xmm2		; CHECK-SSE41-NEXT: psrld $2, %xmm2
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; CHECK-SSE41-NEXT: psrld $31, %xmm4		; CHECK-SSE41-NEXT: psrld $31, %xmm4
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm2[4,5,6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm2[4,5,6,7]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm1[0,1],xmm4[2,3],xmm1[4,5],xmm4[6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm4		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]
; CHECK-SSE41-NEXT: psubd %xmm4, %xmm0		; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2
		; CHECK-SSE41-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE41-NEXT: psrld $31, %xmm0		; CHECK-SSE41-NEXT: psrld $31, %xmm0
; CHECK-SSE41-NEXT: retq		; CHECK-SSE41-NEXT: retq
;		;
; CHECK-AVX1-LABEL: test_urem_even_allones_and_poweroftwo:		; CHECK-AVX1-LABEL: test_urem_even_allones_and_poweroftwo:
; CHECK-AVX1: # %bb.0:		; CHECK-AVX1: # %bb.0:
; CHECK-AVX1-NEXT: vpsrld $1, %xmm0, %xmm1		; CHECK-AVX1-NEXT: vpsrld $1, %xmm0, %xmm1
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3,4,5],xmm1[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3,4,5],xmm1[6,7]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [2454267027,2147483649,268435456,2454267027]		; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [2454267027,2147483649,268435456,2454267027]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
; CHECK-AVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2		; CHECK-AVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
; CHECK-AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
; CHECK-AVX1-NEXT: vpsrld $2, %xmm1, %xmm3		; CHECK-AVX1-NEXT: vpsrld $2, %xmm3, %xmm3
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm3[0,1,2,3],xmm1[4,5,6,7]
; CHECK-AVX1-NEXT: vpsrld $31, %xmm2, %xmm2		; CHECK-AVX1-NEXT: vpsrld $31, %xmm2, %xmm2
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm3[4,5,6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm3[4,5,6,7]
		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm3[0,1,2,3],xmm1[4,5,6,7]
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0
; CHECK-AVX1-NEXT: retq		; CHECK-AVX1-NEXT: retq
;		;
Show All 29 Lines	; CHECK-AVX512VL-NEXT: retq
ret <4 x i32> %ret		ret <4 x i32> %ret
}		}

; One all-ones divisor and power-of-two divisor divisor in odd+even divisor		; One all-ones divisor and power-of-two divisor divisor in odd+even divisor
define <4 x i32> @test_urem_odd_even_allones_and_poweroftwo(<4 x i32> %X) nounwind {		define <4 x i32> @test_urem_odd_even_allones_and_poweroftwo(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_urem_odd_even_allones_and_poweroftwo:		; CHECK-SSE2-LABEL: test_urem_odd_even_allones_and_poweroftwo:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,1374389535]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,1374389535]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
		; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm3		; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm3
; CHECK-SSE2-NEXT: movdqa %xmm3, %xmm2		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
; CHECK-SSE2-NEXT: psrld $5, %xmm2		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: psrld $31, %xmm3		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm1
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm2[3,3]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [5,4294967295,16,100]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm4
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]
; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: psrld $2, %xmm1		; CHECK-SSE2-NEXT: psrld $2, %xmm1
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,3],xmm4[2,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3]
		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [5,4294967295,16,100]
; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]		; CHECK-SSE2-NEXT: movdqa %xmm3, %xmm4
		; CHECK-SSE2-NEXT: psrld $5, %xmm4
		; CHECK-SSE2-NEXT: psrld $31, %xmm3
		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm4[3,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm2
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_odd_even_allones_and_poweroftwo:		; CHECK-SSE41-LABEL: test_urem_odd_even_allones_and_poweroftwo:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,1374389535]		; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,1374389535]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-SSE41-NEXT: pmuludq %xmm2, %xmm3		; CHECK-SSE41-NEXT: pmuludq %xmm2, %xmm3
; CHECK-SSE41-NEXT: movdqa %xmm3, %xmm2		; CHECK-SSE41-NEXT: movdqa %xmm3, %xmm2
; CHECK-SSE41-NEXT: psrld $5, %xmm2		; CHECK-SSE41-NEXT: psrld $5, %xmm2
; CHECK-SSE41-NEXT: psrld $31, %xmm3		; CHECK-SSE41-NEXT: psrld $31, %xmm3
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm2[4,5,6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; CHECK-SSE41-NEXT: pmuludq %xmm0, %xmm1		; CHECK-SSE41-NEXT: pmuludq %xmm0, %xmm1
		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[3,3,3,3]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm2		; CHECK-SSE41-NEXT: psrld $2, %xmm1
; CHECK-SSE41-NEXT: psrld $2, %xmm2		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]		; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm1
; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2		; CHECK-SSE41-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE41-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE41-NEXT: psrld $31, %xmm0		; CHECK-SSE41-NEXT: psrld $31, %xmm0
; CHECK-SSE41-NEXT: retq		; CHECK-SSE41-NEXT: retq
;		;
; CHECK-AVX1-LABEL: test_urem_odd_even_allones_and_poweroftwo:		; CHECK-AVX1-LABEL: test_urem_odd_even_allones_and_poweroftwo:
; CHECK-AVX1: # %bb.0:		; CHECK-AVX1: # %bb.0:
; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,1374389535]		; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,1374389535]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2		; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2
; CHECK-AVX1-NEXT: vpsrld $5, %xmm2, %xmm3		; CHECK-AVX1-NEXT: vpsrld $5, %xmm2, %xmm3
; CHECK-AVX1-NEXT: vpsrld $31, %xmm2, %xmm2		; CHECK-AVX1-NEXT: vpsrld $31, %xmm2, %xmm2
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm3[4,5,6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm3[4,5,6,7]
; CHECK-AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm1		; CHECK-AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm1
		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[3,3,3,3]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-AVX1-NEXT: vpsrld $2, %xmm1, %xmm3		; CHECK-AVX1-NEXT: vpsrld $2, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm3[0,1,2,3],xmm1[4,5,6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsrld $31, %xmm0, %xmm0
; CHECK-AVX1-NEXT: retq		; CHECK-AVX1-NEXT: retq
;		;
▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: psrld $1, %xmm1		; CHECK-SSE2-NEXT: psrld $1, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[3,3]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2454267027,2147483649,0,2454267027]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2454267027,2147483649,0,2454267027]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm4		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm4
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,3,2,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,3],xmm0[1,2]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2,3,1]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: psrld $2, %xmm1		; CHECK-SSE2-NEXT: psrld $2, %xmm1
; CHECK-SSE2-NEXT: movaps %xmm0, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]
; CHECK-SSE2-NEXT: psrld $31, %xmm4		; CHECK-SSE2-NEXT: psrld $31, %xmm4
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm1[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,0],xmm1[3,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [14,4294967295,1,14]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [14,4294967295,1,14]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
		; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm3
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_even_allones_and_one:		; CHECK-SSE41-LABEL: test_urem_even_allones_and_one:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm2[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm2[3,3]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [5,4294967295,1,100]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [5,4294967295,1,100]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm4		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm4
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]
; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: psrld $2, %xmm1		; CHECK-SSE2-NEXT: psrld $2, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm4		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[2,0],xmm1[3,0]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm4[0,2]
; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2		; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm3		; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm3
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: psrld $2, %xmm2		; CHECK-SSE2-NEXT: psrld $2, %xmm2
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[3,0]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm2[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm2[3,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[0,2]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [5,16,1,5]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [5,16,1,5]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]
		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm4
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]
		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[2,3]
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2		; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1		; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_odd_poweroftwo_and_one:		; CHECK-SSE41-LABEL: test_urem_odd_poweroftwo_and_one:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,268435456,0,3435973837]		; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,268435456,0,3435973837]
▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: psrld $1, %xmm1		; CHECK-SSE2-NEXT: psrld $1, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[3,3]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2454267027,268435456,0,2454267027]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2454267027,268435456,0,2454267027]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm4		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm4
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,3,2,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,3],xmm0[1,2]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2,3,1]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: psrld $2, %xmm1		; CHECK-SSE2-NEXT: psrld $2, %xmm1
; CHECK-SSE2-NEXT: movaps %xmm0, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[3,0]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm1[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm1[3,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [14,16,1,14]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [14,16,1,14]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
		; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm3
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_even_poweroftwo_and_one:		; CHECK-SSE41-LABEL: test_urem_even_poweroftwo_and_one:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm2[3,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm2[3,3]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [5,16,1,100]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [5,16,1,100]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm4		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm4
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]
; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm0, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: psrld $2, %xmm1		; CHECK-SSE2-NEXT: psrld $2, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm4		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[2,0],xmm1[3,0]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm4[0,2]
; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0		; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
;------------------------------------------------------------------------------;		;------------------------------------------------------------------------------;

define <4 x i32> @test_urem_odd_allones_and_poweroftwo_and_one(<4 x i32> %X) nounwind {		define <4 x i32> @test_urem_odd_allones_and_poweroftwo_and_one(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_urem_odd_allones_and_poweroftwo_and_one:		; CHECK-SSE2-LABEL: test_urem_odd_allones_and_poweroftwo_and_one:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,0]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,0]
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2		; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
; CHECK-SSE2-NEXT: psrld $2, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm3[2,3]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm3 = [5,4294967295,16,1]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm4		; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm3
; CHECK-SSE2-NEXT: psrld $31, %xmm4		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: psubd %xmm2, %xmm0		; CHECK-SSE2-NEXT: movdqa %xmm2, %xmm1
		; CHECK-SSE2-NEXT: psrld $2, %xmm1
		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3]
		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [5,4294967295,16,1]
		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm1
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
		; CHECK-SSE2-NEXT: psrld $31, %xmm3
		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm0[3,3]
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm2
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
		; CHECK-SSE2-NEXT: psubd %xmm1, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_odd_allones_and_poweroftwo_and_one:		; CHECK-SSE41-LABEL: test_urem_odd_allones_and_poweroftwo_and_one:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,0]		; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,0]
; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm2		; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE41-NEXT: pmuludq %xmm1, %xmm2		; CHECK-SSE41-NEXT: pmuludq %xmm1, %xmm2
		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[3,3,3,3]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-SSE41-NEXT: movdqa %xmm2, %xmm3		; CHECK-SSE41-NEXT: psrld $2, %xmm2
; CHECK-SSE41-NEXT: psrld $2, %xmm3		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm3[4,5,6,7]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-SSE41-NEXT: pmuludq %xmm1, %xmm2		; CHECK-SSE41-NEXT: pmuludq %xmm1, %xmm3
; CHECK-SSE41-NEXT: psrld $31, %xmm2		; CHECK-SSE41-NEXT: psrld $31, %xmm3
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,5],xmm0[6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5],xmm0[6,7]
; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2		; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm3
; CHECK-SSE41-NEXT: psubd %xmm2, %xmm0		; CHECK-SSE41-NEXT: psubd %xmm3, %xmm0
; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE41-NEXT: psrld $31, %xmm0		; CHECK-SSE41-NEXT: psrld $31, %xmm0
; CHECK-SSE41-NEXT: retq		; CHECK-SSE41-NEXT: retq
;		;
; CHECK-AVX1-LABEL: test_urem_odd_allones_and_poweroftwo_and_one:		; CHECK-AVX1-LABEL: test_urem_odd_allones_and_poweroftwo_and_one:
; CHECK-AVX1: # %bb.0:		; CHECK-AVX1: # %bb.0:
; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,0]		; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [3435973837,2147483649,268435456,0]
; CHECK-AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm2		; CHECK-AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm2
		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[3,3,3,3]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-AVX1-NEXT: vpsrld $2, %xmm2, %xmm3		; CHECK-AVX1-NEXT: vpsrld $2, %xmm2, %xmm2
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm3[4,5,6,7]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-AVX1-NEXT: vpmuludq %xmm1, %xmm3, %xmm1		; CHECK-AVX1-NEXT: vpmuludq %xmm1, %xmm3, %xmm1
; CHECK-AVX1-NEXT: vpsrld $31, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpsrld $31, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,5],xmm0[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,5],xmm0[6,7]
; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
Show All 32 Lines	; CHECK-AVX512VL-NEXT: retq
%cmp = icmp eq <4 x i32> %urem, <i32 0, i32 0, i32 0, i32 0>		%cmp = icmp eq <4 x i32> %urem, <i32 0, i32 0, i32 0, i32 0>
%ret = zext <4 x i1> %cmp to <4 x i32>		%ret = zext <4 x i1> %cmp to <4 x i32>
ret <4 x i32> %ret		ret <4 x i32> %ret
}		}

define <4 x i32> @test_urem_even_allones_and_poweroftwo_and_one(<4 x i32> %X) nounwind {		define <4 x i32> @test_urem_even_allones_and_poweroftwo_and_one(<4 x i32> %X) nounwind {
; CHECK-SSE2-LABEL: test_urem_even_allones_and_poweroftwo_and_one:		; CHECK-SSE2-LABEL: test_urem_even_allones_and_poweroftwo_and_one:
; CHECK-SSE2: # %bb.0:		; CHECK-SSE2: # %bb.0:
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE2-NEXT: psrld $1, %xmm1
; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm2
; CHECK-SSE2-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [2454267027,2147483649,268435456,0]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [2454267027,2147483649,268435456,0]
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]		; CHECK-SSE2-NEXT: pmuludq %xmm2, %xmm3
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]
		; CHECK-SSE2-NEXT: movdqa %xmm0, %xmm4
		; CHECK-SSE2-NEXT: psrld $1, %xmm4
		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm0[2,3]
		; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm4
		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,3,2,3]
		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
		; CHECK-SSE2-NEXT: movdqa %xmm1, %xmm2
; CHECK-SSE2-NEXT: psrld $2, %xmm2		; CHECK-SSE2-NEXT: psrld $2, %xmm2
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm3[2,3]		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3]
; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm3 = [14,4294967295,16,1]		; CHECK-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [14,4294967295,16,1]
; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm2		; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm2
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
		; CHECK-SSE2-NEXT: psrld $31, %xmm3
		; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm0[3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]		; CHECK-SSE2-NEXT: pmuludq %xmm3, %xmm1
; CHECK-SSE2-NEXT: pmuludq %xmm1, %xmm4
; CHECK-SSE2-NEXT: psrld $31, %xmm4
; CHECK-SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[3,3]
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]
; CHECK-SSE2-NEXT: pmuludq %xmm4, %xmm1
; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; CHECK-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; CHECK-SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; CHECK-SSE2-NEXT: psubd %xmm2, %xmm0		; CHECK-SSE2-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE2-NEXT: psrld $31, %xmm0		; CHECK-SSE2-NEXT: psrld $31, %xmm0
; CHECK-SSE2-NEXT: retq		; CHECK-SSE2-NEXT: retq
;		;
; CHECK-SSE41-LABEL: test_urem_even_allones_and_poweroftwo_and_one:		; CHECK-SSE41-LABEL: test_urem_even_allones_and_poweroftwo_and_one:
; CHECK-SSE41: # %bb.0:		; CHECK-SSE41: # %bb.0:
; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1		; CHECK-SSE41-NEXT: movdqa %xmm0, %xmm1
; CHECK-SSE41-NEXT: psrld $1, %xmm1		; CHECK-SSE41-NEXT: psrld $1, %xmm1
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3,4,5,6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3,4,5,6,7]
; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm2 = [2454267027,2147483649,268435456,0]		; CHECK-SSE41-NEXT: movdqa {{.*#+}} xmm2 = [2454267027,2147483649,268435456,0]
; CHECK-SSE41-NEXT: pmuludq %xmm2, %xmm1		; CHECK-SSE41-NEXT: pmuludq %xmm2, %xmm1
		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[3,3,3,3]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-SSE41-NEXT: movdqa %xmm1, %xmm3		; CHECK-SSE41-NEXT: psrld $2, %xmm1
; CHECK-SSE41-NEXT: psrld $2, %xmm3		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm1[4,5,6,7]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]		; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]		; CHECK-SSE41-NEXT: pmuludq %xmm2, %xmm3
; CHECK-SSE41-NEXT: pmuludq %xmm1, %xmm2		; CHECK-SSE41-NEXT: psrld $31, %xmm3
; CHECK-SSE41-NEXT: psrld $31, %xmm2		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]		; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5],xmm0[6,7]
; CHECK-SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,5],xmm0[6,7]		; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm3
; CHECK-SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2		; CHECK-SSE41-NEXT: psubd %xmm3, %xmm0
; CHECK-SSE41-NEXT: psubd %xmm2, %xmm0
; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1		; CHECK-SSE41-NEXT: pxor %xmm1, %xmm1
; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0		; CHECK-SSE41-NEXT: pcmpeqd %xmm1, %xmm0
; CHECK-SSE41-NEXT: psrld $31, %xmm0		; CHECK-SSE41-NEXT: psrld $31, %xmm0
; CHECK-SSE41-NEXT: retq		; CHECK-SSE41-NEXT: retq
;		;
; CHECK-AVX1-LABEL: test_urem_even_allones_and_poweroftwo_and_one:		; CHECK-AVX1-LABEL: test_urem_even_allones_and_poweroftwo_and_one:
; CHECK-AVX1: # %bb.0:		; CHECK-AVX1: # %bb.0:
; CHECK-AVX1-NEXT: vpsrld $1, %xmm0, %xmm1		; CHECK-AVX1-NEXT: vpsrld $1, %xmm0, %xmm1
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3,4,5,6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3,4,5,6,7]
; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [2454267027,2147483649,268435456,0]		; CHECK-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [2454267027,2147483649,268435456,0]
; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[3,3,3,3]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-AVX1-NEXT: vpsrld $2, %xmm1, %xmm3		; CHECK-AVX1-NEXT: vpsrld $2, %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm3[0,1,2,3],xmm1[4,5,6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]		; CHECK-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2		; CHECK-AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2
; CHECK-AVX1-NEXT: vpsrld $31, %xmm2, %xmm2		; CHECK-AVX1-NEXT: vpsrld $31, %xmm2, %xmm2
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,5],xmm0[6,7]		; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,5],xmm0[6,7]
; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1		; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0		; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
Show All 37 Lines

llvm/test/CodeGen/X86/urem-seteq-vec-nonzero.ll

	Show First 20 Lines • Show All 326 Lines • ▼ Show 20 Lines
	; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; CHECK-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; CHECK-AVX1-NEXT: vpcmpeqd {{.*}}(%rip), %xmm0, %xmm0			; CHECK-AVX1-NEXT: vpcmpeqd {{.*}}(%rip), %xmm0, %xmm0
	; CHECK-AVX1-NEXT: retq			; CHECK-AVX1-NEXT: retq
	;			;
	; CHECK-AVX2-LABEL: t32_tautological:			; CHECK-AVX2-LABEL: t32_tautological:
	; CHECK-AVX2: # %bb.0:			; CHECK-AVX2: # %bb.0:
	; CHECK-AVX2-NEXT: vmovdqa {{.*#+}} xmm1 = [0,0,2147483648,2863311531]			; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; CHECK-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2863311531,2863311531,2863311531,2863311531]
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; CHECK-AVX2-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpmuludq %xmm2, %xmm3, %xmm2			; CHECK-AVX2-NEXT: vpmuludq {{.*}}(%rip), %xmm0, %xmm2
	; CHECK-AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm1			; CHECK-AVX2-NEXT: vpunpckhdq {{.*#+}} xmm1 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; CHECK-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; CHECK-AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3]			; CHECK-AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3]
	; CHECK-AVX2-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX2-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; CHECK-AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; CHECK-AVX2-NEXT: vpcmpeqd {{.*}}(%rip), %xmm0, %xmm0			; CHECK-AVX2-NEXT: vpcmpeqd {{.*}}(%rip), %xmm0, %xmm0
	; CHECK-AVX2-NEXT: retq			; CHECK-AVX2-NEXT: retq
	;			;
	; CHECK-AVX512VL-LABEL: t32_tautological:			; CHECK-AVX512VL-LABEL: t32_tautological:
	Show All 12 Lines

llvm/test/CodeGen/X86/vec_insert-2.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X64

	define <4 x float> @t1(float %s, <4 x float> %tmp) nounwind {			define <4 x float> @t1(float %s, <4 x float> %tmp) nounwind {
	; X32-LABEL: t1:			; X32-LABEL: t1:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]			; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
	; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]			; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: t1:			; X64-LABEL: t1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[2,0]			; X64-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; X64-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]			; X64-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]
	; X64-NEXT: movaps %xmm1, %xmm0			; X64-NEXT: movaps %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp1 = insertelement <4 x float> %tmp, float %s, i32 3			%tmp1 = insertelement <4 x float> %tmp, float %s, i32 3
	ret <4 x float> %tmp1			ret <4 x float> %tmp1
	}			}

	define <4 x i32> @t2(i32 %s, <4 x i32> %tmp) nounwind {			define <4 x i32> @t2(i32 %s, <4 x i32> %tmp) nounwind {
	; X32-LABEL: t2:			; X32-LABEL: t2:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]			; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
	; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]			; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: t2:			; X64-LABEL: t2:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movd %edi, %xmm1			; X64-NEXT: movd %edi, %xmm1
	; X64-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]			; X64-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
	; X64-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]			; X64-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp1 = insertelement <4 x i32> %tmp, i32 %s, i32 3			%tmp1 = insertelement <4 x i32> %tmp, i32 %s, i32 3
	ret <4 x i32> %tmp1			ret <4 x i32> %tmp1
	}			}

	define <2 x double> @t3(double %s, <2 x double> %tmp) nounwind {			define <2 x double> @t3(double %s, <2 x double> %tmp) nounwind {
	; X32-LABEL: t3:			; X32-LABEL: t3:
	Show All 26 Lines

llvm/test/CodeGen/X86/vec_insert-3.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X64

	define <2 x i64> @t1(i64 %s, <2 x i64> %tmp) nounwind {			define <2 x i64> @t1(i64 %s, <2 x i64> %tmp) nounwind {
	; X32-LABEL: t1:			; X32-LABEL: t1:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: movaps %xmm0, %xmm2			; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X32-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[0,2]			; X32-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm1[0]
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,0]
	; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm2[2,0]
	; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: t1:			; X64-LABEL: t1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdi, %xmm1			; X64-NEXT: movq %rdi, %xmm1
	; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp1 = insertelement <2 x i64> %tmp, i64 %s, i32 1			%tmp1 = insertelement <2 x i64> %tmp, i64 %s, i32 1
	ret <2 x i64> %tmp1			ret <2 x i64> %tmp1
	}			}

llvm/test/CodeGen/X86/vec_insert-5.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i386-unknown -mattr=+sse2,+ssse3 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i386-unknown -mattr=+sse2,+ssse3 \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,+ssse3 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,+ssse3 \| FileCheck %s --check-prefix=X64

	; There are no MMX operations in @t1			; There are no MMX operations in @t1

	define void @t1(i32 %a, x86_mmx* %P) nounwind {			define void @t1(i32 %a, x86_mmx* %P) nounwind {
	; X32-LABEL: t1:			; X32-LABEL: t1:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: shll $12, %ecx			; X32-NEXT: shll $12, %ecx
	; X32-NEXT: movd %ecx, %xmm0			; X32-NEXT: movd %ecx, %xmm0
	; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,0,1,1]			; X32-NEXT: psllq $32, %xmm0
	; X32-NEXT: movq %xmm0, (%eax)			; X32-NEXT: movq %xmm0, (%eax)
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: t1:			; X64-LABEL: t1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: shll $12, %edi			; X64-NEXT: shll $12, %edi
	; X64-NEXT: movd %edi, %xmm0			; X64-NEXT: movd %edi, %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,0,1,1]			; X64-NEXT: psllq $32, %xmm0
	; X64-NEXT: movq %xmm0, (%rsi)			; X64-NEXT: movq %xmm0, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp12 = shl i32 %a, 12			%tmp12 = shl i32 %a, 12
	%tmp21 = insertelement <2 x i32> undef, i32 %tmp12, i32 1			%tmp21 = insertelement <2 x i32> undef, i32 %tmp12, i32 1
	%tmp22 = insertelement <2 x i32> %tmp21, i32 0, i32 0			%tmp22 = insertelement <2 x i32> %tmp21, i32 0, i32 0
	%tmp23 = bitcast <2 x i32> %tmp22 to x86_mmx			%tmp23 = bitcast <2 x i32> %tmp22 to x86_mmx
	store x86_mmx %tmp23, x86_mmx* %P			store x86_mmx %tmp23, x86_mmx* %P
	ret void			ret void
	}			}

	define <4 x float> @t2(<4 x float>* %P) nounwind {			define <4 x float> @t2(<4 x float>* %P) nounwind {
	; X32-LABEL: t2:			; X32-LABEL: t2:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: xorps %xmm0, %xmm0			; X32-NEXT: xorps %xmm0, %xmm0
	; X32-NEXT: xorps %xmm1, %xmm1			; X32-NEXT: xorps %xmm1, %xmm1
	; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],mem[0,0]			; X32-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0]
	; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]			; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: t2:			; X64-LABEL: t2:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: xorps %xmm0, %xmm0			; X64-NEXT: xorps %xmm0, %xmm0
	; X64-NEXT: xorps %xmm1, %xmm1			; X64-NEXT: xorps %xmm1, %xmm1
	; X64-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],mem[0,0]			; X64-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0]
	; X64-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]			; X64-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp1 = load <4 x float>, <4 x float>* %P			%tmp1 = load <4 x float>, <4 x float>* %P
	%tmp2 = shufflevector <4 x float> %tmp1, <4 x float> zeroinitializer, <4 x i32> < i32 4, i32 4, i32 4, i32 0 >			%tmp2 = shufflevector <4 x float> %tmp1, <4 x float> zeroinitializer, <4 x i32> < i32 4, i32 4, i32 4, i32 0 >
	ret <4 x float> %tmp2			ret <4 x float> %tmp2
	}			}

	define <4 x float> @t3(<4 x float>* %P) nounwind {			define <4 x float> @t3(<4 x float>* %P) nounwind {
	▲ Show 20 Lines • Show All 108 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vec_int_to_fp.ll

Show First 20 Lines • Show All 183 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%cvt = sitofp <4 x i32> %a to <4 x double>		%cvt = sitofp <4 x i32> %a to <4 x double>
%shuf = shufflevector <4 x double> %cvt, <4 x double> undef, <2 x i32> <i32 0, i32 1>		%shuf = shufflevector <4 x double> %cvt, <4 x double> undef, <2 x i32> <i32 0, i32 1>
ret <2 x double> %shuf		ret <2 x double> %shuf
}		}

define <2 x double> @sitofp_2i16_to_2f64(<8 x i16> %a) {		define <2 x double> @sitofp_2i16_to_2f64(<8 x i16> %a) {
; SSE2-LABEL: sitofp_2i16_to_2f64:		; SSE2-LABEL: sitofp_2i16_to_2f64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
; SSE2-NEXT: psrad $16, %xmm0		; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: sitofp_2i16_to_2f64:		; SSE41-LABEL: sitofp_2i16_to_2f64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pmovsxwd %xmm0, %xmm0		; SSE41-NEXT: pmovsxwd %xmm0, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: sitofp_2i16_to_2f64:		; AVX-LABEL: sitofp_2i16_to_2f64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpmovsxwd %xmm0, %xmm0		; AVX-NEXT: vpmovsxwd %xmm0, %xmm0
; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0		; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%shuf = shufflevector <8 x i16> %a, <8 x i16> undef, <2 x i32> <i32 0, i32 1>		%shuf = shufflevector <8 x i16> %a, <8 x i16> undef, <2 x i32> <i32 0, i32 1>
%cvt = sitofp <2 x i16> %shuf to <2 x double>		%cvt = sitofp <2 x i16> %shuf to <2 x double>
ret <2 x double> %cvt		ret <2 x double> %cvt
}		}

define <2 x double> @sitofp_8i16_to_2f64(<8 x i16> %a) {		define <2 x double> @sitofp_8i16_to_2f64(<8 x i16> %a) {
; SSE2-LABEL: sitofp_8i16_to_2f64:		; SSE2-LABEL: sitofp_8i16_to_2f64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
; SSE2-NEXT: psrad $16, %xmm0		; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: sitofp_8i16_to_2f64:		; SSE41-LABEL: sitofp_8i16_to_2f64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pmovsxwd %xmm0, %xmm0		; SSE41-NEXT: pmovsxwd %xmm0, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
Show All 16 Lines	; AVX512-NEXT: retq
%shuf = shufflevector <8 x double> %cvt, <8 x double> undef, <2 x i32> <i32 0, i32 1>		%shuf = shufflevector <8 x double> %cvt, <8 x double> undef, <2 x i32> <i32 0, i32 1>
ret <2 x double> %shuf		ret <2 x double> %shuf
}		}

define <2 x double> @sitofp_2i8_to_2f64(<16 x i8> %a) {		define <2 x double> @sitofp_2i8_to_2f64(<16 x i8> %a) {
; SSE2-LABEL: sitofp_2i8_to_2f64:		; SSE2-LABEL: sitofp_2i8_to_2f64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
; SSE2-NEXT: psrad $24, %xmm0		; SSE2-NEXT: psrad $24, %xmm0
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: sitofp_2i8_to_2f64:		; SSE41-LABEL: sitofp_2i8_to_2f64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pmovsxbd %xmm0, %xmm0		; SSE41-NEXT: pmovsxbd %xmm0, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: sitofp_2i8_to_2f64:		; AVX-LABEL: sitofp_2i8_to_2f64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpmovsxbd %xmm0, %xmm0		; AVX-NEXT: vpmovsxbd %xmm0, %xmm0
; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0		; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%shuf = shufflevector <16 x i8> %a, <16 x i8> undef, <2 x i32> <i32 0, i32 1>		%shuf = shufflevector <16 x i8> %a, <16 x i8> undef, <2 x i32> <i32 0, i32 1>
%cvt = sitofp <2 x i8> %shuf to <2 x double>		%cvt = sitofp <2 x i8> %shuf to <2 x double>
ret <2 x double> %cvt		ret <2 x double> %cvt
}		}

define <2 x double> @sitofp_16i8_to_2f64(<16 x i8> %a) {		define <2 x double> @sitofp_16i8_to_2f64(<16 x i8> %a) {
; SSE2-LABEL: sitofp_16i8_to_2f64:		; SSE2-LABEL: sitofp_16i8_to_2f64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
; SSE2-NEXT: psrad $24, %xmm0		; SSE2-NEXT: psrad $24, %xmm0
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: sitofp_16i8_to_2f64:		; SSE41-LABEL: sitofp_16i8_to_2f64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pmovsxbd %xmm0, %xmm0		; SSE41-NEXT: pmovsxbd %xmm0, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
▲ Show 20 Lines • Show All 2,783 Lines • ▼ Show 20 Lines
}		}

define <2 x double> @sitofp_load_2i8_to_2f64(<2 x i8> *%a) {		define <2 x double> @sitofp_load_2i8_to_2f64(<2 x i8> *%a) {
; SSE2-LABEL: sitofp_load_2i8_to_2f64:		; SSE2-LABEL: sitofp_load_2i8_to_2f64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movzwl (%rdi), %eax		; SSE2-NEXT: movzwl (%rdi), %eax
; SSE2-NEXT: movd %eax, %xmm0		; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
; SSE2-NEXT: psrad $24, %xmm0		; SSE2-NEXT: psrad $24, %xmm0
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: sitofp_load_2i8_to_2f64:		; SSE41-LABEL: sitofp_load_2i8_to_2f64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movzwl (%rdi), %eax		; SSE41-NEXT: movzwl (%rdi), %eax
; SSE41-NEXT: movd %eax, %xmm0		; SSE41-NEXT: movd %eax, %xmm0
▲ Show 20 Lines • Show All 2,863 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vec_set-6.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i386-unknown -mattr=+sse2,+sse4.1 \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i386-unknown -mattr=+sse2,+sse4.1 \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,+sse4.1 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,+sse4.1 \| FileCheck %s --check-prefix=X64

	define <4 x float> @test(float %a, float %b, float %c) nounwind {			define <4 x float> @test(float %a, float %b, float %c) nounwind {
	; X86-LABEL: test:			; X86-LABEL: test:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero			; X86-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
	; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm1[0,1]			; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm1[0,1]
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test:			; X64-LABEL: test:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; X64-NEXT: insertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],zero,zero
	; X64-NEXT: xorps %xmm2, %xmm2			; X64-NEXT: xorps %xmm2, %xmm2
	; X64-NEXT: blendps {{.*#+}} xmm0 = xmm0[0],xmm2[1,2,3]			; X64-NEXT: blendps {{.*#+}} xmm0 = xmm0[0],xmm2[1,2,3]
	; X64-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm1[0,1]			; X64-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm1[0,1]
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp = insertelement <4 x float> zeroinitializer, float %a, i32 1			%tmp = insertelement <4 x float> zeroinitializer, float %a, i32 1
	%tmp8 = insertelement <4 x float> %tmp, float %b, i32 2			%tmp8 = insertelement <4 x float> %tmp, float %b, i32 2
	%tmp10 = insertelement <4 x float> %tmp8, float %c, i32 3			%tmp10 = insertelement <4 x float> %tmp8, float %c, i32 3
	ret <4 x float> %tmp10			ret <4 x float> %tmp10
	}			}

llvm/test/CodeGen/X86/vector-idiv-udiv-256.ll

	Show First 20 Lines • Show All 269 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
	; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm3, %xmm3			; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm3, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm2, %xmm2			; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm4
	; AVX1-NEXT: vpsllw $7, %xmm4, %xmm4			; AVX1-NEXT: vpsllw $7, %xmm4, %xmm4
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5,6],xmm4[7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,5,6],xmm4[7]
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm3, %xmm3			; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm3, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm4 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm4 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm5 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm5 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpsllw $7, %xmm5, %xmm5			; AVX1-NEXT: vpsllw $7, %xmm5, %xmm5
	▲ Show 20 Lines • Show All 419 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
	; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm4, %xmm4			; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm4, %xmm4
	; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4			; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
	; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm4, %xmm4			; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm4, %xmm4
	; AVX1-NEXT: vpand %xmm2, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm2, %xmm4, %xmm4
	; AVX1-NEXT: vpackuswb %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpackuswb %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpsubb %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpsubb %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm5 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm5
	; AVX1-NEXT: vpsllw $7, %xmm5, %xmm5			; AVX1-NEXT: vpsllw $7, %xmm5, %xmm5
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,5,6],xmm5[7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,5,6],xmm5[7]
	; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4			; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
	; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm4, %xmm4			; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm4, %xmm4
	; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4			; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
	; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm5 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm5 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm6 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm6 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpsllw $7, %xmm6, %xmm6			; AVX1-NEXT: vpsllw $7, %xmm6, %xmm6
	▲ Show 20 Lines • Show All 90 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-pack-256.ll

	Show First 20 Lines • Show All 222 Lines • ▼ Show 20 Lines
	define <16 x i16> @concat_trunc_packusdw_256(<8 x i32> %a0, <8 x i32> %a1) nounwind {			define <16 x i16> @concat_trunc_packusdw_256(<8 x i32> %a0, <8 x i32> %a1) nounwind {
	; AVX1-LABEL: concat_trunc_packusdw_256:			; AVX1-LABEL: concat_trunc_packusdw_256:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpsrld $17, %xmm2, %xmm2			; AVX1-NEXT: vpsrld $17, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $17, %xmm0, %xmm0			; AVX1-NEXT: vpsrld $17, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpunpckhqdq {{.*#+}} xmm2 = xmm0[1],xmm1[1]			; AVX1-NEXT: vpunpckhqdq {{.*#+}} xmm2 = xmm0[1],xmm1[1]
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	▲ Show 20 Lines • Show All 153 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-and-bool.ll

	Show First 20 Lines • Show All 291 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pmovmskb %xmm0, %eax			; SSE41-NEXT: pmovmskb %xmm0, %eax
	; SSE41-NEXT: cmpb $-1, %al			; SSE41-NEXT: cmpb $-1, %al
	; SSE41-NEXT: sete %al			; SSE41-NEXT: sete %al
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_v8i32_v8i1:			; AVX1-LABEL: trunc_v8i32_v8i1:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpsllw $15, %xmm0, %xmm0			; AVX1-NEXT: vpsllw $15, %xmm0, %xmm0
	; AVX1-NEXT: vpacksswb %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpacksswb %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: cmpb $-1, %al			; AVX1-NEXT: cmpb $-1, %al
	; AVX1-NEXT: sete %al			; AVX1-NEXT: sete %al
	▲ Show 20 Lines • Show All 1,390 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-mul.ll

	Show All 13 Lines

	define i64 @test_v2i64(<2 x i64> %a0) {			define i64 @test_v2i64(<2 x i64> %a0) {
	; SSE-LABEL: test_v2i64:			; SSE-LABEL: test_v2i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i64:			; AVX-LABEL: test_v2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vmovq %xmm0, %rax			; AVX-NEXT: vmovq %xmm0, %rax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v2i64:			; AVX512BW-LABEL: test_v2i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX512BW-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v2i64:			; AVX512BWVL-LABEL: test_v2i64:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX512BWVL-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BWVL-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovq %xmm0, %rax			; AVX512BWVL-NEXT: vmovq %xmm0, %rax
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	Show All 28 Lines
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX2-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX2-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX2-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX2-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX2-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX2-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX2-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v4i64:			; AVX512BW-LABEL: test_v4i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX512BW-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX512BW-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX512BW-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v4i64:			; AVX512BWVL-LABEL: test_v4i64:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BWVL-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX512BWVL-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX512BWVL-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BWVL-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovq %xmm0, %rax			; AVX512BWVL-NEXT: vmovq %xmm0, %rax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	Show All 23 Lines
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1			; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	Show All 15 Lines
	; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX2-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX2-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX2-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	Show All 16 Lines
	; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX512BW-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	Show All 16 Lines
	; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX512BWVL-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BWVL-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovq %xmm0, %rax			; AVX512BWVL-NEXT: vmovq %xmm0, %rax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	Show All 31 Lines
	; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX2-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX2-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX2-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX2-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX2-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	Show All 24 Lines
	; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX512BW-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	Show All 24 Lines
	; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX512BWVL-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BWVL-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,3,3]
	; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BWVL-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BWVL-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovq %xmm0, %rax			; AVX512BWVL-NEXT: vmovq %xmm0, %rax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	▲ Show 20 Lines • Show All 942 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]			; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: pand %xmm1, %xmm2			; SSE2-NEXT: pand %xmm1, %xmm2
	; SSE2-NEXT: pxor %xmm3, %xmm3			; SSE2-NEXT: pxor %xmm3, %xmm3
	; SSE2-NEXT: packuswb %xmm3, %xmm2			; SSE2-NEXT: packuswb %xmm3, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,2,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,2,3,3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: pmullw %xmm0, %xmm2			; SSE2-NEXT: pmullw %xmm0, %xmm2
	; SSE2-NEXT: movdqa %xmm2, %xmm0			; SSE2-NEXT: pand %xmm2, %xmm1
	; SSE2-NEXT: pand %xmm1, %xmm0			; SSE2-NEXT: packuswb %xmm3, %xmm1
	; SSE2-NEXT: packuswb %xmm3, %xmm0			; SSE2-NEXT: psrldq {{.*#+}} xmm1 = xmm1[2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero,zero
	; SSE2-NEXT: psrldq {{.*#+}} xmm0 = xmm0[2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero,zero			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: pmullw %xmm2, %xmm1
	; SSE2-NEXT: pmullw %xmm2, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: pand %xmm0, %xmm1			; SSE2-NEXT: psrld $8, %xmm0
	; SSE2-NEXT: packuswb %xmm1, %xmm1			; SSE2-NEXT: psrlw $8, %xmm0
	; SSE2-NEXT: psrlw $8, %xmm1			; SSE2-NEXT: pmullw %xmm1, %xmm0
	; SSE2-NEXT: pmullw %xmm0, %xmm1			; SSE2-NEXT: movd %xmm0, %eax
	; SSE2-NEXT: movd %xmm1, %eax
	; SSE2-NEXT: # kill: def $al killed $al killed $eax			; SSE2-NEXT: # kill: def $al killed $al killed $eax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16i8:			; SSE41-LABEL: test_v16i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; SSE41-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmullw %xmm1, %xmm0			; SSE41-NEXT: pmullw %xmm1, %xmm0
	▲ Show 20 Lines • Show All 153 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]			; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: pand %xmm1, %xmm2			; SSE2-NEXT: pand %xmm1, %xmm2
	; SSE2-NEXT: pxor %xmm3, %xmm3			; SSE2-NEXT: pxor %xmm3, %xmm3
	; SSE2-NEXT: packuswb %xmm3, %xmm2			; SSE2-NEXT: packuswb %xmm3, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,2,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,2,3,3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: pmullw %xmm0, %xmm2			; SSE2-NEXT: pmullw %xmm0, %xmm2
	; SSE2-NEXT: movdqa %xmm2, %xmm0			; SSE2-NEXT: pand %xmm2, %xmm1
	; SSE2-NEXT: pand %xmm1, %xmm0			; SSE2-NEXT: packuswb %xmm3, %xmm1
	; SSE2-NEXT: packuswb %xmm3, %xmm0			; SSE2-NEXT: psrldq {{.*#+}} xmm1 = xmm1[2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero,zero
	; SSE2-NEXT: psrldq {{.*#+}} xmm0 = xmm0[2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero,zero			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: pmullw %xmm2, %xmm1
	; SSE2-NEXT: pmullw %xmm2, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: pand %xmm0, %xmm1			; SSE2-NEXT: psrld $8, %xmm0
	; SSE2-NEXT: packuswb %xmm1, %xmm1			; SSE2-NEXT: psrlw $8, %xmm0
	; SSE2-NEXT: psrlw $8, %xmm1			; SSE2-NEXT: pmullw %xmm1, %xmm0
	; SSE2-NEXT: pmullw %xmm0, %xmm1			; SSE2-NEXT: movd %xmm0, %eax
	; SSE2-NEXT: movd %xmm1, %eax
	; SSE2-NEXT: # kill: def $al killed $al killed $eax			; SSE2-NEXT: # kill: def $al killed $al killed $eax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v32i8:			; SSE41-LABEL: test_v32i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; SSE41-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	▲ Show 20 Lines • Show All 193 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]			; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: pand %xmm1, %xmm2			; SSE2-NEXT: pand %xmm1, %xmm2
	; SSE2-NEXT: pxor %xmm3, %xmm3			; SSE2-NEXT: pxor %xmm3, %xmm3
	; SSE2-NEXT: packuswb %xmm3, %xmm2			; SSE2-NEXT: packuswb %xmm3, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,2,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,2,3,3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: pmullw %xmm0, %xmm2			; SSE2-NEXT: pmullw %xmm0, %xmm2
	; SSE2-NEXT: movdqa %xmm2, %xmm0			; SSE2-NEXT: pand %xmm2, %xmm1
	; SSE2-NEXT: pand %xmm1, %xmm0			; SSE2-NEXT: packuswb %xmm3, %xmm1
	; SSE2-NEXT: packuswb %xmm3, %xmm0			; SSE2-NEXT: psrldq {{.*#+}} xmm1 = xmm1[2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero,zero
	; SSE2-NEXT: psrldq {{.*#+}} xmm0 = xmm0[2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero,zero			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: pmullw %xmm2, %xmm1
	; SSE2-NEXT: pmullw %xmm2, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: pand %xmm0, %xmm1			; SSE2-NEXT: psrld $8, %xmm0
	; SSE2-NEXT: packuswb %xmm1, %xmm1			; SSE2-NEXT: psrlw $8, %xmm0
	; SSE2-NEXT: psrlw $8, %xmm1			; SSE2-NEXT: pmullw %xmm1, %xmm0
	; SSE2-NEXT: pmullw %xmm0, %xmm1			; SSE2-NEXT: movd %xmm0, %eax
	; SSE2-NEXT: movd %xmm1, %eax
	; SSE2-NEXT: # kill: def $al killed $al killed $eax			; SSE2-NEXT: # kill: def $al killed $al killed $eax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v64i8:			; SSE41-LABEL: test_v64i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm4 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm4 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; SSE41-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	▲ Show 20 Lines • Show All 268 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [255,255,255,255,255,255,255,255]			; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [255,255,255,255,255,255,255,255]
	; SSE2-NEXT: movdqa %xmm1, %xmm2			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: pand %xmm0, %xmm2			; SSE2-NEXT: pand %xmm0, %xmm2
	; SSE2-NEXT: pxor %xmm3, %xmm3			; SSE2-NEXT: pxor %xmm3, %xmm3
	; SSE2-NEXT: packuswb %xmm3, %xmm2			; SSE2-NEXT: packuswb %xmm3, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,2,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,2,3,3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: pmullw %xmm1, %xmm2			; SSE2-NEXT: pmullw %xmm1, %xmm2
	; SSE2-NEXT: movdqa %xmm2, %xmm1			; SSE2-NEXT: pand %xmm2, %xmm0
	; SSE2-NEXT: pand %xmm0, %xmm1			; SSE2-NEXT: packuswb %xmm3, %xmm0
	; SSE2-NEXT: packuswb %xmm3, %xmm1			; SSE2-NEXT: psrldq {{.*#+}} xmm0 = xmm0[2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero,zero
	; SSE2-NEXT: psrldq {{.*#+}} xmm1 = xmm1[2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero,zero			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: pmullw %xmm2, %xmm0
	; SSE2-NEXT: pmullw %xmm2, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: pand %xmm1, %xmm0			; SSE2-NEXT: psrld $8, %xmm1
	; SSE2-NEXT: packuswb %xmm0, %xmm0			; SSE2-NEXT: psrlw $8, %xmm1
	; SSE2-NEXT: psrlw $8, %xmm0			; SSE2-NEXT: pmullw %xmm0, %xmm1
	; SSE2-NEXT: pmullw %xmm1, %xmm0			; SSE2-NEXT: movd %xmm1, %eax
	; SSE2-NEXT: movd %xmm0, %eax
	; SSE2-NEXT: # kill: def $al killed $al killed $eax			; SSE2-NEXT: # kill: def $al killed $al killed $eax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v128i8:			; SSE41-LABEL: test_v128i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm8 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm8 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
	; SSE41-NEXT: punpckhbw {{.*#+}} xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; SSE41-NEXT: punpckhbw {{.*#+}} xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm9 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm9 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	▲ Show 20 Lines • Show All 317 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-or-bool.ll

	Show First 20 Lines • Show All 280 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pmovmskb %xmm0, %eax			; SSE41-NEXT: pmovmskb %xmm0, %eax
	; SSE41-NEXT: testl $43690, %eax # imm = 0xAAAA			; SSE41-NEXT: testl $43690, %eax # imm = 0xAAAA
	; SSE41-NEXT: setne %al			; SSE41-NEXT: setne %al
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_v8i32_v8i1:			; AVX1-LABEL: trunc_v8i32_v8i1:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpsllw $15, %xmm0, %xmm0			; AVX1-NEXT: vpsllw $15, %xmm0, %xmm0
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: testl $43690, %eax # imm = 0xAAAA			; AVX1-NEXT: testl $43690, %eax # imm = 0xAAAA
	; AVX1-NEXT: setne %al			; AVX1-NEXT: setne %al
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 1,395 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-xor-bool.ll

	Show First 20 Lines • Show All 285 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pmovmskb %xmm0, %eax			; SSE41-NEXT: pmovmskb %xmm0, %eax
	; SSE41-NEXT: testb %al, %al			; SSE41-NEXT: testb %al, %al
	; SSE41-NEXT: setnp %al			; SSE41-NEXT: setnp %al
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_v8i32_v8i1:			; AVX1-LABEL: trunc_v8i32_v8i1:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpsllw $15, %xmm0, %xmm0			; AVX1-NEXT: vpsllw $15, %xmm0, %xmm0
	; AVX1-NEXT: vpacksswb %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpacksswb %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: testb %al, %al			; AVX1-NEXT: testb %al, %al
	; AVX1-NEXT: setnp %al			; AVX1-NEXT: setnp %al
	▲ Show 20 Lines • Show All 1,563 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-128-v16.ll

	Show First 20 Lines • Show All 1,859 Lines • ▼ Show 20 Lines
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%shuffle = shufflevector <16 x i8> %a, <16 x i8> <i8 0, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef>, <16 x i32> <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>			%shuffle = shufflevector <16 x i8> %a, <16 x i8> <i8 0, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef>, <16 x i32> <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16>
	ret <16 x i8> %shuffle			ret <16 x i8> %shuffle
	}			}

	define <16 x i8> @shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06(<16 x i8> %a) {			define <16 x i8> @shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06(<16 x i8> %a) {
	; SSE-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:			; SSE-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: psrldq {{.*#+}} xmm0 = xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero			; SSE-NEXT: psrlq $8, %xmm0
	; SSE-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]			; SSE-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:			; AVX1-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero			; AVX1-NEXT: vpsrlq $8, %xmm0, %xmm0
	; AVX1-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]			; AVX1-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:			; AVX2-SLOW-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero			; AVX2-SLOW-NEXT: vpsrlq $8, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]			; AVX2-SLOW-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:			; AVX2-FAST-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[1,2,3,4,5,6]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[1,2,3,4,5,6]
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:			; AVX512VL-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[1,2,3,4,5,6]			; AVX512VL-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[1,2,3,4,5,6]
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOP-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:			; XOP-LABEL: shuffle_v16i8_zz_zz_zz_zz_zz_zz_zz_zz_zz_zz_01_02_03_04_05_06:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero			; XOP-NEXT: vpsrlq $8, %xmm0, %xmm0
	; XOP-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]			; XOP-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5]
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%shuffle = shufflevector <16 x i8> %a, <16 x i8> <i8 0, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef>, <16 x i32> <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6>			%shuffle = shufflevector <16 x i8> %a, <16 x i8> <i8 0, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef>, <16 x i32> <i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 16, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6>
	ret <16 x i8> %shuffle			ret <16 x i8> %shuffle
	}			}

	define <16 x i8> @shuffle_v16i8_03_00_01_02_07_04_05_06_11_08_09_10_15_12_13_14(<16 x i8> %a) {			define <16 x i8> @shuffle_v16i8_03_00_01_02_07_04_05_06_11_08_09_10_15_12_13_14(<16 x i8> %a) {
	; SSE2-LABEL: shuffle_v16i8_03_00_01_02_07_04_05_06_11_08_09_10_15_12_13_14:			; SSE2-LABEL: shuffle_v16i8_03_00_01_02_07_04_05_06_11_08_09_10_15_12_13_14:
	▲ Show 20 Lines • Show All 549 Lines • ▼ Show 20 Lines

	define <16 x i8> @PR31301(i8* nocapture readonly %x, i8* nocapture readonly %y) {			define <16 x i8> @PR31301(i8* nocapture readonly %x, i8* nocapture readonly %y) {
	; SSE2-LABEL: PR31301:			; SSE2-LABEL: PR31301:
	; SSE2: # %bb.0: # %entry			; SSE2: # %bb.0: # %entry
	; SSE2-NEXT: movzbl (%rdi), %eax			; SSE2-NEXT: movzbl (%rdi), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; SSE2-NEXT: movzbl (%rsi), %eax			; SSE2-NEXT: movzbl (%rsi), %eax
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movd %eax, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,0,0,0,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,0,0,0,4,5,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: PR31301:			; SSSE3-LABEL: PR31301:
	; SSSE3: # %bb.0: # %entry			; SSSE3: # %bb.0: # %entry
	; SSSE3-NEXT: movzbl (%rdi), %eax			; SSSE3-NEXT: movzbl (%rdi), %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: pxor %xmm1, %xmm1			; SSSE3-NEXT: pxor %xmm1, %xmm1
	▲ Show 20 Lines • Show All 63 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-128-v4.ll

Show First 20 Lines • Show All 326 Lines • ▼ Show 20 Lines
; AVX-NEXT: retq		; AVX-NEXT: retq
%shuffle = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 6, i32 7, i32 2, i32 3>		%shuffle = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 6, i32 7, i32 2, i32 3>
ret <4 x float> %shuffle		ret <4 x float> %shuffle
}		}

define <4 x i32> @shuffle_v4i32_0124(<4 x i32> %a, <4 x i32> %b) {		define <4 x i32> @shuffle_v4i32_0124(<4 x i32> %a, <4 x i32> %b) {
; SSE2-LABEL: shuffle_v4i32_0124:		; SSE2-LABEL: shuffle_v4i32_0124:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4i32_0124:		; SSE3-LABEL: shuffle_v4i32_0124:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4i32_0124:		; SSSE3-LABEL: shuffle_v4i32_0124:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4i32_0124:		; SSE41-LABEL: shuffle_v4i32_0124:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5],xmm1[6,7]		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5],xmm1[6,7]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
Show All 16 Lines
; AVX512VL-NEXT: vpermt2d %xmm1, %xmm2, %xmm0		; AVX512VL-NEXT: vpermt2d %xmm1, %xmm2, %xmm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 0, i32 1, i32 2, i32 4>		%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 0, i32 1, i32 2, i32 4>
ret <4 x i32> %shuffle		ret <4 x i32> %shuffle
}		}
define <4 x i32> @shuffle_v4i32_0142(<4 x i32> %a, <4 x i32> %b) {		define <4 x i32> @shuffle_v4i32_0142(<4 x i32> %a, <4 x i32> %b) {
; SSE2-LABEL: shuffle_v4i32_0142:		; SSE2-LABEL: shuffle_v4i32_0142:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4i32_0142:		; SSE3-LABEL: shuffle_v4i32_0142:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]		; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4i32_0142:		; SSSE3-LABEL: shuffle_v4i32_0142:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]		; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4i32_0142:		; SSE41-LABEL: shuffle_v4i32_0142:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,2,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,2,2]
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5],xmm0[6,7]		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5],xmm0[6,7]
Show All 19 Lines
; AVX512VL-NEXT: vpermt2d %xmm1, %xmm2, %xmm0		; AVX512VL-NEXT: vpermt2d %xmm1, %xmm2, %xmm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 0, i32 1, i32 4, i32 2>		%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 0, i32 1, i32 4, i32 2>
ret <4 x i32> %shuffle		ret <4 x i32> %shuffle
}		}
define <4 x i32> @shuffle_v4i32_0412(<4 x i32> %a, <4 x i32> %b) {		define <4 x i32> @shuffle_v4i32_0412(<4 x i32> %a, <4 x i32> %b) {
; SSE2-LABEL: shuffle_v4i32_0412:		; SSE2-LABEL: shuffle_v4i32_0412:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[1,2]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[1,2]
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4i32_0412:		; SSE3-LABEL: shuffle_v4i32_0412:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]		; SSE3-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[1,2]		; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[1,2]
; SSE3-NEXT: movaps %xmm1, %xmm0		; SSE3-NEXT: movaps %xmm1, %xmm0
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4i32_0412:		; SSSE3-LABEL: shuffle_v4i32_0412:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]		; SSSE3-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[1,2]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[1,2]
; SSSE3-NEXT: movaps %xmm1, %xmm0		; SSSE3-NEXT: movaps %xmm1, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4i32_0412:		; SSE41-LABEL: shuffle_v4i32_0412:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,2]
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1OR2-LABEL: shuffle_v4i32_0412:		; AVX1-LABEL: shuffle_v4i32_0412:
; AVX1OR2: # %bb.0:		; AVX1: # %bb.0:
; AVX1OR2-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,1,1]		; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,1,1]
; AVX1OR2-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,2]		; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,2]
; AVX1OR2-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]		; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
; AVX1OR2-NEXT: retq		; AVX1-NEXT: retq
		;
		; AVX2-LABEL: shuffle_v4i32_0412:
		; AVX2: # %bb.0:
		; AVX2-NEXT: vbroadcastss %xmm1, %xmm1
		; AVX2-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,2]
		; AVX2-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
		; AVX2-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v4i32_0412:		; AVX512VL-LABEL: shuffle_v4i32_0412:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,4,1,2]		; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [0,4,1,2]
; AVX512VL-NEXT: vpermt2d %xmm1, %xmm2, %xmm0		; AVX512VL-NEXT: vpermt2d %xmm1, %xmm2, %xmm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 0, i32 4, i32 1, i32 2>		%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 0, i32 4, i32 1, i32 2>
ret <4 x i32> %shuffle		ret <4 x i32> %shuffle
}		}
define <4 x i32> @shuffle_v4i32_4012(<4 x i32> %a, <4 x i32> %b) {		define <4 x i32> @shuffle_v4i32_4012(<4 x i32> %a, <4 x i32> %b) {
; SSE2-LABEL: shuffle_v4i32_4012:		; SSE2-LABEL: shuffle_v4i32_4012:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[1,2]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[1,2]
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4i32_4012:		; SSE3-LABEL: shuffle_v4i32_4012:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]		; SSE3-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[1,2]		; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[1,2]
; SSE3-NEXT: movaps %xmm1, %xmm0		; SSE3-NEXT: movaps %xmm1, %xmm0
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4i32_4012:		; SSSE3-LABEL: shuffle_v4i32_4012:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]		; SSSE3-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[1,2]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[1,2]
; SSSE3-NEXT: movaps %xmm1, %xmm0		; SSSE3-NEXT: movaps %xmm1, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4i32_4012:		; SSE41-LABEL: shuffle_v4i32_4012:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,2]
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3,4,5,6,7]		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3,4,5,6,7]
▲ Show 20 Lines • Show All 172 Lines • ▼ Show 20 Lines
; AVX-NEXT: retq		; AVX-NEXT: retq
%shuffle = shufflevector <4 x float> zeroinitializer, <4 x float> %a, <4 x i32> <i32 4, i32 1, i32 2, i32 3>		%shuffle = shufflevector <4 x float> zeroinitializer, <4 x float> %a, <4 x i32> <i32 4, i32 1, i32 2, i32 3>
ret <4 x float> %shuffle		ret <4 x float> %shuffle
}		}

define <4 x float> @shuffle_v4f32_z4zz(<4 x float> %a) {		define <4 x float> @shuffle_v4f32_z4zz(<4 x float> %a) {
; SSE2-LABEL: shuffle_v4f32_z4zz:		; SSE2-LABEL: shuffle_v4f32_z4zz:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
		; SSE2-NEXT: movq {{.*#+}} xmm0 = xmm0[0],zero
; SSE2-NEXT: xorps %xmm1, %xmm1		; SSE2-NEXT: xorps %xmm1, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4f32_z4zz:		; SSE3-LABEL: shuffle_v4f32_z4zz:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
		; SSE3-NEXT: movq {{.*#+}} xmm0 = xmm0[0],zero
; SSE3-NEXT: xorps %xmm1, %xmm1		; SSE3-NEXT: xorps %xmm1, %xmm1
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4f32_z4zz:		; SSSE3-LABEL: shuffle_v4f32_z4zz:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
		; SSSE3-NEXT: movq {{.*#+}} xmm0 = xmm0[0],zero
; SSSE3-NEXT: xorps %xmm1, %xmm1		; SSSE3-NEXT: xorps %xmm1, %xmm1
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[0,0]
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4f32_z4zz:		; SSE41-LABEL: shuffle_v4f32_z4zz:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: insertps {{.*#+}} xmm0 = zero,xmm0[0],zero,zero		; SSE41-NEXT: insertps {{.*#+}} xmm0 = zero,xmm0[0],zero,zero
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: shuffle_v4f32_z4zz:		; AVX-LABEL: shuffle_v4f32_z4zz:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = zero,xmm0[0],zero,zero		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = zero,xmm0[0],zero,zero
; AVX-NEXT: retq		; AVX-NEXT: retq
%shuffle = shufflevector <4 x float> zeroinitializer, <4 x float> %a, <4 x i32> <i32 2, i32 4, i32 3, i32 0>		%shuffle = shufflevector <4 x float> zeroinitializer, <4 x float> %a, <4 x i32> <i32 2, i32 4, i32 3, i32 0>
ret <4 x float> %shuffle		ret <4 x float> %shuffle
}		}

define <4 x float> @shuffle_v4f32_zz4z(<4 x float> %a) {		define <4 x float> @shuffle_v4f32_zz4z(<4 x float> %a) {
; SSE2-LABEL: shuffle_v4f32_zz4z:		; SSE2-LABEL: shuffle_v4f32_zz4z:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: xorps %xmm1, %xmm1		; SSE2-NEXT: movq {{.*#+}} xmm1 = xmm0[0],zero
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[3,0]		; SSE2-NEXT: pxor %xmm0, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4f32_zz4z:		; SSE3-LABEL: shuffle_v4f32_zz4z:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: xorps %xmm1, %xmm1		; SSE3-NEXT: movq {{.*#+}} xmm1 = xmm0[0],zero
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[3,0]		; SSE3-NEXT: pxor %xmm0, %xmm0
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,2]		; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
; SSE3-NEXT: movaps %xmm1, %xmm0
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4f32_zz4z:		; SSSE3-LABEL: shuffle_v4f32_zz4z:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: xorps %xmm1, %xmm1		; SSSE3-NEXT: movq {{.*#+}} xmm1 = xmm0[0],zero
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[3,0]		; SSSE3-NEXT: pxor %xmm0, %xmm0
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,2]		; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
; SSSE3-NEXT: movaps %xmm1, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4f32_zz4z:		; SSE41-LABEL: shuffle_v4f32_zz4z:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: insertps {{.*#+}} xmm0 = zero,zero,xmm0[0],zero		; SSE41-NEXT: insertps {{.*#+}} xmm0 = zero,zero,xmm0[0],zero
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: shuffle_v4f32_zz4z:		; AVX-LABEL: shuffle_v4f32_zz4z:
▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%shuffle = shufflevector <4 x float> zeroinitializer, <4 x float> %a, <4 x i32> <i32 0, i32 1, i32 2, i32 7>		%shuffle = shufflevector <4 x float> zeroinitializer, <4 x float> %a, <4 x i32> <i32 0, i32 1, i32 2, i32 7>
ret <4 x float> %shuffle		ret <4 x float> %shuffle
}		}

define <4 x float> @shuffle_v4f32_z6zz(<4 x float> %a) {		define <4 x float> @shuffle_v4f32_z6zz(<4 x float> %a) {
; SSE2-LABEL: shuffle_v4f32_z6zz:		; SSE2-LABEL: shuffle_v4f32_z6zz:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: xorps %xmm1, %xmm1		; SSE2-NEXT: xorps %xmm1, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[0,0]		; SSE2-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4f32_z6zz:		; SSE3-LABEL: shuffle_v4f32_z6zz:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: xorps %xmm1, %xmm1		; SSE3-NEXT: xorps %xmm1, %xmm1
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[0,0]		; SSE3-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4f32_z6zz:		; SSSE3-LABEL: shuffle_v4f32_z6zz:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: xorps %xmm1, %xmm1		; SSSE3-NEXT: xorps %xmm1, %xmm1
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[0,0]		; SSSE3-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4f32_z6zz:		; SSE41-LABEL: shuffle_v4f32_z6zz:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: insertps {{.*#+}} xmm0 = zero,xmm0[2],zero,zero		; SSE41-NEXT: insertps {{.*#+}} xmm0 = zero,xmm0[2],zero,zero
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: shuffle_v4f32_z6zz:		; AVX-LABEL: shuffle_v4f32_z6zz:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = zero,xmm0[2],zero,zero		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = zero,xmm0[2],zero,zero
; AVX-NEXT: retq		; AVX-NEXT: retq
%shuffle = shufflevector <4 x float> zeroinitializer, <4 x float> %a, <4 x i32> <i32 0, i32 6, i32 2, i32 3>		%shuffle = shufflevector <4 x float> zeroinitializer, <4 x float> %a, <4 x i32> <i32 0, i32 6, i32 2, i32 3>
ret <4 x float> %shuffle		ret <4 x float> %shuffle
}		}

define <4 x float> @shuffle_v4f32_0z23(<4 x float> %a) {		define <4 x float> @shuffle_v4f32_0z23(<4 x float> %a) {
; SSE2-LABEL: shuffle_v4f32_0z23:		; SSE2-LABEL: shuffle_v4f32_0z23:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: xorps %xmm1, %xmm1		; SSE2-NEXT: xorps %xmm1, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm0[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4f32_0z23:		; SSE3-LABEL: shuffle_v4f32_0z23:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: xorps %xmm1, %xmm1		; SSE3-NEXT: xorps %xmm1, %xmm1
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm0[0,0]		; SSE3-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]		; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]
; SSE3-NEXT: movaps %xmm1, %xmm0		; SSE3-NEXT: movaps %xmm1, %xmm0
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4f32_0z23:		; SSSE3-LABEL: shuffle_v4f32_0z23:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: xorps %xmm1, %xmm1		; SSSE3-NEXT: xorps %xmm1, %xmm1
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm0[0,0]		; SSSE3-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]
; SSSE3-NEXT: movaps %xmm1, %xmm0		; SSSE3-NEXT: movaps %xmm1, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4f32_0z23:		; SSE41-LABEL: shuffle_v4f32_0z23:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: xorps %xmm1, %xmm1		; SSE41-NEXT: xorps %xmm1, %xmm1
; SSE41-NEXT: blendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]		; SSE41-NEXT: blendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
▲ Show 20 Lines • Show All 169 Lines • ▼ Show 20 Lines
; AVX-NEXT: retq		; AVX-NEXT: retq
%shuffle = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 undef, i32 0, i32 5, i32 1>		%shuffle = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 undef, i32 0, i32 5, i32 1>
ret <4 x float> %shuffle		ret <4 x float> %shuffle
}		}

define <4 x float> @shuffle_v4f32_0zz4(<4 x float> %a, <4 x float> %b) {		define <4 x float> @shuffle_v4f32_0zz4(<4 x float> %a, <4 x float> %b) {
; SSE2-LABEL: shuffle_v4f32_0zz4:		; SSE2-LABEL: shuffle_v4f32_0zz4:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: xorps %xmm2, %xmm2		; SSE2-NEXT: movq {{.*#+}} xmm2 = xmm1[0],zero
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm2[2,0]		; SSE2-NEXT: pxor %xmm1, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,0]
; SSE2-NEXT: movss {{.*#+}} xmm2 = xmm0[0],xmm2[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]
; SSE2-NEXT: movaps %xmm2, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4f32_0zz4:		; SSE3-LABEL: shuffle_v4f32_0zz4:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: xorps %xmm2, %xmm2		; SSE3-NEXT: movq {{.*#+}} xmm2 = xmm1[0],zero
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm2[2,0]		; SSE3-NEXT: pxor %xmm1, %xmm1
; SSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,0]		; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,0]
; SSE3-NEXT: movss {{.*#+}} xmm2 = xmm0[0],xmm2[1,2,3]		; SSE3-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]
; SSE3-NEXT: movaps %xmm2, %xmm0		; SSE3-NEXT: movaps %xmm1, %xmm0
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4f32_0zz4:		; SSSE3-LABEL: shuffle_v4f32_0zz4:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: xorps %xmm2, %xmm2		; SSSE3-NEXT: movq {{.*#+}} xmm2 = xmm1[0],zero
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm2[2,0]		; SSSE3-NEXT: pxor %xmm1, %xmm1
; SSSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,0]
; SSSE3-NEXT: movss {{.*#+}} xmm2 = xmm0[0],xmm2[1,2,3]		; SSSE3-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]
; SSSE3-NEXT: movaps %xmm2, %xmm0		; SSSE3-NEXT: movaps %xmm1, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4f32_0zz4:		; SSE41-LABEL: shuffle_v4f32_0zz4:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],zero,zero,xmm1[0]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],zero,zero,xmm1[0]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: shuffle_v4f32_0zz4:		; AVX-LABEL: shuffle_v4f32_0zz4:
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%shuffle = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 0, i32 undef, i32 undef, i32 6>		%shuffle = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 0, i32 undef, i32 undef, i32 6>
%shuffle1 = shufflevector <4 x float> zeroinitializer, <4 x float> %shuffle, <4 x i32> <i32 4, i32 1, i32 2, i32 7>		%shuffle1 = shufflevector <4 x float> zeroinitializer, <4 x float> %shuffle, <4 x i32> <i32 4, i32 1, i32 2, i32 7>
ret <4 x float> %shuffle1		ret <4 x float> %shuffle1
}		}

define <4 x float> @shuffle_v4f32_0z24(<4 x float> %a, <4 x float> %b) {		define <4 x float> @shuffle_v4f32_0z24(<4 x float> %a, <4 x float> %b) {
; SSE2-LABEL: shuffle_v4f32_0z24:		; SSE2-LABEL: shuffle_v4f32_0z24:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSE2-NEXT: xorps %xmm2, %xmm2		; SSE2-NEXT: xorps %xmm2, %xmm2
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm0[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm0[0]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,0]
; SSE2-NEXT: movaps %xmm2, %xmm0		; SSE2-NEXT: movaps %xmm2, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4f32_0z24:		; SSE3-LABEL: shuffle_v4f32_0z24:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSE3-NEXT: xorps %xmm2, %xmm2		; SSE3-NEXT: xorps %xmm2, %xmm2
; SSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm0[0,0]		; SSE3-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm0[0]
; SSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,0]		; SSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,0]
; SSE3-NEXT: movaps %xmm2, %xmm0		; SSE3-NEXT: movaps %xmm2, %xmm0
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4f32_0z24:		; SSSE3-LABEL: shuffle_v4f32_0z24:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSSE3-NEXT: xorps %xmm2, %xmm2		; SSSE3-NEXT: xorps %xmm2, %xmm2
; SSSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm0[0,0]		; SSSE3-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm0[0]
; SSSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,0]
; SSSE3-NEXT: movaps %xmm2, %xmm0		; SSSE3-NEXT: movaps %xmm2, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4f32_0z24:		; SSE41-LABEL: shuffle_v4f32_0z24:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],zero,xmm0[2],xmm1[0]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],zero,xmm0[2],xmm1[0]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
; AVX-NEXT: retq		; AVX-NEXT: retq
%shuffle = shufflevector <4 x i32> zeroinitializer, <4 x i32> %a, <4 x i32> <i32 0, i32 undef, i32 undef, i32 4>		%shuffle = shufflevector <4 x i32> zeroinitializer, <4 x i32> %a, <4 x i32> <i32 0, i32 undef, i32 undef, i32 4>
ret <4 x i32> %shuffle		ret <4 x i32> %shuffle
}		}

define <4 x i32> @shuffle_v4i32_z6zz(<4 x i32> %a) {		define <4 x i32> @shuffle_v4i32_z6zz(<4 x i32> %a) {
; SSE2-LABEL: shuffle_v4i32_z6zz:		; SSE2-LABEL: shuffle_v4i32_z6zz:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
		; SSE2-NEXT: psrldq {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero
; SSE2-NEXT: xorps %xmm1, %xmm1		; SSE2-NEXT: xorps %xmm1, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[0,0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4i32_z6zz:		; SSE3-LABEL: shuffle_v4i32_z6zz:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
		; SSE3-NEXT: psrldq {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero
; SSE3-NEXT: xorps %xmm1, %xmm1		; SSE3-NEXT: xorps %xmm1, %xmm1
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[0,0]
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4i32_z6zz:		; SSSE3-LABEL: shuffle_v4i32_z6zz:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
		; SSSE3-NEXT: psrldq {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero
; SSSE3-NEXT: xorps %xmm1, %xmm1		; SSSE3-NEXT: xorps %xmm1, %xmm1
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[0,0]
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]		; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4i32_z6zz:		; SSE41-LABEL: shuffle_v4i32_z6zz:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,2,3,3]		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,2,3,3]
; SSE41-NEXT: pxor %xmm0, %xmm0		; SSE41-NEXT: pxor %xmm0, %xmm0
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]
▲ Show 20 Lines • Show All 186 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 2, i32 3, i32 4, i32 5>		%shuffle = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 2, i32 3, i32 4, i32 5>
ret <4 x i32> %shuffle		ret <4 x i32> %shuffle
}		}

; PR22391		; PR22391
define <4 x i32> @shuffle_v4i32_2456(<4 x i32> %a, <4 x i32> %b) {		define <4 x i32> @shuffle_v4i32_2456(<4 x i32> %a, <4 x i32> %b) {
; SSE2-LABEL: shuffle_v4i32_2456:		; SSE2-LABEL: shuffle_v4i32_2456:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,2],xmm1[0,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,3],xmm1[0,1]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[1,2]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[1,2]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4i32_2456:		; SSE3-LABEL: shuffle_v4i32_2456:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,2],xmm1[0,0]		; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,3],xmm1[0,1]
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[1,2]		; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[1,2]
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4i32_2456:		; SSSE3-LABEL: shuffle_v4i32_2456:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,2,2]		; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,2,2]
; SSSE3-NEXT: palignr {{.*#+}} xmm1 = xmm0[12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10,11]		; SSSE3-NEXT: palignr {{.*#+}} xmm1 = xmm0[12,13,14,15],xmm1[0,1,2,3,4,5,6,7,8,9,10,11]
; SSSE3-NEXT: movdqa %xmm1, %xmm0		; SSSE3-NEXT: movdqa %xmm1, %xmm0
▲ Show 20 Lines • Show All 512 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%1 = extractelement <4 x i32> %a1, i32 3		%1 = extractelement <4 x i32> %a1, i32 3
%2 = insertelement <4 x i32> %a0, i32 %1, i32 0		%2 = insertelement <4 x i32> %a0, i32 %1, i32 0
ret <4 x i32> %2		ret <4 x i32> %2
}		}

define <4 x i32> @extract3_insert3_v4i32_0127(<4 x i32> %a0, <4 x i32> %a1) {		define <4 x i32> @extract3_insert3_v4i32_0127(<4 x i32> %a0, <4 x i32> %a1) {
; SSE2-LABEL: extract3_insert3_v4i32_0127:		; SSE2-LABEL: extract3_insert3_v4i32_0127:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1],xmm0[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: extract3_insert3_v4i32_0127:		; SSE3-LABEL: extract3_insert3_v4i32_0127:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3],xmm0[2,0]		; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1],xmm0[2,3]
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: extract3_insert3_v4i32_0127:		; SSSE3-LABEL: extract3_insert3_v4i32_0127:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3],xmm0[2,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1],xmm0[2,3]
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: extract3_insert3_v4i32_0127:		; SSE41-LABEL: extract3_insert3_v4i32_0127:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: blendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]		; SSE41-NEXT: blendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
▲ Show 20 Lines • Show All 482 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-128-v8.ll

Show First 20 Lines • Show All 1,337 Lines • ▼ Show 20 Lines	; XOP-NEXT: retq
%shuffle = shufflevector <8 x i16> %a, <8 x i16> %b, <8 x i32> <i32 4, i32 4, i32 3, i32 10, i32 undef, i32 undef, i32 undef, i32 undef>		%shuffle = shufflevector <8 x i16> %a, <8 x i16> %b, <8 x i32> <i32 4, i32 4, i32 3, i32 10, i32 undef, i32 undef, i32 undef, i32 undef>
ret <8 x i16> %shuffle		ret <8 x i16> %shuffle
}		}

define <8 x i16> @shuffle_v8i16_032dXXXX(<8 x i16> %a, <8 x i16> %b) {		define <8 x i16> @shuffle_v8i16_032dXXXX(<8 x i16> %a, <8 x i16> %b) {
; SSE2-LABEL: shuffle_v8i16_032dXXXX:		; SSE2-LABEL: shuffle_v8i16_032dXXXX:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,2,0]
; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,6,5,6,7]		; SSE2-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,6,5,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,1,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,1,2,3]
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,3,2,1,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,3,2,1,4,5,6,7]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v8i16_032dXXXX:		; SSSE3-LABEL: shuffle_v8i16_032dXXXX:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,xmm1[10,11,u,u,u,u,u,u,u,u]		; SSSE3-NEXT: pshufb {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,xmm1[10,11,u,u,u,u,u,u,u,u]
▲ Show 20 Lines • Show All 1,589 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq

ret <8 x i16> %shuffle		ret <8 x i16> %shuffle
}		}

; PR40306		; PR40306
define <8 x i16> @shuffle_v8i16_9zzzuuuu(<8 x i16> %x) {		define <8 x i16> @shuffle_v8i16_9zzzuuuu(<8 x i16> %x) {
; SSE-LABEL: shuffle_v8i16_9zzzuuuu:		; SSE-LABEL: shuffle_v8i16_9zzzuuuu:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
; SSE-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; SSE-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: shuffle_v8i16_9zzzuuuu:		; AVX1-LABEL: shuffle_v8i16_9zzzuuuu:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
; AVX1-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-SLOW-LABEL: shuffle_v8i16_9zzzuuuu:		; AVX2-SLOW-LABEL: shuffle_v8i16_9zzzuuuu:
; AVX2-SLOW: # %bb.0:		; AVX2-SLOW: # %bb.0:
; AVX2-SLOW-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3]		; AVX2-SLOW-NEXT: vpbroadcastd %xmm0, %xmm0
; AVX2-SLOW-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX2-SLOW-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX2-SLOW-NEXT: retq		; AVX2-SLOW-NEXT: retq
;		;
; AVX2-FAST-LABEL: shuffle_v8i16_9zzzuuuu:		; AVX2-FAST-LABEL: shuffle_v8i16_9zzzuuuu:
; AVX2-FAST: # %bb.0:		; AVX2-FAST: # %bb.0:
; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2,3],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2,3],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX2-FAST-NEXT: retq		; AVX2-FAST-NEXT: retq
;		;
; AVX512VL-SLOW-LABEL: shuffle_v8i16_9zzzuuuu:		; AVX512VL-SLOW-LABEL: shuffle_v8i16_9zzzuuuu:
; AVX512VL-SLOW: # %bb.0:		; AVX512VL-SLOW: # %bb.0:
; AVX512VL-SLOW-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3]		; AVX512VL-SLOW-NEXT: vbroadcastss %xmm0, %xmm0
; AVX512VL-SLOW-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX512VL-SLOW-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX512VL-SLOW-NEXT: retq		; AVX512VL-SLOW-NEXT: retq
;		;
; AVX512VL-FAST-LABEL: shuffle_v8i16_9zzzuuuu:		; AVX512VL-FAST-LABEL: shuffle_v8i16_9zzzuuuu:
; AVX512VL-FAST: # %bb.0:		; AVX512VL-FAST: # %bb.0:
; AVX512VL-FAST-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2,3],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX512VL-FAST-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2,3],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX512VL-FAST-NEXT: retq		; AVX512VL-FAST-NEXT: retq
;		;
▲ Show 20 Lines • Show All 625 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-256-v16.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,498 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[u,u,u,u,u,u,u,u,0,1,4,5,8,9,14,15]			; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[u,u,u,u,u,u,u,u,0,1,4,5,8,9,14,15]
	; AVX1-NEXT: vpunpckhqdq {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; AVX1-NEXT: vpunpckhqdq {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_04_05_06_07_16_17_18_27_12_13_14_15_24_25_26_27:			; AVX2-LABEL: shuffle_v16i16_04_05_06_07_16_17_18_27_12_13_14_15_24_25_26_27:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,3,2,3]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3],ymm0[4,5,6,7,8,9,10],ymm1[11],ymm0[12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3],ymm0[4,5,6,7,8,9,10],ymm1[11],ymm0[12,13,14,15]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[2,3,0,1,6,7,4,5]			; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[2,3,0,1,6,7,4,5]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_04_05_06_07_16_17_18_27_12_13_14_15_24_25_26_27:			; AVX512VL-LABEL: shuffle_v16i16_04_05_06_07_16_17_18_27_12_13_14_15_24_25_26_27:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [4,5,6,7,16,17,18,27,12,13,14,15,24,25,26,27]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [4,5,6,7,16,17,18,27,12,13,14,15,24,25,26,27]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOPAVX1-LABEL: shuffle_v16i16_04_05_06_07_16_17_18_27_12_13_14_15_24_25_26_27:			; XOPAVX1-LABEL: shuffle_v16i16_04_05_06_07_16_17_18_27_12_13_14_15_24_25_26_27:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; XOPAVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4,5,6,7]			; XOPAVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4,5,6,7]
	; XOPAVX1-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]			; XOPAVX1-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; XOPAVX1-NEXT: vpperm {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],xmm1[0,1,4,5,8,9,14,15]			; XOPAVX1-NEXT: vpperm {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],xmm1[0,1,4,5,8,9,14,15]
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: shuffle_v16i16_04_05_06_07_16_17_18_27_12_13_14_15_24_25_26_27:			; XOPAVX2-LABEL: shuffle_v16i16_04_05_06_07_16_17_18_27_12_13_14_15_24_25_26_27:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; XOPAVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; XOPAVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3],ymm1[2,3]			; XOPAVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,3,2,3]
	; XOPAVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3],ymm0[4,5,6,7,8,9,10],ymm1[11],ymm0[12,13,14,15]			; XOPAVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3],ymm0[4,5,6,7,8,9,10],ymm1[11],ymm0[12,13,14,15]
	; XOPAVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[2,3,0,1,6,7,4,5]			; XOPAVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[2,3,0,1,6,7,4,5]
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 16, i32 17, i32 18, i32 27, i32 12, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26, i32 27>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 16, i32 17, i32 18, i32 27, i32 12, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26, i32 27>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_00_08_08_08_08_08_08_08_08_08(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_00_00_00_00_00_00_08_08_08_08_08_08_08_08_08(<16 x i16> %a, <16 x i16> %b) {
	▲ Show 20 Lines • Show All 1,530 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,8,9,14,15,u,u,u,u,u,u,u,u]			; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,8,9,14,15,u,u,u,u,u,u,u,u]
	; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:			; AVX2-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3],ymm1[2,3]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,8,9,2,3,10,11,4,5,12,13,6,7,u,u,16,17,24,25,18,19,26,27,20,21,28,29,22,23,u,u]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,8,9,2,3,10,11,4,5,12,13,6,7,u,u,16,17,24,25,18,19,26,27,20,21,28,29,22,23,u,u]
				; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,3,2,3]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:			; AVX512VL-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,20,1,21,2,22,3,31,8,28,9,29,10,30,11,31]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,20,1,21,2,22,3,31,8,28,9,29,10,30,11,31]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOPAVX1-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:			; XOPAVX1-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; XOPAVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[2,3,2,3]			; XOPAVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[2,3,2,3]
	; XOPAVX1-NEXT: vpunpcklwd {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3]			; XOPAVX1-NEXT: vpunpcklwd {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1],xmm2[2],xmm4[2],xmm2[3],xmm4[3]
	; XOPAVX1-NEXT: vpperm {{.*#+}} xmm1 = xmm1[8,9,10,11,12,13],xmm3[14,15],xmm1[u,u,u,u,u,u,u,u]			; XOPAVX1-NEXT: vpperm {{.*#+}} xmm1 = xmm1[8,9,10,11,12,13],xmm3[14,15],xmm1[u,u,u,u,u,u,u,u]
	; XOPAVX1-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; XOPAVX1-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:			; XOPAVX2-LABEL: shuffle_v16i16_00_20_01_21_02_22_03_31_08_28_09_29_10_30_11_31:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]			; XOPAVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
	; XOPAVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3],ymm1[2,3]
	; XOPAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,8,9,2,3,10,11,4,5,12,13,6,7,u,u,16,17,24,25,18,19,26,27,20,21,28,29,22,23,u,u]			; XOPAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,8,9,2,3,10,11,4,5,12,13,6,7,u,u,16,17,24,25,18,19,26,27,20,21,28,29,22,23,u,u]
				; XOPAVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,3,2,3]
	; XOPAVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]			; XOPAVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 20, i32 1, i32 21, i32 2, i32 22, i32 3, i32 31, i32 8, i32 28, i32 9, i32 29, i32 10, i32 30, i32 11, i32 31>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 20, i32 1, i32 21, i32 2, i32 22, i32 3, i32 31, i32 8, i32 28, i32 9, i32 29, i32 10, i32 30, i32 11, i32 31>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_04_20_05_21_06_22_07_31_12_28_13_29_14_30_15_31(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_04_20_05_21_06_22_07_31_12_28_13_29_14_30_15_31(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_04_20_05_21_06_22_07_31_12_28_13_29_14_30_15_31:			; AVX1-LABEL: shuffle_v16i16_04_20_05_21_06_22_07_31_12_28_13_29_14_30_15_31:
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[u,u,u,u,u,u,u,u,0,1,4,5,8,9,14,15]			; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[u,u,u,u,u,u,u,u,0,1,4,5,8,9,14,15]
	; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm0 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm0 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:			; AVX2-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,3,2,3]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3],ymm0[4,5,6,7,8,9,10],ymm1[11],ymm0[12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3],ymm0[4,5,6,7,8,9,10],ymm1[11],ymm0[12,13,14,15]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[8,9,0,1,10,11,2,3,12,13,4,5,14,15,6,7,24,25,16,17,26,27,18,19,28,29,20,21,30,31,22,23]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[8,9,0,1,10,11,2,3,12,13,4,5,14,15,6,7,24,25,16,17,26,27,18,19,28,29,20,21,30,31,22,23]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:			; AVX512VL-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [4,16,5,17,6,18,7,27,12,24,13,25,14,26,15,27]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [4,16,5,17,6,18,7,27,12,24,13,25,14,26,15,27]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOPAVX1-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:			; XOPAVX1-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,2,3]			; XOPAVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,2,3]
	; XOPAVX1-NEXT: vpunpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]			; XOPAVX1-NEXT: vpunpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; XOPAVX1-NEXT: vpperm {{.*#+}} xmm1 = xmm1[u,u,u,u,u,u,u,u,0,1,2,3,4,5],xmm2[6,7]			; XOPAVX1-NEXT: vpperm {{.*#+}} xmm1 = xmm1[u,u,u,u,u,u,u,u,0,1,2,3,4,5],xmm2[6,7]
	; XOPAVX1-NEXT: vpunpckhwd {{.*#+}} xmm0 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; XOPAVX1-NEXT: vpunpckhwd {{.*#+}} xmm0 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:			; XOPAVX2-LABEL: shuffle_v16i16_04_16_05_17_06_18_07_27_12_24_13_25_14_26_15_27:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]			; XOPAVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3],ymm1[4,5],ymm0[6,7]
	; XOPAVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3],ymm1[2,3]			; XOPAVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,3,2,3]
	; XOPAVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3],ymm0[4,5,6,7,8,9,10],ymm1[11],ymm0[12,13,14,15]			; XOPAVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2],ymm1[3],ymm0[4,5,6,7,8,9,10],ymm1[11],ymm0[12,13,14,15]
	; XOPAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[8,9,0,1,10,11,2,3,12,13,4,5,14,15,6,7,24,25,16,17,26,27,18,19,28,29,20,21,30,31,22,23]			; XOPAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[8,9,0,1,10,11,2,3,12,13,4,5,14,15,6,7,24,25,16,17,26,27,18,19,28,29,20,21,30,31,22,23]
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 16, i32 5, i32 17, i32 6, i32 18, i32 7, i32 27, i32 12, i32 24, i32 13, i32 25, i32 14, i32 26, i32 15, i32 27>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 4, i32 16, i32 5, i32 17, i32 6, i32 18, i32 7, i32 27, i32 12, i32 24, i32 13, i32 25, i32 14, i32 26, i32 15, i32 27>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_16_01_17_06_22_07_31_08_24_09_25_14_30_15_31(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_16_01_17_06_22_07_31_08_24_09_25_14_30_15_31(<16 x i16> %a, <16 x i16> %b) {
	▲ Show 20 Lines • Show All 297 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:			; AVX2-SLOW-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]			; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
	; AVX2-SLOW-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3],ymm1[2,3]
	; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,2,1,3,4,5,6,7,8,10,9,11,12,13,14,15]			; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,2,1,3,4,5,6,7,8,10,9,11,12,13,14,15]
	; AVX2-SLOW-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,6,5,7,8,9,10,11,12,14,13,15]			; AVX2-SLOW-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,6,5,7,8,9,10,11,12,14,13,15]
				; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,3,2,3]
	; AVX2-SLOW-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]			; AVX2-SLOW-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:			; AVX2-FAST-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]			; AVX2-FAST-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
	; AVX2-FAST-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3],ymm1[2,3]
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,2,3,6,7,8,9,12,13,10,11,u,u,16,17,20,21,18,19,22,23,24,25,28,29,26,27,u,u]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,2,3,6,7,8,9,12,13,10,11,u,u,16,17,20,21,18,19,22,23,24,25,28,29,26,27,u,u]
				; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,3,2,3]
	; AVX2-FAST-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]			; AVX2-FAST-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:			; AVX512VL-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,1,3,20,22,21,31,8,10,9,11,28,30,29,31]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,1,3,20,22,21,31,8,10,9,11,28,30,29,31]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOPAVX1-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:			; XOPAVX1-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vpperm {{.*#+}} xmm3 = xmm3[0,1,4,5,2,3,6,7],xmm2[8,9,12,13,10,11,14,15]			; XOPAVX1-NEXT: vpperm {{.*#+}} xmm3 = xmm3[0,1,4,5,2,3,6,7],xmm2[8,9,12,13,10,11,14,15]
	; XOPAVX1-NEXT: vpperm {{.*#+}} xmm1 = xmm1[8,9,12,13,10,11],xmm2[14,15],xmm1[u,u,u,u,u,u,u,u]			; XOPAVX1-NEXT: vpperm {{.*#+}} xmm1 = xmm1[8,9,12,13,10,11],xmm2[14,15],xmm1[u,u,u,u,u,u,u,u]
	; XOPAVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]			; XOPAVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]
	; XOPAVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; XOPAVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:			; XOPAVX2-LABEL: shuffle_v16i16_00_02_01_03_20_22_21_31_08_10_09_11_28_30_29_31:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]			; XOPAVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
	; XOPAVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm0[2,3],ymm1[2,3]
	; XOPAVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,2,1,3,4,5,6,7,8,10,9,11,12,13,14,15]			; XOPAVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,2,1,3,4,5,6,7,8,10,9,11,12,13,14,15]
	; XOPAVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,6,5,7,8,9,10,11,12,14,13,15]			; XOPAVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,6,5,7,8,9,10,11,12,14,13,15]
				; XOPAVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[2,3,2,3]
	; XOPAVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]			; XOPAVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 2, i32 1, i32 3, i32 20, i32 22, i32 21, i32 31, i32 8, i32 10, i32 9, i32 11, i32 28, i32 30, i32 29, i32 31>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 2, i32 1, i32 3, i32 20, i32 22, i32 21, i32 31, i32 8, i32 10, i32 9, i32 11, i32 28, i32 30, i32 29, i32 31>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_04_04_03_18_uu_uu_uu_uu_12_12_11_26_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_04_04_03_18_uu_uu_uu_uu_12_12_11_26_uu_uu_uu_uu(<16 x i16> %a, <16 x i16> %b) {
	; AVX1-LABEL: shuffle_v16i16_04_04_03_18_uu_uu_uu_uu_12_12_11_26_uu_uu_uu_uu:			; AVX1-LABEL: shuffle_v16i16_04_04_03_18_uu_uu_uu_uu_12_12_11_26_uu_uu_uu_uu:
	▲ Show 20 Lines • Show All 244 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7]			; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:			; AVX2-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm1[2,3],ymm0[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7,16,17,18,19,20,21,26,27,24,25,26,27,28,29,22,23]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7,16,17,18,19,20,21,26,27,24,25,26,27,28,29,22,23]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VL-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:			; AVX512VL-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,2,21,20,21,22,11,8,9,10,29,28,29,30,11]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,2,21,20,21,22,11,8,9,10,29,28,29,30,11]
	; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0			; AVX512VL-NEXT: vpermt2w %ymm1, %ymm2, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOPAVX1-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:			; XOPAVX1-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vpperm {{.*#+}} xmm2 = xmm3[0,1,2,3,4,5],xmm2[10,11,8,9,10,11,12,13],xmm3[6,7]			; XOPAVX1-NEXT: vpperm {{.*#+}} xmm2 = xmm3[0,1,2,3,4,5],xmm2[10,11,8,9,10,11,12,13],xmm3[6,7]
	; XOPAVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; XOPAVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; XOPAVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; XOPAVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; XOPAVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3,4,5,6],xmm0[7]			; XOPAVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3,4,5,6],xmm0[7]
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:			; XOPAVX2-LABEL: shuffle_v16i16_00_01_02_21_20_21_22_11_08_09_10_29_28_29_30_11:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]			; XOPAVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
	; XOPAVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm1[2,3],ymm0[2,3]			; XOPAVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; XOPAVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]			; XOPAVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3],ymm1[4,5,6,7,8,9,10],ymm0[11],ymm1[12,13,14,15]
	; XOPAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7,16,17,18,19,20,21,26,27,24,25,26,27,28,29,22,23]			; XOPAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7,16,17,18,19,20,21,26,27,24,25,26,27,28,29,22,23]
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 1, i32 2, i32 21, i32 20, i32 21, i32 22, i32 11, i32 8, i32 9, i32 10, i32 29, i32 28, i32 29, i32 30, i32 11>			%shuffle = shufflevector <16 x i16> %a, <16 x i16> %b, <16 x i32> <i32 0, i32 1, i32 2, i32 21, i32 20, i32 21, i32 22, i32 11, i32 8, i32 9, i32 10, i32 29, i32 28, i32 29, i32 30, i32 11>
	ret <16 x i16> %shuffle			ret <16 x i16> %shuffle
	}			}

	define <16 x i16> @shuffle_v16i16_00_17_02_03_20_21_22_15_08_25_10_11_28_29_30_15(<16 x i16> %a, <16 x i16> %b) {			define <16 x i16> @shuffle_v16i16_00_17_02_03_20_21_22_15_08_25_10_11_28_29_30_15(<16 x i16> %a, <16 x i16> %b) {
	▲ Show 20 Lines • Show All 1,514 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpeqw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpcmpeqw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpcmpeqw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm0, %ymm1, %ymm0			; AVX1-NEXT: vandps %ymm0, %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: PR34369:			; AVX2-SLOW-LABEL: PR34369:
	; AVX2: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm2 = ymm0[6,7,0,1,0,1,u,u,10,11,4,5,4,5,u,u,30,31,16,17,28,29,16,17,18,19,20,21,24,25,24,25]
	; AVX2-NEXT: vpshufb {{.*#+}} xmm2 = xmm2[u,u,u,u,u,u,10,11,u,u,u,u,u,u,4,5]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[6,7,0,1,0,1,u,u,10,11,4,5,4,5,u,u,30,31,16,17,28,29,16,17,18,19,20,21,24,25,24,25]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,1]
	; AVX2-NEXT: vpblendw {{.*#+}} xmm2 = xmm0[0,1,2],xmm2[3],xmm0[4,5,6],xmm2[7]			; AVX2-SLOW-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,6,6,6,6]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]			; AVX2-SLOW-NEXT: vpblendw {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[3],xmm2[4,5,6],xmm0[7]
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: vpcmpeqw %ymm2, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpand %ymm0, %ymm1, %ymm0			; AVX2-SLOW-NEXT: vpcmpeqw %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: retq			; AVX2-SLOW-NEXT: vpand %ymm0, %ymm1, %ymm0
				; AVX2-SLOW-NEXT: retq
				;
				; AVX2-FAST-LABEL: PR34369:
				; AVX2-FAST: # %bb.0:
				; AVX2-FAST-NEXT: vextracti128 $1, %ymm0, %xmm2
				; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm2 = xmm2[u,u,u,u,u,u,10,11,u,u,u,u,u,u,4,5]
				; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[6,7,0,1,0,1,u,u,10,11,4,5,4,5,u,u,30,31,16,17,28,29,16,17,18,19,20,21,24,25,24,25]
				; AVX2-FAST-NEXT: vpblendw {{.*#+}} xmm2 = xmm0[0,1,2],xmm2[3],xmm0[4,5,6],xmm2[7]
				; AVX2-FAST-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
				; AVX2-FAST-NEXT: vpxor %xmm2, %xmm2, %xmm2
				; AVX2-FAST-NEXT: vpcmpeqw %ymm2, %ymm1, %ymm1
				; AVX2-FAST-NEXT: vpand %ymm0, %ymm1, %ymm0
				; AVX2-FAST-NEXT: retq
	;			;
	; AVX512VL-LABEL: PR34369:			; AVX512VL-LABEL: PR34369:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [3,0,0,13,5,2,2,10,15,8,14,8,9,10,12,12]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm2 = [3,0,0,13,5,2,2,10,15,8,14,8,9,10,12,12]
	; AVX512VL-NEXT: vptestnmw %ymm1, %ymm1, %k1			; AVX512VL-NEXT: vptestnmw %ymm1, %ymm1, %k1
	; AVX512VL-NEXT: vpermw %ymm0, %ymm2, %ymm0 {%k1} {z}			; AVX512VL-NEXT: vpermw %ymm0, %ymm2, %ymm0 {%k1} {z}
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 422 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-256-v8.ll

Show First 20 Lines • Show All 124 Lines • ▼ Show 20 Lines	; AVX512VL-FAST-NEXT: retq
ret <8 x float> %shuffle		ret <8 x float> %shuffle
}		}

define <8 x float> @shuffle_v8f32_00040000(<8 x float> %a, <8 x float> %b) {		define <8 x float> @shuffle_v8f32_00040000(<8 x float> %a, <8 x float> %b) {
; AVX1-LABEL: shuffle_v8f32_00040000:		; AVX1-LABEL: shuffle_v8f32_00040000:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[0,1,0,1]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[0,1,0,1]
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,0],ymm1[0,0],ymm0[4,4],ymm1[4,4]		; AVX1-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm1[0,0],ymm0[2,0],ymm1[4,4],ymm0[6,4]		; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm1[0,0],ymm0[2,0],ymm1[4,4],ymm0[6,4]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2OR512VL-LABEL: shuffle_v8f32_00040000:		; AVX2OR512VL-LABEL: shuffle_v8f32_00040000:
; AVX2OR512VL: # %bb.0:		; AVX2OR512VL: # %bb.0:
; AVX2OR512VL-NEXT: vmovaps {{.*#+}} ymm1 = [0,0,0,4,0,0,0,0]		; AVX2OR512VL-NEXT: vmovaps {{.*#+}} ymm1 = [0,0,0,4,0,0,0,0]
; AVX2OR512VL-NEXT: vpermps %ymm0, %ymm1, %ymm0		; AVX2OR512VL-NEXT: vpermps %ymm0, %ymm1, %ymm0
; AVX2OR512VL-NEXT: retq		; AVX2OR512VL-NEXT: retq
▲ Show 20 Lines • Show All 221 Lines • ▼ Show 20 Lines
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11>		%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11>
ret <8 x float> %shuffle		ret <8 x float> %shuffle
}		}

define <8 x float> @shuffle_v8f32_08991abb(<8 x float> %a, <8 x float> %b) {		define <8 x float> @shuffle_v8f32_08991abb(<8 x float> %a, <8 x float> %b) {
; AVX1-LABEL: shuffle_v8f32_08991abb:		; AVX1-LABEL: shuffle_v8f32_08991abb:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm0[0,0],xmm1[0,0]		; AVX1-NEXT: vmovlhps {{.*#+}} xmm2 = xmm0[0],xmm1[0]
; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm1[1,1]		; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm1[1,1]
; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]		; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,2,3,3]		; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,2,3,3]
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-SLOW-LABEL: shuffle_v8f32_08991abb:		; AVX2-SLOW-LABEL: shuffle_v8f32_08991abb:
; AVX2-SLOW: # %bb.0:		; AVX2-SLOW: # %bb.0:
▲ Show 20 Lines • Show All 1,067 Lines • ▼ Show 20 Lines	; AVX512VL-FAST-NEXT: retq
ret <8 x i32> %shuffle		ret <8 x i32> %shuffle
}		}

define <8 x i32> @shuffle_v8i32_00040000(<8 x i32> %a, <8 x i32> %b) {		define <8 x i32> @shuffle_v8i32_00040000(<8 x i32> %a, <8 x i32> %b) {
; AVX1-LABEL: shuffle_v8i32_00040000:		; AVX1-LABEL: shuffle_v8i32_00040000:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[0,1,0,1]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[0,1,0,1]
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,0,1]
; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,0],ymm1[0,0],ymm0[4,4],ymm1[4,4]		; AVX1-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm1[0,0],ymm0[2,0],ymm1[4,4],ymm0[6,4]		; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm1[0,0],ymm0[2,0],ymm1[4,4],ymm0[6,4]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2OR512VL-LABEL: shuffle_v8i32_00040000:		; AVX2OR512VL-LABEL: shuffle_v8i32_00040000:
; AVX2OR512VL: # %bb.0:		; AVX2OR512VL: # %bb.0:
; AVX2OR512VL-NEXT: vmovaps {{.*#+}} ymm1 = [0,0,0,4,0,0,0,0]		; AVX2OR512VL-NEXT: vmovaps {{.*#+}} ymm1 = [0,0,0,4,0,0,0,0]
; AVX2OR512VL-NEXT: vpermps %ymm0, %ymm1, %ymm0		; AVX2OR512VL-NEXT: vpermps %ymm0, %ymm1, %ymm0
; AVX2OR512VL-NEXT: retq		; AVX2OR512VL-NEXT: retq
▲ Show 20 Lines • Show All 250 Lines • ▼ Show 20 Lines
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11>		%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11>
ret <8 x i32> %shuffle		ret <8 x i32> %shuffle
}		}

define <8 x i32> @shuffle_v8i32_08991abb(<8 x i32> %a, <8 x i32> %b) {		define <8 x i32> @shuffle_v8i32_08991abb(<8 x i32> %a, <8 x i32> %b) {
; AVX1-LABEL: shuffle_v8i32_08991abb:		; AVX1-LABEL: shuffle_v8i32_08991abb:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm0[0,0],xmm1[0,0]		; AVX1-NEXT: vmovlhps {{.*#+}} xmm2 = xmm0[0],xmm1[0]
; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm1[1,1]		; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm1[1,1]
; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]		; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,2,3,3]		; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,2,3,3]
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-SLOW-LABEL: shuffle_v8i32_08991abb:		; AVX2-SLOW-LABEL: shuffle_v8i32_08991abb:
; AVX2-SLOW: # %bb.0:		; AVX2-SLOW: # %bb.0:
Show All 21 Lines
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 8, i32 9, i32 9, i32 1, i32 10, i32 11, i32 11>		%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 8, i32 9, i32 9, i32 1, i32 10, i32 11, i32 11>
ret <8 x i32> %shuffle		ret <8 x i32> %shuffle
}		}

define <8 x i32> @shuffle_v8i32_091b2d3f(<8 x i32> %a, <8 x i32> %b) {		define <8 x i32> @shuffle_v8i32_091b2d3f(<8 x i32> %a, <8 x i32> %b) {
; AVX1-LABEL: shuffle_v8i32_091b2d3f:		; AVX1-LABEL: shuffle_v8i32_091b2d3f:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpermilps {{.*#+}} xmm2 = xmm0[0,1,1,3]		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero
; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,1,3,3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,1,3,3]
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]		; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v8i32_091b2d3f:		; AVX2-LABEL: shuffle_v8i32_091b2d3f:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]		; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
▲ Show 20 Lines • Show All 1,532 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-combining.ll

Show First 20 Lines • Show All 858 Lines • ▼ Show 20 Lines
;		;
; SSE41-LABEL: combine_nested_undef_test15:		; SSE41-LABEL: combine_nested_undef_test15:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,0,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,0,1]
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: combine_nested_undef_test15:		; AVX1-LABEL: combine_nested_undef_test15:
; AVX: # %bb.0:		; AVX1: # %bb.0:
; AVX-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,1,1]		; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,0,1,1]
; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,0,1]		; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,0,1]
; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]		; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
; AVX-NEXT: retq		; AVX1-NEXT: retq
		;
		; AVX2-LABEL: combine_nested_undef_test15:
		; AVX2: # %bb.0:
		; AVX2-NEXT: vbroadcastss %xmm1, %xmm1
		; AVX2-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,0,1]
		; AVX2-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
		; AVX2-NEXT: retq
%1 = shufflevector <4 x i32> %A, <4 x i32> %B, <4 x i32> <i32 0, i32 4, i32 3, i32 1>		%1 = shufflevector <4 x i32> %A, <4 x i32> %B, <4 x i32> <i32 0, i32 4, i32 3, i32 1>
%2 = shufflevector <4 x i32> %1, <4 x i32> undef, <4 x i32> <i32 2, i32 1, i32 0, i32 3>		%2 = shufflevector <4 x i32> %1, <4 x i32> undef, <4 x i32> <i32 2, i32 1, i32 0, i32 3>
ret <4 x i32> %2		ret <4 x i32> %2
}		}

define <4 x i32> @combine_nested_undef_test16(<4 x i32> %A, <4 x i32> %B) {		define <4 x i32> @combine_nested_undef_test16(<4 x i32> %A, <4 x i32> %B) {
; SSE2-LABEL: combine_nested_undef_test16:		; SSE2-LABEL: combine_nested_undef_test16:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
▲ Show 20 Lines • Show All 1,640 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%c = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32><i32 0, i32 4, i32 2, i32 5>		%c = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32><i32 0, i32 4, i32 2, i32 5>
%d = shufflevector <4 x float> %a, <4 x float> %c, <4 x i32><i32 4, i32 1, i32 5, i32 3>		%d = shufflevector <4 x float> %a, <4 x float> %c, <4 x i32><i32 4, i32 1, i32 5, i32 3>
ret <4 x float> %d		ret <4 x float> %d
}		}

define <4 x float> @combine_insertps4(<4 x float> %a, <4 x float> %b) {		define <4 x float> @combine_insertps4(<4 x float> %a, <4 x float> %b) {
; SSE2-LABEL: combine_insertps4:		; SSE2-LABEL: combine_insertps4:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: combine_insertps4:		; SSSE3-LABEL: combine_insertps4:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,3]
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: combine_insertps4:		; SSE41-LABEL: combine_insertps4:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
▲ Show 20 Lines • Show All 194 Lines • ▼ Show 20 Lines	entry:
%s2 = shufflevector <8 x float> %s1, <8 x float> undef, <8 x i32> <i32 1, i32 0, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2>		%s2 = shufflevector <8 x float> %s1, <8 x float> undef, <8 x i32> <i32 1, i32 0, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2>
ret <8 x float> %s2		ret <8 x float> %s2
}		}

define <4 x float> @PR30264(<4 x float> %x) {		define <4 x float> @PR30264(<4 x float> %x) {
; SSE2-LABEL: PR30264:		; SSE2-LABEL: PR30264:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: xorps %xmm1, %xmm1		; SSE2-NEXT: xorps %xmm1, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm0[0,0]		; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],mem[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],mem[2,3]
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: PR30264:		; SSSE3-LABEL: PR30264:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: xorps %xmm1, %xmm1		; SSSE3-NEXT: xorps %xmm1, %xmm1
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm0[0,0]		; SSSE3-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],mem[2,3]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],mem[2,3]
; SSSE3-NEXT: movaps %xmm1, %xmm0		; SSSE3-NEXT: movaps %xmm1, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: PR30264:		; SSE41-LABEL: PR30264:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movaps {{.*#+}} xmm1 = <u,u,4.0E+0,1.0E+0>		; SSE41-NEXT: movaps {{.*#+}} xmm1 = <u,u,4.0E+0,1.0E+0>
; SSE41-NEXT: insertps {{.*#+}} xmm1 = xmm0[0],zero,xmm1[2,3]		; SSE41-NEXT: insertps {{.*#+}} xmm1 = xmm0[0],zero,xmm1[2,3]
▲ Show 20 Lines • Show All 223 Lines • ▼ Show 20 Lines
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_scalar_to_vector_extract:		; SSSE3-LABEL: shuffle_scalar_to_vector_extract:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; SSSE3-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSSE3-NEXT: psraw $8, %xmm1		; SSSE3-NEXT: psraw $8, %xmm1
; SSSE3-NEXT: pextrw $7, %xmm1, %eax
; SSSE3-NEXT: movd %eax, %xmm2
; SSSE3-NEXT: movsbl (%rsi), %eax		; SSSE3-NEXT: movsbl (%rsi), %eax
; SSSE3-NEXT: movd %eax, %xmm0		; SSSE3-NEXT: movd %eax, %xmm2
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]		; SSSE3-NEXT: palignr {{.*#+}} xmm2 = xmm1[14,15],xmm2[0,1,2,3,4,5,6,7,8,9,10,11,12,13]
; SSSE3-NEXT: movsbl (%rdx), %eax		; SSSE3-NEXT: movsbl (%rdx), %eax
; SSSE3-NEXT: movd %eax, %xmm0		; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]		; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
; SSSE3-NEXT: pxor %xmm0, %xmm0		; SSSE3-NEXT: pxor %xmm0, %xmm0
; SSSE3-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSSE3-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
▲ Show 20 Lines • Show All 296 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-variable-128.ll

Show First 20 Lines • Show All 1,208 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
ret <16 x i8> %r15		ret <16 x i8> %r15
}		}

;		;
; Binary shuffle indices from registers		; Binary shuffle indices from registers
;		;

define <4 x float> @var_shuffle_v4f32_v4f32_x0yx_i32(<4 x float> %x, <4 x float> %y, i32 %i0, i32 %i1, i32 %i2, i32 %i3) nounwind {		define <4 x float> @var_shuffle_v4f32_v4f32_x0yx_i32(<4 x float> %x, <4 x float> %y, i32 %i0, i32 %i1, i32 %i2, i32 %i3) nounwind {
; SSE-LABEL: var_shuffle_v4f32_v4f32_x0yx_i32:		; SSE2-LABEL: var_shuffle_v4f32_v4f32_x0yx_i32:
; SSE: # %bb.0:		; SSE2: # %bb.0:
; SSE-NEXT: # kill: def $ecx killed $ecx def $rcx		; SSE2-NEXT: # kill: def $ecx killed $ecx def $rcx
; SSE-NEXT: # kill: def $edx killed $edx def $rdx		; SSE2-NEXT: # kill: def $edx killed $edx def $rdx
; SSE-NEXT: # kill: def $edi killed $edi def $rdi		; SSE2-NEXT: # kill: def $edi killed $edi def $rdi
; SSE-NEXT: andl $3, %edi		; SSE2-NEXT: andl $3, %edi
; SSE-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
; SSE-NEXT: andl $3, %edx		; SSE2-NEXT: andl $3, %edx
; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE-NEXT: andl $3, %ecx		; SSE2-NEXT: andl $3, %ecx
; SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: retq		; SSE2-NEXT: retq
		;
		; SSSE3-LABEL: var_shuffle_v4f32_v4f32_x0yx_i32:
		; SSSE3: # %bb.0:
		; SSSE3-NEXT: # kill: def $ecx killed $ecx def $rcx
		; SSSE3-NEXT: # kill: def $edx killed $edx def $rdx
		; SSSE3-NEXT: # kill: def $edi killed $edi def $rdi
		; SSSE3-NEXT: andl $3, %edi
		; SSSE3-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
		; SSSE3-NEXT: andl $3, %edx
		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
		; SSSE3-NEXT: andl $3, %ecx
		; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; SSSE3-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSSE3-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSSE3-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
		; SSSE3-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
		; SSSE3-NEXT: retq
		;
		; SSE41-LABEL: var_shuffle_v4f32_v4f32_x0yx_i32:
		; SSE41: # %bb.0:
		; SSE41-NEXT: # kill: def $ecx killed $ecx def $rcx
		; SSE41-NEXT: # kill: def $edx killed $edx def $rdx
		; SSE41-NEXT: # kill: def $edi killed $edi def $rdi
		; SSE41-NEXT: andl $3, %edi
		; SSE41-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
		; SSE41-NEXT: andl $3, %edx
		; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
		; SSE41-NEXT: andl $3, %ecx
		; SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; SSE41-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE41-NEXT: insertps {{.*#+}} xmm1 = xmm1[0],mem[0],zero,zero
		; SSE41-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
		; SSE41-NEXT: retq
;		;
; AVX-LABEL: var_shuffle_v4f32_v4f32_x0yx_i32:		; AVX-LABEL: var_shuffle_v4f32_v4f32_x0yx_i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: # kill: def $ecx killed $ecx def $rcx		; AVX-NEXT: # kill: def $ecx killed $ecx def $rcx
; AVX-NEXT: # kill: def $edx killed $edx def $rdx		; AVX-NEXT: # kill: def $edx killed $edx def $rdx
; AVX-NEXT: # kill: def $edi killed $edi def $rdi		; AVX-NEXT: # kill: def $edi killed $edi def $rdi
; AVX-NEXT: andl $3, %edi		; AVX-NEXT: andl $3, %edi
; AVX-NEXT: vmovaps %xmm1, -{{[0-9]+}}(%rsp)		; AVX-NEXT: vmovaps %xmm1, -{{[0-9]+}}(%rsp)
; AVX-NEXT: andl $3, %edx		; AVX-NEXT: andl $3, %edx
; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX-NEXT: andl $3, %ecx		; AVX-NEXT: andl $3, %ecx
; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; AVX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; AVX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; AVX-NEXT: vmovss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; AVX-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],mem[0],zero,zero
; AVX-NEXT: vunpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; AVX-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX-NEXT: retq		; AVX-NEXT: retq
%x0 = extractelement <4 x float> %x, i32 %i0		%x0 = extractelement <4 x float> %x, i32 %i0
%x1 = extractelement <4 x float> %x, i32 %i1		%x1 = extractelement <4 x float> %x, i32 %i1
%y2 = extractelement <4 x float> %y, i32 %i2		%y2 = extractelement <4 x float> %y, i32 %i2
%x3 = extractelement <4 x float> %x, i32 %i3		%x3 = extractelement <4 x float> %x, i32 %i3
%r0 = insertelement <4 x float> undef, float %x0, i32 0		%r0 = insertelement <4 x float> undef, float %x0, i32 0
%r1 = insertelement <4 x float> %r0, float 0.0, i32 1		%r1 = insertelement <4 x float> %r0, float 0.0, i32 1
Show All 31 Lines
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax		; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax
; SSE2-NEXT: movd %eax, %xmm1		; SSE2-NEXT: movd %eax, %xmm1
; SSE2-NEXT: movzwl -40(%rsp,%r8,2), %eax		; SSE2-NEXT: movzwl -40(%rsp,%r8,2), %eax
; SSE2-NEXT: movd %eax, %xmm2		; SSE2-NEXT: movd %eax, %xmm2
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE2-NEXT: pxor %xmm1, %xmm1		; SSE2-NEXT: pxor %xmm1, %xmm1
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm2[0],xmm1[1,2,3]
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:		; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: # kill: def $r9d killed $r9d def $r9		; SSSE3-NEXT: # kill: def $r9d killed $r9d def $r9
; SSSE3-NEXT: # kill: def $r8d killed $r8d def $r8		; SSSE3-NEXT: # kill: def $r8d killed $r8d def $r8
; SSSE3-NEXT: # kill: def $ecx killed $ecx def $rcx		; SSSE3-NEXT: # kill: def $ecx killed $ecx def $rcx
; SSSE3-NEXT: # kill: def $edx killed $edx def $rdx		; SSSE3-NEXT: # kill: def $edx killed $edx def $rdx
Show All 19 Lines
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax		; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax
; SSSE3-NEXT: movd %eax, %xmm1		; SSSE3-NEXT: movd %eax, %xmm1
; SSSE3-NEXT: movzwl -40(%rsp,%r8,2), %eax		; SSSE3-NEXT: movzwl -40(%rsp,%r8,2), %eax
; SSSE3-NEXT: movd %eax, %xmm2		; SSSE3-NEXT: movd %eax, %xmm2
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSSE3-NEXT: pxor %xmm1, %xmm1		; SSSE3-NEXT: pxor %xmm1, %xmm1
; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; SSSE3-NEXT: movss {{.*#+}} xmm1 = xmm2[0],xmm1[1,2,3]
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:		; SSE41-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: # kill: def $r9d killed $r9d def $r9		; SSE41-NEXT: # kill: def $r9d killed $r9d def $r9
; SSE41-NEXT: # kill: def $r8d killed $r8d def $r8		; SSE41-NEXT: # kill: def $r8d killed $r8d def $r8
; SSE41-NEXT: # kill: def $ecx killed $ecx def $rcx		; SSE41-NEXT: # kill: def $ecx killed $ecx def $rcx
; SSE41-NEXT: # kill: def $edx killed $edx def $rdx		; SSE41-NEXT: # kill: def $edx killed $edx def $rdx
▲ Show 20 Lines • Show All 61 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc-math.ll

	Show First 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_add_v8i32_v8i16:			; AVX1-LABEL: trunc_add_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_add_v8i32_v8i16:			; AVX2-LABEL: trunc_add_v8i32_v8i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	▲ Show 20 Lines • Show All 282 Lines • ▼ Show 20 Lines
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE-NEXT: psraw $8, %xmm0			; SSE-NEXT: psraw $8, %xmm0
	; SSE-NEXT: paddw %xmm1, %xmm0			; SSE-NEXT: paddw %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_add_v8i32_v8i16_sext_8i8:			; AVX1-LABEL: trunc_add_v8i32_v8i16_sext_8i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm0			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm0
	; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 142 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: paddw {{.*}}(%rip), %xmm0			; SSE-NEXT: paddw {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_add_const_v8i32_v8i16:			; AVX1-LABEL: trunc_add_const_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_add_const_v8i32_v8i16:			; AVX2-LABEL: trunc_add_const_v8i32_v8i16:
	▲ Show 20 Lines • Show All 369 Lines • ▼ Show 20 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_v8i32_v8i16:			; AVX1-LABEL: trunc_sub_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_v8i32_v8i16:			; AVX2-LABEL: trunc_sub_v8i32_v8i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	▲ Show 20 Lines • Show All 409 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: psubw {{.*}}(%rip), %xmm0			; SSE-NEXT: psubw {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v8i32_v8i16:			; AVX1-LABEL: trunc_sub_const_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_const_v8i32_v8i16:			; AVX2-LABEL: trunc_sub_const_v8i32_v8i16:
	▲ Show 20 Lines • Show All 472 Lines • ▼ Show 20 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_mul_v8i32_v8i16:			; AVX1-LABEL: trunc_mul_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_mul_v8i32_v8i16:			; AVX2-LABEL: trunc_mul_v8i32_v8i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	▲ Show 20 Lines • Show All 342 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $16, %xmm1			; SSE-NEXT: psrad $16, %xmm1
	; SSE-NEXT: packssdw %xmm2, %xmm1			; SSE-NEXT: packssdw %xmm2, %xmm1
	; SSE-NEXT: pmullw %xmm1, %xmm0			; SSE-NEXT: pmullw %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_mul_v8i32_v8i16_zext_8i8:			; AVX1-LABEL: trunc_mul_v8i32_v8i16_zext_8i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 143 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: pmullw {{.*}}(%rip), %xmm0			; SSE-NEXT: pmullw {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_mul_const_v8i32_v8i16:			; AVX1-LABEL: trunc_mul_const_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_mul_const_v8i32_v8i16:			; AVX2-LABEL: trunc_mul_const_v8i32_v8i16:
	▲ Show 20 Lines • Show All 449 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_and_v8i32_v8i16:			; AVX1-LABEL: trunc_and_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_and_v8i32_v8i16:			; AVX2-LABEL: trunc_and_v8i32_v8i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	▲ Show 20 Lines • Show All 370 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: pand {{.*}}(%rip), %xmm0			; SSE-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_and_const_v8i32_v8i16:			; AVX1-LABEL: trunc_and_const_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_and_const_v8i32_v8i16:			; AVX2-LABEL: trunc_and_const_v8i32_v8i16:
	▲ Show 20 Lines • Show All 359 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_xor_v8i32_v8i16:			; AVX1-LABEL: trunc_xor_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_xor_v8i32_v8i16:			; AVX2-LABEL: trunc_xor_v8i32_v8i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	▲ Show 20 Lines • Show All 370 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: pxor {{.*}}(%rip), %xmm0			; SSE-NEXT: pxor {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_xor_const_v8i32_v8i16:			; AVX1-LABEL: trunc_xor_const_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_xor_const_v8i32_v8i16:			; AVX2-LABEL: trunc_xor_const_v8i32_v8i16:
	▲ Show 20 Lines • Show All 359 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_or_v8i32_v8i16:			; AVX1-LABEL: trunc_or_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_or_v8i32_v8i16:			; AVX2-LABEL: trunc_or_v8i32_v8i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	▲ Show 20 Lines • Show All 370 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: por {{.*}}(%rip), %xmm0			; SSE-NEXT: por {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_or_const_v8i32_v8i16:			; AVX1-LABEL: trunc_or_const_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_or_const_v8i32_v8i16:			; AVX2-LABEL: trunc_or_const_v8i32_v8i16:
	▲ Show 20 Lines • Show All 310 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc.ll

	Show First 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	; AVX2-SLOW-NEXT: vpsrlq $32, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vperm2i128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-SLOW-NEXT: vperm2i128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc8i64_8i32_lshr:			; AVX2-FAST-LABEL: trunc8i64_8i32_lshr:
	; AVX2-FAST: # %bb.0: # %entry			; AVX2-FAST: # %bb.0: # %entry
	; AVX2-FAST-NEXT: vpsrlq $32, %ymm1, %ymm1			; AVX2-FAST-NEXT: vmovaps {{.*#+}} xmm2 = [1,3,5,7]
	; AVX2-FAST-NEXT: vpsrlq $32, %ymm0, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc8i64_8i32_lshr:			; AVX512-LABEL: trunc8i64_8i32_lshr:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpsrlq $32, %zmm0, %zmm0			; AVX512-NEXT: vpsrlq $32, %zmm0, %zmm0
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	▲ Show 20 Lines • Show All 201 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
	; SSE41-NEXT: packusdw %xmm1, %xmm0			; SSE41-NEXT: packusdw %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc8i32_8i16:			; AVX1-LABEL: trunc8i32_8i16:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc8i32_8i16:			; AVX2-LABEL: trunc8i32_8i16:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 1,679 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: shlq $4, %rdi			; SSE41-NEXT: shlq $4, %rdi
	; SSE41-NEXT: movdqu %xmm0, (%rsi,%rdi)			; SSE41-NEXT: movdqu %xmm0, (%rsi,%rdi)
	; SSE41-NEXT: movdqu %xmm2, 16(%rsi,%rdi)			; SSE41-NEXT: movdqu %xmm2, 16(%rsi,%rdi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: store_merge_split:			; AVX1-LABEL: store_merge_split:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = <0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u>
	; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
				; AVX1-NEXT: vpshufb %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX1-NEXT: shlq $4, %rdi			; AVX1-NEXT: shlq $4, %rdi
	; AVX1-NEXT: vmovdqu %xmm0, (%rsi,%rdi)			; AVX1-NEXT: vmovdqu %xmm0, (%rsi,%rdi)
	; AVX1-NEXT: vmovdqu %xmm1, 16(%rsi,%rdi)			; AVX1-NEXT: vmovdqu %xmm1, 16(%rsi,%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: store_merge_split:			; AVX2-LABEL: store_merge_split:
	▲ Show 20 Lines • Show All 59 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-zext.ll

Show First 20 Lines • Show All 1,748 Lines • ▼ Show 20 Lines	entry:
%Z = bitcast <16 x i8> %B to <2 x i64>		%Z = bitcast <16 x i8> %B to <2 x i64>
ret <2 x i64> %Z		ret <2 x i64> %Z
}		}

define <4 x i64> @shuf_zext_16i8_to_4i64_offset11(<16 x i8> %A) nounwind uwtable readnone ssp {		define <4 x i64> @shuf_zext_16i8_to_4i64_offset11(<16 x i8> %A) nounwind uwtable readnone ssp {
; SSE2-LABEL: shuf_zext_16i8_to_4i64_offset11:		; SSE2-LABEL: shuf_zext_16i8_to_4i64_offset11:
; SSE2: # %bb.0: # %entry		; SSE2: # %bb.0: # %entry
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrldq {{.*#+}} xmm1 = xmm1[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],zero		; SSE2-NEXT: psrlq $8, %xmm1
; SSE2-NEXT: pxor %xmm2, %xmm2		; SSE2-NEXT: pxor %xmm2, %xmm2
; SSE2-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm2[8],xmm1[9],xmm2[9],xmm1[10],xmm2[10],xmm1[11],xmm2[11],xmm1[12],xmm2[12],xmm1[13],xmm2[13],xmm1[14],xmm2[14],xmm1[15],xmm2[15]		; SSE2-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm2[8],xmm1[9],xmm2[9],xmm1[10],xmm2[10],xmm1[11],xmm2[11],xmm1[12],xmm2[12],xmm1[13],xmm2[13],xmm1[14],xmm2[14],xmm1[15],xmm2[15]
; SSE2-NEXT: movdqa %xmm1, %xmm0		; SSE2-NEXT: movdqa %xmm1, %xmm0
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSE2-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSE2-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
▲ Show 20 Lines • Show All 976 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vselect.ll

	Show First 20 Lines • Show All 563 Lines • ▼ Show 20 Lines
	; SSE2-LABEL: simplify_select:			; SSE2-LABEL: simplify_select:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE2-NEXT: pslld $31, %xmm0			; SSE2-NEXT: pslld $31, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: movd %edi, %xmm1			; SSE2-NEXT: movd %edi, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]
	; SSE2-NEXT: por %xmm1, %xmm2			; SSE2-NEXT: por %xmm1, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm2[1,1]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[1,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[1,1]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[1,1]
	; SSE2-NEXT: pand %xmm0, %xmm2			; SSE2-NEXT: pand %xmm0, %xmm2
	; SSE2-NEXT: pandn %xmm1, %xmm0			; SSE2-NEXT: pandn %xmm1, %xmm0
	; SSE2-NEXT: por %xmm2, %xmm0			; SSE2-NEXT: por %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: simplify_select:			; SSE41-LABEL: simplify_select:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	▲ Show 20 Lines • Show All 94 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vshift-4.ll

Show First 20 Lines • Show All 52 Lines • ▼ Show 20 Lines	entry:
store <2 x i64> %shl, <2 x i64>* %dst		store <2 x i64> %shl, <2 x i64>* %dst
ret void		ret void
}		}

define void @shift2a(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {		define void @shift2a(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {
; X32-LABEL: shift2a:		; X32-LABEL: shift2a:
; X32: # %bb.0: # %entry		; X32: # %bb.0: # %entry
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]		; X32-NEXT: psrlq $32, %xmm1
; X32-NEXT: xorps %xmm2, %xmm2		; X32-NEXT: pslld %xmm1, %xmm0
; X32-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X32-NEXT: pslld %xmm2, %xmm0
; X32-NEXT: movdqa %xmm0, (%eax)		; X32-NEXT: movdqa %xmm0, (%eax)
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: shift2a:		; X64-LABEL: shift2a:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]		; X64-NEXT: psrlq $32, %xmm1
; X64-NEXT: xorps %xmm2, %xmm2		; X64-NEXT: pslld %xmm1, %xmm0
; X64-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X64-NEXT: pslld %xmm2, %xmm0
; X64-NEXT: movdqa %xmm0, (%rdi)		; X64-NEXT: movdqa %xmm0, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 1, i32 1, i32 1>		%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
%shl = shl <4 x i32> %val, %shamt		%shl = shl <4 x i32> %val, %shamt
store <4 x i32> %shl, <4 x i32>* %dst		store <4 x i32> %shl, <4 x i32>* %dst
ret void		ret void
}		}

define void @shift2b(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {		define void @shift2b(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {
; X32-LABEL: shift2b:		; X32-LABEL: shift2b:
; X32: # %bb.0: # %entry		; X32: # %bb.0: # %entry
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]		; X32-NEXT: psrlq $32, %xmm1
; X32-NEXT: xorps %xmm2, %xmm2		; X32-NEXT: pslld %xmm1, %xmm0
; X32-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X32-NEXT: pslld %xmm2, %xmm0
; X32-NEXT: movdqa %xmm0, (%eax)		; X32-NEXT: movdqa %xmm0, (%eax)
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: shift2b:		; X64-LABEL: shift2b:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]		; X64-NEXT: psrlq $32, %xmm1
; X64-NEXT: xorps %xmm2, %xmm2		; X64-NEXT: pslld %xmm1, %xmm0
; X64-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X64-NEXT: pslld %xmm2, %xmm0
; X64-NEXT: movdqa %xmm0, (%rdi)		; X64-NEXT: movdqa %xmm0, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 undef, i32 1, i32 1>		%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 undef, i32 1, i32 1>
%shl = shl <4 x i32> %val, %shamt		%shl = shl <4 x i32> %val, %shamt
store <4 x i32> %shl, <4 x i32>* %dst		store <4 x i32> %shl, <4 x i32>* %dst
ret void		ret void
}		}

define void @shift2c(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {		define void @shift2c(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {
; X32-LABEL: shift2c:		; X32-LABEL: shift2c:
; X32: # %bb.0: # %entry		; X32: # %bb.0: # %entry
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]		; X32-NEXT: psrlq $32, %xmm1
; X32-NEXT: xorps %xmm2, %xmm2		; X32-NEXT: pslld %xmm1, %xmm0
; X32-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X32-NEXT: pslld %xmm2, %xmm0
; X32-NEXT: movdqa %xmm0, (%eax)		; X32-NEXT: movdqa %xmm0, (%eax)
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: shift2c:		; X64-LABEL: shift2c:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]		; X64-NEXT: psrlq $32, %xmm1
; X64-NEXT: xorps %xmm2, %xmm2		; X64-NEXT: pslld %xmm1, %xmm0
; X64-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X64-NEXT: pslld %xmm2, %xmm0
; X64-NEXT: movdqa %xmm0, (%rdi)		; X64-NEXT: movdqa %xmm0, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 1, i32 1, i32 1>		%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
%shl = shl <4 x i32> %val, %shamt		%shl = shl <4 x i32> %val, %shamt
store <4 x i32> %shl, <4 x i32>* %dst		store <4 x i32> %shl, <4 x i32>* %dst
ret void		ret void
}		}

define void @shift3a(<8 x i16> %val, <8 x i16>* %dst, <8 x i16> %amt) nounwind {		define void @shift3a(<8 x i16> %val, <8 x i16>* %dst, <8 x i16> %amt) nounwind {
; X32-LABEL: shift3a:		; X32-LABEL: shift3a:
; X32: # %bb.0: # %entry		; X32: # %bb.0: # %entry
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[3,3,3,3]		; X32-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,6,6,6,6]
; X32-NEXT: pslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1]
; X32-NEXT: psrldq {{.*#+}} xmm1 = xmm1[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; X32-NEXT: psrldq {{.*#+}} xmm1 = xmm1[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; X32-NEXT: psllw %xmm1, %xmm0		; X32-NEXT: psllw %xmm1, %xmm0
; X32-NEXT: movdqa %xmm0, (%eax)		; X32-NEXT: movdqa %xmm0, (%eax)
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: shift3a:		; X64-LABEL: shift3a:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[3,3,3,3]		; X64-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,6,6,6,6]
; X64-NEXT: pslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1]
; X64-NEXT: psrldq {{.*#+}} xmm1 = xmm1[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; X64-NEXT: psrldq {{.*#+}} xmm1 = xmm1[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; X64-NEXT: psllw %xmm1, %xmm0		; X64-NEXT: psllw %xmm1, %xmm0
; X64-NEXT: movdqa %xmm0, (%rdi)		; X64-NEXT: movdqa %xmm0, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%shamt = shufflevector <8 x i16> %amt, <8 x i16> undef, <8 x i32> <i32 6, i32 6, i32 6, i32 6, i32 6, i32 6, i32 6, i32 6>		%shamt = shufflevector <8 x i16> %amt, <8 x i16> undef, <8 x i32> <i32 6, i32 6, i32 6, i32 6, i32 6, i32 6, i32 6, i32 6>
%shl = shl <8 x i16> %val, %shamt		%shl = shl <8 x i16> %val, %shamt
store <8 x i16> %shl, <8 x i16>* %dst		store <8 x i16> %shl, <8 x i16>* %dst
Show All 34 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] SimplifyDemandedVectorEltsForTargetNode - add general shuffle combining supportClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 289364

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/avg.ll

llvm/test/CodeGen/X86/avx-trunc.ll

llvm/test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/bitcast-and-setcc-128.ll

llvm/test/CodeGen/X86/bitcast-setcc-128.ll

llvm/test/CodeGen/X86/buildvec-extract.ll

llvm/test/CodeGen/X86/buildvec-insertvec.ll

llvm/test/CodeGen/X86/combine-fcopysign.ll

llvm/test/CodeGen/X86/combine-shl.ll

llvm/test/CodeGen/X86/haddsub-undef.ll

llvm/test/CodeGen/X86/insert-into-constant-vector.ll

llvm/test/CodeGen/X86/insertelement-shuffle.ll

llvm/test/CodeGen/X86/known-signbits-vector.ll

llvm/test/CodeGen/X86/load-partial.ll

llvm/test/CodeGen/X86/masked_expandload.ll

llvm/test/CodeGen/X86/masked_load.ll

llvm/test/CodeGen/X86/masked_store_trunc.ll

llvm/test/CodeGen/X86/oddshuffles.ll

llvm/test/CodeGen/X86/oddsubvector.ll

llvm/test/CodeGen/X86/pmul.ll

llvm/test/CodeGen/X86/pmulh.ll

llvm/test/CodeGen/X86/pr29112.ll

llvm/test/CodeGen/X86/promote-cmp.ll

llvm/test/CodeGen/X86/psubus.ll

llvm/test/CodeGen/X86/shrink_vmul.ll

llvm/test/CodeGen/X86/shuffle-of-insert.ll

llvm/test/CodeGen/X86/shuffle-strided-with-offset-128.ll

llvm/test/CodeGen/X86/shuffle-vs-trunc-256.ll

llvm/test/CodeGen/X86/shuffle-vs-trunc-512.ll

llvm/test/CodeGen/X86/srem-seteq-vec-nonsplat.ll

llvm/test/CodeGen/X86/test-shrink-bug.ll

llvm/test/CodeGen/X86/trunc-subvector.ll

llvm/test/CodeGen/X86/udiv_fix.ll

llvm/test/CodeGen/X86/udiv_fix_sat.ll

llvm/test/CodeGen/X86/urem-seteq-vec-nonsplat.ll

llvm/test/CodeGen/X86/urem-seteq-vec-nonzero.ll

llvm/test/CodeGen/X86/vec_insert-2.ll

llvm/test/CodeGen/X86/vec_insert-3.ll

llvm/test/CodeGen/X86/vec_insert-5.ll

llvm/test/CodeGen/X86/vec_int_to_fp.ll

llvm/test/CodeGen/X86/vec_set-6.ll

llvm/test/CodeGen/X86/vector-idiv-udiv-256.ll

llvm/test/CodeGen/X86/vector-pack-256.ll

llvm/test/CodeGen/X86/vector-reduce-and-bool.ll

llvm/test/CodeGen/X86/vector-reduce-mul.ll

llvm/test/CodeGen/X86/vector-reduce-or-bool.ll

llvm/test/CodeGen/X86/vector-reduce-xor-bool.ll

llvm/test/CodeGen/X86/vector-shuffle-128-v16.ll

llvm/test/CodeGen/X86/vector-shuffle-128-v4.ll

llvm/test/CodeGen/X86/vector-shuffle-128-v8.ll

llvm/test/CodeGen/X86/vector-shuffle-256-v16.ll

llvm/test/CodeGen/X86/vector-shuffle-256-v8.ll

llvm/test/CodeGen/X86/vector-shuffle-combining.ll

llvm/test/CodeGen/X86/vector-shuffle-variable-128.ll

llvm/test/CodeGen/X86/vector-trunc-math.ll

llvm/test/CodeGen/X86/vector-trunc.ll

llvm/test/CodeGen/X86/vector-zext.ll

llvm/test/CodeGen/X86/vselect.ll

llvm/test/CodeGen/X86/vshift-4.ll

[X86][SSE] SimplifyDemandedVectorEltsForTargetNode - add general shuffle combining support
ClosedPublic