This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/trunk/
-
trunk/
-
lib/Target/X86/
-
Target/
-
X86/
-
X86ISelLowering.cpp
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
2012-01-12-extract-sv.ll
-
avx2-intrinsics-fast-isel.ll
-
avx512-intrinsics-fast-isel.ll
-
bitcast-and-setcc-128.ll
-
bitcast-setcc-128.ll
-
combine-shl.ll
-
extractelement-load.ll
-
madd.ll
-
mmx-arith.ll
-
oddshuffles.ll
-
pmul.ll
-
pr29112.ll
-
pr34592.ll
-
sdiv-exact.ll
-
shrink_vmul.ll
-
sse2-schedule.ll
-
sse41-intrinsics-fast-isel.ll
-
vec_insert-3.ll
-
vector-constrained-fp-intrinsics.ll
-
vector-reduce-mul.ll
-
vector-sext.ll
-
vector-shuffle-128-v4.ll
-
vector-shuffle-256-v4.ll
-
vector-shuffle-256-v8.ll
-
vector-shuffle-combining.ll
-
vector-trunc-math.ll
-
x86-interleaved-access.ll

Differential D50328

[X86][SSE] Combine (some) target shuffles with multiple uses
ClosedPublic

Authored by RKSimon on Aug 6 2018, 5:51 AM.

Download Raw Diff

Details

Reviewers

craig.topper
spatel
andreadb
lebedev.ri

Commits

rG511c3fc529c3: [X86][SSE] Remove PMULDQ/PMULUDQ by zero
rG01ae462fef74: [X86][SSE] Combine (some) target shuffles with multiple uses
rL339337: [X86][SSE] Remove PMULDQ/PMULUDQ by zero
rL339335: [X86][SSE] Combine (some) target shuffles with multiple uses

Summary

As discussed on D41794, we have many cases where we fail to combine shuffles as the input operands have other uses.

This patch permits these shuffles to be combined as long as they don't introduce additional variable shuffle masks, which should allow the total number of shuffles to still drop without increasing the constant pool.

However, this may mean that some memory folds may no longer occur, and on pre-AVX require the occasional extra register move.

This also exposes some poor PMULDQ/PMULUDQ codegen which was doing unnecessary upper/lower calculations which will in fact fold to zero/undef - I've included the fix in this patch but can commit it separately as a followup if you wish to better show the effect

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Aug 6 2018, 5:51 AM

greened added a subscriber: greened.Aug 6 2018, 10:50 AM

greened added inline comments.

lib/Target/X86/X86ISelLowering.cpp
39640 ↗	(On Diff #159280)	This would be best done as a separate change.
test/CodeGen/X86/2012-01-12-extract-sv.ll
12 ↗	(On Diff #159280)	Can we make this test less brittle by using FileCheck variables? This goes for pretty much every test in this patch.
test/CodeGen/X86/avx512-intrinsics-fast-isel.ll
6498 ↗	(On Diff #159280)	Make this less brittle with FileCheck variables.
6740 ↗	(On Diff #159280)	Make this less brittle with FileCheck variables.

RKSimon added inline comments.Aug 6 2018, 1:26 PM

lib/Target/X86/X86ISelLowering.cpp
39640 ↗	(On Diff #159280)	Sure, that was what I meant in the summary: This also exposes some poor PMULDQ/PMULUDQ codegen which was doing unnecessary upper/lower calculations which will in fact fold to zero/undef - I've included the fix in this patch but can commit it separately as a followup if you wish to better show the effect
test/CodeGen/X86/2012-01-12-extract-sv.ll
12 ↗	(On Diff #159280)	I'm sorry but no - its been repeatedly proven that using update_llc_test_checks.py on the majority of x86 tests is the way forward - it speeds up creation of tests (x86 by far has the highest test coverage), makes regeneration of checks trivial and it prevents dodgy code being 'hidden' (either on purpose or by accident). Additionally many x86 subtargets have different instruction behaviours depending on the registers used so hidng the registers behind regexps make it that more difficult to track.

ping?

test/CodeGen/X86/2012-01-12-extract-sv.ll
12 ↗	(On Diff #159280)	Just to be clear, this isn't just a regalloc diff - there is a codegen change here - the xmm0 value on line 12 is no longer dependent on the pervious perm that was on line 9.
test/CodeGen/X86/avx512-intrinsics-fast-isel.ll
6498 ↗	(On Diff #159280)	Again, there is a codegen change here.

LGTM.

The change to combinePMULDQ() should be committed as a separate patch (as suggested by you and David).

Thanks
-Andrea

This revision is now accepted and ready to land.Aug 9 2018, 3:21 AM

Closed by commit rL339335: [X86][SSE] Combine (some) target shuffles with multiple uses (authored by RKSimon). · Explain WhyAug 9 2018, 5:30 AM

This revision was automatically updated to reflect the committed changes.

RKSimon mentioned this in rL339337: [X86][SSE] Remove PMULDQ/PMULUDQ by zero.Aug 9 2018, 5:38 AM

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

49 lines

test/

CodeGen/

X86/

2012-01-12-extract-sv.ll

8 lines

avx2-intrinsics-fast-isel.ll

10 lines

avx512-intrinsics-fast-isel.ll

40 lines

bitcast-and-setcc-128.ll

40 lines

bitcast-setcc-128.ll

20 lines

combine-shl.ll

80 lines

extractelement-load.ll

7 lines

32 lines

18 lines

226 lines

129 lines

86 lines

24 lines

9 lines

84 lines

132 lines

sse41-intrinsics-fast-isel.ll

25 lines

vec_insert-3.ll

5 lines

vector-constrained-fp-intrinsics.ll

204 lines

vector-reduce-mul.ll

267 lines

vector-sext.ll

128 lines

vector-shuffle-128-v4.ll

27 lines

vector-shuffle-256-v4.ll

4 lines

vector-shuffle-256-v8.ll

6 lines

vector-shuffle-combining.ll

41 lines

vector-trunc-math.ll

103 lines

x86-interleaved-access.ll

260 lines

Diff 159904

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 29,646 Lines • ▼ Show 20 Lines
/// This is the leaf of the recursive combine below. When we have found some		/// This is the leaf of the recursive combine below. When we have found some
/// chain of single-use x86 shuffle instructions and accumulated the combined		/// chain of single-use x86 shuffle instructions and accumulated the combined
/// shuffle mask represented by them, this will try to pattern match that mask		/// shuffle mask represented by them, this will try to pattern match that mask
/// into either a single instruction if there is a special purpose instruction		/// into either a single instruction if there is a special purpose instruction
/// for this operation, or into a PSHUFB instruction which is a fully general		/// for this operation, or into a PSHUFB instruction which is a fully general
/// instruction but should only be used to replace chains over a certain depth.		/// instruction but should only be used to replace chains over a certain depth.
static SDValue combineX86ShuffleChain(ArrayRef<SDValue> Inputs, SDValue Root,		static SDValue combineX86ShuffleChain(ArrayRef<SDValue> Inputs, SDValue Root,
ArrayRef<int> BaseMask, int Depth,		ArrayRef<int> BaseMask, int Depth,
bool HasVariableMask, SelectionDAG &DAG,		bool HasVariableMask,
		bool AllowVariableMask, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
assert(!BaseMask.empty() && "Cannot combine an empty shuffle mask!");		assert(!BaseMask.empty() && "Cannot combine an empty shuffle mask!");
assert((Inputs.size() == 1 \|\| Inputs.size() == 2) &&		assert((Inputs.size() == 1 \|\| Inputs.size() == 2) &&
"Unexpected number of shuffle inputs!");		"Unexpected number of shuffle inputs!");

// Find the inputs that enter the chain. Note that multiple uses are OK		// Find the inputs that enter the chain. Note that multiple uses are OK
// here, we're not going to remove the operands we find.		// here, we're not going to remove the operands we find.
bool UnaryShuffle = (Inputs.size() == 1);		bool UnaryShuffle = (Inputs.size() == 1);
▲ Show 20 Lines • Show All 196 Lines • ▼ Show 20 Lines	static SDValue combineX86ShuffleChain(ArrayRef<SDValue> Inputs, SDValue Root,

// Don't try to re-form single instruction chains under any circumstances now		// Don't try to re-form single instruction chains under any circumstances now
// that we've done encoding canonicalization for them.		// that we've done encoding canonicalization for them.
if (Depth < 2)		if (Depth < 2)
return SDValue();		return SDValue();

// Depth threshold above which we can efficiently use variable mask shuffles.		// Depth threshold above which we can efficiently use variable mask shuffles.
int VariableShuffleDepth = Subtarget.hasFastVariableShuffle() ? 2 : 3;		int VariableShuffleDepth = Subtarget.hasFastVariableShuffle() ? 2 : 3;
bool AllowVariableMask = (Depth >= VariableShuffleDepth) \|\| HasVariableMask;		AllowVariableMask &= (Depth >= VariableShuffleDepth) \|\| HasVariableMask;

bool MaskContainsZeros =		bool MaskContainsZeros =
any_of(Mask, [](int M) { return M == SM_SentinelZero; });		any_of(Mask, [](int M) { return M == SM_SentinelZero; });

if (is128BitLaneCrossingShuffleMask(MaskVT, Mask)) {		if (is128BitLaneCrossingShuffleMask(MaskVT, Mask)) {
// If we have a single input lane-crossing shuffle then lower to VPERMV.		// If we have a single input lane-crossing shuffle then lower to VPERMV.
if (UnaryShuffle && AllowVariableMask && !MaskContainsZeros &&		if (UnaryShuffle && AllowVariableMask && !MaskContainsZeros &&
((Subtarget.hasAVX2() &&		((Subtarget.hasAVX2() &&
▲ Show 20 Lines • Show All 317 Lines • ▼ Show 20 Lines
///		///
/// FIXME: We will currently miss some cases where the redundant shuffling		/// FIXME: We will currently miss some cases where the redundant shuffling
/// would simplify under the threshold for PSHUFB formation because of		/// would simplify under the threshold for PSHUFB formation because of
/// combine-ordering. To fix this, we should do the redundant instruction		/// combine-ordering. To fix this, we should do the redundant instruction
/// combining in this recursive walk.		/// combining in this recursive walk.
static SDValue combineX86ShufflesRecursively(		static SDValue combineX86ShufflesRecursively(
ArrayRef<SDValue> SrcOps, int SrcOpIndex, SDValue Root,		ArrayRef<SDValue> SrcOps, int SrcOpIndex, SDValue Root,
ArrayRef<int> RootMask, ArrayRef<const SDNode *> SrcNodes, unsigned Depth,		ArrayRef<int> RootMask, ArrayRef<const SDNode *> SrcNodes, unsigned Depth,
bool HasVariableMask, SelectionDAG &DAG, const X86Subtarget &Subtarget) {		bool HasVariableMask, bool AllowVariableMask, SelectionDAG &DAG,
		const X86Subtarget &Subtarget) {
// Bound the depth of our recursive combine because this is ultimately		// Bound the depth of our recursive combine because this is ultimately
// quadratic in nature.		// quadratic in nature.
const unsigned MaxRecursionDepth = 8;		const unsigned MaxRecursionDepth = 8;
if (Depth > MaxRecursionDepth)		if (Depth > MaxRecursionDepth)
return SDValue();		return SDValue();

// Directly rip through bitcasts to find the underlying operand.		// Directly rip through bitcasts to find the underlying operand.
SDValue Op = SrcOps[SrcOpIndex];		SDValue Op = SrcOps[SrcOpIndex];
▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines	static SDValue combineX86ShufflesRecursively(
HasVariableMask \|= isTargetShuffleVariableMask(Op.getOpcode());		HasVariableMask \|= isTargetShuffleVariableMask(Op.getOpcode());

// Update the list of shuffle nodes that have been combined so far.		// Update the list of shuffle nodes that have been combined so far.
SmallVector<const SDNode *, 16> CombinedNodes(SrcNodes.begin(),		SmallVector<const SDNode *, 16> CombinedNodes(SrcNodes.begin(),
SrcNodes.end());		SrcNodes.end());
CombinedNodes.push_back(Op.getNode());		CombinedNodes.push_back(Op.getNode());

// See if we can recurse into each shuffle source op (if it's a target		// See if we can recurse into each shuffle source op (if it's a target
// shuffle). The source op should only be combined if it either has a		// shuffle). The source op should only be generally combined if it either has
// single use (i.e. current Op) or all its users have already been combined.		// a single use (i.e. current Op) or all its users have already been combined,
		// if not then we can still combine but should prevent generation of variable
		// shuffles to avoid constant pool bloat.
// Don't recurse if we already have more source ops than we can combine in		// Don't recurse if we already have more source ops than we can combine in
// the remaining recursion depth.		// the remaining recursion depth.
if (Ops.size() < (MaxRecursionDepth - Depth)) {		if (Ops.size() < (MaxRecursionDepth - Depth)) {
for (int i = 0, e = Ops.size(); i < e; ++i)		for (int i = 0, e = Ops.size(); i < e; ++i) {
		bool AllowVar = false;
if (Ops[i].getNode()->hasOneUse() \|\|		if (Ops[i].getNode()->hasOneUse() \|\|
SDNode::areOnlyUsersOf(CombinedNodes, Ops[i].getNode()))		SDNode::areOnlyUsersOf(CombinedNodes, Ops[i].getNode()))
		AllowVar = AllowVariableMask;
if (SDValue Res = combineX86ShufflesRecursively(		if (SDValue Res = combineX86ShufflesRecursively(
Ops, i, Root, Mask, CombinedNodes, Depth + 1, HasVariableMask,		Ops, i, Root, Mask, CombinedNodes, Depth + 1, HasVariableMask,
DAG, Subtarget))		AllowVar, DAG, Subtarget))
return Res;		return Res;
}		}
		}

// Attempt to constant fold all of the constant source ops.		// Attempt to constant fold all of the constant source ops.
if (SDValue Cst = combineX86ShufflesConstants(		if (SDValue Cst = combineX86ShufflesConstants(
Ops, Mask, Root, HasVariableMask, DAG, Subtarget))		Ops, Mask, Root, HasVariableMask, DAG, Subtarget))
return Cst;		return Cst;

// We can only combine unary and binary shuffle mask cases.		// We can only combine unary and binary shuffle mask cases.
if (Ops.size() > 2)		if (Ops.size() > 2)
Show All 12 Lines	static SDValue combineX86ShufflesRecursively(
// Canonicalization of binary shuffle masks to improve pattern matching by		// Canonicalization of binary shuffle masks to improve pattern matching by
// commuting the inputs.		// commuting the inputs.
if (Ops.size() == 2 && canonicalizeShuffleMaskWithCommute(Mask)) {		if (Ops.size() == 2 && canonicalizeShuffleMaskWithCommute(Mask)) {
ShuffleVectorSDNode::commuteMask(Mask);		ShuffleVectorSDNode::commuteMask(Mask);
std::swap(Ops[0], Ops[1]);		std::swap(Ops[0], Ops[1]);
}		}

// Finally, try to combine into a single shuffle instruction.		// Finally, try to combine into a single shuffle instruction.
return combineX86ShuffleChain(Ops, Root, Mask, Depth, HasVariableMask, DAG,		return combineX86ShuffleChain(Ops, Root, Mask, Depth, HasVariableMask,
Subtarget);		AllowVariableMask, DAG, Subtarget);
}		}

/// Get the PSHUF-style mask from PSHUF node.		/// Get the PSHUF-style mask from PSHUF node.
///		///
/// This is a very minor wrapper around getTargetShuffleMask to easy forming v4		/// This is a very minor wrapper around getTargetShuffleMask to easy forming v4
/// PSHUF-style masks that can be reused with such instructions.		/// PSHUF-style masks that can be reused with such instructions.
static SmallVector<int, 4> getPSHUFShuffleMask(SDValue N) {		static SmallVector<int, 4> getPSHUFShuffleMask(SDValue N) {
MVT VT = N.getSimpleValueType();		MVT VT = N.getSimpleValueType();
▲ Show 20 Lines • Show All 284 Lines • ▼ Show 20 Lines	if (isTargetShuffle(BC.getOpcode()) &&
VT.getScalarSizeInBits() % BCVT.getScalarSizeInBits() == 0) {		VT.getScalarSizeInBits() % BCVT.getScalarSizeInBits() == 0) {
unsigned Scale = VT.getScalarSizeInBits() / BCVT.getScalarSizeInBits();		unsigned Scale = VT.getScalarSizeInBits() / BCVT.getScalarSizeInBits();
SmallVector<int, 16> DemandedMask(BCVT.getVectorNumElements(),		SmallVector<int, 16> DemandedMask(BCVT.getVectorNumElements(),
SM_SentinelUndef);		SM_SentinelUndef);
for (unsigned i = 0; i != Scale; ++i)		for (unsigned i = 0; i != Scale; ++i)
DemandedMask[i] = i;		DemandedMask[i] = i;
if (SDValue Res = combineX86ShufflesRecursively(		if (SDValue Res = combineX86ShufflesRecursively(
{BC}, 0, BC, DemandedMask, {}, /Depth/ 1,		{BC}, 0, BC, DemandedMask, {}, /Depth/ 1,
/HasVarMask/ false, DAG, Subtarget))		/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))
return DAG.getNode(X86ISD::VBROADCAST, DL, VT,		return DAG.getNode(X86ISD::VBROADCAST, DL, VT,
DAG.getBitcast(SrcVT, Res));		DAG.getBitcast(SrcVT, Res));
}		}
return SDValue();		return SDValue();
}		}
case X86ISD::PSHUFD:		case X86ISD::PSHUFD:
case X86ISD::PSHUFLW:		case X86ISD::PSHUFLW:
case X86ISD::PSHUFHW:		case X86ISD::PSHUFHW:
▲ Show 20 Lines • Show All 602 Lines • ▼ Show 20 Lines	if (isTargetShuffle(N->getOpcode())) {

// Try recursively combining arbitrary sequences of x86 shuffle		// Try recursively combining arbitrary sequences of x86 shuffle
// instructions into higher-order shuffles. We do this after combining		// instructions into higher-order shuffles. We do this after combining
// specific PSHUF instruction sequences into their minimal form so that we		// specific PSHUF instruction sequences into their minimal form so that we
// can evaluate how many specialized shuffle instructions are involved in		// can evaluate how many specialized shuffle instructions are involved in
// a particular chain.		// a particular chain.
if (SDValue Res = combineX86ShufflesRecursively(		if (SDValue Res = combineX86ShufflesRecursively(
{Op}, 0, Op, {0}, {}, /Depth/ 1,		{Op}, 0, Op, {0}, {}, /Depth/ 1,
/HasVarMask/ false, DAG, Subtarget))		/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))
return Res;		return Res;
}		}

return SDValue();		return SDValue();
}		}

/// Check if a vector extract from a target-specific shuffle of a load can be		/// Check if a vector extract from a target-specific shuffle of a load can be
/// folded into a single element load.		/// folded into a single element load.
▲ Show 20 Lines • Show All 2,890 Lines • ▼ Show 20 Lines	if ((N0->isUndef() \|\| N->isOnlyUserOf(N0.getNode())) &&

return getConstVector(Bits, Undefs, VT.getSimpleVT(), DAG, SDLoc(N));		return getConstVector(Bits, Undefs, VT.getSimpleVT(), DAG, SDLoc(N));
}		}

// Attempt to combine as shuffle.		// Attempt to combine as shuffle.
SDValue Op(N, 0);		SDValue Op(N, 0);
if (SDValue Res =		if (SDValue Res =
combineX86ShufflesRecursively({Op}, 0, Op, {0}, {}, /Depth/ 1,		combineX86ShufflesRecursively({Op}, 0, Op, {0}, {}, /Depth/ 1,
/HasVarMask/ false, DAG, Subtarget))		/HasVarMask/ false,
		/AllowVarMask/ true, DAG, Subtarget))
return Res;		return Res;

return SDValue();		return SDValue();
}		}

static SDValue combineVectorShiftImm(SDNode *N, SelectionDAG &DAG,		static SDValue combineVectorShiftImm(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	if (ShiftVal.ult(NumSignBits))
return N00;		return N00;
}		}

// We can decode 'whole byte' logical bit shifts as shuffles.		// We can decode 'whole byte' logical bit shifts as shuffles.
if (LogicalShift && (ShiftVal.getZExtValue() % 8) == 0) {		if (LogicalShift && (ShiftVal.getZExtValue() % 8) == 0) {
SDValue Op(N, 0);		SDValue Op(N, 0);
if (SDValue Res = combineX86ShufflesRecursively(		if (SDValue Res = combineX86ShufflesRecursively(
{Op}, 0, Op, {0}, {}, /Depth/ 1,		{Op}, 0, Op, {0}, {}, /Depth/ 1,
/HasVarMask/ false, DAG, Subtarget))		/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))
return Res;		return Res;
}		}

// Constant Folding.		// Constant Folding.
APInt UndefElts;		APInt UndefElts;
SmallVector<APInt, 32> EltBits;		SmallVector<APInt, 32> EltBits;
if (N->isOnlyUserOf(N0.getNode()) &&		if (N->isOnlyUserOf(N0.getNode()) &&
getTargetConstantBitsFromNode(N0, NumBitsPerElt, UndefElts, EltBits)) {		getTargetConstantBitsFromNode(N0, NumBitsPerElt, UndefElts, EltBits)) {
Show All 22 Lines	assert(
(N->getOpcode() == X86ISD::PINSRW &&		(N->getOpcode() == X86ISD::PINSRW &&
N->getValueType(0) == MVT::v8i16)) &&		N->getValueType(0) == MVT::v8i16)) &&
"Unexpected vector insertion");		"Unexpected vector insertion");

// Attempt to combine PINSRB/PINSRW patterns to a shuffle.		// Attempt to combine PINSRB/PINSRW patterns to a shuffle.
SDValue Op(N, 0);		SDValue Op(N, 0);
if (SDValue Res =		if (SDValue Res =
combineX86ShufflesRecursively({Op}, 0, Op, {0}, {}, /Depth/ 1,		combineX86ShufflesRecursively({Op}, 0, Op, {0}, {}, /Depth/ 1,
/HasVarMask/ false, DAG, Subtarget))		/HasVarMask/ false,
		/AllowVarMask/ true, DAG, Subtarget))
return Res;		return Res;

return SDValue();		return SDValue();
}		}

/// Recognize the distinctive (AND (setcc ...) (setcc ..)) where both setccs		/// Recognize the distinctive (AND (setcc ...) (setcc ..)) where both setccs
/// reference the same FP CMP, and rewrite for CMPEQSS and friends. Likewise for		/// reference the same FP CMP, and rewrite for CMPEQSS and friends. Likewise for
/// OR -> CMPNEQSS.		/// OR -> CMPNEQSS.
▲ Show 20 Lines • Show All 509 Lines • ▼ Show 20 Lines	static SDValue combineAnd(SDNode *N, SelectionDAG &DAG,
if (SDValue R = combineAndLoadToBZHI(N, DAG, Subtarget))		if (SDValue R = combineAndLoadToBZHI(N, DAG, Subtarget))
return R;		return R;

// Attempt to recursively combine a bitmask AND with shuffles.		// Attempt to recursively combine a bitmask AND with shuffles.
if (VT.isVector() && (VT.getScalarSizeInBits() % 8) == 0) {		if (VT.isVector() && (VT.getScalarSizeInBits() % 8) == 0) {
SDValue Op(N, 0);		SDValue Op(N, 0);
if (SDValue Res = combineX86ShufflesRecursively(		if (SDValue Res = combineX86ShufflesRecursively(
{Op}, 0, Op, {0}, {}, /Depth/ 1,		{Op}, 0, Op, {0}, {}, /Depth/ 1,
/HasVarMask/ false, DAG, Subtarget))		/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))
return Res;		return Res;
}		}

// Attempt to combine a scalar bitmask AND with an extracted shuffle.		// Attempt to combine a scalar bitmask AND with an extracted shuffle.
if ((VT.getScalarSizeInBits() % 8) == 0 &&		if ((VT.getScalarSizeInBits() % 8) == 0 &&
N->getOperand(0).getOpcode() == ISD::EXTRACT_VECTOR_ELT &&		N->getOperand(0).getOpcode() == ISD::EXTRACT_VECTOR_ELT &&
isa<ConstantSDNode>(N->getOperand(0).getOperand(1))) {		isa<ConstantSDNode>(N->getOperand(0).getOperand(1))) {
SDValue BitMask = N->getOperand(1);		SDValue BitMask = N->getOperand(1);
Show All 20 Lines	if (VT == SrcVecVT.getScalarType() &&
continue;		continue;
int VecIdx = Scale * Idx + i;		int VecIdx = Scale * Idx + i;
ShuffleMask[VecIdx] =		ShuffleMask[VecIdx] =
EltBits[i].isNullValue() ? SM_SentinelZero : VecIdx;		EltBits[i].isNullValue() ? SM_SentinelZero : VecIdx;
}		}

if (SDValue Shuffle = combineX86ShufflesRecursively(		if (SDValue Shuffle = combineX86ShufflesRecursively(
{SrcVec}, 0, SrcVec, ShuffleMask, {}, /Depth/ 2,		{SrcVec}, 0, SrcVec, ShuffleMask, {}, /Depth/ 2,
/HasVarMask/ false, DAG, Subtarget))		/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))
return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SDLoc(N), VT, Shuffle,		return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SDLoc(N), VT, Shuffle,
N->getOperand(0).getOperand(1));		N->getOperand(0).getOperand(1));
}		}
}		}

return SDValue();		return SDValue();
}		}

▲ Show 20 Lines • Show All 2,517 Lines • ▼ Show 20 Lines	static SDValue combineAndnp(SDNode *N, SelectionDAG &DAG,

EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

// Attempt to recursively combine a bitmask ANDNP with shuffles.		// Attempt to recursively combine a bitmask ANDNP with shuffles.
if (VT.isVector() && (VT.getScalarSizeInBits() % 8) == 0) {		if (VT.isVector() && (VT.getScalarSizeInBits() % 8) == 0) {
SDValue Op(N, 0);		SDValue Op(N, 0);
if (SDValue Res = combineX86ShufflesRecursively(		if (SDValue Res = combineX86ShufflesRecursively(
{Op}, 0, Op, {0}, {}, /Depth/ 1,		{Op}, 0, Op, {0}, {}, /Depth/ 1,
/HasVarMask/ false, DAG, Subtarget))		/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))
return Res;		return Res;
}		}

return SDValue();		return SDValue();
}		}

static SDValue combineBT(SDNode *N, SelectionDAG &DAG,		static SDValue combineBT(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI) {		TargetLowering::DAGCombinerInfo &DCI) {
▲ Show 20 Lines • Show All 3,495 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/2012-01-12-extract-sv.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mattr=+avx -mtriple=i686-pc-win32 \| FileCheck %s			; RUN: llc < %s -mattr=+avx -mtriple=i686-pc-win32 \| FileCheck %s

	define void @endless_loop() {			define void @endless_loop() {
	; CHECK-LABEL: endless_loop:			; CHECK-LABEL: endless_loop:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vmovaps (%eax), %ymm0			; CHECK-NEXT: vmovaps (%eax), %ymm0
	; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0			; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0
	; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,1,1]			; CHECK-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,0,1,1]
	; CHECK-NEXT: vxorps %xmm1, %xmm1, %xmm1			; CHECK-NEXT: vxorps %xmm2, %xmm2, %xmm2
	; CHECK-NEXT: vblendps {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]			; CHECK-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0],xmm2[1,2,3]
	; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]			; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; CHECK-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; CHECK-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; CHECK-NEXT: vxorps %xmm2, %xmm2, %xmm2			; CHECK-NEXT: vxorps %xmm2, %xmm2, %xmm2
	; CHECK-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2,3,4,5,6],ymm0[7]			; CHECK-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0,1,2,3,4,5,6],ymm0[7]
	; CHECK-NEXT: vmovaps %ymm0, (%eax)			; CHECK-NEXT: vmovaps %ymm0, (%eax)
	; CHECK-NEXT: vmovaps %ymm1, (%eax)			; CHECK-NEXT: vmovaps %ymm1, (%eax)
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	entry:			entry:
	%0 = load <8 x i32>, <8 x i32> addrspace(1)* undef, align 32			%0 = load <8 x i32>, <8 x i32> addrspace(1)* undef, align 32
	%1 = shufflevector <8 x i32> %0, <8 x i32> undef, <16 x i32> <i32 4, i32 4, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %0, <8 x i32> undef, <16 x i32> <i32 4, i32 4, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = shufflevector <16 x i32> <i32 undef, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 undef>, <16 x i32> %1, <16 x i32> <i32 16, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 17>			%2 = shufflevector <16 x i32> <i32 undef, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 undef>, <16 x i32> %1, <16 x i32> <i32 16, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 17>
	store <16 x i32> %2, <16 x i32> addrspace(1)* undef, align 64			store <16 x i32> %2, <16 x i32> addrspace(1)* undef, align 64
	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/X86/avx2-intrinsics-fast-isel.ll

Show First 20 Lines • Show All 1,817 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret{{[l\|q]}}
%bc = bitcast <16 x i16> %call to <4 x i64>		%bc = bitcast <16 x i16> %call to <4 x i64>
ret <4 x i64> %bc		ret <4 x i64> %bc
}		}
declare <16 x i16> @llvm.x86.avx2.mpsadbw(<32 x i8>, <32 x i8>, i8) nounwind readnone		declare <16 x i16> @llvm.x86.avx2.mpsadbw(<32 x i8>, <32 x i8>, i8) nounwind readnone

define <4 x i64> @test_mm256_mul_epi32(<4 x i64> %a0, <4 x i64> %a1) {		define <4 x i64> @test_mm256_mul_epi32(<4 x i64> %a0, <4 x i64> %a1) {
; CHECK-LABEL: test_mm256_mul_epi32:		; CHECK-LABEL: test_mm256_mul_epi32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpsllq $32, %ymm0, %ymm0		; CHECK-NEXT: vpsllq $32, %ymm0, %ymm2
; CHECK-NEXT: vpsrad $31, %ymm0, %ymm2		; CHECK-NEXT: vpsrad $31, %ymm2, %ymm2
; CHECK-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[1,1,3,3,5,5,7,7]
; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2],ymm2[3],ymm0[4],ymm2[5],ymm0[6],ymm2[7]		; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2],ymm2[3],ymm0[4],ymm2[5],ymm0[6],ymm2[7]
; CHECK-NEXT: vpsllq $32, %ymm1, %ymm1		; CHECK-NEXT: vpsllq $32, %ymm1, %ymm2
; CHECK-NEXT: vpsrad $31, %ymm1, %ymm2		; CHECK-NEXT: vpsrad $31, %ymm2, %ymm2
; CHECK-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[1,1,3,3,5,5,7,7]
; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0],ymm2[1],ymm1[2],ymm2[3],ymm1[4],ymm2[5],ymm1[6],ymm2[7]		; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0],ymm2[1],ymm1[2],ymm2[3],ymm1[4],ymm2[5],ymm1[6],ymm2[7]
; CHECK-NEXT: vpmuldq %ymm1, %ymm0, %ymm0		; CHECK-NEXT: vpmuldq %ymm1, %ymm0, %ymm0
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
%A = shl <4 x i64> %a0, <i64 32, i64 32, i64 32, i64 32>		%A = shl <4 x i64> %a0, <i64 32, i64 32, i64 32, i64 32>
%A1 = ashr exact <4 x i64> %A, <i64 32, i64 32, i64 32, i64 32>		%A1 = ashr exact <4 x i64> %A, <i64 32, i64 32, i64 32, i64 32>
%B = shl <4 x i64> %a1, <i64 32, i64 32, i64 32, i64 32>		%B = shl <4 x i64> %a1, <i64 32, i64 32, i64 32, i64 32>
%B1 = ashr exact <4 x i64> %B, <i64 32, i64 32, i64 32, i64 32>		%B1 = ashr exact <4 x i64> %B, <i64 32, i64 32, i64 32, i64 32>
%res = mul nsw <4 x i64> %A1, %B1		%res = mul nsw <4 x i64> %A1, %B1
▲ Show 20 Lines • Show All 838 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 6,485 Lines • ▼ Show 20 Lines
	; X86-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; X86-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; X86-NEXT: vpsrlq $32, %xmm1, %xmm3			; X86-NEXT: vpsrlq $32, %xmm1, %xmm3
	; X86-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; X86-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X86-NEXT: vpsllq $32, %xmm2, %xmm2			; X86-NEXT: vpsllq $32, %xmm2, %xmm2
	; X86-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; X86-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; X86-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X86-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-NEXT: vpsrlq $32, %xmm0, %xmm2			; X86-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; X86-NEXT: vpmuludq %xmm2, %xmm1, %xmm2			; X86-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
	; X86-NEXT: vpsrlq $32, %xmm1, %xmm3			; X86-NEXT: vpsrlq $32, %xmm0, %xmm3
	; X86-NEXT: vpmuludq %xmm0, %xmm3, %xmm3			; X86-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
	; X86-NEXT: vpaddq %xmm3, %xmm2, %xmm2			; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X86-NEXT: vpsllq $32, %xmm2, %xmm2			; X86-NEXT: vpsllq $32, %xmm2, %xmm2
	; X86-NEXT: vpmuludq %xmm0, %xmm1, %xmm0			; X86-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; X86-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X86-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X86-NEXT: vmovd %xmm0, %eax			; X86-NEXT: vmovd %xmm0, %eax
	; X86-NEXT: vpextrd $1, %xmm0, %edx			; X86-NEXT: vpextrd $1, %xmm0, %edx
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	Show All 13 Lines
	; X64-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; X64-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; X64-NEXT: vpsrlq $32, %xmm1, %xmm3			; X64-NEXT: vpsrlq $32, %xmm1, %xmm3
	; X64-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; X64-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X64-NEXT: vpsllq $32, %xmm2, %xmm2			; X64-NEXT: vpsllq $32, %xmm2, %xmm2
	; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-NEXT: vpsrlq $32, %xmm0, %xmm2			; X64-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; X64-NEXT: vpmuludq %xmm2, %xmm1, %xmm2			; X64-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
	; X64-NEXT: vpsrlq $32, %xmm1, %xmm3			; X64-NEXT: vpsrlq $32, %xmm0, %xmm3
	; X64-NEXT: vpmuludq %xmm0, %xmm3, %xmm3			; X64-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
	; X64-NEXT: vpaddq %xmm3, %xmm2, %xmm2			; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X64-NEXT: vpsllq $32, %xmm2, %xmm2			; X64-NEXT: vpsllq $32, %xmm2, %xmm2
	; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0			; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X64-NEXT: vmovq %xmm0, %rax			; X64-NEXT: vmovq %xmm0, %rax
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%shuffle.i = shufflevector <8 x i64> %__W, <8 x i64> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%shuffle.i = shufflevector <8 x i64> %__W, <8 x i64> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	; X86-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; X86-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; X86-NEXT: vpsrlq $32, %xmm1, %xmm3			; X86-NEXT: vpsrlq $32, %xmm1, %xmm3
	; X86-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; X86-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X86-NEXT: vpsllq $32, %xmm2, %xmm2			; X86-NEXT: vpsllq $32, %xmm2, %xmm2
	; X86-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; X86-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; X86-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X86-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-NEXT: vpsrlq $32, %xmm0, %xmm2			; X86-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; X86-NEXT: vpmuludq %xmm2, %xmm1, %xmm2			; X86-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
	; X86-NEXT: vpsrlq $32, %xmm1, %xmm3			; X86-NEXT: vpsrlq $32, %xmm0, %xmm3
	; X86-NEXT: vpmuludq %xmm0, %xmm3, %xmm3			; X86-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
	; X86-NEXT: vpaddq %xmm3, %xmm2, %xmm2			; X86-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X86-NEXT: vpsllq $32, %xmm2, %xmm2			; X86-NEXT: vpsllq $32, %xmm2, %xmm2
	; X86-NEXT: vpmuludq %xmm0, %xmm1, %xmm0			; X86-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; X86-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X86-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X86-NEXT: vmovd %xmm0, %eax			; X86-NEXT: vmovd %xmm0, %eax
	; X86-NEXT: vpextrd $1, %xmm0, %edx			; X86-NEXT: vpextrd $1, %xmm0, %edx
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	Show All 16 Lines
	; X64-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; X64-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; X64-NEXT: vpsrlq $32, %xmm1, %xmm3			; X64-NEXT: vpsrlq $32, %xmm1, %xmm3
	; X64-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; X64-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X64-NEXT: vpsllq $32, %xmm2, %xmm2			; X64-NEXT: vpsllq $32, %xmm2, %xmm2
	; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; X64-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-NEXT: vpsrlq $32, %xmm0, %xmm2			; X64-NEXT: vpsrldq {{.*#+}} xmm2 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; X64-NEXT: vpmuludq %xmm2, %xmm1, %xmm2			; X64-NEXT: vpmuludq %xmm0, %xmm2, %xmm2
	; X64-NEXT: vpsrlq $32, %xmm1, %xmm3			; X64-NEXT: vpsrlq $32, %xmm0, %xmm3
	; X64-NEXT: vpmuludq %xmm0, %xmm3, %xmm3			; X64-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
	; X64-NEXT: vpaddq %xmm3, %xmm2, %xmm2			; X64-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; X64-NEXT: vpsllq $32, %xmm2, %xmm2			; X64-NEXT: vpsllq $32, %xmm2, %xmm2
	; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0			; X64-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; X64-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; X64-NEXT: vmovq %xmm0, %rax			; X64-NEXT: vmovq %xmm0, %rax
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast i8 %__M to <8 x i1>			%0 = bitcast i8 %__M to <8 x i1>
	▲ Show 20 Lines • Show All 3,057 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/bitcast-and-setcc-128.ll

	Show First 20 Lines • Show All 533 Lines • ▼ Show 20 Lines
	; SSE2-SSSE3-NEXT: por %xmm2, %xmm0			; SSE2-SSSE3-NEXT: por %xmm2, %xmm0
	; SSE2-SSSE3-NEXT: pand %xmm3, %xmm0			; SSE2-SSSE3-NEXT: pand %xmm3, %xmm0
	; SSE2-SSSE3-NEXT: movmskpd %xmm0, %eax			; SSE2-SSSE3-NEXT: movmskpd %xmm0, %eax
	; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax			; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax
	; SSE2-SSSE3-NEXT: retq			; SSE2-SSSE3-NEXT: retq
	;			;
	; AVX1-LABEL: v2i32:			; AVX1-LABEL: v2i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $32, %xmm3, %xmm3			; AVX1-NEXT: vpsllq $32, %xmm3, %xmm4
	; AVX1-NEXT: vpsrad $31, %xmm3, %xmm4			; AVX1-NEXT: vpsrad $31, %xmm4, %xmm4
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm4
	; AVX1-NEXT: vpsrad $31, %xmm2, %xmm4			; AVX1-NEXT: vpsrad $31, %xmm4, %xmm4
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]
	; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1			; AVX1-NEXT: vpsllq $32, %xmm1, %xmm3
	; AVX1-NEXT: vpsrad $31, %xmm1, %xmm3			; AVX1-NEXT: vpsrad $31, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0			; AVX1-NEXT: vpsllq $32, %xmm0, %xmm3
	; AVX1-NEXT: vpsrad $31, %xmm0, %xmm3			; AVX1-NEXT: vpsrad $31, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
	; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovmskpd %xmm0, %eax			; AVX1-NEXT: vmovmskpd %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: v2i32:			; AVX2-LABEL: v2i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllq $32, %xmm3, %xmm3			; AVX2-NEXT: vpsllq $32, %xmm3, %xmm4
	; AVX2-NEXT: vpsrad $31, %xmm3, %xmm4			; AVX2-NEXT: vpsrad $31, %xmm4, %xmm4
	; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm3 = xmm3[0],xmm4[1],xmm3[2],xmm4[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm3 = xmm3[0],xmm4[1],xmm3[2],xmm4[3]
	; AVX2-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX2-NEXT: vpsllq $32, %xmm2, %xmm4
	; AVX2-NEXT: vpsrad $31, %xmm2, %xmm4			; AVX2-NEXT: vpsrad $31, %xmm4, %xmm4
	; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0],xmm4[1],xmm2[2],xmm4[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0],xmm4[1],xmm2[2],xmm4[3]
	; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vpsllq $32, %xmm1, %xmm1			; AVX2-NEXT: vpsllq $32, %xmm1, %xmm3
	; AVX2-NEXT: vpsrad $31, %xmm1, %xmm3			; AVX2-NEXT: vpsrad $31, %xmm3, %xmm3
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm3[1],xmm1[2],xmm3[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm3[1],xmm1[2],xmm3[3]
	; AVX2-NEXT: vpsllq $32, %xmm0, %xmm0			; AVX2-NEXT: vpsllq $32, %xmm0, %xmm3
	; AVX2-NEXT: vpsrad $31, %xmm0, %xmm3			; AVX2-NEXT: vpsrad $31, %xmm3, %xmm3
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm3[1],xmm0[2],xmm3[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm3[1],xmm0[2],xmm3[3]
	; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovmskpd %xmm0, %eax			; AVX2-NEXT: vmovmskpd %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: v2i32:			; AVX512F-LABEL: v2i32:
	▲ Show 20 Lines • Show All 363 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/bitcast-setcc-128.ll

	Show First 20 Lines • Show All 354 Lines • ▼ Show 20 Lines
	; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-SSSE3-NEXT: por %xmm0, %xmm1			; SSE2-SSSE3-NEXT: por %xmm0, %xmm1
	; SSE2-SSSE3-NEXT: movmskpd %xmm1, %eax			; SSE2-SSSE3-NEXT: movmskpd %xmm1, %eax
	; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax			; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax
	; SSE2-SSSE3-NEXT: retq			; SSE2-SSSE3-NEXT: retq
	;			;
	; AVX1-LABEL: v2i32:			; AVX1-LABEL: v2i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1			; AVX1-NEXT: vpsllq $32, %xmm1, %xmm2
	; AVX1-NEXT: vpsrad $31, %xmm1, %xmm2			; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0			; AVX1-NEXT: vpsllq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpsrad $31, %xmm0, %xmm2			; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovmskpd %xmm0, %eax			; AVX1-NEXT: vmovmskpd %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: v2i32:			; AVX2-LABEL: v2i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllq $32, %xmm1, %xmm1			; AVX2-NEXT: vpsllq $32, %xmm1, %xmm2
	; AVX2-NEXT: vpsrad $31, %xmm1, %xmm2			; AVX2-NEXT: vpsrad $31, %xmm2, %xmm2
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; AVX2-NEXT: vpsllq $32, %xmm0, %xmm0			; AVX2-NEXT: vpsllq $32, %xmm0, %xmm2
	; AVX2-NEXT: vpsrad $31, %xmm0, %xmm2			; AVX2-NEXT: vpsrad $31, %xmm2, %xmm2
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovmskpd %xmm0, %eax			; AVX2-NEXT: vmovmskpd %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: v2i32:			; AVX512F-LABEL: v2i32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	▲ Show 20 Lines • Show All 356 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/combine-shl.ll

	Show First 20 Lines • Show All 400 Lines • ▼ Show 20 Lines
	define <4 x i32> @combine_vec_shl_ge_ashr_extact1(<4 x i32> %x) {			define <4 x i32> @combine_vec_shl_ge_ashr_extact1(<4 x i32> %x) {
	; SSE2-LABEL: combine_vec_shl_ge_ashr_extact1:			; SSE2-LABEL: combine_vec_shl_ge_ashr_extact1:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psrad $8, %xmm1			; SSE2-NEXT: psrad $8, %xmm1
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: psrad $5, %xmm2			; SSE2-NEXT: psrad $5, %xmm2
	; SSE2-NEXT: punpckhqdq {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: punpckhqdq {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: psrad $4, %xmm1			; SSE2-NEXT: psrad $4, %xmm3
	; SSE2-NEXT: psrad $3, %xmm0			; SSE2-NEXT: psrad $3, %xmm0
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,3],xmm2[0,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,3],xmm2[0,3]
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32,64,128,256]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32,64,128,256]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: pmuludq %xmm2, %xmm0
	; SSE2-NEXT: pmuludq %xmm2, %xmm1			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
				; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm1[3,3]
				; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
				; SSE2-NEXT: pmuludq %xmm3, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm0, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: combine_vec_shl_ge_ashr_extact1:			; SSE41-LABEL: combine_vec_shl_ge_ashr_extact1:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psrad $8, %xmm1			; SSE41-NEXT: psrad $8, %xmm1
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: psrad $4, %xmm2			; SSE41-NEXT: psrad $4, %xmm2
	Show All 35 Lines
	define <4 x i32> @combine_vec_shl_lt_ashr_extact1(<4 x i32> %x) {			define <4 x i32> @combine_vec_shl_lt_ashr_extact1(<4 x i32> %x) {
	; SSE2-LABEL: combine_vec_shl_lt_ashr_extact1:			; SSE2-LABEL: combine_vec_shl_lt_ashr_extact1:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psrad $8, %xmm1			; SSE2-NEXT: psrad $8, %xmm1
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: psrad $7, %xmm2			; SSE2-NEXT: psrad $7, %xmm2
	; SSE2-NEXT: punpckhqdq {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: punpckhqdq {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: psrad $6, %xmm1			; SSE2-NEXT: psrad $6, %xmm3
	; SSE2-NEXT: psrad $5, %xmm0			; SSE2-NEXT: psrad $5, %xmm0
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,3],xmm2[0,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,3],xmm2[0,3]
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [8,16,32,256]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [8,16,32,256]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: pmuludq %xmm2, %xmm0
	; SSE2-NEXT: pmuludq %xmm2, %xmm1			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
				; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm1[3,3]
				; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
				; SSE2-NEXT: pmuludq %xmm3, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm0, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: combine_vec_shl_lt_ashr_extact1:			; SSE41-LABEL: combine_vec_shl_lt_ashr_extact1:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psrad $8, %xmm1			; SSE41-NEXT: psrad $8, %xmm1
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: psrad $6, %xmm2			; SSE41-NEXT: psrad $6, %xmm2
	Show All 38 Lines
	define <4 x i32> @combine_vec_shl_gt_lshr1(<4 x i32> %x) {			define <4 x i32> @combine_vec_shl_gt_lshr1(<4 x i32> %x) {
	; SSE2-LABEL: combine_vec_shl_gt_lshr1:			; SSE2-LABEL: combine_vec_shl_gt_lshr1:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psrld $8, %xmm1			; SSE2-NEXT: psrld $8, %xmm1
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: psrld $5, %xmm2			; SSE2-NEXT: psrld $5, %xmm2
	; SSE2-NEXT: punpckhqdq {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: punpckhqdq {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: psrld $4, %xmm1			; SSE2-NEXT: psrld $4, %xmm3
	; SSE2-NEXT: psrld $3, %xmm0			; SSE2-NEXT: psrld $3, %xmm0
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,3],xmm2[0,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,3],xmm2[0,3]
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32,64,128,256]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32,64,128,256]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: pmuludq %xmm2, %xmm0
	; SSE2-NEXT: pmuludq %xmm2, %xmm1			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
				; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm1[3,3]
				; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
				; SSE2-NEXT: pmuludq %xmm3, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm0, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: combine_vec_shl_gt_lshr1:			; SSE41-LABEL: combine_vec_shl_gt_lshr1:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psrld $8, %xmm1			; SSE41-NEXT: psrld $8, %xmm1
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: psrld $4, %xmm2			; SSE41-NEXT: psrld $4, %xmm2
	Show All 38 Lines
	define <4 x i32> @combine_vec_shl_le_lshr1(<4 x i32> %x) {			define <4 x i32> @combine_vec_shl_le_lshr1(<4 x i32> %x) {
	; SSE2-LABEL: combine_vec_shl_le_lshr1:			; SSE2-LABEL: combine_vec_shl_le_lshr1:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psrld $8, %xmm1			; SSE2-NEXT: psrld $8, %xmm1
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: psrld $7, %xmm2			; SSE2-NEXT: psrld $7, %xmm2
	; SSE2-NEXT: punpckhqdq {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: punpckhqdq {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: psrld $6, %xmm1			; SSE2-NEXT: psrld $6, %xmm3
	; SSE2-NEXT: psrld $5, %xmm0			; SSE2-NEXT: psrld $5, %xmm0
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,3],xmm2[0,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,3],xmm2[0,3]
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [8,16,32,256]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [8,16,32,256]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: pmuludq %xmm2, %xmm0
	; SSE2-NEXT: pmuludq %xmm2, %xmm1			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
				; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm1[3,3]
				; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
				; SSE2-NEXT: pmuludq %xmm3, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm0, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: combine_vec_shl_le_lshr1:			; SSE41-LABEL: combine_vec_shl_le_lshr1:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psrld $8, %xmm1			; SSE41-NEXT: psrld $8, %xmm1
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: psrld $6, %xmm2			; SSE41-NEXT: psrld $6, %xmm2
	▲ Show 20 Lines • Show All 203 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/extractelement-load.ll

	Show First 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; Case where a load is unary shuffled, then bitcast (to a type with the same			; Case where a load is unary shuffled, then bitcast (to a type with the same
	; number of elements) before extractelement.			; number of elements) before extractelement.
	; This is testing for an assertion - the extraction was assuming that the undef			; This is testing for an assertion - the extraction was assuming that the undef
	; second shuffle operand was a post-bitcast type instead of a pre-bitcast type.			; second shuffle operand was a post-bitcast type instead of a pre-bitcast type.
	define i64 @t4(<2 x double>* %a) {			define i64 @t4(<2 x double>* %a) {
	; X32-SSE2-LABEL: t4:			; X32-SSE2-LABEL: t4:
	; X32-SSE2: # %bb.0:			; X32-SSE2: # %bb.0:
	; X32-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],mem[0]			; X32-SSE2-NEXT: movdqa (%eax), %xmm0
	; X32-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X32-SSE2-NEXT: movd %xmm0, %eax
	; X32-SSE2-NEXT: movd %xmm1, %eax			; X32-SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,0,1]
	; X32-SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; X32-SSE2-NEXT: movd %xmm0, %edx			; X32-SSE2-NEXT: movd %xmm0, %edx
	; X32-SSE2-NEXT: retl			; X32-SSE2-NEXT: retl
	;			;
	; X64-SSSE3-LABEL: t4:			; X64-SSSE3-LABEL: t4:
	; X64-SSSE3: # %bb.0:			; X64-SSSE3: # %bb.0:
	; X64-SSSE3-NEXT: movq (%rdi), %rax			; X64-SSSE3-NEXT: movq (%rdi), %rax
	; X64-SSSE3-NEXT: retq			; X64-SSSE3-NEXT: retq
	;			;
	Show All 11 Lines

llvm/trunk/test/CodeGen/X86/madd.ll

	Show First 20 Lines • Show All 2,071 Lines • ▼ Show 20 Lines
	; Do not select if constant is too large			; Do not select if constant is too large
	define <4 x i32> @pmaddwd_negative2(<8 x i16> %A) {			define <4 x i32> @pmaddwd_negative2(<8 x i16> %A) {
	; SSE2-LABEL: pmaddwd_negative2:			; SSE2-LABEL: pmaddwd_negative2:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE2-NEXT: psrad $16, %xmm1			; SSE2-NEXT: psrad $16, %xmm1
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4,4,5,5,6,6,7,7]
	; SSE2-NEXT: psrad $16, %xmm0			; SSE2-NEXT: psrad $16, %xmm0
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [1,7,42,32]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [1,7,42,32]
	; SSE2-NEXT: pmuludq %xmm2, %xmm0			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[0,2,2,3]			; SSE2-NEXT: pmuludq %xmm2, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [32768,4294934528,0,0]
				; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[1,1,3,3]
				; SSE2-NEXT: pmuludq %xmm2, %xmm6
				; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,2],xmm4[0,2]
	; SSE2-NEXT: pmuludq %xmm3, %xmm0			; SSE2-NEXT: pmuludq %xmm3, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pmuludq %xmm5, %xmm1
	; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm0[0],xmm4[1],xmm0[1]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[0,2]
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,4294934528,0,0]			; SSE2-NEXT: paddd %xmm6, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: pmuludq %xmm2, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm3, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm4[0,2]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3],xmm4[1,3]
	; SSE2-NEXT: paddd %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: pmaddwd_negative2:			; AVX1-LABEL: pmaddwd_negative2:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxwd %xmm1, %xmm1			; AVX1-NEXT: vpmovsxwd %xmm1, %xmm1
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0			; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0
	; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	▲ Show 20 Lines • Show All 564 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/mmx-arith.ll

	Show First 20 Lines • Show All 207 Lines • ▼ Show 20 Lines
	; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X32-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero			; X32-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
	; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1,1,3]			; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; X32-NEXT: paddq %xmm0, %xmm1			; X32-NEXT: paddq %xmm0, %xmm1
	; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]			; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; X32-NEXT: movq %xmm0, (%eax)			; X32-NEXT: movq %xmm0, (%eax)
	; X32-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; X32-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X32-NEXT: movdqa %xmm1, %xmm2			; X32-NEXT: pxor %xmm2, %xmm2
	; X32-NEXT: psrlq $32, %xmm2			; X32-NEXT: pmuludq %xmm1, %xmm2
	; X32-NEXT: pmuludq %xmm0, %xmm2			; X32-NEXT: movdqa %xmm1, %xmm3
	; X32-NEXT: movdqa %xmm0, %xmm3
	; X32-NEXT: psrlq $32, %xmm3			; X32-NEXT: psrlq $32, %xmm3
	; X32-NEXT: pmuludq %xmm1, %xmm3			; X32-NEXT: pmuludq %xmm0, %xmm3
	; X32-NEXT: paddq %xmm2, %xmm3			; X32-NEXT: paddq %xmm2, %xmm3
	; X32-NEXT: psllq $32, %xmm3			; X32-NEXT: psllq $32, %xmm3
	; X32-NEXT: pmuludq %xmm1, %xmm0			; X32-NEXT: pmuludq %xmm1, %xmm0
	; X32-NEXT: paddq %xmm3, %xmm0			; X32-NEXT: paddq %xmm3, %xmm0
	; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]			; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
	; X32-NEXT: movq %xmm1, (%eax)			; X32-NEXT: movq %xmm1, (%eax)
	; X32-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero			; X32-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
	; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1,1,3]			; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1,1,3]
	Show All 19 Lines
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; X64-NEXT: paddq %xmm0, %xmm1			; X64-NEXT: paddq %xmm0, %xmm1
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; X64-NEXT: movq %xmm0, (%rdi)			; X64-NEXT: movq %xmm0, (%rdi)
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-NEXT: movdqa %xmm1, %xmm2			; X64-NEXT: pxor %xmm2, %xmm2
	; X64-NEXT: psrlq $32, %xmm2			; X64-NEXT: pmuludq %xmm1, %xmm2
	; X64-NEXT: pmuludq %xmm0, %xmm2			; X64-NEXT: movdqa %xmm1, %xmm3
	; X64-NEXT: movdqa %xmm0, %xmm3
	; X64-NEXT: psrlq $32, %xmm3			; X64-NEXT: psrlq $32, %xmm3
	; X64-NEXT: pmuludq %xmm1, %xmm3			; X64-NEXT: pmuludq %xmm0, %xmm3
	; X64-NEXT: paddq %xmm2, %xmm3			; X64-NEXT: paddq %xmm2, %xmm3
	; X64-NEXT: psllq $32, %xmm3			; X64-NEXT: psllq $32, %xmm3
	; X64-NEXT: pmuludq %xmm0, %xmm1			; X64-NEXT: pmuludq %xmm0, %xmm1
	; X64-NEXT: paddq %xmm3, %xmm1			; X64-NEXT: paddq %xmm3, %xmm1
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; X64-NEXT: movq %xmm0, (%rdi)			; X64-NEXT: movq %xmm0, (%rdi)
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	▲ Show 20 Lines • Show All 587 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/oddshuffles.ll

Show First 20 Lines • Show All 557 Lines • ▼ Show 20 Lines	; XOP-NEXT: retq
%r = shufflevector <8 x i16> %a, <8 x i16> %b, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>		%r = shufflevector <8 x i16> %a, <8 x i16> %b, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>
store <12 x i16> %r, <12 x i16>* %p		store <12 x i16> %r, <12 x i16>* %p
ret void		ret void
}		}

define void @v12i32(<8 x i32> %a, <8 x i32> %b, <12 x i32>* %p) nounwind {		define void @v12i32(<8 x i32> %a, <8 x i32> %b, <12 x i32>* %p) nounwind {
; SSE2-LABEL: v12i32:		; SSE2-LABEL: v12i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: movaps %xmm2, %xmm3
; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,0],xmm0[1,0]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,1,2,2]		; SSE2-NEXT: movaps %xmm0, %xmm4
; SSE2-NEXT: movaps %xmm2, %xmm4		; SSE2-NEXT: unpcklps {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,0],xmm3[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm3[0,2]
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm4[0,2]		; SSE2-NEXT: movaps %xmm0, %xmm3
; SSE2-NEXT: movaps %xmm2, %xmm4		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,0],xmm1[2,1]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,0],xmm1[1,0]		; SSE2-NEXT: movaps %xmm2, %xmm5
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[2,0],xmm1[2,2]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[1,0],xmm1[1,0]
		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,0],xmm3[0,2]
		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,2],xmm2[3,2]
; SSE2-NEXT: unpckhps {{.*#+}} xmm2 = xmm2[2],xmm0[2],xmm2[3],xmm0[3]		; SSE2-NEXT: unpckhps {{.*#+}} xmm2 = xmm2[2],xmm0[2],xmm2[3],xmm0[3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm4[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,3],xmm1[0,2]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,1],xmm0[0,2]		; SSE2-NEXT: movaps %xmm2, 32(%rdi)
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,3,2,2]		; SSE2-NEXT: movaps %xmm5, 16(%rdi)
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,2],xmm0[3,0]		; SSE2-NEXT: movaps %xmm4, (%rdi)
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
; SSE2-NEXT: movaps %xmm0, 32(%rdi)
; SSE2-NEXT: movaps %xmm4, 16(%rdi)
; SSE2-NEXT: movaps %xmm3, (%rdi)
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: v12i32:		; SSE42-LABEL: v12i32:
; SSE42: # %bb.0:		; SSE42: # %bb.0:
; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,1,1]		; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,1,1]
; SSE42-NEXT: pshufd {{.*#+}} xmm4 = xmm0[0,1,0,1]		; SSE42-NEXT: pshufd {{.*#+}} xmm4 = xmm0[0,1,0,1]
; SSE42-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1],xmm3[2,3],xmm4[4,5,6,7]		; SSE42-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1],xmm3[2,3],xmm4[4,5,6,7]
; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,1,0,1]		; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,1,0,1]
▲ Show 20 Lines • Show All 280 Lines • ▼ Show 20 Lines	; XOP-NEXT: retq
store <8 x i8> %s3, <8 x i8>* %q3, align 4		store <8 x i8> %s3, <8 x i8>* %q3, align 4
ret void		ret void
}		}

define void @interleave_24i8_in(<24 x i8>* %p, <8 x i8>* %q1, <8 x i8>* %q2, <8 x i8>* %q3) nounwind {		define void @interleave_24i8_in(<24 x i8>* %p, <8 x i8>* %q1, <8 x i8>* %q2, <8 x i8>* %q3) nounwind {
; SSE2-LABEL: interleave_24i8_in:		; SSE2-LABEL: interleave_24i8_in:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE2-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
		; SSE2-NEXT: movq {{.*#+}} xmm2 = mem[0],zero
; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]		; SSE2-NEXT: pxor %xmm3, %xmm3
; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
; SSE2-NEXT: pxor %xmm2, %xmm2		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,2,2]
; SSE2-NEXT: movdqa %xmm1, %xmm3
; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,2,2]
; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [65535,65535,0,65535,65535,0,65535,65535]		; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [65535,65535,0,65535,65535,0,65535,65535]
; SSE2-NEXT: pand %xmm5, %xmm4		; SSE2-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm2[8],xmm1[9],xmm2[9],xmm1[10],xmm2[10],xmm1[11],xmm2[11],xmm1[12],xmm2[12],xmm1[13],xmm2[13],xmm1[14],xmm2[14],xmm1[15],xmm2[15]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm1[0,1,3,3,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm2[0,1,3,3,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,4,4,6,7]		; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,4,6,7]
; SSE2-NEXT: pandn %xmm2, %xmm5		; SSE2-NEXT: pandn %xmm3, %xmm5
; SSE2-NEXT: por %xmm4, %xmm5		; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm3, %xmm2		; SSE2-NEXT: movdqa %xmm1, %xmm3
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,1,2,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,1,2,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[0,1,2,2,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[0,1,2,2,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,5,4,5]		; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,7,5,4,5]
; SSE2-NEXT: packuswb %xmm5, %xmm2		; SSE2-NEXT: packuswb %xmm5, %xmm3
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [255,255,0,255,255,0,255,255,0,255,255,0,255,255,0,255]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [255,255,0,255,255,0,255,255,0,255,255,0,255,255,0,255]
; SSE2-NEXT: pand %xmm4, %xmm2		; SSE2-NEXT: pand %xmm4, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,1,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,1,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[0,0,0,3,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[0,0,0,3,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,5,5,6,6]		; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,5,5,6,6]
; SSE2-NEXT: pandn %xmm5, %xmm4		; SSE2-NEXT: pandn %xmm5, %xmm4
; SSE2-NEXT: por %xmm2, %xmm4		; SSE2-NEXT: por %xmm3, %xmm4
; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,1,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,2,3]
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[2,1,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[2,1,1,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,7,6,7]		; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,7,6,7]
; SSE2-NEXT: packuswb %xmm0, %xmm1		; SSE2-NEXT: packuswb %xmm0, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [255,0,255,255,0,255,255,0,255,255,255,255,255,255,255,255]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [255,0,255,255,0,255,255,0,255,255,255,255,255,255,255,255]
; SSE2-NEXT: pand %xmm2, %xmm1		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[2,1,3,3,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[2,1,3,3,4,5,6,7]
; SSE2-NEXT: pandn %xmm0, %xmm2		; SSE2-NEXT: pandn %xmm0, %xmm2
; SSE2-NEXT: por %xmm1, %xmm2		; SSE2-NEXT: por %xmm1, %xmm2
▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: pand %xmm1, %xmm4		; SSE2-NEXT: pand %xmm1, %xmm4
; SSE2-NEXT: pandn %xmm2, %xmm1		; SSE2-NEXT: pandn %xmm2, %xmm1
; SSE2-NEXT: por %xmm4, %xmm1		; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,1,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,1,3]
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,6,5,6,7]		; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,6,5,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,1,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,1,3]
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,3,2,1,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,3,2,1,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,7,6,7]		; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm1[0,1,2,3,4,7,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm8[0,1,2,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm8[0,1,2,1]
; SSE2-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,4,5,6,5]		; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,4,5,6,5]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[3,0],xmm1[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[3,0],xmm4[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm4[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm5[2,0]
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [65535,65535,0,65535,65535,0,65535,65535]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [65535,65535,0,65535,65535,0,65535,65535]
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: movdqa %xmm4, %xmm5
; SSE2-NEXT: pandn %xmm2, %xmm5		; SSE2-NEXT: pandn %xmm2, %xmm5
; SSE2-NEXT: movdqa %xmm3, %xmm6		; SSE2-NEXT: movdqa %xmm3, %xmm6
; SSE2-NEXT: pand %xmm4, %xmm6		; SSE2-NEXT: pand %xmm4, %xmm6
; SSE2-NEXT: por %xmm5, %xmm6		; SSE2-NEXT: por %xmm5, %xmm6
; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm6[2,1,2,3,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm6[2,1,2,3,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,4,5,4,7]		; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,4,5,4,7]
▲ Show 20 Lines • Show All 263 Lines • ▼ Show 20 Lines	; XOP-NEXT: retq
%interleaved = shufflevector <16 x i16> %t1, <16 x i16> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>		%interleaved = shufflevector <16 x i16> %t1, <16 x i16> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>
store <24 x i16> %interleaved, <24 x i16>* %p, align 4		store <24 x i16> %interleaved, <24 x i16>* %p, align 4
ret void		ret void
}		}

define void @interleave_24i32_out(<24 x i32>* %p, <8 x i32>* %q1, <8 x i32>* %q2, <8 x i32>* %q3) nounwind {		define void @interleave_24i32_out(<24 x i32>* %p, <8 x i32>* %q1, <8 x i32>* %q2, <8 x i32>* %q3) nounwind {
; SSE2-LABEL: interleave_24i32_out:		; SSE2-LABEL: interleave_24i32_out:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movups 80(%rdi), %xmm9		; SSE2-NEXT: movups 80(%rdi), %xmm8
; SSE2-NEXT: movups 64(%rdi), %xmm10		; SSE2-NEXT: movups 64(%rdi), %xmm11
; SSE2-NEXT: movups (%rdi), %xmm0		; SSE2-NEXT: movups (%rdi), %xmm0
; SSE2-NEXT: movups 16(%rdi), %xmm11		; SSE2-NEXT: movups 16(%rdi), %xmm10
; SSE2-NEXT: movups 32(%rdi), %xmm8		; SSE2-NEXT: movups 32(%rdi), %xmm9
; SSE2-NEXT: movups 48(%rdi), %xmm2		; SSE2-NEXT: movdqu 48(%rdi), %xmm1
; SSE2-NEXT: movaps %xmm2, %xmm3		; SSE2-NEXT: movaps %xmm0, %xmm6
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,3],xmm10[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,3],xmm10[2,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm2[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm0[2,3,0,1]
; SSE2-NEXT: movaps %xmm9, %xmm6		; SSE2-NEXT: movaps %xmm9, %xmm12
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm10[1,1,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm10[1,1,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm7 = xmm7[0],xmm5[0],xmm7[1],xmm5[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm7 = xmm7[0],xmm3[0],xmm7[1],xmm3[1]
; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,1],xmm9[0,3]		; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,1],xmm9[0,3]
; SSE2-NEXT: shufps {{.*#+}} xmm9 = xmm9[1,0],xmm3[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm9 = xmm9[1,0],xmm6[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm9[2,0]		; SSE2-NEXT: movaps %xmm0, %xmm3
; SSE2-NEXT: movaps %xmm0, %xmm5		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,3],xmm9[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,3],xmm11[2,3]		; SSE2-NEXT: movdqa %xmm1, %xmm6
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm11[1,1,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,3],xmm11[2,3]
; SSE2-NEXT: movaps %xmm8, %xmm4		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm11[1,1,2,3]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm8[0,3]		; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1]
; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[1,0],xmm5[2,0]		; SSE2-NEXT: movaps %xmm8, %xmm5
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,1],xmm8[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm8[0,3]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm11[0,0]		; SSE2-NEXT: shufps {{.*#+}} xmm8 = xmm8[1,0],xmm1[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm11[3,3]		; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,3],xmm8[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[2,0],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,0],xmm11[0,0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm4[2,0]		; SSE2-NEXT: movaps %xmm4, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm10[0,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm11[3,3]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm10[3,3]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,0],xmm1[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[2,0],xmm2[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm6[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm10[0,0]
; SSE2-NEXT: movups %xmm3, 16(%rsi)		; SSE2-NEXT: movaps %xmm0, %xmm1
; SSE2-NEXT: movups %xmm5, (%rsi)		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm10[3,3]
; SSE2-NEXT: movups %xmm2, 16(%rdx)		; SSE2-NEXT: shufps {{.*#+}} xmm12 = xmm12[2,0],xmm1[2,0]
		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm12[2,0]
		; SSE2-NEXT: movups %xmm6, 16(%rsi)
		; SSE2-NEXT: movups %xmm3, (%rsi)
		; SSE2-NEXT: movups %xmm4, 16(%rdx)
; SSE2-NEXT: movups %xmm0, (%rdx)		; SSE2-NEXT: movups %xmm0, (%rdx)
; SSE2-NEXT: movups %xmm7, 16(%rcx)		; SSE2-NEXT: movups %xmm2, 16(%rcx)
; SSE2-NEXT: movups %xmm1, (%rcx)		; SSE2-NEXT: movups %xmm7, (%rcx)
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: interleave_24i32_out:		; SSE42-LABEL: interleave_24i32_out:
; SSE42: # %bb.0:		; SSE42: # %bb.0:
; SSE42-NEXT: movdqu 80(%rdi), %xmm9		; SSE42-NEXT: movdqu 80(%rdi), %xmm9
; SSE42-NEXT: movdqu 64(%rdi), %xmm10		; SSE42-NEXT: movdqu 64(%rdi), %xmm10
; SSE42-NEXT: movdqu (%rdi), %xmm4		; SSE42-NEXT: movdqu (%rdi), %xmm4
; SSE42-NEXT: movdqu 16(%rdi), %xmm2		; SSE42-NEXT: movdqu 16(%rdi), %xmm2
▲ Show 20 Lines • Show All 176 Lines • ▼ Show 20 Lines	; XOP-NEXT: retq
store <8 x i32> %s2, <8 x i32>* %q2, align 4		store <8 x i32> %s2, <8 x i32>* %q2, align 4
store <8 x i32> %s3, <8 x i32>* %q3, align 4		store <8 x i32> %s3, <8 x i32>* %q3, align 4
ret void		ret void
}		}

define void @interleave_24i32_in(<24 x i32>* %p, <8 x i32>* %q1, <8 x i32>* %q2, <8 x i32>* %q3) nounwind {		define void @interleave_24i32_in(<24 x i32>* %p, <8 x i32>* %q1, <8 x i32>* %q2, <8 x i32>* %q3) nounwind {
; SSE2-LABEL: interleave_24i32_in:		; SSE2-LABEL: interleave_24i32_in:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqu (%rsi), %xmm5		; SSE2-NEXT: movups (%rsi), %xmm5
; SSE2-NEXT: movdqu 16(%rsi), %xmm2		; SSE2-NEXT: movups 16(%rsi), %xmm8
; SSE2-NEXT: movdqu (%rdx), %xmm6		; SSE2-NEXT: movups (%rdx), %xmm6
; SSE2-NEXT: movdqu 16(%rdx), %xmm1		; SSE2-NEXT: movups 16(%rdx), %xmm3
; SSE2-NEXT: movups (%rcx), %xmm7		; SSE2-NEXT: movups (%rcx), %xmm0
; SSE2-NEXT: movups 16(%rcx), %xmm4		; SSE2-NEXT: movups 16(%rcx), %xmm4
; SSE2-NEXT: movdqa %xmm5, %xmm0		; SSE2-NEXT: movaps %xmm0, %xmm7
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1]		; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,0],xmm5[1,0]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,2,2]		; SSE2-NEXT: movaps %xmm5, %xmm1
; SSE2-NEXT: movaps %xmm7, %xmm3		; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1]
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,0],xmm0[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm7[0,2]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm3[0,2]		; SSE2-NEXT: movaps %xmm5, %xmm7
; SSE2-NEXT: movaps %xmm7, %xmm3		; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[2,0],xmm6[2,1]
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm6[1,0]		; SSE2-NEXT: movaps %xmm0, %xmm2
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,0],xmm6[2,2]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm6[1,0]
; SSE2-NEXT: unpckhps {{.*#+}} xmm7 = xmm7[2],xmm5[2],xmm7[3],xmm5[3]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm7[0,2]
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,0],xmm3[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[3,2],xmm0[3,2]
; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,1],xmm5[0,2]		; SSE2-NEXT: unpckhps {{.*#+}} xmm0 = xmm0[2],xmm5[2],xmm0[3],xmm5[3]
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[0,3,2,2]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,3],xmm6[0,2]
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[3,2],xmm5[3,0]		; SSE2-NEXT: movaps %xmm4, %xmm5
; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,1],xmm6[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[0,0],xmm8[1,0]
; SSE2-NEXT: movdqa %xmm2, %xmm6		; SSE2-NEXT: movaps %xmm8, %xmm6
; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm1[0],xmm6[1],xmm1[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[0,1,2,2]		; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm5[0,2]
; SSE2-NEXT: movaps %xmm4, %xmm7		; SSE2-NEXT: movaps %xmm8, %xmm5
; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,0],xmm6[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,0],xmm3[2,1]
; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,1],xmm7[0,2]
; SSE2-NEXT: movaps %xmm4, %xmm7		; SSE2-NEXT: movaps %xmm4, %xmm7
; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[1,0],xmm1[1,0]		; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[1,0],xmm3[1,0]
; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[2,0],xmm1[2,2]		; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[2,0],xmm5[0,2]
; SSE2-NEXT: unpckhps {{.*#+}} xmm4 = xmm4[2],xmm2[2],xmm4[3],xmm2[3]		; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,2],xmm4[3,2]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm7[3,0]		; SSE2-NEXT: unpckhps {{.*#+}} xmm4 = xmm4[2],xmm8[2],xmm4[3],xmm8[3]
; SSE2-NEXT: shufps {{.*#+}} xmm7 = xmm7[0,1],xmm2[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,3],xmm3[0,2]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[0,3,2,2]		; SSE2-NEXT: movups %xmm4, 80(%rdi)
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,2],xmm2[3,0]
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[0,2]
; SSE2-NEXT: movups %xmm2, 80(%rdi)
; SSE2-NEXT: movups %xmm7, 64(%rdi)		; SSE2-NEXT: movups %xmm7, 64(%rdi)
; SSE2-NEXT: movups %xmm6, 48(%rdi)		; SSE2-NEXT: movups %xmm6, 48(%rdi)
; SSE2-NEXT: movups %xmm5, 32(%rdi)		; SSE2-NEXT: movups %xmm0, 32(%rdi)
; SSE2-NEXT: movups %xmm3, 16(%rdi)		; SSE2-NEXT: movups %xmm2, 16(%rdi)
; SSE2-NEXT: movups %xmm0, (%rdi)		; SSE2-NEXT: movups %xmm1, (%rdi)
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: interleave_24i32_in:		; SSE42-LABEL: interleave_24i32_in:
; SSE42: # %bb.0:		; SSE42: # %bb.0:
; SSE42-NEXT: movdqu (%rsi), %xmm5		; SSE42-NEXT: movdqu (%rsi), %xmm5
; SSE42-NEXT: movdqu 16(%rsi), %xmm2		; SSE42-NEXT: movdqu 16(%rsi), %xmm2
; SSE42-NEXT: movdqu (%rdx), %xmm6		; SSE42-NEXT: movdqu (%rdx), %xmm6
; SSE42-NEXT: movdqu 16(%rdx), %xmm1		; SSE42-NEXT: movdqu 16(%rdx), %xmm1
▲ Show 20 Lines • Show All 222 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/pmul.ll

Show First 20 Lines • Show All 1,312 Lines • ▼ Show 20 Lines	entry:
%rescast = bitcast <8 x i64> %res64 to <16 x i32>		%rescast = bitcast <8 x i64> %res64 to <16 x i32>
%res = shufflevector <16 x i32> %rescast, <16 x i32> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7,i32 9, i32 11, i32 13, i32 15 >		%res = shufflevector <16 x i32> %rescast, <16 x i32> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7,i32 9, i32 11, i32 13, i32 15 >
ret <8 x i32> %res		ret <8 x i32> %res
}		}

define <8 x i64> @mul_v8i64_sext(<8 x i16> %val1, <8 x i32> %val2) {		define <8 x i64> @mul_v8i64_sext(<8 x i16> %val1, <8 x i32> %val2) {
; SSE2-LABEL: mul_v8i64_sext:		; SSE2-LABEL: mul_v8i64_sext:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm1, %xmm4		; SSE2-NEXT: movdqa %xmm1, %xmm5
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm8
; SSE2-NEXT: punpckhwd {{.*#+}} xmm9 = xmm9[4],xmm0[4],xmm9[5],xmm0[5],xmm9[6],xmm0[6],xmm9[7],xmm0[7]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm6 = xmm6[4],xmm0[4],xmm6[5],xmm0[5],xmm6[6],xmm0[6],xmm6[7],xmm0[7]
; SSE2-NEXT: movdqa %xmm9, %xmm0		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
; SSE2-NEXT: psrad $31, %xmm0
; SSE2-NEXT: psrad $16, %xmm9
; SSE2-NEXT: punpckldq {{.*#+}} xmm9 = xmm9[0],xmm0[0],xmm9[1],xmm0[1]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: psrad $31, %xmm3		; SSE2-NEXT: psrad $31, %xmm3
; SSE2-NEXT: psrad $16, %xmm0		; SSE2-NEXT: psrad $16, %xmm0
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm8 = xmm3[0,2,2,3,4,5,6,7]		; SSE2-NEXT: movdqa %xmm5, %xmm4
; SSE2-NEXT: movdqa %xmm8, %xmm3		; SSE2-NEXT: psrad $31, %xmm4
; SSE2-NEXT: psrad $31, %xmm3		; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
; SSE2-NEXT: psrad $16, %xmm8		; SSE2-NEXT: pxor %xmm7, %xmm7
; SSE2-NEXT: punpckldq {{.*#+}} xmm8 = xmm8[0],xmm3[0],xmm8[1],xmm3[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm7[0],xmm3[1],xmm7[1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm7 = xmm1[0,2,2,3,4,5,6,7]		; SSE2-NEXT: pmuludq %xmm5, %xmm3
; SSE2-NEXT: movdqa %xmm7, %xmm1		; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
; SSE2-NEXT: psrad $31, %xmm1		; SSE2-NEXT: pmuludq %xmm0, %xmm4
; SSE2-NEXT: psrad $16, %xmm7		; SSE2-NEXT: paddq %xmm3, %xmm4
; SSE2-NEXT: punpckldq {{.*#+}} xmm7 = xmm7[0],xmm1[0],xmm7[1],xmm1[1]		; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm8[0,2,2,3,4,5,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[2,3,0,1]		; SSE2-NEXT: pmuludq %xmm5, %xmm0
; SSE2-NEXT: movdqa %xmm3, %xmm1		; SSE2-NEXT: movdqa %xmm3, %xmm5
; SSE2-NEXT: psrad $31, %xmm1
; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
; SSE2-NEXT: movdqa %xmm2, %xmm1
; SSE2-NEXT: psrad $31, %xmm1
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm4[2,3,0,1]
; SSE2-NEXT: movdqa %xmm1, %xmm5
; SSE2-NEXT: psrad $31, %xmm5		; SSE2-NEXT: psrad $31, %xmm5
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1]		; SSE2-NEXT: psrad $16, %xmm3
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1]
		; SSE2-NEXT: psllq $32, %xmm4
		; SSE2-NEXT: paddq %xmm4, %xmm0
		; SSE2-NEXT: movdqa %xmm1, %xmm4
		; SSE2-NEXT: psrad $31, %xmm4
		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]
		; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm7[0],xmm5[1],xmm7[1]
		; SSE2-NEXT: pmuludq %xmm1, %xmm5
		; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
		; SSE2-NEXT: pmuludq %xmm3, %xmm4
		; SSE2-NEXT: paddq %xmm5, %xmm4
		; SSE2-NEXT: movdqa %xmm6, %xmm5
; SSE2-NEXT: psrad $31, %xmm5		; SSE2-NEXT: psrad $31, %xmm5
; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]		; SSE2-NEXT: psrad $16, %xmm6
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1]
; SSE2-NEXT: psrlq $32, %xmm5		; SSE2-NEXT: pmuludq %xmm3, %xmm1
; SSE2-NEXT: pmuludq %xmm0, %xmm5		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[2,3,0,1]
; SSE2-NEXT: movdqa %xmm0, %xmm6		; SSE2-NEXT: psllq $32, %xmm4
; SSE2-NEXT: psrlq $32, %xmm6		; SSE2-NEXT: paddq %xmm4, %xmm1
; SSE2-NEXT: pmuludq %xmm4, %xmm6
; SSE2-NEXT: paddq %xmm5, %xmm6
; SSE2-NEXT: psllq $32, %xmm6
; SSE2-NEXT: pmuludq %xmm4, %xmm0
; SSE2-NEXT: paddq %xmm6, %xmm0
; SSE2-NEXT: movdqa %xmm7, %xmm4
; SSE2-NEXT: psrlq $32, %xmm4
; SSE2-NEXT: pmuludq %xmm1, %xmm4
; SSE2-NEXT: movdqa %xmm1, %xmm5
; SSE2-NEXT: psrlq $32, %xmm5
; SSE2-NEXT: pmuludq %xmm7, %xmm5
; SSE2-NEXT: paddq %xmm4, %xmm5
; SSE2-NEXT: psllq $32, %xmm5
; SSE2-NEXT: pmuludq %xmm7, %xmm1
; SSE2-NEXT: paddq %xmm5, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm4		; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: psrlq $32, %xmm4		; SSE2-NEXT: psrad $31, %xmm4
; SSE2-NEXT: pmuludq %xmm9, %xmm4		; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1]
; SSE2-NEXT: movdqa %xmm9, %xmm5		; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm7[0],xmm5[1],xmm7[1]
; SSE2-NEXT: psrlq $32, %xmm5
; SSE2-NEXT: pmuludq %xmm2, %xmm5		; SSE2-NEXT: pmuludq %xmm2, %xmm5
; SSE2-NEXT: paddq %xmm4, %xmm5		; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
; SSE2-NEXT: psllq $32, %xmm5		; SSE2-NEXT: pmuludq %xmm6, %xmm4
; SSE2-NEXT: pmuludq %xmm9, %xmm2		; SSE2-NEXT: paddq %xmm5, %xmm4
; SSE2-NEXT: paddq %xmm5, %xmm2		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm8[2,3,0,1]
		; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[0,2,2,3,4,5,6,7]
		; SSE2-NEXT: pmuludq %xmm6, %xmm2
		; SSE2-NEXT: movdqa %xmm5, %xmm6
		; SSE2-NEXT: psrad $31, %xmm6
		; SSE2-NEXT: psrad $16, %xmm5
		; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1]
		; SSE2-NEXT: psllq $32, %xmm4
		; SSE2-NEXT: paddq %xmm4, %xmm2
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: psrlq $32, %xmm4		; SSE2-NEXT: psrad $31, %xmm4
; SSE2-NEXT: pmuludq %xmm8, %xmm4		; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]
; SSE2-NEXT: movdqa %xmm8, %xmm5		; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1]
; SSE2-NEXT: psrlq $32, %xmm5		; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
; SSE2-NEXT: pmuludq %xmm3, %xmm5		; SSE2-NEXT: pmuludq %xmm3, %xmm6
; SSE2-NEXT: paddq %xmm4, %xmm5		; SSE2-NEXT: pmuludq %xmm5, %xmm4
; SSE2-NEXT: psllq $32, %xmm5		; SSE2-NEXT: paddq %xmm6, %xmm4
; SSE2-NEXT: pmuludq %xmm8, %xmm3		; SSE2-NEXT: pmuludq %xmm5, %xmm3
; SSE2-NEXT: paddq %xmm5, %xmm3		; SSE2-NEXT: psllq $32, %xmm4
		; SSE2-NEXT: paddq %xmm4, %xmm3
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: mul_v8i64_sext:		; SSE41-LABEL: mul_v8i64_sext:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[3,1,2,3]		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[3,1,2,3]
; SSE41-NEXT: pmovsxwq %xmm3, %xmm4		; SSE41-NEXT: pmovsxwq %xmm3, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
; SSE41-NEXT: pmovsxwq %xmm3, %xmm5		; SSE41-NEXT: pmovsxwq %xmm3, %xmm5
Show All 40 Lines

llvm/trunk/test/CodeGen/X86/pr29112.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx512f \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx512f \| FileCheck %s

	declare <4 x float> @foo(<4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @foo(<4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>, <4 x float>)

	; Due to a bug in X86RegisterInfo::getLargestLegalSuperClass this test case was trying to use XMM16 and spill it without VLX support for the necessary store instruction. We briefly implemented the spill using VEXTRACTF32X4, but the bug in getLargestLegalSuperClass has now been fixed so we no longer use XMM16.			; Due to a bug in X86RegisterInfo::getLargestLegalSuperClass this test case was trying to use XMM16 and spill it without VLX support for the necessary store instruction. We briefly implemented the spill using VEXTRACTF32X4, but the bug in getLargestLegalSuperClass has now been fixed so we no longer use XMM16.

	define <4 x float> @bar(<4 x float>* %a1p, <4 x float>* %a2p, <4 x float> %a3, <4 x float> %a4, <16 x float>%c1, <16 x float>%c2) {			define <4 x float> @bar(<4 x float>* %a1p, <4 x float>* %a2p, <4 x float> %a3, <4 x float> %a4, <16 x float>%c1, <16 x float>%c2) {
	; CHECK-LABEL: bar:			; CHECK-LABEL: bar:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: subq $88, %rsp			; CHECK-NEXT: subq $72, %rsp
	; CHECK-NEXT: .cfi_def_cfa_offset 96			; CHECK-NEXT: .cfi_def_cfa_offset 80
	; CHECK-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm1, %xmm8
	; CHECK-NEXT: vextractf128 $1, %ymm3, %xmm1			; CHECK-NEXT: vextractf128 $1, %ymm3, %xmm1
	; CHECK-NEXT: vextractf128 $1, %ymm2, %xmm8			; CHECK-NEXT: vextractf128 $1, %ymm2, %xmm5
	; CHECK-NEXT: vinsertps {{.*#+}} xmm9 = xmm8[0],xmm1[0],xmm8[2,3]			; CHECK-NEXT: vunpcklps {{.*#+}} xmm10 = xmm5[0],xmm1[0],xmm5[1],xmm1[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm9[0,1],xmm2[1],xmm9[3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm10[0,1],xmm2[1],xmm10[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm15 = xmm0[0,1,2],xmm3[1]			; CHECK-NEXT: vblendps {{.*#+}} xmm9 = xmm5[0],xmm1[1],xmm5[2,3]
	; CHECK-NEXT: vblendps {{.*#+}} xmm4 = xmm8[0],xmm1[1],xmm8[2,3]			; CHECK-NEXT: vmovshdup {{.*#+}} xmm6 = xmm5[1,1,3,3]
				; CHECK-NEXT: vunpcklps {{.*#+}} xmm6 = xmm6[0],xmm1[0],xmm6[1],xmm1[1]
				; CHECK-NEXT: vinsertps {{.*#+}} xmm11 = xmm6[0,1],xmm2[1],xmm6[3]
				; CHECK-NEXT: vextractf32x4 $3, %zmm3, %xmm7
				; CHECK-NEXT: vunpcklps {{.*#+}} xmm4 = xmm5[0],xmm7[0],xmm5[1],xmm7[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm4 = xmm4[0,1],xmm2[1],xmm4[3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm4 = xmm4[0,1],xmm2[1],xmm4[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm6 = xmm4[0,1,2],xmm3[1]			; CHECK-NEXT: vinsertps {{.*#+}} xmm4 = xmm4[0,1,2],xmm3[1]
				; CHECK-NEXT: vinsertps {{.*#+}} xmm6 = xmm11[0,1,2],xmm3[1]
				; CHECK-NEXT: vaddps %xmm4, %xmm6, %xmm12
				; CHECK-NEXT: vpermilpd {{.*#+}} xmm4 = xmm1[1,0]
				; CHECK-NEXT: vinsertps {{.*#+}} xmm7 = xmm5[0],xmm7[2],zero,zero
				; CHECK-NEXT: vinsertps {{.*#+}} xmm7 = xmm7[0,1],xmm2[1],xmm7[3]
				; CHECK-NEXT: vinsertps {{.*#+}} xmm13 = xmm7[0,1,2],xmm4[0]
				; CHECK-NEXT: vpermilps {{.*#+}} xmm4 = xmm2[3,1,2,3]
				; CHECK-NEXT: vunpcklps {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]
				; CHECK-NEXT: vinsertps {{.*#+}} xmm7 = xmm5[0],xmm1[2],zero,zero
				; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm0[0,1,2],xmm3[1]
				; CHECK-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
				; CHECK-NEXT: vinsertps {{.*#+}} xmm5 = xmm9[0,1],xmm2[1],xmm9[3]
				; CHECK-NEXT: vinsertps {{.*#+}} xmm6 = xmm5[0,1,2],xmm3[1]
	; CHECK-NEXT: vmovaps %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: vmovaps %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
				; CHECK-NEXT: vinsertps {{.*#+}} xmm5 = xmm4[0,1],xmm2[1],xmm4[3]
				; CHECK-NEXT: vinsertps {{.*#+}} xmm9 = xmm7[0,1],xmm2[1],xmm7[3]
				; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm10[0,1],xmm2[3],xmm10[3]
	; CHECK-NEXT: vextractf32x4 $2, %zmm3, %xmm4			; CHECK-NEXT: vextractf32x4 $2, %zmm3, %xmm4
	; CHECK-NEXT: vblendps {{.*#+}} xmm4 = xmm0[0,1,2],xmm4[3]			; CHECK-NEXT: vblendps {{.*#+}} xmm4 = xmm0[0,1,2],xmm4[3]
	; CHECK-NEXT: vpermilps {{.*#+}} xmm5 = xmm2[3,1,2,3]
	; CHECK-NEXT: vunpcklps {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1],xmm2[1],xmm5[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1,2],xmm3[1]			; CHECK-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1,2],xmm3[1]
	; CHECK-NEXT: vmovshdup {{.*#+}} xmm7 = xmm8[1,1,3,3]			; CHECK-NEXT: vblendps {{.*#+}} xmm7 = xmm11[0,1,2],xmm3[3]
	; CHECK-NEXT: vunpcklps {{.*#+}} xmm7 = xmm7[0],xmm1[0],xmm7[1],xmm1[1]			; CHECK-NEXT: vblendps {{.*#+}} xmm10 = xmm0[0,1,2],xmm3[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm10 = xmm7[0,1],xmm2[1],xmm7[3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm9[0,1,2],xmm3[1]
	; CHECK-NEXT: vblendps {{.*#+}} xmm7 = xmm10[0,1,2],xmm3[3]			; CHECK-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]
	; CHECK-NEXT: vblendps {{.*#+}} xmm11 = xmm0[0,1,2],xmm3[3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[0]
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm12 = xmm3[1,0]			; CHECK-NEXT: vaddps %xmm0, %xmm2, %xmm2
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm13 = xmm1[1,0]
	; CHECK-NEXT: vextractf32x4 $3, %zmm3, %xmm0
	; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm8[0],xmm0[0],xmm8[2,3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[1],xmm1[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm14 = xmm1[0,1,2],xmm3[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm10[0,1,2],xmm3[1]
	; CHECK-NEXT: vaddps %xmm14, %xmm1, %xmm10
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm8[0],xmm0[0],xmm8[2,3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[1],xmm0[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm13[0]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm8[0],xmm13[0],xmm8[2,3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[1],xmm1[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm3 = xmm1[0,1,2],xmm3[1]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm9[0,1],xmm2[3],xmm9[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm12[0]
	; CHECK-NEXT: vaddps %xmm3, %xmm2, %xmm2
	; CHECK-NEXT: vmovaps %xmm15, %xmm1
	; CHECK-NEXT: vmovaps %xmm15, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vaddps %xmm0, %xmm15, %xmm9
	; CHECK-NEXT: vaddps %xmm15, %xmm15, %xmm8
	; CHECK-NEXT: vaddps %xmm11, %xmm3, %xmm0
	; CHECK-NEXT: vaddps %xmm10, %xmm0, %xmm0			; CHECK-NEXT: vaddps %xmm10, %xmm0, %xmm0
	; CHECK-NEXT: vaddps %xmm0, %xmm15, %xmm0			; CHECK-NEXT: vaddps %xmm13, %xmm1, %xmm9
	; CHECK-NEXT: vmovaps %xmm8, {{[0-9]+}}(%rsp)			; CHECK-NEXT: vaddps %xmm12, %xmm0, %xmm0
				; CHECK-NEXT: vaddps %xmm1, %xmm1, %xmm3
				; CHECK-NEXT: vaddps %xmm0, %xmm1, %xmm0
				; CHECK-NEXT: vmovaps %xmm3, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: vmovaps %xmm9, (%rsp)			; CHECK-NEXT: vmovaps %xmm9, (%rsp)
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Reload			; CHECK-NEXT: vmovaps %xmm8, %xmm3
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: callq foo			; CHECK-NEXT: callq foo
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload			; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; CHECK-NEXT: vaddps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload			; CHECK-NEXT: vaddps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: vaddps %xmm0, %xmm1, %xmm0			; CHECK-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; CHECK-NEXT: addq $88, %rsp			; CHECK-NEXT: addq $72, %rsp
	; CHECK-NEXT: .cfi_def_cfa_offset 8			; CHECK-NEXT: .cfi_def_cfa_offset 8
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%a1 = shufflevector <16 x float>%c1, <16 x float>%c2, <4 x i32> <i32 4, i32 20, i32 1, i32 17>			%a1 = shufflevector <16 x float>%c1, <16 x float>%c2, <4 x i32> <i32 4, i32 20, i32 1, i32 17>

	%a2 = shufflevector <16 x float>%c1, <16 x float>%c2, <4 x i32> <i32 4, i32 21, i32 1, i32 17>			%a2 = shufflevector <16 x float>%c1, <16 x float>%c2, <4 x i32> <i32 4, i32 21, i32 1, i32 17>
	%a5 = shufflevector <16 x float>%c1, <16 x float>%c2, <4 x i32> <i32 4, i32 20, i32 1, i32 27>			%a5 = shufflevector <16 x float>%c1, <16 x float>%c2, <4 x i32> <i32 4, i32 20, i32 1, i32 27>
	%a6 = shufflevector <16 x float>%c1, <16 x float>%c2, <4 x i32> <i32 3, i32 20, i32 1, i32 17>			%a6 = shufflevector <16 x float>%c1, <16 x float>%c2, <4 x i32> <i32 3, i32 20, i32 1, i32 17>
	%a7 = shufflevector <16 x float>%c1, <16 x float>%c2, <4 x i32> <i32 4, i32 21, i32 1, i32 17>			%a7 = shufflevector <16 x float>%c1, <16 x float>%c2, <4 x i32> <i32 4, i32 21, i32 1, i32 17>
	Show All 31 Lines

llvm/trunk/test/CodeGen/X86/pr34592.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx2 -O0 \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx2 -O0 \| FileCheck %s

	define <16 x i64> @pluto(<16 x i64> %arg, <16 x i64> %arg1, <16 x i64> %arg2, <16 x i64> %arg3, <16 x i64> %arg4) {			define <16 x i64> @pluto(<16 x i64> %arg, <16 x i64> %arg1, <16 x i64> %arg2, <16 x i64> %arg3, <16 x i64> %arg4) {
	; CHECK-LABEL: pluto:			; CHECK-LABEL: pluto:
	; CHECK: # %bb.0: # %bb			; CHECK: # %bb.0: # %bb
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: .cfi_def_cfa_offset 16			; CHECK-NEXT: .cfi_def_cfa_offset 16
	; CHECK-NEXT: .cfi_offset %rbp, -16			; CHECK-NEXT: .cfi_offset %rbp, -16
	; CHECK-NEXT: movq %rsp, %rbp			; CHECK-NEXT: movq %rsp, %rbp
	; CHECK-NEXT: .cfi_def_cfa_register %rbp			; CHECK-NEXT: .cfi_def_cfa_register %rbp
	; CHECK-NEXT: andq $-32, %rsp			; CHECK-NEXT: andq $-32, %rsp
	; CHECK-NEXT: subq $320, %rsp # imm = 0x140			; CHECK-NEXT: subq $352, %rsp # imm = 0x160
	; CHECK-NEXT: vmovaps 240(%rbp), %ymm8			; CHECK-NEXT: vmovaps 240(%rbp), %ymm8
	; CHECK-NEXT: vmovaps 208(%rbp), %ymm9			; CHECK-NEXT: vmovaps 208(%rbp), %ymm9
	; CHECK-NEXT: vmovaps 176(%rbp), %ymm10			; CHECK-NEXT: vmovaps 176(%rbp), %ymm10
	; CHECK-NEXT: vmovaps 144(%rbp), %ymm11			; CHECK-NEXT: vmovaps 144(%rbp), %ymm11
	; CHECK-NEXT: vmovaps 112(%rbp), %ymm12			; CHECK-NEXT: vmovaps 112(%rbp), %ymm12
	; CHECK-NEXT: vmovaps 80(%rbp), %ymm13			; CHECK-NEXT: vmovaps 80(%rbp), %ymm13
	; CHECK-NEXT: vmovaps 48(%rbp), %ymm14			; CHECK-NEXT: vmovaps 48(%rbp), %ymm14
	; CHECK-NEXT: vmovaps 16(%rbp), %ymm15			; CHECK-NEXT: vmovaps 16(%rbp), %ymm15
	; CHECK-NEXT: vpblendd {{.*#+}} ymm2 = ymm6[0,1,2,3],ymm2[4,5,6,7]			; CHECK-NEXT: vpblendd {{.*#+}} ymm2 = ymm6[0,1,2,3],ymm2[4,5,6,7]
	; CHECK-NEXT: vxorps %xmm6, %xmm6, %xmm6			; CHECK-NEXT: vxorps %xmm6, %xmm6, %xmm6
	; CHECK-NEXT: vpblendd {{.*#+}} ymm8 = ymm6[0,1],ymm8[2,3,4,5,6,7]			; CHECK-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
				; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm6[0,1],ymm8[2,3,4,5,6,7]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm6 = ymm6[0,1],ymm11[2,3,4,5,6,7]			; CHECK-NEXT: vpblendd {{.*#+}} ymm6 = ymm6[0,1],ymm11[2,3,4,5,6,7]
	; CHECK-NEXT: # kill: def $xmm9 killed $xmm9 killed $ymm9			; CHECK-NEXT: # kill: def $xmm9 killed $xmm9 killed $ymm9
	; CHECK-NEXT: vmovdqa %xmm9, %xmm11			; CHECK-NEXT: vmovdqa %xmm9, %xmm11
	; CHECK-NEXT: # kill: def $ymm11 killed $xmm11			; CHECK-NEXT: # kill: def $ymm11 killed $xmm11
	; CHECK-NEXT: vpalignr {{.*#+}} ymm6 = ymm2[8,9,10,11,12,13,14,15],ymm6[0,1,2,3,4,5,6,7],ymm2[24,25,26,27,28,29,30,31],ymm6[16,17,18,19,20,21,22,23]			; CHECK-NEXT: vpalignr {{.*#+}} ymm6 = ymm2[8,9,10,11,12,13,14,15],ymm6[0,1,2,3,4,5,6,7],ymm2[24,25,26,27,28,29,30,31],ymm6[16,17,18,19,20,21,22,23]
	; CHECK-NEXT: vpermq {{.*#+}} ymm6 = ymm6[2,3,2,0]			; CHECK-NEXT: vpermq {{.*#+}} ymm6 = ymm6[2,3,2,0]
	; CHECK-NEXT: vmovaps %ymm0, {{[0-9]+}}(%rsp) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: # implicit-def: $ymm0			; CHECK-NEXT: # implicit-def: $ymm0
	; CHECK-NEXT: vinserti128 $1, %xmm9, %ymm0, %ymm0			; CHECK-NEXT: vinserti128 $1, %xmm9, %ymm0, %ymm0
	; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm6[0,1,2,3],ymm0[4,5],ymm6[6,7]			; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm6[0,1,2,3],ymm0[4,5],ymm6[6,7]
	; CHECK-NEXT: vmovaps %xmm2, %xmm9			; CHECK-NEXT: vmovaps %xmm2, %xmm9
	; CHECK-NEXT: # implicit-def: $ymm2			; CHECK-NEXT: # implicit-def: $ymm2
	; CHECK-NEXT: vinserti128 $1, %xmm9, %ymm2, %ymm2			; CHECK-NEXT: vinserti128 $1, %xmm9, %ymm2, %ymm2
	; CHECK-NEXT: vpunpcklqdq {{.*#+}} ymm6 = ymm7[0],ymm8[0],ymm7[2],ymm8[2]			; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %ymm6 # 32-byte Reload
				; CHECK-NEXT: vpunpcklqdq {{.*#+}} ymm6 = ymm7[0],ymm6[0],ymm7[2],ymm6[2]
	; CHECK-NEXT: vpermq {{.*#+}} ymm6 = ymm6[2,1,2,3]			; CHECK-NEXT: vpermq {{.*#+}} ymm6 = ymm6[2,1,2,3]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm2 = ymm6[0,1,2,3],ymm2[4,5,6,7]			; CHECK-NEXT: vpblendd {{.*#+}} ymm2 = ymm6[0,1,2,3],ymm2[4,5,6,7]
	; CHECK-NEXT: vmovaps %xmm7, %xmm9			; CHECK-NEXT: vmovaps %xmm7, %xmm9
	; CHECK-NEXT: vpslldq {{.*#+}} xmm9 = zero,zero,zero,zero,zero,zero,zero,zero,xmm9[0,1,2,3,4,5,6,7]			; CHECK-NEXT: vpslldq {{.*#+}} xmm9 = zero,zero,zero,zero,zero,zero,zero,zero,xmm9[0,1,2,3,4,5,6,7]
	; CHECK-NEXT: # implicit-def: $ymm6			; CHECK-NEXT: # implicit-def: $ymm6
	; CHECK-NEXT: vmovaps %xmm9, %xmm6			; CHECK-NEXT: vmovaps %xmm9, %xmm6
	; CHECK-NEXT: vpalignr {{.*#+}} ymm11 = ymm11[8,9,10,11,12,13,14,15],ymm5[0,1,2,3,4,5,6,7],ymm11[24,25,26,27,28,29,30,31],ymm5[16,17,18,19,20,21,22,23]			; CHECK-NEXT: vpalignr {{.*#+}} ymm11 = ymm11[8,9,10,11,12,13,14,15],ymm5[0,1,2,3,4,5,6,7],ymm11[24,25,26,27,28,29,30,31],ymm5[16,17,18,19,20,21,22,23]
	; CHECK-NEXT: vpermq {{.*#+}} ymm11 = ymm11[0,1,0,3]			; CHECK-NEXT: vpermq {{.*#+}} ymm11 = ymm11[0,1,0,3]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm6 = ymm6[0,1,2,3],ymm11[4,5,6,7]			; CHECK-NEXT: vpblendd {{.*#+}} ymm6 = ymm6[0,1,2,3],ymm11[4,5,6,7]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm7 = ymm7[0,1],ymm8[2,3],ymm7[4,5,6,7]			; CHECK-NEXT: vpblendd {{.*#+}} ymm7 = ymm7[0,1],ymm8[2,3],ymm7[4,5,6,7]
	; CHECK-NEXT: vpermq {{.*#+}} ymm7 = ymm7[2,1,1,3]			; CHECK-NEXT: vpermq {{.*#+}} ymm7 = ymm7[2,1,1,3]
	; CHECK-NEXT: vpshufd {{.*#+}} ymm5 = ymm5[0,1,0,1,4,5,4,5]			; CHECK-NEXT: vpshufd {{.*#+}} ymm5 = ymm5[0,1,0,1,4,5,4,5]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm5 = ymm7[0,1,2,3,4,5],ymm5[6,7]			; CHECK-NEXT: vpblendd {{.*#+}} ymm5 = ymm7[0,1,2,3,4,5],ymm5[6,7]
	; CHECK-NEXT: vmovaps %ymm1, {{[0-9]+}}(%rsp) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm5, %ymm1			; CHECK-NEXT: vmovaps %ymm5, %ymm1
	; CHECK-NEXT: vmovaps %ymm3, {{[0-9]+}}(%rsp) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm3, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm6, %ymm3			; CHECK-NEXT: vmovaps %ymm6, %ymm3
	; CHECK-NEXT: vmovaps %ymm15, {{[0-9]+}}(%rsp) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm15, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm10, {{[0-9]+}}(%rsp) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm12, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm13, {{[0-9]+}}(%rsp) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm13, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm12, {{[0-9]+}}(%rsp) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm10, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm4, {{[0-9]+}}(%rsp) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm4, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vmovaps %ymm14, (%rsp) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm14, (%rsp) # 32-byte Spill
	; CHECK-NEXT: movq %rbp, %rsp			; CHECK-NEXT: movq %rbp, %rsp
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: .cfi_def_cfa %rsp, 8			; CHECK-NEXT: .cfi_def_cfa %rsp, 8
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	bb:			bb:
	%tmp = select <16 x i1> <i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 false, i1 false>, <16 x i64> %arg, <16 x i64> %arg1			%tmp = select <16 x i1> <i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 false, i1 false>, <16 x i64> %arg, <16 x i64> %arg1
	%tmp5 = select <16 x i1> <i1 true, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 true, i1 false, i1 true, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false>, <16 x i64> %arg2, <16 x i64> zeroinitializer			%tmp5 = select <16 x i1> <i1 true, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 true, i1 false, i1 true, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false>, <16 x i64> %arg2, <16 x i64> zeroinitializer
	%tmp6 = select <16 x i1> <i1 false, i1 true, i1 true, i1 true, i1 false, i1 false, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 false, i1 true, i1 true, i1 true>, <16 x i64> %arg3, <16 x i64> %tmp5			%tmp6 = select <16 x i1> <i1 false, i1 true, i1 true, i1 true, i1 false, i1 false, i1 false, i1 false, i1 true, i1 true, i1 false, i1 false, i1 false, i1 true, i1 true, i1 true>, <16 x i64> %arg3, <16 x i64> %tmp5
	%tmp7 = shufflevector <16 x i64> %tmp, <16 x i64> %tmp6, <16 x i32> <i32 11, i32 18, i32 24, i32 9, i32 14, i32 29, i32 29, i32 6, i32 14, i32 28, i32 8, i32 9, i32 22, i32 12, i32 25, i32 6>			%tmp7 = shufflevector <16 x i64> %tmp, <16 x i64> %tmp6, <16 x i32> <i32 11, i32 18, i32 24, i32 9, i32 14, i32 29, i32 29, i32 6, i32 14, i32 28, i32 8, i32 9, i32 22, i32 12, i32 25, i32 6>
	ret <16 x i64> %tmp7			ret <16 x i64> %tmp7
	}			}

llvm/trunk/test/CodeGen/X86/sdiv-exact.ll

	Show First 20 Lines • Show All 221 Lines • ▼ Show 20 Lines
	; X86-LABEL: test8:			; X86-LABEL: test8:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-NEXT: movd %xmm1, %eax			; X86-NEXT: movd %xmm1, %eax
	; X86-NEXT: sarl $3, %eax			; X86-NEXT: sarl $3, %eax
	; X86-NEXT: imull $-1431655765, %eax, %eax # imm = 0xAAAAAAAB			; X86-NEXT: imull $-1431655765, %eax, %eax # imm = 0xAAAAAAAB
	; X86-NEXT: movd %eax, %xmm1			; X86-NEXT: movd %eax, %xmm1
	; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]			; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]
	; X86-NEXT: pshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]			; X86-NEXT: movaps %xmm0, %xmm2
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]			; X86-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[0,2]
	; X86-NEXT: movd %xmm2, %eax			; X86-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]
				; X86-NEXT: movd %xmm1, %eax
	; X86-NEXT: sarl $3, %eax			; X86-NEXT: sarl $3, %eax
	; X86-NEXT: imull $-1431655765, %eax, %eax # imm = 0xAAAAAAAB			; X86-NEXT: imull $-1431655765, %eax, %eax # imm = 0xAAAAAAAB
	; X86-NEXT: movd %eax, %xmm1			; X86-NEXT: movd %eax, %xmm1
	; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]			; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm2[2,0]
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]			; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test8:			; X64-LABEL: test8:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vpextrd $2, %xmm0, %eax			; X64-NEXT: vpextrd $2, %xmm0, %eax
	; X64-NEXT: sarl $3, %eax			; X64-NEXT: sarl $3, %eax
	; X64-NEXT: imull $-1431655765, %eax, %eax # imm = 0xAAAAAAAB			; X64-NEXT: imull $-1431655765, %eax, %eax # imm = 0xAAAAAAAB
	Show All 9 Lines

llvm/trunk/test/CodeGen/X86/shrink_vmul.ll

	Show First 20 Lines • Show All 1,229 Lines • ▼ Show 20 Lines
	; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]			; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
	; X86-SSE-NEXT: psrad $16, %xmm0			; X86-SSE-NEXT: psrad $16, %xmm0
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X86-SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: pxor %xmm2, %xmm2			; X86-SSE-NEXT: pxor %xmm2, %xmm2
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; X86-SSE-NEXT: movdqa %xmm1, %xmm2			; X86-SSE-NEXT: movdqa %xmm1, %xmm3
	; X86-SSE-NEXT: psrlq $32, %xmm2			; X86-SSE-NEXT: pmuludq %xmm0, %xmm3
				; X86-SSE-NEXT: pmuludq %xmm2, %xmm1
	; X86-SSE-NEXT: pmuludq %xmm0, %xmm2			; X86-SSE-NEXT: pmuludq %xmm0, %xmm2
	; X86-SSE-NEXT: movdqa %xmm0, %xmm3			; X86-SSE-NEXT: paddq %xmm1, %xmm2
	; X86-SSE-NEXT: psrlq $32, %xmm3			; X86-SSE-NEXT: psllq $32, %xmm2
	; X86-SSE-NEXT: pmuludq %xmm1, %xmm3			; X86-SSE-NEXT: paddq %xmm3, %xmm2
	; X86-SSE-NEXT: paddq %xmm2, %xmm3			; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; X86-SSE-NEXT: psllq $32, %xmm3
	; X86-SSE-NEXT: pmuludq %xmm0, %xmm1
	; X86-SSE-NEXT: paddq %xmm3, %xmm1
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; X86-SSE-NEXT: movq %xmm0, (%esi,%ecx,4)			; X86-SSE-NEXT: movq %xmm0, (%esi,%ecx,4)
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: .cfi_def_cfa_offset 4			; X86-SSE-NEXT: .cfi_def_cfa_offset 4
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi16_sext_zext:			; X86-AVX-LABEL: mul_2xi16_sext_zext:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: pushl %esi			; X86-AVX-NEXT: pushl %esi
	Show All 20 Lines
	; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]			; X64-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
	; X64-SSE-NEXT: psrad $16, %xmm0			; X64-SSE-NEXT: psrad $16, %xmm0
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: pxor %xmm2, %xmm2			; X64-SSE-NEXT: pxor %xmm2, %xmm2
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
	; X64-SSE-NEXT: movdqa %xmm1, %xmm2			; X64-SSE-NEXT: movdqa %xmm1, %xmm3
	; X64-SSE-NEXT: psrlq $32, %xmm2			; X64-SSE-NEXT: pmuludq %xmm0, %xmm3
				; X64-SSE-NEXT: pmuludq %xmm2, %xmm1
	; X64-SSE-NEXT: pmuludq %xmm0, %xmm2			; X64-SSE-NEXT: pmuludq %xmm0, %xmm2
	; X64-SSE-NEXT: movdqa %xmm0, %xmm3			; X64-SSE-NEXT: paddq %xmm1, %xmm2
	; X64-SSE-NEXT: psrlq $32, %xmm3			; X64-SSE-NEXT: psllq $32, %xmm2
	; X64-SSE-NEXT: pmuludq %xmm1, %xmm3			; X64-SSE-NEXT: paddq %xmm3, %xmm2
	; X64-SSE-NEXT: paddq %xmm2, %xmm3			; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; X64-SSE-NEXT: psllq $32, %xmm3
	; X64-SSE-NEXT: pmuludq %xmm0, %xmm1
	; X64-SSE-NEXT: paddq %xmm3, %xmm1
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rdx,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rdx,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi16_sext_zext:			; X64-AVX-LABEL: mul_2xi16_sext_zext:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovsxwq (%rdi,%rdx), %xmm0			; X64-AVX-NEXT: vpmovsxwq (%rdi,%rdx), %xmm0
	; X64-AVX-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-AVX-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	▲ Show 20 Lines • Show All 750 Lines • ▼ Show 20 Lines
	; X86-SSE: # %bb.0: # %entry			; X86-SSE: # %bb.0: # %entry
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-SSE-NEXT: movl c, %edx			; X86-SSE-NEXT: movl c, %edx
	; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: pxor %xmm1, %xmm1			; X86-SSE-NEXT: pxor %xmm1, %xmm1
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X86-SSE-NEXT: movdqa {{.*#+}} xmm1 = [0,0,65536,0]			; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = [0,0,65536,0]
	; X86-SSE-NEXT: movdqa %xmm0, %xmm2			; X86-SSE-NEXT: pmuludq %xmm2, %xmm0
	; X86-SSE-NEXT: pmuludq %xmm1, %xmm2			; X86-SSE-NEXT: pmuludq %xmm2, %xmm1
	; X86-SSE-NEXT: psrlq $32, %xmm0			; X86-SSE-NEXT: psllq $32, %xmm1
	; X86-SSE-NEXT: pmuludq %xmm1, %xmm0			; X86-SSE-NEXT: paddq %xmm0, %xmm1
	; X86-SSE-NEXT: psllq $32, %xmm0			; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; X86-SSE-NEXT: paddq %xmm2, %xmm0
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi16_varconst3:			; X86-AVX-LABEL: mul_2xi16_varconst3:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; X86-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; X86-AVX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero			; X86-AVX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi16_varconst3:			; X64-SSE-LABEL: mul_2xi16_varconst3:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: pxor %xmm1, %xmm1			; X64-SSE-NEXT: pxor %xmm1, %xmm1
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-SSE-NEXT: movl $65536, %ecx # imm = 0x10000			; X64-SSE-NEXT: movl $65536, %ecx # imm = 0x10000
	; X64-SSE-NEXT: movq %rcx, %xmm1			; X64-SSE-NEXT: movq %rcx, %xmm2
	; X64-SSE-NEXT: pslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]			; X64-SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]
	; X64-SSE-NEXT: movdqa %xmm0, %xmm2			; X64-SSE-NEXT: pmuludq %xmm2, %xmm0
	; X64-SSE-NEXT: pmuludq %xmm1, %xmm2			; X64-SSE-NEXT: pmuludq %xmm1, %xmm2
	; X64-SSE-NEXT: psrlq $32, %xmm0			; X64-SSE-NEXT: psllq $32, %xmm2
	; X64-SSE-NEXT: pmuludq %xmm1, %xmm0			; X64-SSE-NEXT: paddq %xmm0, %xmm2
	; X64-SSE-NEXT: psllq $32, %xmm0			; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; X64-SSE-NEXT: paddq %xmm2, %xmm0
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi16_varconst3:			; X64-AVX-LABEL: mul_2xi16_varconst3:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; X64-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	Show All 29 Lines
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-SSE-NEXT: movl c, %edx			; X86-SSE-NEXT: movl c, %edx
	; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]			; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
	; X86-SSE-NEXT: psrad $16, %xmm0			; X86-SSE-NEXT: psrad $16, %xmm0
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X86-SSE-NEXT: movdqa {{.*#+}} xmm1 = [0,0,32768,0]			; X86-SSE-NEXT: movdqa {{.*#+}} xmm1 = [0,0,32768,0]
	; X86-SSE-NEXT: movdqa %xmm0, %xmm2
	; X86-SSE-NEXT: pmuludq %xmm1, %xmm2
	; X86-SSE-NEXT: psrlq $32, %xmm0
	; X86-SSE-NEXT: pmuludq %xmm1, %xmm0			; X86-SSE-NEXT: pmuludq %xmm1, %xmm0
	; X86-SSE-NEXT: psllq $32, %xmm0			; X86-SSE-NEXT: pxor %xmm2, %xmm2
	; X86-SSE-NEXT: paddq %xmm2, %xmm0			; X86-SSE-NEXT: pmuludq %xmm1, %xmm2
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X86-SSE-NEXT: psllq $32, %xmm2
				; X86-SSE-NEXT: paddq %xmm0, %xmm2
				; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi16_varconst4:			; X86-AVX-LABEL: mul_2xi16_varconst4:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vpmovsxwq (%ecx,%eax), %xmm0			; X86-AVX-NEXT: vpmovsxwq (%ecx,%eax), %xmm0
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi16_varconst4:			; X64-SSE-LABEL: mul_2xi16_varconst4:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]			; X64-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
	; X64-SSE-NEXT: psrad $16, %xmm0			; X64-SSE-NEXT: psrad $16, %xmm0
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-SSE-NEXT: movl $32768, %ecx # imm = 0x8000			; X64-SSE-NEXT: movl $32768, %ecx # imm = 0x8000
	; X64-SSE-NEXT: movq %rcx, %xmm1			; X64-SSE-NEXT: movq %rcx, %xmm1
	; X64-SSE-NEXT: pslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]			; X64-SSE-NEXT: pslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]
	; X64-SSE-NEXT: movdqa %xmm0, %xmm2
	; X64-SSE-NEXT: pmuludq %xmm1, %xmm2
	; X64-SSE-NEXT: psrlq $32, %xmm0
	; X64-SSE-NEXT: pmuludq %xmm1, %xmm0			; X64-SSE-NEXT: pmuludq %xmm1, %xmm0
	; X64-SSE-NEXT: psllq $32, %xmm0			; X64-SSE-NEXT: pxor %xmm2, %xmm2
	; X64-SSE-NEXT: paddq %xmm2, %xmm0			; X64-SSE-NEXT: pmuludq %xmm1, %xmm2
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X64-SSE-NEXT: psllq $32, %xmm2
				; X64-SSE-NEXT: paddq %xmm0, %xmm2
				; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi16_varconst4:			; X64-AVX-LABEL: mul_2xi16_varconst4:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovsxwq (%rdi,%rsi), %xmm0			; X64-AVX-NEXT: vpmovsxwq (%rdi,%rsi), %xmm0
	; X64-AVX-NEXT: movl $32768, %ecx # imm = 0x8000			; X64-AVX-NEXT: movl $32768, %ecx # imm = 0x8000
	▲ Show 20 Lines • Show All 409 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/sse2-schedule.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 14,997 Lines • ▼ Show 20 Lines	; ZNVER1-NEXT: retq # sched: [1:0.50]
%3 = shufflevector <2 x double> %a1, <2 x double> %2, <2 x i32> <i32 1, i32 3>		%3 = shufflevector <2 x double> %a1, <2 x double> %2, <2 x i32> <i32 1, i32 3>
%4 = fadd <2 x double> %1, %3		%4 = fadd <2 x double> %1, %3
ret <2 x double> %4		ret <2 x double> %4
}		}

define <2 x double> @test_unpcklpd(<2 x double> %a0, <2 x double> %a1, <2 x double> *%a2) {		define <2 x double> @test_unpcklpd(<2 x double> %a0, <2 x double> %a1, <2 x double> *%a2) {
; GENERIC-LABEL: test_unpcklpd:		; GENERIC-LABEL: test_unpcklpd:
; GENERIC: # %bb.0:		; GENERIC: # %bb.0:
; GENERIC-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; GENERIC-NEXT: movapd %xmm0, %xmm2 # sched: [1:1.00]
; GENERIC-NEXT: movapd %xmm0, %xmm1 # sched: [1:1.00]		; GENERIC-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0] sched: [1:1.00]
; GENERIC-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0] sched: [7:1.00]		; GENERIC-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [7:1.00]
; GENERIC-NEXT: addpd %xmm0, %xmm1 # sched: [3:1.00]		; GENERIC-NEXT: addpd %xmm2, %xmm0 # sched: [3:1.00]
; GENERIC-NEXT: movapd %xmm1, %xmm0 # sched: [1:1.00]
; GENERIC-NEXT: retq # sched: [1:1.00]		; GENERIC-NEXT: retq # sched: [1:1.00]
;		;
; ATOM-LABEL: test_unpcklpd:		; ATOM-LABEL: test_unpcklpd:
; ATOM: # %bb.0:		; ATOM: # %bb.0:
; ATOM-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; ATOM-NEXT: movapd %xmm0, %xmm2 # sched: [1:0.50]
; ATOM-NEXT: movapd %xmm0, %xmm1 # sched: [1:0.50]		; ATOM-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [1:1.00]
; ATOM-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0] sched: [1:1.00]		; ATOM-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0] sched: [1:1.00]
; ATOM-NEXT: addpd %xmm0, %xmm1 # sched: [6:3.00]		; ATOM-NEXT: addpd %xmm2, %xmm0 # sched: [6:3.00]
; ATOM-NEXT: movapd %xmm1, %xmm0 # sched: [1:0.50]
; ATOM-NEXT: retq # sched: [79:39.50]		; ATOM-NEXT: retq # sched: [79:39.50]
;		;
; SLM-LABEL: test_unpcklpd:		; SLM-LABEL: test_unpcklpd:
; SLM: # %bb.0:		; SLM: # %bb.0:
; SLM-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; SLM-NEXT: movapd %xmm0, %xmm2 # sched: [1:0.50]
; SLM-NEXT: movapd %xmm0, %xmm1 # sched: [1:0.50]		; SLM-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [4:1.00]
; SLM-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0] sched: [4:1.00]		; SLM-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0] sched: [1:1.00]
; SLM-NEXT: addpd %xmm0, %xmm1 # sched: [3:1.00]		; SLM-NEXT: addpd %xmm2, %xmm0 # sched: [3:1.00]
; SLM-NEXT: movapd %xmm1, %xmm0 # sched: [1:0.50]
; SLM-NEXT: retq # sched: [4:1.00]		; SLM-NEXT: retq # sched: [4:1.00]
;		;
; SANDY-SSE-LABEL: test_unpcklpd:		; SANDY-SSE-LABEL: test_unpcklpd:
; SANDY-SSE: # %bb.0:		; SANDY-SSE: # %bb.0:
; SANDY-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; SANDY-SSE-NEXT: movapd %xmm0, %xmm2 # sched: [1:1.00]
; SANDY-SSE-NEXT: movapd %xmm0, %xmm1 # sched: [1:1.00]		; SANDY-SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0] sched: [1:1.00]
; SANDY-SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0] sched: [7:1.00]		; SANDY-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [7:1.00]
; SANDY-SSE-NEXT: addpd %xmm0, %xmm1 # sched: [3:1.00]		; SANDY-SSE-NEXT: addpd %xmm2, %xmm0 # sched: [3:1.00]
; SANDY-SSE-NEXT: movapd %xmm1, %xmm0 # sched: [1:1.00]
; SANDY-SSE-NEXT: retq # sched: [1:1.00]		; SANDY-SSE-NEXT: retq # sched: [1:1.00]
;		;
; SANDY-LABEL: test_unpcklpd:		; SANDY-LABEL: test_unpcklpd:
; SANDY: # %bb.0:		; SANDY: # %bb.0:
; SANDY-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; SANDY-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],xmm1[0] sched: [1:1.00]
; SANDY-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],mem[0] sched: [7:1.00]		; SANDY-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [7:1.00]
; SANDY-NEXT: vaddpd %xmm1, %xmm0, %xmm0 # sched: [3:1.00]		; SANDY-NEXT: vaddpd %xmm0, %xmm1, %xmm0 # sched: [3:1.00]
; SANDY-NEXT: retq # sched: [1:1.00]		; SANDY-NEXT: retq # sched: [1:1.00]
;		;
; HASWELL-SSE-LABEL: test_unpcklpd:		; HASWELL-SSE-LABEL: test_unpcklpd:
; HASWELL-SSE: # %bb.0:		; HASWELL-SSE: # %bb.0:
; HASWELL-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; HASWELL-SSE-NEXT: movapd %xmm0, %xmm2 # sched: [1:1.00]
; HASWELL-SSE-NEXT: movapd %xmm0, %xmm1 # sched: [1:1.00]		; HASWELL-SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0] sched: [1:1.00]
; HASWELL-SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0] sched: [7:1.00]		; HASWELL-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [7:1.00]
; HASWELL-SSE-NEXT: addpd %xmm0, %xmm1 # sched: [3:1.00]		; HASWELL-SSE-NEXT: addpd %xmm2, %xmm0 # sched: [3:1.00]
; HASWELL-SSE-NEXT: movapd %xmm1, %xmm0 # sched: [1:1.00]
; HASWELL-SSE-NEXT: retq # sched: [7:1.00]		; HASWELL-SSE-NEXT: retq # sched: [7:1.00]
;		;
; HASWELL-LABEL: test_unpcklpd:		; HASWELL-LABEL: test_unpcklpd:
; HASWELL: # %bb.0:		; HASWELL: # %bb.0:
; HASWELL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; HASWELL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],xmm1[0] sched: [1:1.00]
; HASWELL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],mem[0] sched: [7:1.00]		; HASWELL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [7:1.00]
; HASWELL-NEXT: vaddpd %xmm1, %xmm0, %xmm0 # sched: [3:1.00]		; HASWELL-NEXT: vaddpd %xmm0, %xmm1, %xmm0 # sched: [3:1.00]
; HASWELL-NEXT: retq # sched: [7:1.00]		; HASWELL-NEXT: retq # sched: [7:1.00]
;		;
; BROADWELL-SSE-LABEL: test_unpcklpd:		; BROADWELL-SSE-LABEL: test_unpcklpd:
; BROADWELL-SSE: # %bb.0:		; BROADWELL-SSE: # %bb.0:
; BROADWELL-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; BROADWELL-SSE-NEXT: movapd %xmm0, %xmm2 # sched: [1:1.00]
; BROADWELL-SSE-NEXT: movapd %xmm0, %xmm1 # sched: [1:1.00]		; BROADWELL-SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0] sched: [1:1.00]
; BROADWELL-SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0] sched: [6:1.00]		; BROADWELL-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [6:1.00]
; BROADWELL-SSE-NEXT: addpd %xmm0, %xmm1 # sched: [3:1.00]		; BROADWELL-SSE-NEXT: addpd %xmm2, %xmm0 # sched: [3:1.00]
; BROADWELL-SSE-NEXT: movapd %xmm1, %xmm0 # sched: [1:1.00]
; BROADWELL-SSE-NEXT: retq # sched: [7:1.00]		; BROADWELL-SSE-NEXT: retq # sched: [7:1.00]
;		;
; BROADWELL-LABEL: test_unpcklpd:		; BROADWELL-LABEL: test_unpcklpd:
; BROADWELL: # %bb.0:		; BROADWELL: # %bb.0:
; BROADWELL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; BROADWELL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],xmm1[0] sched: [1:1.00]
; BROADWELL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],mem[0] sched: [6:1.00]		; BROADWELL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [6:1.00]
; BROADWELL-NEXT: vaddpd %xmm1, %xmm0, %xmm0 # sched: [3:1.00]		; BROADWELL-NEXT: vaddpd %xmm0, %xmm1, %xmm0 # sched: [3:1.00]
; BROADWELL-NEXT: retq # sched: [7:1.00]		; BROADWELL-NEXT: retq # sched: [7:1.00]
;		;
; SKYLAKE-SSE-LABEL: test_unpcklpd:		; SKYLAKE-SSE-LABEL: test_unpcklpd:
; SKYLAKE-SSE: # %bb.0:		; SKYLAKE-SSE: # %bb.0:
; SKYLAKE-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; SKYLAKE-SSE-NEXT: movapd %xmm0, %xmm2 # sched: [1:0.33]
; SKYLAKE-SSE-NEXT: movapd %xmm0, %xmm1 # sched: [1:0.33]		; SKYLAKE-SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0] sched: [1:1.00]
; SKYLAKE-SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0] sched: [7:1.00]		; SKYLAKE-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [7:1.00]
; SKYLAKE-SSE-NEXT: addpd %xmm0, %xmm1 # sched: [4:0.50]		; SKYLAKE-SSE-NEXT: addpd %xmm2, %xmm0 # sched: [4:0.50]
; SKYLAKE-SSE-NEXT: movapd %xmm1, %xmm0 # sched: [1:0.33]
; SKYLAKE-SSE-NEXT: retq # sched: [7:1.00]		; SKYLAKE-SSE-NEXT: retq # sched: [7:1.00]
;		;
; SKYLAKE-LABEL: test_unpcklpd:		; SKYLAKE-LABEL: test_unpcklpd:
; SKYLAKE: # %bb.0:		; SKYLAKE: # %bb.0:
; SKYLAKE-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; SKYLAKE-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],xmm1[0] sched: [1:1.00]
; SKYLAKE-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],mem[0] sched: [7:1.00]		; SKYLAKE-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [7:1.00]
; SKYLAKE-NEXT: vaddpd %xmm1, %xmm0, %xmm0 # sched: [4:0.50]		; SKYLAKE-NEXT: vaddpd %xmm0, %xmm1, %xmm0 # sched: [4:0.50]
; SKYLAKE-NEXT: retq # sched: [7:1.00]		; SKYLAKE-NEXT: retq # sched: [7:1.00]
;		;
; SKX-SSE-LABEL: test_unpcklpd:		; SKX-SSE-LABEL: test_unpcklpd:
; SKX-SSE: # %bb.0:		; SKX-SSE: # %bb.0:
; SKX-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; SKX-SSE-NEXT: movapd %xmm0, %xmm2 # sched: [1:0.33]
; SKX-SSE-NEXT: movapd %xmm0, %xmm1 # sched: [1:0.33]		; SKX-SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0] sched: [1:1.00]
; SKX-SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0] sched: [7:1.00]		; SKX-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [7:1.00]
; SKX-SSE-NEXT: addpd %xmm0, %xmm1 # sched: [4:0.50]		; SKX-SSE-NEXT: addpd %xmm2, %xmm0 # sched: [4:0.50]
; SKX-SSE-NEXT: movapd %xmm1, %xmm0 # sched: [1:0.33]
; SKX-SSE-NEXT: retq # sched: [7:1.00]		; SKX-SSE-NEXT: retq # sched: [7:1.00]
;		;
; SKX-LABEL: test_unpcklpd:		; SKX-LABEL: test_unpcklpd:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:1.00]		; SKX-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],xmm1[0] sched: [1:1.00]
; SKX-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],mem[0] sched: [7:1.00]		; SKX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [7:1.00]
; SKX-NEXT: vaddpd %xmm1, %xmm0, %xmm0 # sched: [4:0.50]		; SKX-NEXT: vaddpd %xmm0, %xmm1, %xmm0 # sched: [4:0.50]
; SKX-NEXT: retq # sched: [7:1.00]		; SKX-NEXT: retq # sched: [7:1.00]
;		;
; BTVER2-SSE-LABEL: test_unpcklpd:		; BTVER2-SSE-LABEL: test_unpcklpd:
; BTVER2-SSE: # %bb.0:		; BTVER2-SSE: # %bb.0:
; BTVER2-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:0.50]		; BTVER2-SSE-NEXT: movapd %xmm0, %xmm2 # sched: [1:0.50]
; BTVER2-SSE-NEXT: movapd %xmm0, %xmm1 # sched: [1:0.50]		; BTVER2-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [6:1.00]
; BTVER2-SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0] sched: [6:1.00]		; BTVER2-SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0] sched: [1:0.50]
; BTVER2-SSE-NEXT: addpd %xmm0, %xmm1 # sched: [3:1.00]		; BTVER2-SSE-NEXT: addpd %xmm2, %xmm0 # sched: [3:1.00]
; BTVER2-SSE-NEXT: movapd %xmm1, %xmm0 # sched: [1:0.50]
; BTVER2-SSE-NEXT: retq # sched: [4:1.00]		; BTVER2-SSE-NEXT: retq # sched: [4:1.00]
;		;
; BTVER2-LABEL: test_unpcklpd:		; BTVER2-LABEL: test_unpcklpd:
; BTVER2: # %bb.0:		; BTVER2: # %bb.0:
; BTVER2-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:0.50]		; BTVER2-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],xmm1[0] sched: [1:0.50]
; BTVER2-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],mem[0] sched: [6:1.00]		; BTVER2-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [6:1.00]
; BTVER2-NEXT: vaddpd %xmm1, %xmm0, %xmm0 # sched: [3:1.00]		; BTVER2-NEXT: vaddpd %xmm0, %xmm1, %xmm0 # sched: [3:1.00]
; BTVER2-NEXT: retq # sched: [4:1.00]		; BTVER2-NEXT: retq # sched: [4:1.00]
;		;
; ZNVER1-SSE-LABEL: test_unpcklpd:		; ZNVER1-SSE-LABEL: test_unpcklpd:
; ZNVER1-SSE: # %bb.0:		; ZNVER1-SSE: # %bb.0:
; ZNVER1-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:0.50]		; ZNVER1-SSE-NEXT: movapd %xmm0, %xmm2 # sched: [1:0.25]
; ZNVER1-SSE-NEXT: movapd %xmm0, %xmm1 # sched: [1:0.25]		; ZNVER1-SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [8:0.50]
; ZNVER1-SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],mem[0] sched: [8:0.50]		; ZNVER1-SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0] sched: [1:0.50]
; ZNVER1-SSE-NEXT: addpd %xmm0, %xmm1 # sched: [3:1.00]		; ZNVER1-SSE-NEXT: addpd %xmm2, %xmm0 # sched: [3:1.00]
; ZNVER1-SSE-NEXT: movapd %xmm1, %xmm0 # sched: [1:0.25]
; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]		; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]
;		;
; ZNVER1-LABEL: test_unpcklpd:		; ZNVER1-LABEL: test_unpcklpd:
; ZNVER1: # %bb.0:		; ZNVER1: # %bb.0:
; ZNVER1-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0] sched: [1:0.50]		; ZNVER1-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],xmm1[0] sched: [1:0.50]
; ZNVER1-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm0[0],mem[0] sched: [8:0.50]		; ZNVER1-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],mem[0] sched: [8:0.50]
; ZNVER1-NEXT: vaddpd %xmm1, %xmm0, %xmm0 # sched: [3:1.00]		; ZNVER1-NEXT: vaddpd %xmm0, %xmm1, %xmm0 # sched: [3:1.00]
; ZNVER1-NEXT: retq # sched: [1:0.50]		; ZNVER1-NEXT: retq # sched: [1:0.50]
%1 = shufflevector <2 x double> %a0, <2 x double> %a1, <2 x i32> <i32 0, i32 2>		%1 = shufflevector <2 x double> %a0, <2 x double> %a1, <2 x i32> <i32 0, i32 2>
%2 = load <2 x double>, <2 x double> *%a2, align 16		%2 = load <2 x double>, <2 x double> *%a2, align 16
%3 = shufflevector <2 x double> %1, <2 x double> %2, <2 x i32> <i32 0, i32 2>		%3 = shufflevector <2 x double> %1, <2 x double> %2, <2 x i32> <i32 0, i32 2>
%4 = fadd <2 x double> %1, %3		%4 = fadd <2 x double> %1, %3
ret <2 x double> %4		ret <2 x double> %4
}		}

▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/sse41-intrinsics-fast-isel.ll

Show First 20 Lines • Show All 826 Lines • ▼ Show 20 Lines	; AVX-NEXT: ret{{[l\|q]}}
%bc = bitcast <8 x i16> %res to <2 x i64>		%bc = bitcast <8 x i16> %res to <2 x i64>
ret <2 x i64> %bc		ret <2 x i64> %bc
}		}
declare <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8>, <16 x i8>, i8) nounwind readnone		declare <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8>, <16 x i8>, i8) nounwind readnone

define <2 x i64> @test_mm_mul_epi32(<2 x i64> %a0, <2 x i64> %a1) {		define <2 x i64> @test_mm_mul_epi32(<2 x i64> %a0, <2 x i64> %a1) {
; SSE-LABEL: test_mm_mul_epi32:		; SSE-LABEL: test_mm_mul_epi32:
; SSE: # %bb.0:		; SSE: # %bb.0:
		; SSE-NEXT: movdqa %xmm0, %xmm2
		; SSE-NEXT: psllq $32, %xmm2
		; SSE-NEXT: psrad $31, %xmm2
		; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
		; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE-NEXT: psllq $32, %xmm0		; SSE-NEXT: psllq $32, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; SSE-NEXT: psrad $31, %xmm0		; SSE-NEXT: psrad $31, %xmm0
; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3],xmm2[4,5],xmm0[6,7]		; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3],xmm1[4,5],xmm0[6,7]
; SSE-NEXT: psllq $32, %xmm1		; SSE-NEXT: pmuldq %xmm0, %xmm2
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]		; SSE-NEXT: movdqa %xmm2, %xmm0
; SSE-NEXT: psrad $31, %xmm1
; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
; SSE-NEXT: pmuldq %xmm1, %xmm0
; SSE-NEXT: ret{{[l\|q]}}		; SSE-NEXT: ret{{[l\|q]}}
;		;
; AVX1-LABEL: test_mm_mul_epi32:		; AVX1-LABEL: test_mm_mul_epi32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX1-NEXT: vpsllq $32, %xmm0, %xmm2
; AVX1-NEXT: vpsrad $31, %xmm0, %xmm2		; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2
; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1		; AVX1-NEXT: vpsllq $32, %xmm1, %xmm2
; AVX1-NEXT: vpsrad $31, %xmm1, %xmm2		; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm0
; AVX1-NEXT: ret{{[l\|q]}}		; AVX1-NEXT: ret{{[l\|q]}}
;		;
; AVX512-LABEL: test_mm_mul_epi32:		; AVX512-LABEL: test_mm_mul_epi32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX512-NEXT: vpsraq $32, %xmm0, %xmm0		; AVX512-NEXT: vpsraq $32, %xmm0, %xmm0
▲ Show 20 Lines • Show All 243 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_insert-3.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X64

	define <2 x i64> @t1(i64 %s, <2 x i64> %tmp) nounwind {			define <2 x i64> @t1(i64 %s, <2 x i64> %tmp) nounwind {
	; X32-LABEL: t1:			; X32-LABEL: t1:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]			; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]
	; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]			; X32-NEXT: movaps %xmm0, %xmm2
				; X32-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm1[0,2]
	; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]			; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm2[2,0]
	; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]			; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: t1:			; X64-LABEL: t1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdi, %xmm1			; X64-NEXT: movq %rdi, %xmm1
	; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; X64-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp1 = insertelement <2 x i64> %tmp, i64 %s, i32 1			%tmp1 = insertelement <2 x i64> %tmp, i64 %s, i32 1
	ret <2 x i64> %tmp1			ret <2 x i64> %tmp1
	}			}

llvm/trunk/test/CodeGen/X86/vector-constrained-fp-intrinsics.ll

Show First 20 Lines • Show All 531 Lines • ▼ Show 20 Lines	%fma = call <3 x float> @llvm.experimental.constrained.fma.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %fma		ret <3 x float> %fma
}		}

define <3 x double> @constrained_vector_fma_v3f64() {		define <3 x double> @constrained_vector_fma_v3f64() {
; NO-FMA-LABEL: constrained_vector_fma_v3f64:		; NO-FMA-LABEL: constrained_vector_fma_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
; NO-FMA-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
; NO-FMA-NEXT: callq fma		; NO-FMA-NEXT: callq fma
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
; NO-FMA-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
; NO-FMA-NEXT: callq fma		; NO-FMA-NEXT: callq fma
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
; NO-FMA-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
; NO-FMA-NEXT: callq fma		; NO-FMA-NEXT: callq fma
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_fma_v3f64:		; HAS-FMA-LABEL: constrained_vector_fma_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
; HAS-FMA-NEXT: vfmadd213sd {{.#+}} xmm1 = (xmm0 xmm1) + mem		; HAS-FMA-NEXT: vfmadd213sd {{.#+}} xmm1 = (xmm0 xmm1) + mem
▲ Show 20 Lines • Show All 387 Lines • ▼ Show 20 Lines	%pow = call <3 x float> @llvm.experimental.constrained.pow.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %pow		ret <3 x float> %pow
}		}

define <3 x double> @constrained_vector_pow_v3f64() {		define <3 x double> @constrained_vector_pow_v3f64() {
; NO-FMA-LABEL: constrained_vector_pow_v3f64:		; NO-FMA-LABEL: constrained_vector_pow_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
; NO-FMA-NEXT: callq pow		; NO-FMA-NEXT: callq pow
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
; NO-FMA-NEXT: callq pow		; NO-FMA-NEXT: callq pow
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
; NO-FMA-NEXT: callq pow		; NO-FMA-NEXT: callq pow
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_pow_v3f64:		; HAS-FMA-LABEL: constrained_vector_pow_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: subq $56, %rsp		; HAS-FMA-NEXT: subq $56, %rsp
; HAS-FMA-NEXT: .cfi_def_cfa_offset 64		; HAS-FMA-NEXT: .cfi_def_cfa_offset 64
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
▲ Show 20 Lines • Show All 189 Lines • ▼ Show 20 Lines	%powi = call <3 x float> @llvm.experimental.constrained.powi.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %powi		ret <3 x float> %powi
}		}

define <3 x double> @constrained_vector_powi_v3f64() {		define <3 x double> @constrained_vector_powi_v3f64() {
; NO-FMA-LABEL: constrained_vector_powi_v3f64:		; NO-FMA-LABEL: constrained_vector_powi_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: movl $3, %edi		; NO-FMA-NEXT: movl $3, %edi
; NO-FMA-NEXT: callq __powidf2		; NO-FMA-NEXT: callq __powidf2
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: movl $3, %edi		; NO-FMA-NEXT: movl $3, %edi
; NO-FMA-NEXT: callq __powidf2		; NO-FMA-NEXT: callq __powidf2
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: movl $3, %edi		; NO-FMA-NEXT: movl $3, %edi
; NO-FMA-NEXT: callq __powidf2		; NO-FMA-NEXT: callq __powidf2
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_powi_v3f64:		; HAS-FMA-LABEL: constrained_vector_powi_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: subq $56, %rsp		; HAS-FMA-NEXT: subq $56, %rsp
; HAS-FMA-NEXT: .cfi_def_cfa_offset 64		; HAS-FMA-NEXT: .cfi_def_cfa_offset 64
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
▲ Show 20 Lines • Show All 177 Lines • ▼ Show 20 Lines	%sin = call <3 x float> @llvm.experimental.constrained.sin.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %sin		ret <3 x float> %sin
}		}

define <3 x double> @constrained_vector_sin_v3f64() {		define <3 x double> @constrained_vector_sin_v3f64() {
; NO-FMA-LABEL: constrained_vector_sin_v3f64:		; NO-FMA-LABEL: constrained_vector_sin_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq sin		; NO-FMA-NEXT: callq sin
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq sin		; NO-FMA-NEXT: callq sin
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq sin		; NO-FMA-NEXT: callq sin
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_sin_v3f64:		; HAS-FMA-LABEL: constrained_vector_sin_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: subq $56, %rsp		; HAS-FMA-NEXT: subq $56, %rsp
; HAS-FMA-NEXT: .cfi_def_cfa_offset 64		; HAS-FMA-NEXT: .cfi_def_cfa_offset 64
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines	%cos = call <3 x float> @llvm.experimental.constrained.cos.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %cos		ret <3 x float> %cos
}		}

define <3 x double> @constrained_vector_cos_v3f64() {		define <3 x double> @constrained_vector_cos_v3f64() {
; NO-FMA-LABEL: constrained_vector_cos_v3f64:		; NO-FMA-LABEL: constrained_vector_cos_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq cos		; NO-FMA-NEXT: callq cos
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq cos		; NO-FMA-NEXT: callq cos
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq cos		; NO-FMA-NEXT: callq cos
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_cos_v3f64:		; HAS-FMA-LABEL: constrained_vector_cos_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: subq $56, %rsp		; HAS-FMA-NEXT: subq $56, %rsp
; HAS-FMA-NEXT: .cfi_def_cfa_offset 64		; HAS-FMA-NEXT: .cfi_def_cfa_offset 64
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines	%exp = call <3 x float> @llvm.experimental.constrained.exp.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %exp		ret <3 x float> %exp
}		}

define <3 x double> @constrained_vector_exp_v3f64() {		define <3 x double> @constrained_vector_exp_v3f64() {
; NO-FMA-LABEL: constrained_vector_exp_v3f64:		; NO-FMA-LABEL: constrained_vector_exp_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq exp		; NO-FMA-NEXT: callq exp
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq exp		; NO-FMA-NEXT: callq exp
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq exp		; NO-FMA-NEXT: callq exp
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_exp_v3f64:		; HAS-FMA-LABEL: constrained_vector_exp_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: subq $56, %rsp		; HAS-FMA-NEXT: subq $56, %rsp
; HAS-FMA-NEXT: .cfi_def_cfa_offset 64		; HAS-FMA-NEXT: .cfi_def_cfa_offset 64
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines	%exp2 = call <3 x float> @llvm.experimental.constrained.exp2.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %exp2		ret <3 x float> %exp2
}		}

define <3 x double> @constrained_vector_exp2_v3f64() {		define <3 x double> @constrained_vector_exp2_v3f64() {
; NO-FMA-LABEL: constrained_vector_exp2_v3f64:		; NO-FMA-LABEL: constrained_vector_exp2_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq exp2		; NO-FMA-NEXT: callq exp2
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq exp2		; NO-FMA-NEXT: callq exp2
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq exp2		; NO-FMA-NEXT: callq exp2
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_exp2_v3f64:		; HAS-FMA-LABEL: constrained_vector_exp2_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: subq $56, %rsp		; HAS-FMA-NEXT: subq $56, %rsp
; HAS-FMA-NEXT: .cfi_def_cfa_offset 64		; HAS-FMA-NEXT: .cfi_def_cfa_offset 64
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines	%log = call <3 x float> @llvm.experimental.constrained.log.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %log		ret <3 x float> %log
}		}

define <3 x double> @constrained_vector_log_v3f64() {		define <3 x double> @constrained_vector_log_v3f64() {
; NO-FMA-LABEL: constrained_vector_log_v3f64:		; NO-FMA-LABEL: constrained_vector_log_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq log		; NO-FMA-NEXT: callq log
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq log		; NO-FMA-NEXT: callq log
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq log		; NO-FMA-NEXT: callq log
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_log_v3f64:		; HAS-FMA-LABEL: constrained_vector_log_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: subq $56, %rsp		; HAS-FMA-NEXT: subq $56, %rsp
; HAS-FMA-NEXT: .cfi_def_cfa_offset 64		; HAS-FMA-NEXT: .cfi_def_cfa_offset 64
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines	%log10 = call <3 x float> @llvm.experimental.constrained.log10.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %log10		ret <3 x float> %log10
}		}

define <3 x double> @constrained_vector_log10_v3f64() {		define <3 x double> @constrained_vector_log10_v3f64() {
; NO-FMA-LABEL: constrained_vector_log10_v3f64:		; NO-FMA-LABEL: constrained_vector_log10_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq log10		; NO-FMA-NEXT: callq log10
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq log10		; NO-FMA-NEXT: callq log10
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq log10		; NO-FMA-NEXT: callq log10
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_log10_v3f64:		; HAS-FMA-LABEL: constrained_vector_log10_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: subq $56, %rsp		; HAS-FMA-NEXT: subq $56, %rsp
; HAS-FMA-NEXT: .cfi_def_cfa_offset 64		; HAS-FMA-NEXT: .cfi_def_cfa_offset 64
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines	%log2 = call <3 x float> @llvm.experimental.constrained.log2.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %log2		ret <3 x float> %log2
}		}

define <3 x double> @constrained_vector_log2_v3f64() {		define <3 x double> @constrained_vector_log2_v3f64() {
; NO-FMA-LABEL: constrained_vector_log2_v3f64:		; NO-FMA-LABEL: constrained_vector_log2_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq log2		; NO-FMA-NEXT: callq log2
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq log2		; NO-FMA-NEXT: callq log2
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq log2		; NO-FMA-NEXT: callq log2
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_log2_v3f64:		; HAS-FMA-LABEL: constrained_vector_log2_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: subq $56, %rsp		; HAS-FMA-NEXT: subq $56, %rsp
; HAS-FMA-NEXT: .cfi_def_cfa_offset 64		; HAS-FMA-NEXT: .cfi_def_cfa_offset 64
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines	%rint = call <3 x float> @llvm.experimental.constrained.rint.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %rint		ret <3 x float> %rint
}		}

define <3 x double> @constrained_vector_rint_v3f64() {		define <3 x double> @constrained_vector_rint_v3f64() {
; NO-FMA-LABEL: constrained_vector_rint_v3f64:		; NO-FMA-LABEL: constrained_vector_rint_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq rint		; NO-FMA-NEXT: callq rint
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq rint		; NO-FMA-NEXT: callq rint
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq rint		; NO-FMA-NEXT: callq rint
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_rint_v3f64:		; HAS-FMA-LABEL: constrained_vector_rint_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; HAS-FMA-NEXT: vroundsd $4, %xmm0, %xmm0, %xmm0		; HAS-FMA-NEXT: vroundsd $4, %xmm0, %xmm0, %xmm0
; HAS-FMA-NEXT: vroundpd $4, {{.*}}(%rip), %xmm1		; HAS-FMA-NEXT: vroundpd $4, {{.*}}(%rip), %xmm1
▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines	%nearby = call <3 x float> @llvm.experimental.constrained.nearbyint.v3f32(
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict")		metadata !"fpexcept.strict")
ret <3 x float> %nearby		ret <3 x float> %nearby
}		}

define <3 x double> @constrained_vector_nearby_v3f64() {		define <3 x double> @constrained_vector_nearby_v3f64() {
; NO-FMA-LABEL: constrained_vector_nearby_v3f64:		; NO-FMA-LABEL: constrained_vector_nearby_v3f64:
; NO-FMA: # %bb.0: # %entry		; NO-FMA: # %bb.0: # %entry
; NO-FMA-NEXT: subq $24, %rsp		; NO-FMA-NEXT: subq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 32		; NO-FMA-NEXT: .cfi_def_cfa_offset 64
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq nearbyint		; NO-FMA-NEXT: callq nearbyint
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq nearbyint		; NO-FMA-NEXT: callq nearbyint
; NO-FMA-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload		; NO-FMA-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]		; NO-FMA-NEXT: # xmm0 = xmm0[0],mem[0]
; NO-FMA-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; NO-FMA-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; NO-FMA-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; NO-FMA-NEXT: callq nearbyint		; NO-FMA-NEXT: callq nearbyint
; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: movsd %xmm0, {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; NO-FMA-NEXT: movaps %xmm0, %xmm1
; NO-FMA-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)		; NO-FMA-NEXT: fldl {{[0-9]+}}(%rsp)
; NO-FMA-NEXT: addq $24, %rsp		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; NO-FMA-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
		; NO-FMA-NEXT: addq $56, %rsp
; NO-FMA-NEXT: .cfi_def_cfa_offset 8		; NO-FMA-NEXT: .cfi_def_cfa_offset 8
; NO-FMA-NEXT: retq		; NO-FMA-NEXT: retq
;		;
; HAS-FMA-LABEL: constrained_vector_nearby_v3f64:		; HAS-FMA-LABEL: constrained_vector_nearby_v3f64:
; HAS-FMA: # %bb.0: # %entry		; HAS-FMA: # %bb.0: # %entry
; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; HAS-FMA-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; HAS-FMA-NEXT: vroundsd $12, %xmm0, %xmm0, %xmm0		; HAS-FMA-NEXT: vroundsd $12, %xmm0, %xmm0, %xmm0
; HAS-FMA-NEXT: vroundpd $12, {{.*}}(%rip), %xmm1		; HAS-FMA-NEXT: vroundpd $12, {{.*}}(%rip), %xmm1
▲ Show 20 Lines • Show All 124 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-mul.ll

	Show All 13 Lines

	define i64 @test_v2i64(<2 x i64> %a0) {			define i64 @test_v2i64(<2 x i64> %a0) {
	; SSE-LABEL: test_v2i64:			; SSE-LABEL: test_v2i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm1, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3			; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i64:			; AVX-LABEL: test_v2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vmovq %xmm0, %rax			; AVX-NEXT: vmovq %xmm0, %rax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v2i64:			; AVX512BW-LABEL: test_v2i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX512BW-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX512BW-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX512BW-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX512BW-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm1, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3			; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	Show All 28 Lines
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v4i64:			; AVX512BW-LABEL: test_v4i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm2			; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX512BW-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512BW-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX512BW-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512BW-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX512BW-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX512BW-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm2			; AVX512BW-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX512BW-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX512BW-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX512BW-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX512BW-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX512BW-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX512BW-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v4i64:			; AVX512BWVL-LABEL: test_v4i64:
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm1, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3			; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v8i64:			; AVX512BW-LABEL: test_v8i64:
	▲ Show 20 Lines • Show All 161 Lines • ▼ Show 20 Lines
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psrlq $32, %xmm2			; SSE-NEXT: psrlq $32, %xmm2
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: movdqa %xmm1, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: psrlq $32, %xmm3			; SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE-NEXT: pmuludq %xmm0, %xmm3
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE-NEXT: paddq %xmm2, %xmm3
	; SSE-NEXT: psllq $32, %xmm3			; SSE-NEXT: psllq $32, %xmm3
	; SSE-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE-NEXT: paddq %xmm3, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 103 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm2			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v16i64:			; AVX512BW-LABEL: test_v16i64:
	▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	;			;
	; vXi32			; vXi32
	;			;

	define i32 @test_v4i32(<4 x i32> %a0) {			define i32 @test_v4i32(<4 x i32> %a0) {
	; SSE2-LABEL: test_v4i32:			; SSE2-LABEL: test_v4i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[3,3,1,1]
	; SSE2-NEXT: pmuludq %xmm1, %xmm0			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pmuludq %xmm2, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]
	; SSE2-NEXT: pmuludq %xmm2, %xmm1			; SSE2-NEXT: pmuludq %xmm0, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; SSE2-NEXT: pmuludq %xmm0, %xmm1			; SSE2-NEXT: pmuludq %xmm0, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax			; SSE2-NEXT: movd %xmm1, %eax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4i32:			; SSE41-LABEL: test_v4i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	Show All 27 Lines
	define i32 @test_v8i32(<8 x i32> %a0) {			define i32 @test_v8i32(<8 x i32> %a0) {
	; SSE2-LABEL: test_v8i32:			; SSE2-LABEL: test_v8i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm1, %xmm0			; SSE2-NEXT: pmuludq %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm2, %xmm1			; SSE2-NEXT: pmuludq %xmm2, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; SSE2-NEXT: pmuludq %xmm0, %xmm2
	; SSE2-NEXT: pmuludq %xmm1, %xmm0			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,2,0,0]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,2,2]
	; SSE2-NEXT: pmuludq %xmm2, %xmm1			; SSE2-NEXT: pmuludq %xmm2, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; SSE2-NEXT: pmuludq %xmm0, %xmm1			; SSE2-NEXT: pmuludq %xmm0, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax			; SSE2-NEXT: movd %xmm1, %eax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	define i32 @test_v16i32(<16 x i32> %a0) {			define i32 @test_v16i32(<16 x i32> %a0) {
	; SSE2-LABEL: test_v16i32:			; SSE2-LABEL: test_v16i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm3, %xmm1			; SSE2-NEXT: pmuludq %xmm3, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm4, %xmm3			; SSE2-NEXT: pmuludq %xmm4, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm2, %xmm0			; SSE2-NEXT: pmuludq %xmm2, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm3, %xmm2			; SSE2-NEXT: pmuludq %xmm4, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm1, %xmm0			; SSE2-NEXT: pmuludq %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,0,2,2]
	; SSE2-NEXT: pmuludq %xmm2, %xmm1			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,0,2,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pmuludq %xmm1, %xmm2
				; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; SSE2-NEXT: pmuludq %xmm0, %xmm1
	; SSE2-NEXT: pmuludq %xmm1, %xmm0			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,2,0,0]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,0,2,2]
	; SSE2-NEXT: pmuludq %xmm2, %xmm1			; SSE2-NEXT: pmuludq %xmm1, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; SSE2-NEXT: pmuludq %xmm0, %xmm1			; SSE2-NEXT: pmuludq %xmm0, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax			; SSE2-NEXT: movd %xmm1, %eax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16i32:			; SSE41-LABEL: test_v16i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	}			}

	define i32 @test_v32i32(<32 x i32> %a0) {			define i32 @test_v32i32(<32 x i32> %a0) {
	; SSE2-LABEL: test_v32i32:			; SSE2-LABEL: test_v32i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm8 = xmm2[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm8 = xmm2[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm6, %xmm2			; SSE2-NEXT: pmuludq %xmm6, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm6[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm8, %xmm6			; SSE2-NEXT: pmuludq %xmm8, %xmm9
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm9[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm8 = xmm0[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm4, %xmm0			; SSE2-NEXT: pmuludq %xmm4, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm6, %xmm4			; SSE2-NEXT: pmuludq %xmm8, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm4[0],xmm6[1],xmm4[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]			; SSE2-NEXT: pmuludq %xmm2, %xmm6
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm7, %xmm3			; SSE2-NEXT: pmuludq %xmm7, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm7[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm4, %xmm6			; SSE2-NEXT: pmuludq %xmm2, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm5, %xmm1			; SSE2-NEXT: pmuludq %xmm5, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm4, %xmm5			; SSE2-NEXT: pmuludq %xmm2, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm5[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm3, %xmm1			; SSE2-NEXT: pmuludq %xmm3, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[0,0,2,2]
	; SSE2-NEXT: pmuludq %xmm4, %xmm3			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm5[0,0,2,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]			; SSE2-NEXT: pmuludq %xmm2, %xmm3
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm6[0,2,2,3]
				; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm9[0,0,2,2]
				; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,2,2]
				; SSE2-NEXT: pmuludq %xmm4, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[0,2,2,3]
				; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[1],xmm4[1]
				; SSE2-NEXT: pmuludq %xmm1, %xmm2
				; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,0,2,2]
				; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,2,2]
				; SSE2-NEXT: pmuludq %xmm2, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,2,2,3]
				; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
				; SSE2-NEXT: pmuludq %xmm1, %xmm2
				; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,2,0,0]
				; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,2,2]
	; SSE2-NEXT: pmuludq %xmm2, %xmm0			; SSE2-NEXT: pmuludq %xmm2, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: pmuludq %xmm3, %xmm2			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm1, %xmm0			; SSE2-NEXT: pmuludq %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: movd %xmm0, %eax
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm2, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm2, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; SSE2-NEXT: pmuludq %xmm0, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v32i32:			; SSE41-LABEL: test_v32i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmulld %xmm6, %xmm2			; SSE41-NEXT: pmulld %xmm6, %xmm2
	; SSE41-NEXT: pmulld %xmm4, %xmm0			; SSE41-NEXT: pmulld %xmm4, %xmm0
	; SSE41-NEXT: pmulld %xmm2, %xmm0			; SSE41-NEXT: pmulld %xmm2, %xmm0
	; SSE41-NEXT: pmulld %xmm7, %xmm3			; SSE41-NEXT: pmulld %xmm7, %xmm3
	▲ Show 20 Lines • Show All 775 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm1, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm1, %xmm3, %xmm3
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm3 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpand %xmm1, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm1, %xmm3, %xmm3
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm1, %xmm3, %xmm3
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
				; AVX1-NEXT: vpand %xmm1, %xmm2, %xmm2
				; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; AVX1-NEXT: vpmullw %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm2			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm1, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm1, %xmm3, %xmm3
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 353 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm1			; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm1
	; AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX1-NEXT: vpmullw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm3 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpand %xmm2, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm2, %xmm3, %xmm3
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm2, %xmm3, %xmm3
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm3, %xmm1
				; AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1
				; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; AVX1-NEXT: vpmullw %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm2, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm2, %xmm3, %xmm3
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 518 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm2 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm2, %xmm1
				; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
				; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
				; AVX1-NEXT: vpmullw %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 360 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-sext.ll

	Show First 20 Lines • Show All 2,184 Lines • ▼ Show 20 Lines
	; SSE2: # %bb.0: # %entry			; SSE2: # %bb.0: # %entry
	; SSE2-NEXT: movzbl (%rdi), %eax			; SSE2-NEXT: movzbl (%rdi), %eax
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $7, %ecx			; SSE2-NEXT: shrl $7, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $6, %ecx			; SSE2-NEXT: shrl $6, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $5, %ecx			; SSE2-NEXT: shrl $5, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $4, %ecx			; SSE2-NEXT: shrl $4, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $3, %ecx			; SSE2-NEXT: shrl $3, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $2, %ecx			; SSE2-NEXT: shrl $2, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm3			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: shrl %eax			; SSE2-NEXT: shrl %eax
	; SSE2-NEXT: andl $1, %eax			; SSE2-NEXT: andl $1, %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm3
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; SSE2-NEXT: pslld $31, %xmm0			; SSE2-NEXT: pslld $31, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE2-NEXT: pslld $31, %xmm1			; SSE2-NEXT: pslld $31, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_8i1_to_8i32:			; SSSE3-LABEL: load_sext_8i1_to_8i32:
	; SSSE3: # %bb.0: # %entry			; SSSE3: # %bb.0: # %entry
	; SSSE3-NEXT: movzbl (%rdi), %eax			; SSSE3-NEXT: movzbl (%rdi), %eax
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $7, %ecx			; SSSE3-NEXT: shrl $7, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $6, %ecx			; SSSE3-NEXT: shrl $6, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $5, %ecx			; SSSE3-NEXT: shrl $5, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $4, %ecx			; SSSE3-NEXT: shrl $4, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $3, %ecx			; SSSE3-NEXT: shrl $3, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $2, %ecx			; SSSE3-NEXT: shrl $2, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm3			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: shrl %eax			; SSSE3-NEXT: shrl %eax
	; SSSE3-NEXT: andl $1, %eax			; SSSE3-NEXT: andl $1, %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm3
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSSE3-NEXT: movdqa %xmm1, %xmm0
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; SSSE3-NEXT: pslld $31, %xmm0			; SSSE3-NEXT: pslld $31, %xmm0
	; SSSE3-NEXT: psrad $31, %xmm0			; SSSE3-NEXT: psrad $31, %xmm0
	; SSSE3-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSSE3-NEXT: pslld $31, %xmm1			; SSSE3-NEXT: pslld $31, %xmm1
	; SSSE3-NEXT: psrad $31, %xmm1			; SSSE3-NEXT: psrad $31, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: load_sext_8i1_to_8i32:			; SSE41-LABEL: load_sext_8i1_to_8i32:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: movzbl (%rdi), %eax			; SSE41-NEXT: movzbl (%rdi), %eax
	; SSE41-NEXT: movl %eax, %ecx			; SSE41-NEXT: movl %eax, %ecx
	▲ Show 20 Lines • Show All 728 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $11, %ecx			; SSE2-NEXT: shrl $11, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $10, %ecx			; SSE2-NEXT: shrl $10, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $9, %ecx			; SSE2-NEXT: shrl $9, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm3			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $8, %ecx			; SSE2-NEXT: shrl $8, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $7, %ecx			; SSE2-NEXT: shrl $7, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $6, %ecx			; SSE2-NEXT: shrl $6, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $5, %ecx			; SSE2-NEXT: shrl $5, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $4, %ecx			; SSE2-NEXT: shrl $4, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm3			; SSE2-NEXT: movd %ecx, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $3, %ecx			; SSE2-NEXT: shrl $3, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $2, %ecx			; SSE2-NEXT: shrl $2, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: andl $1, %ecx			; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: shrl %eax			; SSE2-NEXT: shrl %eax
	; SSE2-NEXT: andl $1, %eax			; SSE2-NEXT: andl $1, %eax
	; SSE2-NEXT: movd %eax, %xmm4			; SSE2-NEXT: movd %eax, %xmm4
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: psllw $15, %xmm0			; SSE2-NEXT: psllw $15, %xmm0
	; SSE2-NEXT: psraw $15, %xmm0			; SSE2-NEXT: psraw $15, %xmm0
	; SSE2-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: psllw $15, %xmm1			; SSE2-NEXT: psllw $15, %xmm1
	; SSE2-NEXT: psraw $15, %xmm1			; SSE2-NEXT: psraw $15, %xmm1
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_16i1_to_16i16:			; SSSE3-LABEL: load_sext_16i1_to_16i16:
	; SSSE3: # %bb.0: # %entry			; SSSE3: # %bb.0: # %entry
	; SSSE3-NEXT: movzwl (%rdi), %eax			; SSSE3-NEXT: movzwl (%rdi), %eax
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	Show All 16 Lines
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $11, %ecx			; SSSE3-NEXT: shrl $11, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $10, %ecx			; SSSE3-NEXT: shrl $10, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $9, %ecx			; SSSE3-NEXT: shrl $9, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm3			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $8, %ecx			; SSSE3-NEXT: shrl $8, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $7, %ecx			; SSSE3-NEXT: shrl $7, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $6, %ecx			; SSSE3-NEXT: shrl $6, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $5, %ecx			; SSSE3-NEXT: shrl $5, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $4, %ecx			; SSSE3-NEXT: shrl $4, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm3			; SSSE3-NEXT: movd %ecx, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $3, %ecx			; SSSE3-NEXT: shrl $3, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $2, %ecx			; SSSE3-NEXT: shrl $2, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: andl $1, %ecx			; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: shrl %eax			; SSSE3-NEXT: shrl %eax
	; SSSE3-NEXT: andl $1, %eax			; SSSE3-NEXT: andl $1, %eax
	; SSSE3-NEXT: movd %eax, %xmm4			; SSSE3-NEXT: movd %eax, %xmm4
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSSE3-NEXT: movdqa %xmm1, %xmm0
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSSE3-NEXT: psllw $15, %xmm0			; SSSE3-NEXT: psllw $15, %xmm0
	; SSSE3-NEXT: psraw $15, %xmm0			; SSSE3-NEXT: psraw $15, %xmm0
	; SSSE3-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSSE3-NEXT: psllw $15, %xmm1			; SSSE3-NEXT: psllw $15, %xmm1
	; SSSE3-NEXT: psraw $15, %xmm1			; SSSE3-NEXT: psraw $15, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: load_sext_16i1_to_16i16:			; SSE41-LABEL: load_sext_16i1_to_16i16:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: movzwl (%rdi), %eax			; SSE41-NEXT: movzwl (%rdi), %eax
	; SSE41-NEXT: movl %eax, %ecx			; SSE41-NEXT: movl %eax, %ecx
	▲ Show 20 Lines • Show All 1,933 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-128-v4.ll

Show First 20 Lines • Show All 1,108 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%shuffle1 = shufflevector <4 x float> zeroinitializer, <4 x float> %shuffle, <4 x i32> <i32 4, i32 1, i32 2, i32 7>		%shuffle1 = shufflevector <4 x float> zeroinitializer, <4 x float> %shuffle, <4 x i32> <i32 4, i32 1, i32 2, i32 7>
ret <4 x float> %shuffle1		ret <4 x float> %shuffle1
}		}

define <4 x float> @shuffle_v4f32_0z24(<4 x float> %a, <4 x float> %b) {		define <4 x float> @shuffle_v4f32_0z24(<4 x float> %a, <4 x float> %b) {
; SSE2-LABEL: shuffle_v4f32_0z24:		; SSE2-LABEL: shuffle_v4f32_0z24:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSE2-NEXT: xorps %xmm2, %xmm2
; SSE2-NEXT: xorps %xmm1, %xmm1		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[0,0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm0[0,0]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]		; SSE2-NEXT: movaps %xmm2, %xmm0
; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: shuffle_v4f32_0z24:		; SSE3-LABEL: shuffle_v4f32_0z24:
; SSE3: # %bb.0:		; SSE3: # %bb.0:
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSE3-NEXT: xorps %xmm2, %xmm2
; SSE3-NEXT: xorps %xmm1, %xmm1		; SSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[0,0]
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm0[0,0]		; SSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,0]
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]		; SSE3-NEXT: movaps %xmm2, %xmm0
; SSE3-NEXT: movaps %xmm1, %xmm0
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: shuffle_v4f32_0z24:		; SSSE3-LABEL: shuffle_v4f32_0z24:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]		; SSSE3-NEXT: xorps %xmm2, %xmm2
; SSSE3-NEXT: xorps %xmm1, %xmm1		; SSSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[0,0]
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm0[0,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm1[2,0]
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]		; SSSE3-NEXT: movaps %xmm2, %xmm0
; SSSE3-NEXT: movaps %xmm1, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: shuffle_v4f32_0z24:		; SSE41-LABEL: shuffle_v4f32_0z24:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],zero,xmm0[2],xmm1[0]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],zero,xmm0[2],xmm1[0]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: shuffle_v4f32_0z24:		; AVX-LABEL: shuffle_v4f32_0z24:
▲ Show 20 Lines • Show All 1,226 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v4.ll

Show First 20 Lines • Show All 1,561 Lines • ▼ Show 20 Lines	; ALL-NEXT: retq
%tmp1 = insertelement <2 x i64> undef, i64 %tmp, i32 0		%tmp1 = insertelement <2 x i64> undef, i64 %tmp, i32 0
%tmp2 = shufflevector <2 x i64> %tmp1, <2 x i64> undef, <4 x i32> zeroinitializer		%tmp2 = shufflevector <2 x i64> %tmp1, <2 x i64> undef, <4 x i32> zeroinitializer
ret <4 x i64> %tmp2		ret <4 x i64> %tmp2
}		}

define <4 x i64> @shuffle_v4i64_1234(<4 x i64> %a, <4 x i64> %b) {		define <4 x i64> @shuffle_v4i64_1234(<4 x i64> %a, <4 x i64> %b) {
; AVX1-LABEL: shuffle_v4i64_1234:		; AVX1-LABEL: shuffle_v4i64_1234:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3]		; AVX1-NEXT: vblendpd {{.*#+}} ymm1 = ymm1[0],ymm0[1,2,3]
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[2,3,0,1]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3,0,1]
; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1],ymm1[0],ymm0[3],ymm1[2]		; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1],ymm1[0],ymm0[3],ymm1[2]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v4i64_1234:		; AVX2-LABEL: shuffle_v4i64_1234:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3,4,5,6,7]		; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3,4,5,6,7]
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[1,2,3,0]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[1,2,3,0]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
▲ Show 20 Lines • Show All 345 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v8.ll

Show First 20 Lines • Show All 2,437 Lines • ▼ Show 20 Lines	; ALL-NEXT: retq
%tmp1 = insertelement <4 x i32> zeroinitializer, i32 %tmp, i32 0		%tmp1 = insertelement <4 x i32> zeroinitializer, i32 %tmp, i32 0
%tmp2 = shufflevector <4 x i32> %tmp1, <4 x i32> undef, <8 x i32> zeroinitializer		%tmp2 = shufflevector <4 x i32> %tmp1, <4 x i32> undef, <8 x i32> zeroinitializer
ret <8 x i32> %tmp2		ret <8 x i32> %tmp2
}		}

define <8 x i32> @shuffle_v8i32_12345678(<8 x i32> %a, <8 x i32> %b) {		define <8 x i32> @shuffle_v8i32_12345678(<8 x i32> %a, <8 x i32> %b) {
; AVX1-LABEL: shuffle_v8i32_12345678:		; AVX1-LABEL: shuffle_v8i32_12345678:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3,4,5,6,7]		; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0],ymm0[1,2,3,4,5,6,7]
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[2,3,0,1]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3,0,1]
; AVX1-NEXT: vshufps {{.*#+}} ymm1 = ymm1[0,0],ymm0[3,0],ymm1[4,4],ymm0[7,4]		; AVX1-NEXT: vshufps {{.*#+}} ymm1 = ymm2[0,0],ymm1[3,0],ymm2[4,4],ymm1[7,4]
; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,2],ymm1[2,0],ymm0[5,6],ymm1[6,4]		; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,2],ymm1[2,0],ymm0[5,6],ymm1[6,4]
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v8i32_12345678:		; AVX2-LABEL: shuffle_v8i32_12345678:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3,4,5,6,7]		; AVX2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1,2,3,4,5,6,7]
; AVX2-NEXT: vmovaps {{.*#+}} ymm1 = [1,2,3,4,5,6,7,0]		; AVX2-NEXT: vmovaps {{.*#+}} ymm1 = [1,2,3,4,5,6,7,0]
; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm0		; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm0
▲ Show 20 Lines • Show All 235 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining.ll

	Show First 20 Lines • Show All 1,843 Lines • ▼ Show 20 Lines
	}			}

	define <4 x i8> @combine_test4c(<4 x i8>* %a, <4 x i8>* %b) {			define <4 x i8> @combine_test4c(<4 x i8>* %a, <4 x i8>* %b) {
	; SSE2-LABEL: combine_test4c:			; SSE2-LABEL: combine_test4c:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm1[0,0]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm1[0,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: combine_test4c:			; SSSE3-LABEL: combine_test4c:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSSE3-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm1[0,0]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm1[0,0]
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]			; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: combine_test4c:			; SSE41-LABEL: combine_test4c:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; SSE41-NEXT: pmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; SSE41-NEXT: pmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; SSE41-NEXT: pmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]
	▲ Show 20 Lines • Show All 883 Lines • ▼ Show 20 Lines
	entry:			entry:
	%s1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 3, i32 0, i32 1, i32 2>			%s1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 3, i32 0, i32 1, i32 2>
	%s2 = shufflevector <4 x float> %s1, <4 x float> %b, <4 x i32> <i32 4, i32 1, i32 2, i32 3>			%s2 = shufflevector <4 x float> %s1, <4 x float> %b, <4 x i32> <i32 4, i32 1, i32 2, i32 3>
	%r2 = fadd <4 x float> %s1, %s2			%r2 = fadd <4 x float> %s1, %s2
	ret <4 x float> %r2			ret <4 x float> %r2
	}			}

	define <8 x float> @PR22412(<8 x float> %a, <8 x float> %b) {			define <8 x float> @PR22412(<8 x float> %a, <8 x float> %b) {
	; SSE2-LABEL: PR22412:			; SSE-LABEL: PR22412:
	; SSE2: # %bb.0: # %entry			; SSE: # %bb.0: # %entry
	; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm0[0],xmm2[1]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm3[3,2]
	; SSE2-NEXT: movapd %xmm2, %xmm0			; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm2[3,2]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm3[3,2]			; SSE-NEXT: movaps %xmm3, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm2[3,2]			; SSE-NEXT: retq
	; SSE2-NEXT: movaps %xmm3, %xmm1
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: PR22412:
	; SSSE3: # %bb.0: # %entry
	; SSSE3-NEXT: movsd {{.*#+}} xmm2 = xmm0[0],xmm2[1]
	; SSSE3-NEXT: movapd %xmm2, %xmm0
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm3[3,2]
	; SSSE3-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm2[3,2]
	; SSSE3-NEXT: movaps %xmm3, %xmm1
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: PR22412:
	; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: blendps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3]
	; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm3[3,2]
	; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm0[3,2]
	; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm3, %xmm1
	; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: PR22412:			; AVX1-LABEL: PR22412:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[2,3,0,1]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[2,3,0,1]
	; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,0],ymm1[3,2],ymm0[5,4],ymm1[7,6]			; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,0],ymm1[3,2],ymm0[5,4],ymm1[7,6]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc-math.ll

	Show First 20 Lines • Show All 5,509 Lines • ▼ Show 20 Lines
	define <4 x i32> @mul_add_const_v4i64_v4i32(<4 x i32> %a0, <4 x i32> %a1) nounwind {			define <4 x i32> @mul_add_const_v4i64_v4i32(<4 x i32> %a0, <4 x i32> %a1) nounwind {
	; SSE-LABEL: mul_add_const_v4i64_v4i32:			; SSE-LABEL: mul_add_const_v4i64_v4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,1,3,3]
	; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,1,1,3]			; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,1,1,3]
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,1,3,3]
	; SSE-NEXT: movdqa %xmm2, %xmm4			; SSE-NEXT: pxor %xmm4, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4			; SSE-NEXT: pxor %xmm5, %xmm5
	; SSE-NEXT: pmuludq %xmm1, %xmm4			; SSE-NEXT: pmuludq %xmm1, %xmm5
	; SSE-NEXT: movdqa %xmm1, %xmm5			; SSE-NEXT: movdqa %xmm2, %xmm6
	; SSE-NEXT: psrlq $32, %xmm5			; SSE-NEXT: pmuludq %xmm4, %xmm6
	; SSE-NEXT: pmuludq %xmm2, %xmm5			; SSE-NEXT: paddq %xmm5, %xmm6
	; SSE-NEXT: paddq %xmm4, %xmm5			; SSE-NEXT: psllq $32, %xmm6
	; SSE-NEXT: psllq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE-NEXT: pmuludq %xmm1, %xmm2
	; SSE-NEXT: paddq %xmm5, %xmm2			; SSE-NEXT: paddq %xmm6, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm1
	; SSE-NEXT: psrlq $32, %xmm1			; SSE-NEXT: pmuludq %xmm4, %xmm1
	; SSE-NEXT: pmuludq %xmm3, %xmm1			; SSE-NEXT: pmuludq %xmm3, %xmm4
	; SSE-NEXT: movdqa %xmm3, %xmm4
	; SSE-NEXT: psrlq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm0, %xmm4
	; SSE-NEXT: paddq %xmm1, %xmm4			; SSE-NEXT: paddq %xmm1, %xmm4
	; SSE-NEXT: psllq $32, %xmm4			; SSE-NEXT: psllq $32, %xmm4
	; SSE-NEXT: pmuludq %xmm3, %xmm0			; SSE-NEXT: pmuludq %xmm3, %xmm0
	; SSE-NEXT: paddq %xmm4, %xmm0			; SSE-NEXT: paddq %xmm4, %xmm0
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; SSE-NEXT: paddd {{.*}}(%rip), %xmm0			; SSE-NEXT: paddd {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	Show All 12 Lines

	define <4 x i32> @mul_add_self_v4i64_v4i32(<4 x i32> %a0, <4 x i32> %a1) nounwind {			define <4 x i32> @mul_add_self_v4i64_v4i32(<4 x i32> %a0, <4 x i32> %a1) nounwind {
	; SSE-LABEL: mul_add_self_v4i64_v4i32:			; SSE-LABEL: mul_add_self_v4i64_v4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSE-NEXT: movdqa %xmm2, %xmm3			; SSE-NEXT: movdqa %xmm2, %xmm3
	; SSE-NEXT: psrad $31, %xmm3			; SSE-NEXT: psrad $31, %xmm3
	; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm6
	; SSE-NEXT: psrad $31, %xmm3			; SSE-NEXT: psrad $31, %xmm6
	; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1]
	; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]
	; SSE-NEXT: movdqa %xmm3, %xmm4			; SSE-NEXT: movdqa %xmm4, %xmm5
	; SSE-NEXT: psrad $31, %xmm4			; SSE-NEXT: psrad $31, %xmm5
	; SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
	; SSE-NEXT: movdqa %xmm1, %xmm4			; SSE-NEXT: movdqa %xmm1, %xmm7
	; SSE-NEXT: psrad $31, %xmm4			; SSE-NEXT: psrad $31, %xmm7
	; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm7[0],xmm1[1],xmm7[1]
	; SSE-NEXT: movdqa %xmm0, %xmm4			; SSE-NEXT: pxor %xmm8, %xmm8
	; SSE-NEXT: psrlq $32, %xmm4			; SSE-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm8[0],xmm6[1],xmm8[1]
	; SSE-NEXT: pmuludq %xmm1, %xmm4			; SSE-NEXT: pmuludq %xmm1, %xmm6
	; SSE-NEXT: movdqa %xmm1, %xmm5			; SSE-NEXT: punpckldq {{.*#+}} xmm7 = xmm7[0],xmm8[0],xmm7[1],xmm8[1]
	; SSE-NEXT: psrlq $32, %xmm5			; SSE-NEXT: pmuludq %xmm0, %xmm7
	; SSE-NEXT: pmuludq %xmm0, %xmm5			; SSE-NEXT: paddq %xmm6, %xmm7
	; SSE-NEXT: paddq %xmm4, %xmm5			; SSE-NEXT: psllq $32, %xmm7
	; SSE-NEXT: psllq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm0, %xmm1			; SSE-NEXT: pmuludq %xmm0, %xmm1
	; SSE-NEXT: paddq %xmm5, %xmm1			; SSE-NEXT: paddq %xmm7, %xmm1
	; SSE-NEXT: movdqa %xmm2, %xmm0			; SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm8[0],xmm3[1],xmm8[1]
	; SSE-NEXT: psrlq $32, %xmm0			; SSE-NEXT: pmuludq %xmm4, %xmm3
	; SSE-NEXT: pmuludq %xmm3, %xmm0			; SSE-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm8[0],xmm5[1],xmm8[1]
	; SSE-NEXT: movdqa %xmm3, %xmm4			; SSE-NEXT: pmuludq %xmm2, %xmm5
	; SSE-NEXT: psrlq $32, %xmm4			; SSE-NEXT: paddq %xmm3, %xmm5
				; SSE-NEXT: psllq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm2, %xmm4			; SSE-NEXT: pmuludq %xmm2, %xmm4
	; SSE-NEXT: paddq %xmm0, %xmm4			; SSE-NEXT: paddq %xmm5, %xmm4
	; SSE-NEXT: psllq $32, %xmm4			; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm4[0,2]
	; SSE-NEXT: pmuludq %xmm2, %xmm3
	; SSE-NEXT: paddq %xmm4, %xmm3
	; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm3[0,2]
	; SSE-NEXT: paddd %xmm1, %xmm1			; SSE-NEXT: paddd %xmm1, %xmm1
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: mul_add_self_v4i64_v4i32:			; AVX-LABEL: mul_add_self_v4i64_v4i32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpaddd %xmm0, %xmm0, %xmm0			; AVX-NEXT: vpaddd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = sext <4 x i32> %a0 to <4 x i64>			%1 = sext <4 x i32> %a0 to <4 x i64>
	%2 = sext <4 x i32> %a1 to <4 x i64>			%2 = sext <4 x i32> %a1 to <4 x i64>
	%3 = mul <4 x i64> %1, %2			%3 = mul <4 x i64> %1, %2
	%4 = add <4 x i64> %3, %3			%4 = add <4 x i64> %3, %3
	%5 = trunc <4 x i64> %4 to <4 x i32>			%5 = trunc <4 x i64> %4 to <4 x i32>
	ret <4 x i32> %5			ret <4 x i32> %5
	}			}

	define <4 x i32> @mul_add_multiuse_v4i64_v4i32(<4 x i32> %a0, <4 x i32> %a1) nounwind {			define <4 x i32> @mul_add_multiuse_v4i64_v4i32(<4 x i32> %a0, <4 x i32> %a1) nounwind {
	; SSE-LABEL: mul_add_multiuse_v4i64_v4i32:			; SSE-LABEL: mul_add_multiuse_v4i64_v4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,1,1,3]			; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,1,1,3]
	; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,1,3,3]
	; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,1,1,3]			; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,1,1,3]
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,1,3,3]
	; SSE-NEXT: movdqa %xmm3, %xmm5			; SSE-NEXT: pxor %xmm5, %xmm5
	; SSE-NEXT: psrlq $32, %xmm5			; SSE-NEXT: pxor %xmm6, %xmm6
	; SSE-NEXT: pmuludq %xmm1, %xmm5			; SSE-NEXT: pmuludq %xmm1, %xmm6
	; SSE-NEXT: movdqa %xmm1, %xmm6			; SSE-NEXT: movdqa %xmm3, %xmm7
	; SSE-NEXT: psrlq $32, %xmm6			; SSE-NEXT: pmuludq %xmm5, %xmm7
	; SSE-NEXT: pmuludq %xmm3, %xmm6			; SSE-NEXT: paddq %xmm6, %xmm7
	; SSE-NEXT: paddq %xmm5, %xmm6			; SSE-NEXT: psllq $32, %xmm7
	; SSE-NEXT: psllq $32, %xmm6
	; SSE-NEXT: pmuludq %xmm1, %xmm3			; SSE-NEXT: pmuludq %xmm1, %xmm3
	; SSE-NEXT: paddq %xmm6, %xmm3			; SSE-NEXT: paddq %xmm7, %xmm3
	; SSE-NEXT: movdqa %xmm2, %xmm1			; SSE-NEXT: movdqa %xmm2, %xmm1
	; SSE-NEXT: psrlq $32, %xmm1			; SSE-NEXT: pmuludq %xmm5, %xmm1
	; SSE-NEXT: pmuludq %xmm4, %xmm1			; SSE-NEXT: pmuludq %xmm4, %xmm5
	; SSE-NEXT: movdqa %xmm4, %xmm5
	; SSE-NEXT: psrlq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm2, %xmm5
	; SSE-NEXT: paddq %xmm1, %xmm5			; SSE-NEXT: paddq %xmm1, %xmm5
	; SSE-NEXT: psllq $32, %xmm5			; SSE-NEXT: psllq $32, %xmm5
	; SSE-NEXT: pmuludq %xmm4, %xmm2			; SSE-NEXT: pmuludq %xmm4, %xmm2
	; SSE-NEXT: paddq %xmm5, %xmm2			; SSE-NEXT: paddq %xmm5, %xmm2
	; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]			; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]
	; SSE-NEXT: paddd %xmm2, %xmm0			; SSE-NEXT: paddd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	Show All 12 Lines

llvm/trunk/test/CodeGen/X86/x86-interleaved-access.ll

	Show First 20 Lines • Show All 1,298 Lines • ▼ Show 20 Lines
	store <48 x i8> %interleaved.vec, <48 x i8>* %p, align 1			store <48 x i8> %interleaved.vec, <48 x i8>* %p, align 1
	ret void			ret void
	}			}

	define void @interleaved_store_vf32_i8_stride3(<32 x i8> %a, <32 x i8> %b, <32 x i8> %c, <96 x i8>* %p) {			define void @interleaved_store_vf32_i8_stride3(<32 x i8> %a, <32 x i8> %b, <32 x i8> %c, <96 x i8>* %p) {
	; AVX1-LABEL: interleaved_store_vf32_i8_stride3:			; AVX1-LABEL: interleaved_store_vf32_i8_stride3:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX1-NEXT: vpalignr {{.*#+}} xmm8 = xmm3[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm9
	; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm4[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm5 = xmm9[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm6 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm5 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm7 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm6			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3
	; AVX1-NEXT: vpalignr {{.*#+}} xmm7 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm6[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm8[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm1[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm10 = xmm6[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm5[5,6,7,8,9,10,11,12,13,14,15],xmm8[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm6[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm6[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm5[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm7[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm5 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm9[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm6 = xmm5[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm7[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm6 = xmm10[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
				; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm7[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm7[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[5,6,7,8,9,10,11,12,13,14,15],xmm5[0,1,2,3,4]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]			; AVX1-NEXT: vpshufb %xmm4, %xmm6, %xmm6
	; AVX1-NEXT: vpshufb %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm6			; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm6, %ymm0			; AVX1-NEXT: vpshufb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpshufb %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpshufb %xmm4, %xmm5, %xmm5
	; AVX1-NEXT: vpshufb %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1			; AVX1-NEXT: vpshufb %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpshufb %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2			; AVX1-NEXT: vmovups %ymm0, 64(%rdi)
	; AVX1-NEXT: vmovups %ymm2, 64(%rdi)			; AVX1-NEXT: vmovups %ymm2, 32(%rdi)
	; AVX1-NEXT: vmovups %ymm1, 32(%rdi)			; AVX1-NEXT: vmovups %ymm1, (%rdi)
	; AVX1-NEXT: vmovups %ymm0, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: interleaved_store_vf32_i8_stride3:			; AVX2-LABEL: interleaved_store_vf32_i8_stride3:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20,21]			; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20,21]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25,26]			; AVX2-NEXT: vpalignr {{.*#+}} ymm3 = ymm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25,26]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm3 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm2[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm2[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm4 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm2[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm2[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm1[5,6,7,8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4],ymm1[21,22,23,24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm3[5,6,7,8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4],ymm3[21,22,23,24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm2[5,6,7,8,9,10,11,12,13,14,15],ymm1[0,1,2,3,4],ymm2[21,22,23,24,25,26,27,28,29,30,31],ymm1[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm2 = ymm2[5,6,7,8,9,10,11,12,13,14,15],ymm3[0,1,2,3,4],ymm2[21,22,23,24,25,26,27,28,29,30,31],ymm3[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm2 = ymm3[5,6,7,8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4],ymm3[21,22,23,24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm4[5,6,7,8,9,10,11,12,13,14,15],ymm1[0,1,2,3,4],ymm4[21,22,23,24,25,26,27,28,29,30,31],ymm1[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm1[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm1[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm2[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm2[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[5,6,7,8,9,10,11,12,13,14,15],ymm3[0,1,2,3,4],ymm1[21,22,23,24,25,26,27,28,29,30,31],ymm3[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm2 = ymm2[5,6,7,8,9,10,11,12,13,14,15],ymm4[0,1,2,3,4],ymm2[21,22,23,24,25,26,27,28,29,30,31],ymm4[16,17,18,19,20]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm3			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm3
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5,0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5,0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]
	; AVX2-NEXT: vpshufb %ymm4, %ymm3, %ymm3			; AVX2-NEXT: vpshufb %ymm4, %ymm3, %ymm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm1[0,1,2,3],ymm2[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: vpshufb %ymm4, %ymm2, %ymm2			; AVX2-NEXT: vpshufb %ymm4, %ymm1, %ymm1
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]
	; AVX2-NEXT: vpshufb %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpshufb %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu %ymm0, 64(%rdi)			; AVX2-NEXT: vmovdqu %ymm0, 64(%rdi)
	; AVX2-NEXT: vmovdqu %ymm2, 32(%rdi)			; AVX2-NEXT: vmovdqu %ymm1, 32(%rdi)
	; AVX2-NEXT: vmovdqu %ymm3, (%rdi)			; AVX2-NEXT: vmovdqu %ymm3, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: interleaved_store_vf32_i8_stride3:			; AVX512-LABEL: interleaved_store_vf32_i8_stride3:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20,21]			; AVX512-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20,21]
	; AVX512-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25,26]			; AVX512-NEXT: vpalignr {{.*#+}} ymm3 = ymm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25,26]
	; AVX512-NEXT: vpalignr {{.*#+}} ymm3 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm2[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm2[16,17,18,19,20]			; AVX512-NEXT: vpalignr {{.*#+}} ymm4 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm2[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm2[16,17,18,19,20]
	; AVX512-NEXT: vpalignr {{.*#+}} ymm0 = ymm1[5,6,7,8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4],ymm1[21,22,23,24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20]			; AVX512-NEXT: vpalignr {{.*#+}} ymm0 = ymm3[5,6,7,8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4],ymm3[21,22,23,24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20]
	; AVX512-NEXT: vpalignr {{.*#+}} ymm1 = ymm2[5,6,7,8,9,10,11,12,13,14,15],ymm1[0,1,2,3,4],ymm2[21,22,23,24,25,26,27,28,29,30,31],ymm1[16,17,18,19,20]			; AVX512-NEXT: vpalignr {{.*#+}} ymm2 = ymm2[5,6,7,8,9,10,11,12,13,14,15],ymm3[0,1,2,3,4],ymm2[21,22,23,24,25,26,27,28,29,30,31],ymm3[16,17,18,19,20]
	; AVX512-NEXT: vpalignr {{.*#+}} ymm2 = ymm3[5,6,7,8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4],ymm3[21,22,23,24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20]			; AVX512-NEXT: vpalignr {{.*#+}} ymm1 = ymm4[5,6,7,8,9,10,11,12,13,14,15],ymm1[0,1,2,3,4],ymm4[21,22,23,24,25,26,27,28,29,30,31],ymm1[16,17,18,19,20]
	; AVX512-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm1[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm1[16,17,18,19,20]			; AVX512-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm2[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm2[16,17,18,19,20]
	; AVX512-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[5,6,7,8,9,10,11,12,13,14,15],ymm3[0,1,2,3,4],ymm1[21,22,23,24,25,26,27,28,29,30,31],ymm3[16,17,18,19,20]			; AVX512-NEXT: vpalignr {{.*#+}} ymm2 = ymm2[5,6,7,8,9,10,11,12,13,14,15],ymm4[0,1,2,3,4],ymm2[21,22,23,24,25,26,27,28,29,30,31],ymm4[16,17,18,19,20]
	; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm3			; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm3
	; AVX512-NEXT: vmovdqa {{.*#+}} ymm4 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5,0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]			; AVX512-NEXT: vmovdqa {{.*#+}} ymm4 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5,0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]
	; AVX512-NEXT: vpshufb %ymm4, %ymm3, %ymm3			; AVX512-NEXT: vpshufb %ymm4, %ymm3, %ymm3
	; AVX512-NEXT: vpblendd {{.*#+}} ymm2 = ymm1[0,1,2,3],ymm2[4,5,6,7]			; AVX512-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX512-NEXT: vpshufb %ymm4, %ymm2, %ymm2			; AVX512-NEXT: vpshufb %ymm4, %ymm1, %ymm1
	; AVX512-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]			; AVX512-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]
	; AVX512-NEXT: vpshufb %ymm4, %ymm0, %ymm0			; AVX512-NEXT: vpshufb %ymm4, %ymm0, %ymm0
	; AVX512-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm1			; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm3, %zmm1
	; AVX512-NEXT: vmovdqu %ymm0, 64(%rdi)			; AVX512-NEXT: vmovdqu %ymm0, 64(%rdi)
	; AVX512-NEXT: vmovdqu64 %zmm1, (%rdi)			; AVX512-NEXT: vmovdqu64 %zmm1, (%rdi)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = shufflevector <32 x i8> %a, <32 x i8> %b, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 32, i32 33, i32 34, i32 35, i32 36, i32 37, i32 38, i32 39, i32 40, i32 41, i32 42, i32 43, i32 44, i32 45, i32 46, i32 47, i32 48, i32 49, i32 50, i32 51, i32 52, i32 53, i32 54, i32 55, i32 56, i32 57, i32 58, i32 59, i32 60, i32 61, i32 62, i32 63>			%1 = shufflevector <32 x i8> %a, <32 x i8> %b, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 32, i32 33, i32 34, i32 35, i32 36, i32 37, i32 38, i32 39, i32 40, i32 41, i32 42, i32 43, i32 44, i32 45, i32 46, i32 47, i32 48, i32 49, i32 50, i32 51, i32 52, i32 53, i32 54, i32 55, i32 56, i32 57, i32 58, i32 59, i32 60, i32 61, i32 62, i32 63>
	%2 = shufflevector <32 x i8> %c, <32 x i8> undef, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%2 = shufflevector <32 x i8> %c, <32 x i8> undef, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%interleaved.vec = shufflevector <64 x i8> %1, <64 x i8> %2, <96 x i32> <i32 0, i32 32, i32 64, i32 1, i32 33, i32 65, i32 2, i32 34, i32 66, i32 3, i32 35, i32 67, i32 4, i32 36, i32 68, i32 5, i32 37, i32 69, i32 6, i32 38, i32 70, i32 7, i32 39, i32 71, i32 8, i32 40, i32 72, i32 9, i32 41, i32 73, i32 10, i32 42, i32 74, i32 11, i32 43, i32 75, i32 12, i32 44, i32 76, i32 13, i32 45, i32 77, i32 14, i32 46, i32 78, i32 15, i32 47, i32 79, i32 16, i32 48, i32 80, i32 17, i32 49, i32 81, i32 18, i32 50, i32 82, i32 19, i32 51, i32 83, i32 20, i32 52, i32 84, i32 21, i32 53, i32 85, i32 22, i32 54, i32 86, i32 23, i32 55, i32 87, i32 24, i32 56, i32 88, i32 25, i32 57, i32 89, i32 26, i32 58, i32 90, i32 27, i32 59, i32 91, i32 28, i32 60, i32 92, i32 29, i32 61, i32 93, i32 30, i32 62, i32 94, i32 31, i32 63, i32 95>			%interleaved.vec = shufflevector <64 x i8> %1, <64 x i8> %2, <96 x i32> <i32 0, i32 32, i32 64, i32 1, i32 33, i32 65, i32 2, i32 34, i32 66, i32 3, i32 35, i32 67, i32 4, i32 36, i32 68, i32 5, i32 37, i32 69, i32 6, i32 38, i32 70, i32 7, i32 39, i32 71, i32 8, i32 40, i32 72, i32 9, i32 41, i32 73, i32 10, i32 42, i32 74, i32 11, i32 43, i32 75, i32 12, i32 44, i32 76, i32 13, i32 45, i32 77, i32 14, i32 46, i32 78, i32 15, i32 47, i32 79, i32 16, i32 48, i32 80, i32 17, i32 49, i32 81, i32 18, i32 50, i32 82, i32 19, i32 51, i32 83, i32 20, i32 52, i32 84, i32 21, i32 53, i32 85, i32 22, i32 54, i32 86, i32 23, i32 55, i32 87, i32 24, i32 56, i32 88, i32 25, i32 57, i32 89, i32 26, i32 58, i32 90, i32 27, i32 59, i32 91, i32 28, i32 60, i32 92, i32 29, i32 61, i32 93, i32 30, i32 62, i32 94, i32 31, i32 63, i32 95>
	store <96 x i8> %interleaved.vec, <96 x i8>* %p, align 1			store <96 x i8> %interleaved.vec, <96 x i8>* %p, align 1
	ret void			ret void
	}			}

	define void @interleaved_store_vf64_i8_stride3(<64 x i8> %a, <64 x i8> %b, <64 x i8> %c, <192 x i8>* %p) {			define void @interleaved_store_vf64_i8_stride3(<64 x i8> %a, <64 x i8> %b, <64 x i8> %c, <192 x i8>* %p) {
	; AVX1-LABEL: interleaved_store_vf64_i8_stride3:			; AVX1-LABEL: interleaved_store_vf64_i8_stride3:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm6			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm6
	; AVX1-NEXT: vpalignr {{.*#+}} xmm8 = xmm6[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX1-NEXT: vpalignr {{.*#+}} xmm8 = xmm6[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm9 = xmm1[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX1-NEXT: vpalignr {{.*#+}} xmm9 = xmm1[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm7			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm7
	; AVX1-NEXT: vpalignr {{.*#+}} xmm14 = xmm7[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX1-NEXT: vpalignr {{.*#+}} xmm12 = xmm7[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5]
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm6			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm10
	; AVX1-NEXT: vpalignr {{.*#+}} xmm11 = xmm6[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm13 = xmm10[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm15 = xmm3[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm15 = xmm3[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm11
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm7 = xmm11[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]			; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm2[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm10 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm14 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]
	; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm6			; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm6
	; AVX1-NEXT: vpalignr {{.*#+}} xmm12 = xmm14[5,6,7,8,9,10,11,12,13,14,15],xmm6[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm1[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm13 = xmm9[5,6,7,8,9,10,11,12,13,14,15],xmm5[0,1,2,3,4]			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm7			; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm8[5,6,7,8,9,10,11,12,13,14,15],xmm7[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm12[5,6,7,8,9,10,11,12,13,14,15],xmm6[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm12 = xmm7[5,6,7,8,9,10,11,12,13,14,15],xmm12[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm14 = xmm1[5,6,7,8,9,10,11,12,13,14,15],xmm14[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm6 = xmm6[5,6,7,8,9,10,11,12,13,14,15],xmm7[0,1,2,3,4]
				; AVX1-NEXT: vpalignr {{.*#+}} xmm7 = xmm9[5,6,7,8,9,10,11,12,13,14,15],xmm5[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm9 = xmm15[5,6,7,8,9,10,11,12,13,14,15],xmm9[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm9 = xmm15[5,6,7,8,9,10,11,12,13,14,15],xmm9[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm8 = xmm11[5,6,7,8,9,10,11,12,13,14,15],xmm8[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm15 = xmm5[5,6,7,8,9,10,11,12,13,14,15],xmm15[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]			; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm5
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm6[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm8[5,6,7,8,9,10,11,12,13,14,15],xmm5[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm5[5,6,7,8,9,10,11,12,13,14,15],xmm15[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm8 = xmm13[5,6,7,8,9,10,11,12,13,14,15],xmm8[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm5 = xmm7[5,6,7,8,9,10,11,12,13,14,15],xmm11[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm5 = xmm5[5,6,7,8,9,10,11,12,13,14,15],xmm13[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm11 = xmm3[5,6,7,8,9,10,11,12,13,14,15],xmm8[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm10 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm10[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm15 = xmm13[5,6,7,8,9,10,11,12,13,14,15],xmm9[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm6 = xmm12[5,6,7,8,9,10,11,12,13,14,15],xmm14[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm7 = xmm10[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm8 = xmm8[5,6,7,8,9,10,11,12,13,14,15],xmm5[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm8 = xmm8[5,6,7,8,9,10,11,12,13,14,15],xmm5[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm9 = xmm9[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm13 = xmm5[5,6,7,8,9,10,11,12,13,14,15],xmm0[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm14 = xmm14[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm7[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm5 = xmm9[5,6,7,8,9,10,11,12,13,14,15],xmm15[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm3 = xmm5[5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm9 = xmm15[5,6,7,8,9,10,11,12,13,14,15],xmm7[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm13[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm0 = xmm4[5,6,7,8,9,10,11,12,13,14,15],xmm11[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[5,6,7,8,9,10,11,12,13,14,15],xmm12[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm11 = xmm12[5,6,7,8,9,10,11,12,13,14,15],xmm6[0,1,2,3,4]
	; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[5,6,7,8,9,10,11,12,13,14,15],xmm10[0,1,2,3,4]			; AVX1-NEXT: vpalignr {{.*#+}} xmm4 = xmm6[5,6,7,8,9,10,11,12,13,14,15],xmm4[0,1,2,3,4]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]			; AVX1-NEXT: vpalignr {{.*#+}} xmm2 = xmm14[5,6,7,8,9,10,11,12,13,14,15],xmm2[0,1,2,3,4]
	; AVX1-NEXT: vpshufb %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpalignr $5, {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm6 # 16-byte Folded Reload
	; AVX1-NEXT: vpshufb %xmm5, %xmm7, %xmm7			; AVX1-NEXT: # xmm6 = mem[5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm7, %ymm0			; AVX1-NEXT: vpalignr {{.*#+}} xmm1 = xmm1[5,6,7,8,9,10,11,12,13,14,15],xmm14[0,1,2,3,4]
	; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm6			; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]
	; AVX1-NEXT: vpshufb %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm7, %xmm6, %xmm6
				; AVX1-NEXT: vpshufb %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm2, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm2, %ymm2
	; AVX1-NEXT: vpshufb %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm7, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm5, %xmm14, %xmm6			; AVX1-NEXT: vpshufb %xmm7, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm6, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: vpshufb %xmm5, %xmm9, %xmm6			; AVX1-NEXT: vpshufb %xmm7, %xmm4, %xmm1
	; AVX1-NEXT: vpshufb %xmm5, %xmm15, %xmm7			; AVX1-NEXT: vpshufb %xmm7, %xmm11, %xmm4
	; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm7, %ymm6			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm4, %ymm1
	; AVX1-NEXT: vpshufb %xmm5, %xmm11, %xmm7			; AVX1-NEXT: vpshufb %xmm7, %xmm5, %xmm4
	; AVX1-NEXT: vpshufb %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpshufb %xmm7, %xmm3, %xmm3
	; AVX1-NEXT: vinsertf128 $1, %xmm7, %ymm4, %ymm4			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; AVX1-NEXT: vpshufb %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpshufb %xmm7, %xmm9, %xmm4
	; AVX1-NEXT: vpshufb %xmm5, %xmm8, %xmm5			; AVX1-NEXT: vpshufb %xmm7, %xmm10, %xmm5
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3			; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm4, %ymm4
	; AVX1-NEXT: vmovups %ymm3, 160(%rdi)			; AVX1-NEXT: vpshufb %xmm7, %xmm13, %xmm5
				; AVX1-NEXT: vpshufb %xmm7, %xmm8, %xmm6
				; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm6, %ymm5
				; AVX1-NEXT: vmovups %ymm5, 160(%rdi)
	; AVX1-NEXT: vmovups %ymm4, 128(%rdi)			; AVX1-NEXT: vmovups %ymm4, 128(%rdi)
	; AVX1-NEXT: vmovups %ymm6, 96(%rdi)			; AVX1-NEXT: vmovups %ymm3, 96(%rdi)
	; AVX1-NEXT: vmovups %ymm1, 64(%rdi)			; AVX1-NEXT: vmovups %ymm1, 64(%rdi)
	; AVX1-NEXT: vmovups %ymm2, 32(%rdi)			; AVX1-NEXT: vmovups %ymm0, 32(%rdi)
	; AVX1-NEXT: vmovups %ymm0, (%rdi)			; AVX1-NEXT: vmovups %ymm2, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: interleaved_store_vf64_i8_stride3:			; AVX2-LABEL: interleaved_store_vf64_i8_stride3:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20,21]			; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20,21]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20,21]			; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20,21]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm3 = ymm3[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25,26]			; AVX2-NEXT: vpalignr {{.*#+}} ymm6 = ymm3[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25,26]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm2 = ymm2[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25,26]			; AVX2-NEXT: vpalignr {{.*#+}} ymm7 = ymm2[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25,26]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm6 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm4[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm4[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm8 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm4[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm4[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm7 = ymm1[5,6,7,8,9,10,11,12,13,14,15],ymm5[0,1,2,3,4],ymm1[21,22,23,24,25,26,27,28,29,30,31],ymm5[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm9 = ymm1[5,6,7,8,9,10,11,12,13,14,15],ymm5[0,1,2,3,4],ymm1[21,22,23,24,25,26,27,28,29,30,31],ymm5[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm2[5,6,7,8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4],ymm2[21,22,23,24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm7[5,6,7,8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4],ymm7[21,22,23,24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm3[5,6,7,8,9,10,11,12,13,14,15],ymm1[0,1,2,3,4],ymm3[21,22,23,24,25,26,27,28,29,30,31],ymm1[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm6[5,6,7,8,9,10,11,12,13,14,15],ymm1[0,1,2,3,4],ymm6[21,22,23,24,25,26,27,28,29,30,31],ymm1[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm2 = ymm4[5,6,7,8,9,10,11,12,13,14,15],ymm2[0,1,2,3,4],ymm4[21,22,23,24,25,26,27,28,29,30,31],ymm2[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm4 = ymm4[5,6,7,8,9,10,11,12,13,14,15],ymm7[0,1,2,3,4],ymm4[21,22,23,24,25,26,27,28,29,30,31],ymm7[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm3 = ymm5[5,6,7,8,9,10,11,12,13,14,15],ymm3[0,1,2,3,4],ymm5[21,22,23,24,25,26,27,28,29,30,31],ymm3[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm5 = ymm5[5,6,7,8,9,10,11,12,13,14,15],ymm6[0,1,2,3,4],ymm5[21,22,23,24,25,26,27,28,29,30,31],ymm6[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm4 = ymm7[5,6,7,8,9,10,11,12,13,14,15],ymm1[0,1,2,3,4],ymm7[21,22,23,24,25,26,27,28,29,30,31],ymm1[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm3 = ymm9[5,6,7,8,9,10,11,12,13,14,15],ymm3[0,1,2,3,4],ymm9[21,22,23,24,25,26,27,28,29,30,31],ymm3[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm5 = ymm6[5,6,7,8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4],ymm6[21,22,23,24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm2 = ymm8[5,6,7,8,9,10,11,12,13,14,15],ymm2[0,1,2,3,4],ymm8[21,22,23,24,25,26,27,28,29,30,31],ymm2[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[5,6,7,8,9,10,11,12,13,14,15],ymm3[0,1,2,3,4],ymm1[21,22,23,24,25,26,27,28,29,30,31],ymm3[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm1 = ymm1[5,6,7,8,9,10,11,12,13,14,15],ymm5[0,1,2,3,4],ymm1[21,22,23,24,25,26,27,28,29,30,31],ymm5[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm2[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm2[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[5,6,7,8,9,10,11,12,13,14,15],ymm4[0,1,2,3,4],ymm0[21,22,23,24,25,26,27,28,29,30,31],ymm4[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm3 = ymm3[5,6,7,8,9,10,11,12,13,14,15],ymm7[0,1,2,3,4],ymm3[21,22,23,24,25,26,27,28,29,30,31],ymm7[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm5 = ymm5[5,6,7,8,9,10,11,12,13,14,15],ymm9[0,1,2,3,4],ymm5[21,22,23,24,25,26,27,28,29,30,31],ymm9[16,17,18,19,20]
	; AVX2-NEXT: vpalignr {{.*#+}} ymm2 = ymm2[5,6,7,8,9,10,11,12,13,14,15],ymm6[0,1,2,3,4],ymm2[21,22,23,24,25,26,27,28,29,30,31],ymm6[16,17,18,19,20]			; AVX2-NEXT: vpalignr {{.*#+}} ymm4 = ymm4[5,6,7,8,9,10,11,12,13,14,15],ymm8[0,1,2,3,4],ymm4[21,22,23,24,25,26,27,28,29,30,31],ymm8[16,17,18,19,20]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm5, %ymm6			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm6
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm7 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5,0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm7 = [0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5,0,11,6,1,12,7,2,13,8,3,14,9,4,15,10,5]
	; AVX2-NEXT: vpshufb %ymm7, %ymm6, %ymm6			; AVX2-NEXT: vpshufb %ymm7, %ymm6, %ymm6
	; AVX2-NEXT: vpblendd {{.*#+}} ymm5 = ymm2[0,1,2,3],ymm5[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1,2,3],ymm2[4,5,6,7]
	; AVX2-NEXT: vpshufb %ymm7, %ymm5, %ymm5
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]
	; AVX2-NEXT: vpshufb %ymm7, %ymm0, %ymm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm4, %ymm2
	; AVX2-NEXT: vpshufb %ymm7, %ymm2, %ymm2			; AVX2-NEXT: vpshufb %ymm7, %ymm2, %ymm2
	; AVX2-NEXT: vpblendd {{.*#+}} ymm4 = ymm3[0,1,2,3],ymm4[4,5,6,7]			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm4[2,3]
				; AVX2-NEXT: vpshufb %ymm7, %ymm0, %ymm0
				; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm3, %ymm4
	; AVX2-NEXT: vpshufb %ymm7, %ymm4, %ymm4			; AVX2-NEXT: vpshufb %ymm7, %ymm4, %ymm4
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm5[0,1,2,3],ymm3[4,5,6,7]
				; AVX2-NEXT: vpshufb %ymm7, %ymm3, %ymm3
				; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm1[2,3],ymm5[2,3]
	; AVX2-NEXT: vpshufb %ymm7, %ymm1, %ymm1			; AVX2-NEXT: vpshufb %ymm7, %ymm1, %ymm1
	; AVX2-NEXT: vmovdqu %ymm1, 160(%rdi)			; AVX2-NEXT: vmovdqu %ymm1, 160(%rdi)
	; AVX2-NEXT: vmovdqu %ymm4, 128(%rdi)			; AVX2-NEXT: vmovdqu %ymm3, 128(%rdi)
	; AVX2-NEXT: vmovdqu %ymm0, 64(%rdi)			; AVX2-NEXT: vmovdqu %ymm0, 64(%rdi)
	; AVX2-NEXT: vmovdqu %ymm5, 32(%rdi)			; AVX2-NEXT: vmovdqu %ymm2, 32(%rdi)
	; AVX2-NEXT: vmovdqu %ymm2, 96(%rdi)			; AVX2-NEXT: vmovdqu %ymm4, 96(%rdi)
	; AVX2-NEXT: vmovdqu %ymm6, (%rdi)			; AVX2-NEXT: vmovdqu %ymm6, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: interleaved_store_vf64_i8_stride3:			; AVX512-LABEL: interleaved_store_vf64_i8_stride3:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpalignr {{.*#+}} zmm0 = zmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20,21,38,39,40,41,42,43,44,45,46,47,32,33,34,35,36,37,54,55,56,57,58,59,60,61,62,63,48,49,50,51,52,53]			; AVX512-NEXT: vpalignr {{.*#+}} zmm0 = zmm0[6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,22,23,24,25,26,27,28,29,30,31,16,17,18,19,20,21,38,39,40,41,42,43,44,45,46,47,32,33,34,35,36,37,54,55,56,57,58,59,60,61,62,63,48,49,50,51,52,53]
	; AVX512-NEXT: vpalignr {{.*#+}} zmm1 = zmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25,26,43,44,45,46,47,32,33,34,35,36,37,38,39,40,41,42,59,60,61,62,63,48,49,50,51,52,53,54,55,56,57,58]			; AVX512-NEXT: vpalignr {{.*#+}} zmm1 = zmm1[11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,27,28,29,30,31,16,17,18,19,20,21,22,23,24,25,26,43,44,45,46,47,32,33,34,35,36,37,38,39,40,41,42,59,60,61,62,63,48,49,50,51,52,53,54,55,56,57,58]
	▲ Show 20 Lines • Show All 377 Lines • Show Last 20 Lines