This is an archive of the discontinued LLVM Phabricator instance.

[X86] Legalize v2i32 via widening rather than promoting
AbandonedPublic

Authored by craig.topper on Dec 10 2017, 10:31 PM.

Download Raw Diff

Details

Reviewers

RKSimon
zvi
chandlerc

Summary

Previously we promoted v2i32 to v2i64. This patch changes this to widen to v4i32 instead.

I think widening is a better behavior for illegal vectors. In fact we have an experimental flag to do just that, that has been around for a few years.

There are definitely a few deficiencies observed in here, but I think overall this is an improvement. I'll submit more patches for some of the issues.

One of my goals is to try to clean up some of the handling we have to do to account for the current legalization around masked load, store, gather, and scatter.

Diff Detail

Repository

rL LLVM

Build Status

Buildable 23775
Build 23774: arc lint + arc unit

Event Timeline

craig.topper created this revision.Dec 10 2017, 10:31 PM

Rebase and remove some code I forgot remove earlier

Ping

Rebase

There are some regressions that need to be addressed (or we decide to accept), but overall your approach seems right to me.

test/CodeGen/X86/avx2-masked-gather.ll
726	This patch does not change mask argumenent representation, so his compare is redundant, right?
728	Any way to easily fix vmovd+vpinsrd -> vmovq?
730	Is this redundant move a known issue?
test/CodeGen/X86/shrink_vmul.ll
52–53	Two more missed vmovq opportunities
test/CodeGen/X86/shuffle-vs-trunc-128.ll
252	What happened here?
277	What about this?

Rebase on top of other recent changes.

xiangzhai added a subscriber: xiangzhai.Jan 8 2018, 1:24 AM

Some random minor comments, but I'm not great on calling conventions and what issues we might encounter with this change.

lib/Target/X86/X86ISelLowering.cpp
26312–26313	Is there a helper function we should be using instead of this?
test/Analysis/CostModel/X86/sitofp.ll
114–115	What happened? This is way out!
test/Analysis/CostModel/X86/uitofp.ll
114–115	Again, way too high
test/CodeGen/X86/2012-01-18-vbitcast.ll
7	I think this is OK, but it still makes me nervous. We go from accessing 64-bits to 128-bits per argument.
test/CodeGen/X86/avx2-masked-gather.ll
684	Ouch
728	Yes - why didn't EltsFromConsecutiveLoads convert this to a i64 VZEXT_LOAD (VMOVQ)?
test/CodeGen/X86/known-signbits-vector.ll
19	Regression

Rebase. Still need to go through Simon's comments.

craig.topper added inline comments.Feb 12 2018, 4:59 PM

test/Analysis/CostModel/X86/sitofp.ll
114–115	I assume it switched between these rows in the cost table. { ISD::SINT_TO_FP, MVT::v2f64, MVT::v2i64, 210 }, { ISD::SINT_TO_FP, MVT::v2f64, MVT::v4i32, 410 },
test/CodeGen/X86/2012-01-18-vbitcast.ll
7	The 64-bits we get today is just dumb luck. If we compile with sse2 we get subq $16, %rsp .seh_stackalloc 16 .seh_endprologue pshufd $212, (%rdx), %xmm1 # xmm1 = mem[0,1,1,3] pshufd $212, (%rcx), %xmm0 # xmm0 = mem[0,1,1,3] psubq %xmm1, %xmm0 addq $16, %rsp retq
test/CodeGen/X86/avx2-masked-gather.ll
726	This compare is emulating an a v2i64 arithmetic shift right since we don't have that instruction. We only consider the lower bit of each mask to be valid coming in so we have to do a sign_extend_inreg operation. I thought we had a combine that used demanded bits that should have removed the right shift. But I think its getting tripped up by the concat_vectors that's in front of the gather.
728	I'm not sure anything ever saw the VPINSRD as anything more than a insert_vector_elt. We never had it as a shuffle or build_vector where we could detect multiple elements. I wonder if we shouldn't just custom legalize v2i32 loads to VZEXT_LOAD during type legalization?
730	It's there to clear bits 255:128 because we don't do a good job of detecting when the producer already zeroed those bits. I think we only whitelist a couple of instructions today.
test/CodeGen/X86/known-signbits-vector.ll
19	After type leglaization we have this. We could probably add a combine to catch the truncated build vector with sign extended inputs and squash them. Type-legalized selection DAG: %bb.0 'signbits_sext_v2i64_sitofp_v2f64:' SelectionDAG has 21 nodes: t0: ch = EntryToken t33: i32 = extract_vector_elt t27, Constant:i64<0> t35: i32 = extract_vector_elt t27, Constant:i64<1> t37: v4i32 = BUILD_VECTOR t33, t35, undef:i32, undef:i32 t30: v2f64 = X86ISD::CVTSI2P t37 t17: ch,glue = CopyToReg t0, Register:v2f64 $xmm0, t30 t2: i32,ch = CopyFromReg t0, Register:i32 %0 t5: i64 = sign_extend t2 t4: i32,ch = CopyFromReg t0, Register:i32 %1 t6: i64 = sign_extend t4 t26: v4i64 = BUILD_VECTOR t5, t6, undef:i64, undef:i64 t27: v4i32 = truncate t26 t18: ch = X86ISD::RET_FLAG t17, TargetConstant:i32<0>, Register:v2f64 $xmm0, t17:1
test/CodeGen/X86/shuffle-vs-trunc-128.ll
277	We type legalized the v2i64->v2i32 truncate by widening to v4i64 and then truncating. Maybe we just need to emit a bitcast to v4i32 and a vector shuffle ourselves?

Diffusion mentioned this in rL324980: [X86] Use getTypeAction in most places that were checking….Feb 12 2018, 5:52 PM

We now use getTypeAction in place of ExperimentalVectorWideningLegalization in most places so we no longer have to check for v2i32 in the bitcast code.

craig.topper marked an inline comment as done.Feb 12 2018, 5:58 PM

Add custom legalization for v2i32 loads to v2f64 in 32-bit mode to avoid extract and insert.

Harbormaster completed remote builds in B15125: Diff 134805.Feb 17 2018, 9:51 AM

Custom widen v2i32 stores as well.

Harbormaster completed remote builds in B15128: Diff 134816.Feb 17 2018, 1:06 PM

FWIW, I'm a *huge* fan of the approach of legalizing via widening (and have advocated for this in the past). Is there any specific review feedback you're looking for here beyond what you've already got?

No I just need to sit down and try to fix the regressions some more.

Rebase and improve gather/scatter with v2i32 indices

Fix bug in scatter legalization.

Try to use pmaddwd for v2i32 muls before type legalization obscures the zext.

craig.topper planned changes to this revision.Mar 27 2018, 9:01 AM

RKSimon added inline comments.Mar 28 2018, 5:49 AM

lib/CodeGen/SelectionDAG/TargetLowering.cpp
726 ↗	(On Diff #139873)	convert to for-range loop or for (unsigned i = 0, e = Op.getNumOperands(); i != e; ++i) { BTW - Can this diff be pulled out?

craig.topper added inline comments.Apr 3 2018, 2:32 PM

lib/CodeGen/SelectionDAG/TargetLowering.cpp
726 ↗	(On Diff #139873)	It doesn't change any test cases in the existing lit tests today.

Rebase

Harbormaster completed remote builds in B21924: Diff 162578.Aug 25 2018, 11:06 PM

Address a review comment.

craig.topper mentioned this in D51337: [X86] Support v2i32 gather/scatter indices with -x86-experimental-vector-widening-legalization.Aug 27 2018, 9:49 PM

Diffusion mentioned this in rL340891: [X86] Support v2i32 gather/scatter indices with -x86-experimental-vector….Aug 28 2018, 7:14 PM

Rebase

Harbormaster completed remote builds in B22408: Diff 164598.Sep 9 2018, 7:51 PM

Rebase

Harbormaster completed remote builds in B23775: Diff 169586.Oct 13 2018, 10:28 PM

Going to replace with a patch for all narrow types

Revision Contents

Path

Size

lib/

Target/

X86/

X86ISelLowering.cpp

156 lines

X86TargetTransformInfo.cpp

2 lines

test/

Analysis/

CostModel/

X86/

alternate-shuffle-cost.ll

36 lines

arith.ll

32 lines

fptoui.ll

19 lines

masked-intrinsic-cost.ll

16 lines

2 lines

4 lines

6 lines

6 lines

6 lines

2 lines

CodeGen/

X86/

2008-09-05-sinttofp-2xi32.ll

2 lines

2012-01-18-vbitcast.ll

5 lines

2012-07-10-extload64.ll

2 lines

3dnow-intrinsics.ll

23 lines

avx2-masked-gather.ll

42 lines

avx512-cvt.ll

79 lines

avx512-schedule.ll

32 lines

avx512-shuffles/

broadcast-vector-int.ll

36 lines

avx512-trunc.ll

23 lines

avx512vl-intrinsics-fast-isel.ll

5 lines

bitcast-and-setcc-128.ll

126 lines

67 lines

22 lines

44 lines

8 lines

insertelement-shuffle.ll

10 lines

known-signbits-vector.ll

8 lines

lower-bitcast.ll

4 lines

masked_gather_scatter.ll

187 lines

masked_gather_scatter_widen.ll

76 lines

171 lines

117 lines

4 lines

53 lines

34 lines

2 lines

2 lines

99 lines

410 lines

shuffle-strided-with-offset-128.ll

28 lines

shuffle-vs-trunc-128.ll

67 lines

sse-fsignum.ll

58 lines

trunc-ext-ld-st.ll

22 lines

trunc-subvector.ll

119 lines

unfold-masked-merge-vector-variablemask.ll

8 lines

59 lines

70 lines

12 lines

376 lines

6 lines

14 lines

6 lines

36 lines

7 lines

827 lines

27 lines

119 lines

23 lines

12 lines

17 lines

9 lines

19 lines

8 lines

8 lines

10 lines

28 lines

18 lines

Transforms/

SLPVectorizer/

X86/

insert-element-build-vector.ll

54 lines

Diff 169586

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 810 Lines • ▼ Show 20 Lines	for (auto VT : { MVT::v16i8, MVT::v8i16, MVT::v4i32, MVT::v2i64 }) {
setOperationAction(ISD::UMAX, VT, VT == MVT::v16i8 ? Legal : Custom);		setOperationAction(ISD::UMAX, VT, VT == MVT::v16i8 ? Legal : Custom);
setOperationAction(ISD::UMIN, VT, VT == MVT::v16i8 ? Legal : Custom);		setOperationAction(ISD::UMIN, VT, VT == MVT::v16i8 ? Legal : Custom);
}		}

setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v8i16, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v8i16, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4i32, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4i32, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4f32, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4f32, Custom);

// Provide custom widening for v2f32 setcc. This is really for VLX when
// setcc result type returns v2i1/v4i1 vector for v2f32/v4f32 leading to
// type legalization changing the result type to v4i1 during widening.
// It works fine for SSE2 and is probably faster so no need to qualify with
// VLX support.
setOperationAction(ISD::SETCC, MVT::v2i32, Custom);

for (auto VT : { MVT::v16i8, MVT::v8i16, MVT::v4i32, MVT::v2i64 }) {		for (auto VT : { MVT::v16i8, MVT::v8i16, MVT::v4i32, MVT::v2i64 }) {
setOperationAction(ISD::SETCC, VT, Custom);		setOperationAction(ISD::SETCC, VT, Custom);
setOperationAction(ISD::CTPOP, VT, Custom);		setOperationAction(ISD::CTPOP, VT, Custom);

// The condition codes aren't legal in SSE/AVX and under AVX512 we use		// The condition codes aren't legal in SSE/AVX and under AVX512 we use
// setcc all the way to isel and prefer SETGT in some isel patterns.		// setcc all the way to isel and prefer SETGT in some isel patterns.
setCondCodeAction(ISD::SETLT, VT, Custom);		setCondCodeAction(ISD::SETLT, VT, Custom);
setCondCodeAction(ISD::SETLE, VT, Custom);		setCondCodeAction(ISD::SETLE, VT, Custom);
▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasSSE2()) {

for (MVT VT : MVT::fp_vector_valuetypes())		for (MVT VT : MVT::fp_vector_valuetypes())
setLoadExtAction(ISD::EXTLOAD, VT, MVT::v2f32, Legal);		setLoadExtAction(ISD::EXTLOAD, VT, MVT::v2f32, Legal);

// We want to legalize this to an f64 load rather than an i64 load on		// We want to legalize this to an f64 load rather than an i64 load on
// 64-bit targets and two 32-bit loads on a 32-bit target. Similar for		// 64-bit targets and two 32-bit loads on a 32-bit target. Similar for
// store.		// store.
setOperationAction(ISD::LOAD, MVT::v2f32, Custom);		setOperationAction(ISD::LOAD, MVT::v2f32, Custom);
		setOperationAction(ISD::LOAD, MVT::v2i32, Custom);
setOperationAction(ISD::STORE, MVT::v2f32, Custom);		setOperationAction(ISD::STORE, MVT::v2f32, Custom);
		setOperationAction(ISD::STORE, MVT::v2i32, Custom);

setOperationAction(ISD::BITCAST, MVT::v2i32, Custom);		setOperationAction(ISD::BITCAST, MVT::v2i32, Custom);
setOperationAction(ISD::BITCAST, MVT::v4i16, Custom);		setOperationAction(ISD::BITCAST, MVT::v4i16, Custom);
setOperationAction(ISD::BITCAST, MVT::v8i8, Custom);		setOperationAction(ISD::BITCAST, MVT::v8i8, Custom);
if (!Subtarget.hasAVX512())		if (!Subtarget.hasAVX512())
setOperationAction(ISD::BITCAST, MVT::v16i1, Custom);		setOperationAction(ISD::BITCAST, MVT::v16i1, Custom);

setOperationAction(ISD::SIGN_EXTEND_VECTOR_INREG, MVT::v2i64, Custom);		setOperationAction(ISD::SIGN_EXTEND_VECTOR_INREG, MVT::v2i64, Custom);
▲ Show 20 Lines • Show All 893 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::emitStackGuardXorFP(SelectionDAG &DAG, SDValue Val,
EVT PtrTy = getPointerTy(DAG.getDataLayout());		EVT PtrTy = getPointerTy(DAG.getDataLayout());
unsigned XorOp = Subtarget.is64Bit() ? X86::XOR64_FP : X86::XOR32_FP;		unsigned XorOp = Subtarget.is64Bit() ? X86::XOR64_FP : X86::XOR32_FP;
MachineSDNode *Node = DAG.getMachineNode(XorOp, DL, PtrTy, Val);		MachineSDNode *Node = DAG.getMachineNode(XorOp, DL, PtrTy, Val);
return SDValue(Node, 0);		return SDValue(Node, 0);
}		}

TargetLoweringBase::LegalizeTypeAction		TargetLoweringBase::LegalizeTypeAction
X86TargetLowering::getPreferredVectorAction(EVT VT) const {		X86TargetLowering::getPreferredVectorAction(EVT VT) const {
		if (VT == MVT::v2i32 && Subtarget.hasSSE2())
		return TypeWidenVector;

if (VT == MVT::v32i1 && Subtarget.hasAVX512() && !Subtarget.hasBWI())		if (VT == MVT::v32i1 && Subtarget.hasAVX512() && !Subtarget.hasBWI())
return TypeSplitVector;		return TypeSplitVector;

if (ExperimentalVectorWideningLegalization &&		if (ExperimentalVectorWideningLegalization &&
VT.getVectorNumElements() != 1 &&		VT.getVectorNumElements() != 1 &&
VT.getVectorElementType().getSimpleVT() != MVT::i1)		VT.getVectorElementType().getSimpleVT() != MVT::i1)
return TypeWidenVector;		return TypeWidenVector;

▲ Show 20 Lines • Show All 17,170 Lines • ▼ Show 20 Lines	#endif
}		}

MVT VTOp0 = Op0.getSimpleValueType();		MVT VTOp0 = Op0.getSimpleValueType();
assert(VTOp0 == Op1.getSimpleValueType() &&		assert(VTOp0 == Op1.getSimpleValueType() &&
"Expected operands with same type!");		"Expected operands with same type!");
assert(VT.getVectorNumElements() == VTOp0.getVectorNumElements() &&		assert(VT.getVectorNumElements() == VTOp0.getVectorNumElements() &&
"Invalid number of packed elements for source and destination!");		"Invalid number of packed elements for source and destination!");

// This is being called by type legalization because v2i32 is marked custom
// for result type legalization for v2f32.
if (VTOp0 == MVT::v2i32)
return SDValue();

// The non-AVX512 code below works under the assumption that source and		// The non-AVX512 code below works under the assumption that source and
// destination types are the same.		// destination types are the same.
assert((Subtarget.hasAVX512() \|\| (VT == VTOp0)) &&		assert((Subtarget.hasAVX512() \|\| (VT == VTOp0)) &&
"Value types for source and destination must be the same!");		"Value types for source and destination must be the same!");

// Break 256-bit integer vector compare into smaller ones.		// Break 256-bit integer vector compare into smaller ones.
if (VT.is256BitVector() && !Subtarget.hasInt256())		if (VT.is256BitVector() && !Subtarget.hasInt256())
return Lower256IntVSETCC(Op, DAG);		return Lower256IntVSETCC(Op, DAG);
▲ Show 20 Lines • Show All 918 Lines • ▼ Show 20 Lines	static SDValue LowerSIGN_EXTEND(SDValue Op, const X86Subtarget &Subtarget,
OpLo = DAG.getSignExtendVectorInReg(OpLo, dl, HalfVT);		OpLo = DAG.getSignExtendVectorInReg(OpLo, dl, HalfVT);
OpHi = DAG.getSignExtendVectorInReg(OpHi, dl, HalfVT);		OpHi = DAG.getSignExtendVectorInReg(OpHi, dl, HalfVT);

return DAG.getNode(ISD::CONCAT_VECTORS, dl, VT, OpLo, OpHi);		return DAG.getNode(ISD::CONCAT_VECTORS, dl, VT, OpLo, OpHi);
}		}

static SDValue LowerStore(SDValue Op, const X86Subtarget &Subtarget,		static SDValue LowerStore(SDValue Op, const X86Subtarget &Subtarget,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
StoreSDNode *St = cast<StoreSDNode>(Op.getNode());		auto *St = cast<StoreSDNode>(Op.getNode());
SDLoc dl(St);		SDLoc dl(St);
SDValue StoredVal = St->getValue();		SDValue StoredVal = St->getValue();

// Without AVX512DQ, we need to use a scalar type for v2i1/v4i1/v8i1 loads.		// Without AVX512DQ, we need to use a scalar type for v2i1/v4i1/v8i1 loads.
if (StoredVal.getValueType().isVector() &&		if (StoredVal.getValueType().isVector() &&
StoredVal.getValueType().getVectorElementType() == MVT::i1) {		StoredVal.getValueType().getVectorElementType() == MVT::i1) {
assert(StoredVal.getValueType().getVectorNumElements() <= 8 &&		assert(StoredVal.getValueType().getVectorNumElements() <= 8 &&
"Unexpected VT");		"Unexpected VT");
Show All 9 Lines	if (StoredVal.getValueType().isVector() &&
return DAG.getStore(St->getChain(), dl, StoredVal, St->getBasePtr(),		return DAG.getStore(St->getChain(), dl, StoredVal, St->getBasePtr(),
St->getPointerInfo(), St->getAlignment(),		St->getPointerInfo(), St->getAlignment(),
St->getMemOperand()->getFlags());		St->getMemOperand()->getFlags());
}		}

if (St->isTruncatingStore())		if (St->isTruncatingStore())
return SDValue();		return SDValue();

assert(StoredVal.getValueType() == MVT::v2f32 && "Unexpected VT");		MVT StoreVT = StoredVal.getSimpleValueType();
		assert((StoreVT == MVT::v2i32 \|\| StoreVT == MVT::v2f32) && "Unexpected VT");

// Widen the vector, cast to a v2x64 type, extract the single 64-bit		// Widen the vector, cast to a v2x64 type, extract the single element 64-bit
// element and store it.		// element and store it.
StoredVal = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4f32, StoredVal,		MVT WideVT = MVT::getVectorVT(StoreVT.getVectorElementType(),
DAG.getUNDEF(MVT::v2f32));		StoreVT.getVectorNumElements() * 2);
StoredVal = DAG.getBitcast(MVT::v2f64, StoredVal);		StoredVal = DAG.getNode(ISD::CONCAT_VECTORS, dl, WideVT, StoredVal,
StoredVal = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, MVT::f64, StoredVal,		DAG.getUNDEF(StoreVT));
		MVT StVT = Subtarget.is64Bit() && StoreVT.isInteger() ? MVT::i64
		: MVT::f64;
		MVT CastVT = MVT::getVectorVT(StVT, 2);
		StoredVal = DAG.getBitcast(CastVT, StoredVal);
		StoredVal = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, StVT, StoredVal,
DAG.getIntPtrConstant(0, dl));		DAG.getIntPtrConstant(0, dl));

return DAG.getStore(St->getChain(), dl, StoredVal, St->getBasePtr(),		return DAG.getStore(St->getChain(), dl, StoredVal, St->getBasePtr(),
St->getPointerInfo(), St->getAlignment(),		St->getPointerInfo(), St->getAlignment(),
St->getMemOperand()->getFlags());		St->getMemOperand()->getFlags());
}		}

// Lower vector extended loads using a shuffle. If SSSE3 is not available we		// Lower vector extended loads using a shuffle. If SSSE3 is not available we
▲ Show 20 Lines • Show All 6,037 Lines • ▼ Show 20 Lines	case X86ISD::AVG: {

SDValue Res = DAG.getNode(N->getOpcode(), dl, RegVT, InVec0, InVec1);		SDValue Res = DAG.getNode(N->getOpcode(), dl, RegVT, InVec0, InVec1);
if (getTypeAction(*DAG.getContext(), InVT) != TypeWidenVector)		if (getTypeAction(*DAG.getContext(), InVT) != TypeWidenVector)
Res = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, InVT, Res,		Res = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, InVT, Res,
DAG.getIntPtrConstant(0, dl));		DAG.getIntPtrConstant(0, dl));
Results.push_back(Res);		Results.push_back(Res);
return;		return;
}		}
case ISD::SETCC: {
// Widen v2i32 (setcc v2f32). This is really needed for AVX512VL when
// setCC result type is v2i1 because type legalzation will end up with
// a v4i1 setcc plus an extend.
assert(N->getValueType(0) == MVT::v2i32 && "Unexpected type");
if (N->getOperand(0).getValueType() != MVT::v2f32 \|\|
getTypeAction(*DAG.getContext(), MVT::v2i32) == TypeWidenVector)
return;
SDValue UNDEF = DAG.getUNDEF(MVT::v2f32);
SDValue LHS = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4f32,
N->getOperand(0), UNDEF);
SDValue RHS = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4f32,
N->getOperand(1), UNDEF);
SDValue Res = DAG.getNode(ISD::SETCC, dl, MVT::v4i32, LHS, RHS,
N->getOperand(2));
Res = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, MVT::v2i32, Res,
DAG.getIntPtrConstant(0, dl));
Results.push_back(Res);
return;
}
// We might have generated v2f32 FMIN/FMAX operations. Widen them to v4f32.		// We might have generated v2f32 FMIN/FMAX operations. Widen them to v4f32.
case X86ISD::FMINC:		case X86ISD::FMINC:
case X86ISD::FMIN:		case X86ISD::FMIN:
case X86ISD::FMAXC:		case X86ISD::FMAXC:
case X86ISD::FMAX: {		case X86ISD::FMAX: {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
assert(VT == MVT::v2f32 && "Unexpected type (!= v2f32) on FMIN/FMAX.");		assert(VT == MVT::v2f32 && "Unexpected type (!= v2f32) on FMIN/FMAX.");
SDValue UNDEF = DAG.getUNDEF(VT);		SDValue UNDEF = DAG.getUNDEF(VT);
Show All 32 Lines	case ISD::FP_TO_UINT: {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
SDValue Src = N->getOperand(0);		SDValue Src = N->getOperand(0);
EVT SrcVT = Src.getValueType();		EVT SrcVT = Src.getValueType();

if (VT == MVT::v2i32) {		if (VT == MVT::v2i32) {
assert((IsSigned \|\| Subtarget.hasAVX512()) &&		assert((IsSigned \|\| Subtarget.hasAVX512()) &&
"Can only handle signed conversion without AVX512");		"Can only handle signed conversion without AVX512");
assert(Subtarget.hasSSE2() && "Requires at least SSE2!");		assert(Subtarget.hasSSE2() && "Requires at least SSE2!");
bool Widenv2i32 =
getTypeAction(*DAG.getContext(), MVT::v2i32) == TypeWidenVector;
if (Src.getValueType() == MVT::v2f64) {		if (Src.getValueType() == MVT::v2f64) {
unsigned Opc = IsSigned ? X86ISD::CVTTP2SI : X86ISD::CVTTP2UI;		if (!IsSigned && !Subtarget.hasVLX())
if (!IsSigned && !Subtarget.hasVLX()) {
// If v2i32 is widened, we can defer to the generic legalizer.
if (Widenv2i32)
return;		return;
// Custom widen by doubling to a legal vector with. Isel will		unsigned Opc = IsSigned ? X86ISD::CVTTP2SI : X86ISD::CVTTP2UI;
// further widen to v8f64.
Opc = ISD::FP_TO_UINT;
Src = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4f64,
Src, DAG.getUNDEF(MVT::v2f64));
}
SDValue Res = DAG.getNode(Opc, dl, MVT::v4i32, Src);		SDValue Res = DAG.getNode(Opc, dl, MVT::v4i32, Src);
if (!Widenv2i32)
Res = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, MVT::v2i32, Res,
DAG.getIntPtrConstant(0, dl));
Results.push_back(Res);
return;
}
if (SrcVT == MVT::v2f32 &&
getTypeAction(*DAG.getContext(), MVT::v2i32) != TypeWidenVector) {
SDValue Idx = DAG.getIntPtrConstant(0, dl);
SDValue Res = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4f32, Src,
DAG.getUNDEF(MVT::v2f32));
Res = DAG.getNode(IsSigned ? ISD::FP_TO_SINT
: ISD::FP_TO_UINT, dl, MVT::v4i32, Res);
Res = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, MVT::v2i32, Res, Idx);
Results.push_back(Res);		Results.push_back(Res);
return;		return;
}		}

// The FP_TO_INTHelper below only handles f32/f64/f80 scalar inputs,		// The FP_TO_INTHelper below only handles f32/f64/f80 scalar inputs,
// so early out here.		// so early out here.
return;		return;
}		}
▲ Show 20 Lines • Show All 214 Lines • ▼ Show 20 Lines	if (SrcVT == MVT::v64i1 && DstVT == MVT::i64 && Subtarget.hasBWI()) {
SDValue Lo, Hi;		SDValue Lo, Hi;
std::tie(Lo, Hi) = DAG.SplitVectorOperand(N, 0);		std::tie(Lo, Hi) = DAG.SplitVectorOperand(N, 0);
Lo = DAG.getBitcast(MVT::i32, Lo);		Lo = DAG.getBitcast(MVT::i32, Lo);
Hi = DAG.getBitcast(MVT::i32, Hi);		Hi = DAG.getBitcast(MVT::i32, Hi);
SDValue Res = DAG.getNode(ISD::BUILD_PAIR, dl, MVT::i64, Lo, Hi);		SDValue Res = DAG.getNode(ISD::BUILD_PAIR, dl, MVT::i64, Lo, Hi);
Results.push_back(Res);		Results.push_back(Res);
return;		return;
}		}

// Custom splitting for BWI types when AVX512F is available but BWI isn't.		// Custom splitting for BWI types when AVX512F is available but BWI isn't.
		RKSimonUnsubmitted Done Reply Inline Actions Is there a helper function we should be using instead of this? RKSimon: Is there a helper function we should be using instead of this?
if ((DstVT == MVT::v32i16 \|\| DstVT == MVT::v64i8) &&		if ((DstVT == MVT::v32i16 \|\| DstVT == MVT::v64i8) &&
SrcVT.isVector() && isTypeLegal(SrcVT)) {		SrcVT.isVector() && isTypeLegal(SrcVT)) {
SDValue Lo, Hi;		SDValue Lo, Hi;
std::tie(Lo, Hi) = DAG.SplitVectorOperand(N, 0);		std::tie(Lo, Hi) = DAG.SplitVectorOperand(N, 0);
MVT CastVT = (DstVT == MVT::v32i16) ? MVT::v16i16 : MVT::v32i8;		MVT CastVT = (DstVT == MVT::v32i16) ? MVT::v16i16 : MVT::v32i8;
Lo = DAG.getBitcast(CastVT, Lo);		Lo = DAG.getBitcast(CastVT, Lo);
Hi = DAG.getBitcast(CastVT, Hi);		Hi = DAG.getBitcast(CastVT, Hi);
SDValue Res = DAG.getNode(ISD::CONCAT_VECTORS, dl, DstVT, Lo, Hi);		SDValue Res = DAG.getNode(ISD::CONCAT_VECTORS, dl, DstVT, Lo, Hi);
▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines	if (VT == MVT::v2f32 && (Subtarget.hasVLX() \|\| !Subtarget.hasAVX512())) {
Gather->getBasePtr(), Index, Gather->getScale() };		Gather->getBasePtr(), Index, Gather->getScale() };
SDValue Res = DAG.getTargetMemSDNode<X86MaskedGatherSDNode>(		SDValue Res = DAG.getTargetMemSDNode<X86MaskedGatherSDNode>(
DAG.getVTList(MVT::v4f32, Mask.getValueType(), MVT::Other), Ops, dl,		DAG.getVTList(MVT::v4f32, Mask.getValueType(), MVT::Other), Ops, dl,
Gather->getMemoryVT(), Gather->getMemOperand());		Gather->getMemoryVT(), Gather->getMemOperand());
Results.push_back(Res);		Results.push_back(Res);
Results.push_back(Res.getValue(2));		Results.push_back(Res.getValue(2));
return;		return;
}		}
if (VT == MVT::v2i32) {		if (VT == MVT::v2i32 && (Subtarget.hasVLX() \|\| !Subtarget.hasAVX512())) {
auto *Gather = cast<MaskedGatherSDNode>(N);		auto *Gather = cast<MaskedGatherSDNode>(N);
SDValue Index = Gather->getIndex();		SDValue Index = Gather->getIndex();
		if (Index.getValueType() != MVT::v2i64)
		return;
SDValue Mask = Gather->getMask();		SDValue Mask = Gather->getMask();
assert(Mask.getValueType() == MVT::v2i1 && "Unexpected mask type");		assert(Mask.getValueType() == MVT::v2i1 && "Unexpected mask type");
SDValue PassThru = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4i32,		SDValue PassThru = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4i32,
Gather->getPassThru(),		Gather->getPassThru(),
DAG.getUNDEF(MVT::v2i32));		DAG.getUNDEF(MVT::v2i32));
// If the index is v2i64 we can use it directly.
if (Index.getValueType() == MVT::v2i64 &&
(Subtarget.hasVLX() \|\| !Subtarget.hasAVX512())) {
if (!Subtarget.hasVLX()) {		if (!Subtarget.hasVLX()) {
// We need to widen the mask, but the instruction will only use 2		// We need to widen the mask, but the instruction will only use 2
// of its elements. So we can use undef.		// of its elements. So we can use undef.
Mask = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4i1, Mask,		Mask = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4i1, Mask,
DAG.getUNDEF(MVT::v2i1));		DAG.getUNDEF(MVT::v2i1));
Mask = DAG.getNode(ISD::SIGN_EXTEND, dl, MVT::v4i32, Mask);		Mask = DAG.getNode(ISD::SIGN_EXTEND, dl, MVT::v4i32, Mask);
}		}
SDValue Ops[] = { Gather->getChain(), PassThru, Mask,		SDValue Ops[] = { Gather->getChain(), PassThru, Mask,
Gather->getBasePtr(), Index, Gather->getScale() };		Gather->getBasePtr(), Index, Gather->getScale() };
SDValue Res = DAG.getTargetMemSDNode<X86MaskedGatherSDNode>(		SDValue Res = DAG.getTargetMemSDNode<X86MaskedGatherSDNode>(
DAG.getVTList(MVT::v4i32, Mask.getValueType(), MVT::Other), Ops, dl,		DAG.getVTList(MVT::v4i32, Mask.getValueType(), MVT::Other), Ops, dl,
Gather->getMemoryVT(), Gather->getMemOperand());		Gather->getMemoryVT(), Gather->getMemOperand());
SDValue Chain = Res.getValue(2);
if (getTypeAction(*DAG.getContext(), VT) != TypeWidenVector)
Res = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, MVT::v2i32, Res,
DAG.getIntPtrConstant(0, dl));
Results.push_back(Res);
Results.push_back(Chain);
return;
}
EVT IndexVT = Index.getValueType();
EVT NewIndexVT = EVT::getVectorVT(*DAG.getContext(),
IndexVT.getScalarType(), 4);
// Otherwise we need to custom widen everything to avoid promotion.
Index = DAG.getNode(ISD::CONCAT_VECTORS, dl, NewIndexVT, Index,
DAG.getUNDEF(IndexVT));
Mask = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4i1, Mask,
DAG.getConstant(0, dl, MVT::v2i1));
SDValue Ops[] = { Gather->getChain(), PassThru, Mask,
Gather->getBasePtr(), Index, Gather->getScale() };
SDValue Res = DAG.getMaskedGather(DAG.getVTList(MVT::v4i32, MVT::Other),
Gather->getMemoryVT(), dl, Ops,
Gather->getMemOperand());
SDValue Chain = Res.getValue(1);
if (getTypeAction(*DAG.getContext(), MVT::v2i32) != TypeWidenVector)
Res = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, MVT::v2i32, Res,
DAG.getIntPtrConstant(0, dl));
Results.push_back(Res);		Results.push_back(Res);
Results.push_back(Chain);		Results.push_back(Res.getValue(2));
return;		return;
}		}
break;		break;
}		}
case ISD::LOAD: {		case ISD::LOAD: {
// Use an f64 load and a scalar_to_vector for v2f32 loads. This avoids		// Use an f64/i64 load and a scalar_to_vector for v2f32/v2i32 loads. This
// scalarizing in 32-bit mode. In 64-bit mode this avoids a int->fp cast		// avoids scalarizing in 32-bit mode. In 64-bit mode this avoids a int->fp
// since type legalization will try to use an i64 load.		// cast since type legalization will try to use an i64 load.
assert(N->getValueType(0) == MVT::v2f32 && "Unexpected VT");		MVT VT = N->getSimpleValueType(0);
		assert((VT == MVT::v2f32 \|\| VT == MVT::v2i32) && "Unexpected VT");
if (!ISD::isNON_EXTLoad(N))		if (!ISD::isNON_EXTLoad(N))
return;		return;
auto *Ld = cast<LoadSDNode>(N);		auto *Ld = cast<LoadSDNode>(N);
SDValue Res = DAG.getLoad(MVT::f64, dl, Ld->getChain(), Ld->getBasePtr(),		MVT LdVT = Subtarget.is64Bit() && VT.isInteger() ? MVT::i64 : MVT::f64;
		SDValue Res = DAG.getLoad(LdVT, dl, Ld->getChain(), Ld->getBasePtr(),
Ld->getPointerInfo(),		Ld->getPointerInfo(),
Ld->getAlignment(),		Ld->getAlignment(),
Ld->getMemOperand()->getFlags());		Ld->getMemOperand()->getFlags());
SDValue Chain = Res.getValue(1);		SDValue Chain = Res.getValue(1);
Res = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, MVT::v2f64, Res);		MVT WideVT = MVT::getVectorVT(LdVT, 2);
Res = DAG.getBitcast(MVT::v4f32, Res);		Res = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, WideVT, Res);
		MVT CastVT = MVT::getVectorVT(VT.getVectorElementType(),
		VT.getVectorNumElements() * 2);
		Res = DAG.getBitcast(CastVT, Res);
Results.push_back(Res);		Results.push_back(Res);
Results.push_back(Chain);		Results.push_back(Chain);
return;		return;
}		}
}		}
}		}

const char *X86TargetLowering::getTargetNodeName(unsigned Opcode) const {		const char *X86TargetLowering::getTargetNodeName(unsigned Opcode) const {
▲ Show 20 Lines • Show All 15,159 Lines • Show Last 20 Lines

lib/Target/X86/X86TargetTransformInfo.cpp

Show First 20 Lines • Show All 801 Lines • ▼ Show 20 Lines	int X86TTIImpl::getArithmeticInstrCost(

// Fallback to the default implementation.		// Fallback to the default implementation.
return BaseT::getArithmeticInstrCost(Opcode, Ty, Op1Info, Op2Info);		return BaseT::getArithmeticInstrCost(Opcode, Ty, Op1Info, Op2Info);
}		}

int X86TTIImpl::getShuffleCost(TTI::ShuffleKind Kind, Type *Tp, int Index,		int X86TTIImpl::getShuffleCost(TTI::ShuffleKind Kind, Type *Tp, int Index,
Type *SubTp) {		Type *SubTp) {
// 64-bit packed float vectors (v2f32) are widened to type v4f32.		// 64-bit packed float vectors (v2f32) are widened to type v4f32.
// 64-bit packed integer vectors (v2i32) are promoted to type v2i64.		// 64-bit packed integer vectors (v2i32) are widened to type v4i32.
std::pair<int, MVT> LT = TLI->getTypeLegalizationCost(DL, Tp);		std::pair<int, MVT> LT = TLI->getTypeLegalizationCost(DL, Tp);

// For Broadcasts we are splatting the first element from the first input		// For Broadcasts we are splatting the first element from the first input
// register, so only need to reference that input and all the output		// register, so only need to reference that input and all the output
// registers are the same.		// registers are the same.
if (Kind == TTI::SK_Broadcast)		if (Kind == TTI::SK_Broadcast)
LT.first = 1;		LT.first = 1;

▲ Show 20 Lines • Show All 2,154 Lines • Show Last 20 Lines

test/Analysis/CostModel/X86/alternate-shuffle-cost.ll

	Show All 12 Lines

	; Verify the cost model for alternate shuffles.			; Verify the cost model for alternate shuffles.

	; shufflevector instructions with illegal 64-bit vector types.			; shufflevector instructions with illegal 64-bit vector types.
	; 64-bit packed integer vectors (v2i32) are promoted to type v2i64.			; 64-bit packed integer vectors (v2i32) are promoted to type v2i64.
	; 64-bit packed float vectors (v2f32) are widened to type v4f32.			; 64-bit packed float vectors (v2f32) are widened to type v4f32.

	define <2 x i32> @test_v2i32(<2 x i32> %a, <2 x i32> %b) {			define <2 x i32> @test_v2i32(<2 x i32> %a, <2 x i32> %b) {
	; CHECK-LABEL: 'test_v2i32'			; SSE2-LABEL: 'test_v2i32'
	; CHECK-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 0, i32 3>			; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 0, i32 3>
	; CHECK-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1			; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1
				;
				; SSSE3-LABEL: 'test_v2i32'
				; SSSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 0, i32 3>
				; SSSE3-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1
				;
				; SSE42-LABEL: 'test_v2i32'
				; SSE42-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 0, i32 3>
				; SSE42-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1
				;
				; AVX-LABEL: 'test_v2i32'
				; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 0, i32 3>
				; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1
	;			;
	; BTVER2-LABEL: 'test_v2i32'			; BTVER2-LABEL: 'test_v2i32'
	; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 0, i32 3>			; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 0, i32 3>
	; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1			; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1
	;			;
	%1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 0, i32 3>			%1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 0, i32 3>
	ret <2 x i32> %1			ret <2 x i32> %1
	}			}
	Show All 19 Lines
	; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x float> %a, <2 x float> %b, <2 x i32> <i32 0, i32 3>			; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x float> %a, <2 x float> %b, <2 x i32> <i32 0, i32 3>
	; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x float> %1			; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x float> %1
	;			;
	%1 = shufflevector <2 x float> %a, <2 x float> %b, <2 x i32> <i32 0, i32 3>			%1 = shufflevector <2 x float> %a, <2 x float> %b, <2 x i32> <i32 0, i32 3>
	ret <2 x float> %1			ret <2 x float> %1
	}			}

	define <2 x i32> @test_v2i32_2(<2 x i32> %a, <2 x i32> %b) {			define <2 x i32> @test_v2i32_2(<2 x i32> %a, <2 x i32> %b) {
	; CHECK-LABEL: 'test_v2i32_2'			; SSE2-LABEL: 'test_v2i32_2'
	; CHECK-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 2, i32 1>			; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 2, i32 1>
	; CHECK-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1			; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1
				;
				; SSSE3-LABEL: 'test_v2i32_2'
				; SSSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 2, i32 1>
				; SSSE3-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1
				;
				; SSE42-LABEL: 'test_v2i32_2'
				; SSE42-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 2, i32 1>
				; SSE42-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1
				;
				; AVX-LABEL: 'test_v2i32_2'
				; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 2, i32 1>
				; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1
	;			;
	; BTVER2-LABEL: 'test_v2i32_2'			; BTVER2-LABEL: 'test_v2i32_2'
	; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 2, i32 1>			; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 2, i32 1>
	; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1			; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %1
	;			;
	%1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 2, i32 1>			%1 = shufflevector <2 x i32> %a, <2 x i32> %b, <2 x i32> <i32 2, i32 1>
	ret <2 x i32> %1			ret <2 x i32> %1
	}			}
	▲ Show 20 Lines • Show All 859 Lines • Show Last 20 Lines

test/Analysis/CostModel/X86/arith.ll

Show First 20 Lines • Show All 1,144 Lines • ▼ Show 20 Lines	;

ret i32 undef		ret i32 undef
}		}

; A <2 x i32> gets expanded to a <2 x i64> vector.		; A <2 x i32> gets expanded to a <2 x i64> vector.
; A <2 x i64> vector multiply is implemented using		; A <2 x i64> vector multiply is implemented using
; 3 PMULUDQ and 2 PADDS and 4 shifts.		; 3 PMULUDQ and 2 PADDS and 4 shifts.
define void @mul_2i32() {		define void @mul_2i32() {
; SSE-LABEL: 'mul_2i32'		; SSSE3-LABEL: 'mul_2i32'
; SSE-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %A0 = mul <2 x i32> undef, undef		; SSSE3-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %A0 = mul <2 x i32> undef, undef
; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; SSSE3-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
		;
		; SSE42-LABEL: 'mul_2i32'
		; SSE42-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %A0 = mul <2 x i32> undef, undef
		; SSE42-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; AVX-LABEL: 'mul_2i32'		; AVX-LABEL: 'mul_2i32'
; AVX-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %A0 = mul <2 x i32> undef, undef		; AVX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %A0 = mul <2 x i32> undef, undef
; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; AVX512F-LABEL: 'mul_2i32'		; AVX512-LABEL: 'mul_2i32'
; AVX512F-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %A0 = mul <2 x i32> undef, undef		; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %A0 = mul <2 x i32> undef, undef
; AVX512F-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;
; AVX512BW-LABEL: 'mul_2i32'
; AVX512BW-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %A0 = mul <2 x i32> undef, undef
; AVX512BW-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;
; AVX512DQ-LABEL: 'mul_2i32'
; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %A0 = mul <2 x i32> undef, undef
; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; SLM-LABEL: 'mul_2i32'		; SLM-LABEL: 'mul_2i32'
; SLM-NEXT: Cost Model: Found an estimated cost of 17 for instruction: %A0 = mul <2 x i32> undef, undef		; SLM-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %A0 = mul <2 x i32> undef, undef
; SLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; SLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; GLM-LABEL: 'mul_2i32'		; GLM-LABEL: 'mul_2i32'
; GLM-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %A0 = mul <2 x i32> undef, undef		; GLM-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %A0 = mul <2 x i32> undef, undef
; GLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; GLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; BTVER2-LABEL: 'mul_2i32'		; BTVER2-LABEL: 'mul_2i32'
; BTVER2-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %A0 = mul <2 x i32> undef, undef		; BTVER2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %A0 = mul <2 x i32> undef, undef
; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
%A0 = mul <2 x i32> undef, undef		%A0 = mul <2 x i32> undef, undef

ret void		ret void
}		}

test/Analysis/CostModel/X86/fptoui.ll

	Show First 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	;			;
	; AVX-LABEL: 'fptoui_double_i32'			; AVX-LABEL: 'fptoui_double_i32'
	; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %I32 = fptoui double undef to i32			; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %I32 = fptoui double undef to i32
	; AVX-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %V2I32 = fptoui <2 x double> undef to <2 x i32>			; AVX-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %V2I32 = fptoui <2 x double> undef to <2 x i32>
	; AVX-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %V4I32 = fptoui <4 x double> undef to <4 x i32>			; AVX-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %V4I32 = fptoui <4 x double> undef to <4 x i32>
	; AVX-NEXT: Cost Model: Found an estimated cost of 33 for instruction: %V8I32 = fptoui <8 x double> undef to <8 x i32>			; AVX-NEXT: Cost Model: Found an estimated cost of 33 for instruction: %V8I32 = fptoui <8 x double> undef to <8 x i32>
	; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef			; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef
	;			;
	; AVX512F-LABEL: 'fptoui_double_i32'			; AVX512-LABEL: 'fptoui_double_i32'
	; AVX512F-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %I32 = fptoui double undef to i32			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %I32 = fptoui double undef to i32
	; AVX512F-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %V2I32 = fptoui <2 x double> undef to <2 x i32>			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %V2I32 = fptoui <2 x double> undef to <2 x i32>
	; AVX512F-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %V4I32 = fptoui <4 x double> undef to <4 x i32>			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %V4I32 = fptoui <4 x double> undef to <4 x i32>
	; AVX512F-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %V8I32 = fptoui <8 x double> undef to <8 x i32>			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %V8I32 = fptoui <8 x double> undef to <8 x i32>
	; AVX512F-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef			; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef
	;
	; AVX512DQ-LABEL: 'fptoui_double_i32'
	; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %I32 = fptoui double undef to i32
	; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %V2I32 = fptoui <2 x double> undef to <2 x i32>
	; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %V4I32 = fptoui <4 x double> undef to <4 x i32>
	; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %V8I32 = fptoui <8 x double> undef to <8 x i32>
	; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef
	;			;
	; BTVER2-LABEL: 'fptoui_double_i32'			; BTVER2-LABEL: 'fptoui_double_i32'
	; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %I32 = fptoui double undef to i32			; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %I32 = fptoui double undef to i32
	; BTVER2-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %V2I32 = fptoui <2 x double> undef to <2 x i32>			; BTVER2-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %V2I32 = fptoui <2 x double> undef to <2 x i32>
	; BTVER2-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %V4I32 = fptoui <4 x double> undef to <4 x i32>			; BTVER2-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %V4I32 = fptoui <4 x double> undef to <4 x i32>
	; BTVER2-NEXT: Cost Model: Found an estimated cost of 33 for instruction: %V8I32 = fptoui <8 x double> undef to <8 x i32>			; BTVER2-NEXT: Cost Model: Found an estimated cost of 33 for instruction: %V8I32 = fptoui <8 x double> undef to <8 x i32>
	; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef			; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef
	;			;
	▲ Show 20 Lines • Show All 249 Lines • Show Last 20 Lines

test/Analysis/CostModel/X86/masked-intrinsic-cost.ll

Show First 20 Lines • Show All 132 Lines • ▼ Show 20 Lines	;
%mask = icmp eq <2 x i32> %trigger, zeroinitializer		%mask = icmp eq <2 x i32> %trigger, zeroinitializer
call void @llvm.masked.store.v2f32.p0v2f32(<2 x float>%val, <2 x float>* %addr, i32 4, <2 x i1>%mask)		call void @llvm.masked.store.v2f32.p0v2f32(<2 x float>%val, <2 x float>* %addr, i32 4, <2 x i1>%mask)
ret void		ret void
}		}

define void @test6(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %val) {		define void @test6(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %val) {
; AVX2-LABEL: 'test6'		; AVX2-LABEL: 'test6'
; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer		; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer
; AVX2-NEXT: Cost Model: Found an estimated cost of 6 for instruction: call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32> %val, <2 x i32>* %addr, i32 4, <2 x i1> %mask)		; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32> %val, <2 x i32>* %addr, i32 4, <2 x i1> %mask)
; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; SKL-LABEL: 'test6'		; SKL-LABEL: 'test6'
; SKL-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer		; SKL-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer
; SKL-NEXT: Cost Model: Found an estimated cost of 6 for instruction: call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32> %val, <2 x i32>* %addr, i32 4, <2 x i1> %mask)		; SKL-NEXT: Cost Model: Found an estimated cost of 5 for instruction: call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32> %val, <2 x i32>* %addr, i32 4, <2 x i1> %mask)
; SKL-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; SKL-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; KNL-LABEL: 'test6'		; KNL-LABEL: 'test6'
; KNL-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer		; KNL-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer
; KNL-NEXT: Cost Model: Found an estimated cost of 3 for instruction: call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32> %val, <2 x i32>* %addr, i32 4, <2 x i1> %mask)		; KNL-NEXT: Cost Model: Found an estimated cost of 2 for instruction: call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32> %val, <2 x i32>* %addr, i32 4, <2 x i1> %mask)
; KNL-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; KNL-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; SKX-LABEL: 'test6'		; SKX-LABEL: 'test6'
; SKX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer		; SKX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer
; SKX-NEXT: Cost Model: Found an estimated cost of 3 for instruction: call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32> %val, <2 x i32>* %addr, i32 4, <2 x i1> %mask)		; SKX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32> %val, <2 x i32>* %addr, i32 4, <2 x i1> %mask)
; SKX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; SKX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
%mask = icmp eq <2 x i32> %trigger, zeroinitializer		%mask = icmp eq <2 x i32> %trigger, zeroinitializer
call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32>%val, <2 x i32>* %addr, i32 4, <2 x i1>%mask)		call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32>%val, <2 x i32>* %addr, i32 4, <2 x i1>%mask)
ret void		ret void
}		}

define <2 x float> @test7(<2 x i32> %trigger, <2 x float>* %addr, <2 x float> %dst) {		define <2 x float> @test7(<2 x i32> %trigger, <2 x float>* %addr, <2 x float> %dst) {
Show All 20 Lines	;
%mask = icmp eq <2 x i32> %trigger, zeroinitializer		%mask = icmp eq <2 x i32> %trigger, zeroinitializer
%res = call <2 x float> @llvm.masked.load.v2f32.p0v2f32(<2 x float>* %addr, i32 4, <2 x i1>%mask, <2 x float>%dst)		%res = call <2 x float> @llvm.masked.load.v2f32.p0v2f32(<2 x float>* %addr, i32 4, <2 x i1>%mask, <2 x float>%dst)
ret <2 x float> %res		ret <2 x float> %res
}		}

define <2 x i32> @test8(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %dst) {		define <2 x i32> @test8(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %dst) {
; AVX2-LABEL: 'test8'		; AVX2-LABEL: 'test8'
; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer		; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer
; AVX2-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1> %mask, <2 x i32> %dst)		; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1> %mask, <2 x i32> %dst)
; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res		; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res
;		;
; SKL-LABEL: 'test8'		; SKL-LABEL: 'test8'
; SKL-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer		; SKL-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer
; SKL-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1> %mask, <2 x i32> %dst)		; SKL-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1> %mask, <2 x i32> %dst)
; SKL-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res		; SKL-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res
;		;
; KNL-LABEL: 'test8'		; KNL-LABEL: 'test8'
; KNL-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer		; KNL-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer
; KNL-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1> %mask, <2 x i32> %dst)		; KNL-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1> %mask, <2 x i32> %dst)
; KNL-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res		; KNL-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res
;		;
; SKX-LABEL: 'test8'		; SKX-LABEL: 'test8'
; SKX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer		; SKX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %mask = icmp eq <2 x i32> %trigger, zeroinitializer
; SKX-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1> %mask, <2 x i32> %dst)		; SKX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1> %mask, <2 x i32> %dst)
; SKX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res		; SKX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res
;		;
%mask = icmp eq <2 x i32> %trigger, zeroinitializer		%mask = icmp eq <2 x i32> %trigger, zeroinitializer
%res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1>%mask, <2 x i32>%dst)		%res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1>%mask, <2 x i32>%dst)
ret <2 x i32> %res		ret <2 x i32> %res
}		}

define <2 x double> @test_gather_2f64(<2 x double*> %ptrs, <2 x i1> %mask, <2 x double> %src0) {		define <2 x double> @test_gather_2f64(<2 x double*> %ptrs, <2 x i1> %mask, <2 x double> %src0) {
▲ Show 20 Lines • Show All 390 Lines • Show Last 20 Lines

test/Analysis/CostModel/X86/sitofp.ll

Show First 20 Lines • Show All 79 Lines • ▼ Show 20 Lines	;
%cvt_v4i16_v4f64 = sitofp <4 x i16> undef to <4 x double>		%cvt_v4i16_v4f64 = sitofp <4 x i16> undef to <4 x double>
%cvt_v8i16_v8f64 = sitofp <8 x i16> undef to <8 x double>		%cvt_v8i16_v8f64 = sitofp <8 x i16> undef to <8 x double>
ret i32 undef		ret i32 undef
}		}

define i32 @sitofp_i32_double() {		define i32 @sitofp_i32_double() {
; SSE-LABEL: 'sitofp_i32_double'		; SSE-LABEL: 'sitofp_i32_double'
; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = sitofp i32 undef to double		; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = sitofp i32 undef to double
; SSE-NEXT: Cost Model: Found an estimated cost of 20 for instruction: %cvt_v2i32_v2f64 = sitofp <2 x i32> undef to <2 x double>		; SSE-NEXT: Cost Model: Found an estimated cost of 40 for instruction: %cvt_v2i32_v2f64 = sitofp <2 x i32> undef to <2 x double>
; SSE-NEXT: Cost Model: Found an estimated cost of 40 for instruction: %cvt_v4i32_v4f64 = sitofp <4 x i32> undef to <4 x double>		; SSE-NEXT: Cost Model: Found an estimated cost of 40 for instruction: %cvt_v4i32_v4f64 = sitofp <4 x i32> undef to <4 x double>
; SSE-NEXT: Cost Model: Found an estimated cost of 80 for instruction: %cvt_v8i32_v8f64 = sitofp <8 x i32> undef to <8 x double>		; SSE-NEXT: Cost Model: Found an estimated cost of 80 for instruction: %cvt_v8i32_v8f64 = sitofp <8 x i32> undef to <8 x double>
; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef		; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef
;		;
; AVX-LABEL: 'sitofp_i32_double'		; AVX-LABEL: 'sitofp_i32_double'
; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = sitofp i32 undef to double		; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = sitofp i32 undef to double
; AVX-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %cvt_v2i32_v2f64 = sitofp <2 x i32> undef to <2 x double>		; AVX-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %cvt_v2i32_v2f64 = sitofp <2 x i32> undef to <2 x double>
; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_v4i32_v4f64 = sitofp <4 x i32> undef to <4 x double>		; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_v4i32_v4f64 = sitofp <4 x i32> undef to <4 x double>
Show All 9 Lines
;		;
; BTVER2-LABEL: 'sitofp_i32_double'		; BTVER2-LABEL: 'sitofp_i32_double'
; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = sitofp i32 undef to double		; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = sitofp i32 undef to double
; BTVER2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %cvt_v2i32_v2f64 = sitofp <2 x i32> undef to <2 x double>		; BTVER2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %cvt_v2i32_v2f64 = sitofp <2 x i32> undef to <2 x double>
; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_v4i32_v4f64 = sitofp <4 x i32> undef to <4 x double>		; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_v4i32_v4f64 = sitofp <4 x i32> undef to <4 x double>
; BTVER2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %cvt_v8i32_v8f64 = sitofp <8 x i32> undef to <8 x double>		; BTVER2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %cvt_v8i32_v8f64 = sitofp <8 x i32> undef to <8 x double>
; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef		; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef
;		;
%cvt_i32_f64 = sitofp i32 undef to double		%cvt_i32_f64 = sitofp i32 undef to double
%cvt_v2i32_v2f64 = sitofp <2 x i32> undef to <2 x double>		%cvt_v2i32_v2f64 = sitofp <2 x i32> undef to <2 x double>
		RKSimonUnsubmitted Not Done Reply Inline Actions What happened? This is way out! RKSimon: What happened? This is way out!
		craig.topperAuthorUnsubmitted Not Done Reply Inline Actions I assume it switched between these rows in the cost table. { ISD::SINT_TO_FP, MVT::v2f64, MVT::v2i64, 210 }, { ISD::SINT_TO_FP, MVT::v2f64, MVT::v4i32, 410 }, craig.topper: I assume it switched between these rows in the cost table. { ISD::SINT_TO_FP, MVT::v2f64…
%cvt_v4i32_v4f64 = sitofp <4 x i32> undef to <4 x double>		%cvt_v4i32_v4f64 = sitofp <4 x i32> undef to <4 x double>
%cvt_v8i32_v8f64 = sitofp <8 x i32> undef to <8 x double>		%cvt_v8i32_v8f64 = sitofp <8 x i32> undef to <8 x double>
ret i32 undef		ret i32 undef
}		}

define i32 @sitofp_i64_double() {		define i32 @sitofp_i64_double() {
; SSE-LABEL: 'sitofp_i64_double'		; SSE-LABEL: 'sitofp_i64_double'
; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i64_f64 = sitofp i64 undef to double		; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i64_f64 = sitofp i64 undef to double
▲ Show 20 Lines • Show All 196 Lines • Show Last 20 Lines

test/Analysis/CostModel/X86/slm-arith-costs.ll

	Show First 20 Lines • Show All 379 Lines • ▼ Show 20 Lines
	;			;
	entry:			entry:
	%res = mul nsw i32 %a, %b			%res = mul nsw i32 %a, %b
	ret i32 %res			ret i32 %res
	}			}

	define <2 x i32> @slm-costs_32_v2_mul(<2 x i32> %a, <2 x i32> %b) {			define <2 x i32> @slm-costs_32_v2_mul(<2 x i32> %a, <2 x i32> %b) {
	; SLM-LABEL: 'slm-costs_32_v2_mul'			; SLM-LABEL: 'slm-costs_32_v2_mul'
	; SLM-NEXT: Cost Model: Found an estimated cost of 17 for instruction: %res = mul nsw <2 x i32> %a, %b			; SLM-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %res = mul nsw <2 x i32> %a, %b
	; SLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res			; SLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res
	;			;
	; GLM-LABEL: 'slm-costs_32_v2_mul'			; GLM-LABEL: 'slm-costs_32_v2_mul'
	; GLM-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %res = mul nsw <2 x i32> %a, %b			; GLM-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %res = mul nsw <2 x i32> %a, %b
	; GLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res			; GLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret <2 x i32> %res
	;			;
	entry:			entry:
	%res = mul nsw <2 x i32> %a, %b			%res = mul nsw <2 x i32> %a, %b
	ret <2 x i32> %res			ret <2 x i32> %res
	}			}

	define <4 x i32> @slm-costs_32_v4_mul(<4 x i32> %a, <4 x i32> %b) {			define <4 x i32> @slm-costs_32_v4_mul(<4 x i32> %a, <4 x i32> %b) {
	▲ Show 20 Lines • Show All 243 Lines • Show Last 20 Lines

test/Analysis/CostModel/X86/testshiftashr.ll

Show First 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	entry:
%0 = ashr %shifttype32i16 %a , %b		%0 = ashr %shifttype32i16 %a , %b
ret %shifttype32i16 %0		ret %shifttype32i16 %0
}		}

%shifttype2i32 = type <2 x i32>		%shifttype2i32 = type <2 x i32>
define %shifttype2i32 @shift2i32(%shifttype2i32 %a, %shifttype2i32 %b) {		define %shifttype2i32 @shift2i32(%shifttype2i32 %a, %shifttype2i32 %b) {
entry:		entry:
; SSE2: shift2i32		; SSE2: shift2i32
; SSE2: cost of 12 {{.*}} ashr		; SSE2: cost of 16 {{.*}} ashr
; SSE2-CODEGEN: shift2i32		; SSE2-CODEGEN: shift2i32
; SSE2-CODEGEN: psrlq		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype2i32 %a , %b		%0 = ashr %shifttype2i32 %a , %b
ret %shifttype2i32 %0		ret %shifttype2i32 %0
}		}

%shifttype4i32 = type <4 x i32>		%shifttype4i32 = type <4 x i32>
define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {		define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 236 Lines • ▼ Show 20 Lines	%0 = ashr %shifttypec32i16 %a , <i16 3, i16 3, i16 3, i16 3,
i16 3, i16 3, i16 3, i16 3>		i16 3, i16 3, i16 3, i16 3>
ret %shifttypec32i16 %0		ret %shifttypec32i16 %0
}		}

%shifttypec2i32 = type <2 x i32>		%shifttypec2i32 = type <2 x i32>
define %shifttypec2i32 @shift2i32c(%shifttypec2i32 %a, %shifttypec2i32 %b) {		define %shifttypec2i32 @shift2i32c(%shifttypec2i32 %a, %shifttypec2i32 %b) {
entry:		entry:
; SSE2: shift2i32c		; SSE2: shift2i32c
; SSE2: cost of 4 {{.*}} ashr		; SSE2: cost of 1 {{.*}} ashr
; SSE2-CODEGEN: shift2i32c		; SSE2-CODEGEN: shift2i32c
; SSE2-CODEGEN: psrad $3		; SSE2-CODEGEN: psrad $3

%0 = ashr %shifttypec2i32 %a , <i32 3, i32 3>		%0 = ashr %shifttypec2i32 %a , <i32 3, i32 3>
ret %shifttypec2i32 %0		ret %shifttypec2i32 %0
}		}

%shifttypec4i32 = type <4 x i32>		%shifttypec4i32 = type <4 x i32>
▲ Show 20 Lines • Show All 200 Lines • Show Last 20 Lines

test/Analysis/CostModel/X86/testshiftlshr.ll

Show First 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	entry:
%0 = lshr %shifttype32i16 %a , %b		%0 = lshr %shifttype32i16 %a , %b
ret %shifttype32i16 %0		ret %shifttype32i16 %0
}		}

%shifttype2i32 = type <2 x i32>		%shifttype2i32 = type <2 x i32>
define %shifttype2i32 @shift2i32(%shifttype2i32 %a, %shifttype2i32 %b) {		define %shifttype2i32 @shift2i32(%shifttype2i32 %a, %shifttype2i32 %b) {
entry:		entry:
; SSE2: shift2i32		; SSE2: shift2i32
; SSE2: cost of 4 {{.*}} lshr		; SSE2: cost of 16 {{.*}} lshr
; SSE2-CODEGEN: shift2i32		; SSE2-CODEGEN: shift2i32
; SSE2-CODEGEN: psrlq		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype2i32 %a , %b		%0 = lshr %shifttype2i32 %a , %b
ret %shifttype2i32 %0		ret %shifttype2i32 %0
}		}

%shifttype4i32 = type <4 x i32>		%shifttype4i32 = type <4 x i32>
define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {		define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 238 Lines • ▼ Show 20 Lines
}		}

%shifttypec2i32 = type <2 x i32>		%shifttypec2i32 = type <2 x i32>
define %shifttypec2i32 @shift2i32c(%shifttypec2i32 %a, %shifttypec2i32 %b) {		define %shifttypec2i32 @shift2i32c(%shifttypec2i32 %a, %shifttypec2i32 %b) {
entry:		entry:
; SSE2: shift2i32c		; SSE2: shift2i32c
; SSE2: cost of 1 {{.*}} lshr		; SSE2: cost of 1 {{.*}} lshr
; SSE2-CODEGEN: shift2i32c		; SSE2-CODEGEN: shift2i32c
; SSE2-CODEGEN: psrlq $3		; SSE2-CODEGEN: psrld $3

%0 = lshr %shifttypec2i32 %a , <i32 3, i32 3>		%0 = lshr %shifttypec2i32 %a , <i32 3, i32 3>
ret %shifttypec2i32 %0		ret %shifttypec2i32 %0
}		}

%shifttypec4i32 = type <4 x i32>		%shifttypec4i32 = type <4 x i32>
define %shifttypec4i32 @shift4i32c(%shifttypec4i32 %a, %shifttypec4i32 %b) {		define %shifttypec4i32 @shift4i32c(%shifttypec4i32 %a, %shifttypec4i32 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 196 Lines • Show Last 20 Lines

test/Analysis/CostModel/X86/testshiftshl.ll

Show First 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	entry:
%0 = shl %shifttype32i16 %a , %b		%0 = shl %shifttype32i16 %a , %b
ret %shifttype32i16 %0		ret %shifttype32i16 %0
}		}

%shifttype2i32 = type <2 x i32>		%shifttype2i32 = type <2 x i32>
define %shifttype2i32 @shift2i32(%shifttype2i32 %a, %shifttype2i32 %b) {		define %shifttype2i32 @shift2i32(%shifttype2i32 %a, %shifttype2i32 %b) {
entry:		entry:
; SSE2: shift2i32		; SSE2: shift2i32
; SSE2: cost of 4 {{.*}} shl		; SSE2: cost of 10 {{.*}} shl
; SSE2-CODEGEN: shift2i32		; SSE2-CODEGEN: shift2i32
; SSE2-CODEGEN: psllq		; SSE2-CODEGEN: pmuludq

%0 = shl %shifttype2i32 %a , %b		%0 = shl %shifttype2i32 %a , %b
ret %shifttype2i32 %0		ret %shifttype2i32 %0
}		}

%shifttype4i32 = type <4 x i32>		%shifttype4i32 = type <4 x i32>
define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {		define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 238 Lines • ▼ Show 20 Lines
}		}

%shifttypec2i32 = type <2 x i32>		%shifttypec2i32 = type <2 x i32>
define %shifttypec2i32 @shift2i32c(%shifttypec2i32 %a, %shifttypec2i32 %b) {		define %shifttypec2i32 @shift2i32c(%shifttypec2i32 %a, %shifttypec2i32 %b) {
entry:		entry:
; SSE2: shift2i32c		; SSE2: shift2i32c
; SSE2: cost of 1 {{.*}} shl		; SSE2: cost of 1 {{.*}} shl
; SSE2-CODEGEN: shift2i32c		; SSE2-CODEGEN: shift2i32c
; SSE2-CODEGEN: psllq $3		; SSE2-CODEGEN: pslld $3

%0 = shl %shifttypec2i32 %a , <i32 3, i32 3>		%0 = shl %shifttypec2i32 %a , <i32 3, i32 3>
ret %shifttypec2i32 %0		ret %shifttypec2i32 %0
}		}

%shifttypec4i32 = type <4 x i32>		%shifttypec4i32 = type <4 x i32>
define %shifttypec4i32 @shift4i32c(%shifttypec4i32 %a, %shifttypec4i32 %b) {		define %shifttypec4i32 @shift4i32c(%shifttypec4i32 %a, %shifttypec4i32 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 196 Lines • Show Last 20 Lines

test/Analysis/CostModel/X86/uitofp.ll

Show First 20 Lines • Show All 79 Lines • ▼ Show 20 Lines	;
%cvt_v4i16_v4f64 = uitofp <4 x i16> undef to <4 x double>		%cvt_v4i16_v4f64 = uitofp <4 x i16> undef to <4 x double>
%cvt_v8i16_v8f64 = uitofp <8 x i16> undef to <8 x double>		%cvt_v8i16_v8f64 = uitofp <8 x i16> undef to <8 x double>
ret i32 undef		ret i32 undef
}		}

define i32 @uitofp_i32_double() {		define i32 @uitofp_i32_double() {
; SSE-LABEL: 'uitofp_i32_double'		; SSE-LABEL: 'uitofp_i32_double'
; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = uitofp i32 undef to double		; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = uitofp i32 undef to double
; SSE-NEXT: Cost Model: Found an estimated cost of 20 for instruction: %cvt_v2i32_v2f64 = uitofp <2 x i32> undef to <2 x double>		; SSE-NEXT: Cost Model: Found an estimated cost of 40 for instruction: %cvt_v2i32_v2f64 = uitofp <2 x i32> undef to <2 x double>
; SSE-NEXT: Cost Model: Found an estimated cost of 40 for instruction: %cvt_v4i32_v4f64 = uitofp <4 x i32> undef to <4 x double>		; SSE-NEXT: Cost Model: Found an estimated cost of 40 for instruction: %cvt_v4i32_v4f64 = uitofp <4 x i32> undef to <4 x double>
; SSE-NEXT: Cost Model: Found an estimated cost of 80 for instruction: %cvt_v8i32_v8f64 = uitofp <8 x i32> undef to <8 x double>		; SSE-NEXT: Cost Model: Found an estimated cost of 80 for instruction: %cvt_v8i32_v8f64 = uitofp <8 x i32> undef to <8 x double>
; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef		; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef
;		;
; AVX-LABEL: 'uitofp_i32_double'		; AVX-LABEL: 'uitofp_i32_double'
; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = uitofp i32 undef to double		; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = uitofp i32 undef to double
; AVX-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %cvt_v2i32_v2f64 = uitofp <2 x i32> undef to <2 x double>		; AVX-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %cvt_v2i32_v2f64 = uitofp <2 x i32> undef to <2 x double>
; AVX-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %cvt_v4i32_v4f64 = uitofp <4 x i32> undef to <4 x double>		; AVX-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %cvt_v4i32_v4f64 = uitofp <4 x i32> undef to <4 x double>
Show All 9 Lines
;		;
; BTVER2-LABEL: 'uitofp_i32_double'		; BTVER2-LABEL: 'uitofp_i32_double'
; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = uitofp i32 undef to double		; BTVER2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i32_f64 = uitofp i32 undef to double
; BTVER2-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %cvt_v2i32_v2f64 = uitofp <2 x i32> undef to <2 x double>		; BTVER2-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %cvt_v2i32_v2f64 = uitofp <2 x i32> undef to <2 x double>
; BTVER2-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %cvt_v4i32_v4f64 = uitofp <4 x i32> undef to <4 x double>		; BTVER2-NEXT: Cost Model: Found an estimated cost of 6 for instruction: %cvt_v4i32_v4f64 = uitofp <4 x i32> undef to <4 x double>
; BTVER2-NEXT: Cost Model: Found an estimated cost of 13 for instruction: %cvt_v8i32_v8f64 = uitofp <8 x i32> undef to <8 x double>		; BTVER2-NEXT: Cost Model: Found an estimated cost of 13 for instruction: %cvt_v8i32_v8f64 = uitofp <8 x i32> undef to <8 x double>
; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef		; BTVER2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret i32 undef
;		;
%cvt_i32_f64 = uitofp i32 undef to double		%cvt_i32_f64 = uitofp i32 undef to double
%cvt_v2i32_v2f64 = uitofp <2 x i32> undef to <2 x double>		%cvt_v2i32_v2f64 = uitofp <2 x i32> undef to <2 x double>
		RKSimonUnsubmitted Not Done Reply Inline Actions Again, way too high RKSimon: Again, way too high
%cvt_v4i32_v4f64 = uitofp <4 x i32> undef to <4 x double>		%cvt_v4i32_v4f64 = uitofp <4 x i32> undef to <4 x double>
%cvt_v8i32_v8f64 = uitofp <8 x i32> undef to <8 x double>		%cvt_v8i32_v8f64 = uitofp <8 x i32> undef to <8 x double>
ret i32 undef		ret i32 undef
}		}

define i32 @uitofp_i64_double() {		define i32 @uitofp_i64_double() {
; SSE-LABEL: 'uitofp_i64_double'		; SSE-LABEL: 'uitofp_i64_double'
; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i64_f64 = uitofp i64 undef to double		; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %cvt_i64_f64 = uitofp i64 undef to double
▲ Show 20 Lines • Show All 203 Lines • Show Last 20 Lines

test/CodeGen/X86/2008-09-05-sinttofp-2xi32.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2,+mmx \| FileCheck %s			; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2,+mmx \| FileCheck %s

	; Originally from PR2687, but things don't work that way any more.			; Originally from PR2687, but things don't work that way any more.
	; there are no MMX instructions here; we use XMM.			; there are no MMX instructions here; we use XMM.

	define <2 x double> @a(<2 x i32> %x) nounwind {			define <2 x double> @a(<2 x i32> %x) nounwind {
	; CHECK-LABEL: a:			; CHECK-LABEL: a:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; CHECK-NEXT: cvtdq2pd %xmm0, %xmm0			; CHECK-NEXT: cvtdq2pd %xmm0, %xmm0
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	entry:			entry:
	%y = sitofp <2 x i32> %x to <2 x double>			%y = sitofp <2 x i32> %x to <2 x double>
	ret <2 x double> %y			ret <2 x double> %y
	}			}

	define <2 x i32> @b(<2 x double> %x) nounwind {			define <2 x i32> @b(<2 x double> %x) nounwind {
	; CHECK-LABEL: b:			; CHECK-LABEL: b:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: cvttpd2dq %xmm0, %xmm0			; CHECK-NEXT: cvttpd2dq %xmm0, %xmm0
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	entry:			entry:
	%y = fptosi <2 x double> %x to <2 x i32>			%y = fptosi <2 x double> %x to <2 x i32>
	ret <2 x i32> %y			ret <2 x i32> %y
	}			}

	; This is how to get MMX instructions.			; This is how to get MMX instructions.

	Show All 22 Lines

test/CodeGen/X86/2012-01-18-vbitcast.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mcpu=corei7 -mtriple=x86_64-pc-win32 \| FileCheck %s			; RUN: llc < %s -mcpu=corei7 -mtriple=x86_64-pc-win32 \| FileCheck %s

	define <2 x i32> @vcast(<2 x float> %a, <2 x float> %b) {			define <2 x i32> @vcast(<2 x float> %a, <2 x float> %b) {
	; CHECK-LABEL: vcast:			; CHECK-LABEL: vcast:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pmovzxdq {{.*#+}} xmm0 = mem[0],zero,mem[1],zero			; CHECK-NEXT: movdqa (%rcx), %xmm0
				RKSimonUnsubmitted Not Done Reply Inline Actions I think this is OK, but it still makes me nervous. We go from accessing 64-bits to 128-bits per argument. RKSimon: I think this is OK, but it still makes me nervous. We go from accessing 64-bits to 128-bits per…
				craig.topperAuthorUnsubmitted Not Done Reply Inline Actions The 64-bits we get today is just dumb luck. If we compile with sse2 we get subq $16, %rsp .seh_stackalloc 16 .seh_endprologue pshufd $212, (%rdx), %xmm1 # xmm1 = mem[0,1,1,3] pshufd $212, (%rcx), %xmm0 # xmm0 = mem[0,1,1,3] psubq %xmm1, %xmm0 addq $16, %rsp retq craig.topper: The 64-bits we get today is just dumb luck. If we compile with sse2 we get ``` subq…
	; CHECK-NEXT: pmovzxdq {{.*#+}} xmm1 = mem[0],zero,mem[1],zero			; CHECK-NEXT: psubd (%rdx), %xmm0
	; CHECK-NEXT: psubq %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%af = bitcast <2 x float> %a to <2 x i32>			%af = bitcast <2 x float> %a to <2 x i32>
	%bf = bitcast <2 x float> %b to <2 x i32>			%bf = bitcast <2 x float> %b to <2 x i32>
	%x = sub <2 x i32> %af, %bf			%x = sub <2 x i32> %af, %bf
	ret <2 x i32> %x			ret <2 x i32> %x
	}			}

test/CodeGen/X86/2012-07-10-extload64.ll

Show All 28 Lines	BB:
store <2 x i32> zeroinitializer, <2 x i32>* %ptr		store <2 x i32> zeroinitializer, <2 x i32>* %ptr
ret void		ret void
}		}

define <2 x i32> @load_64(<2 x i32>* %ptr) {		define <2 x i32> @load_64(<2 x i32>* %ptr) {
; CHECK-LABEL: load_64:		; CHECK-LABEL: load_64:
; CHECK: # %bb.0: # %BB		; CHECK: # %bb.0: # %BB
; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax		; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-NEXT: pmovzxdq {{.*#+}} xmm0 = mem[0],zero,mem[1],zero		; CHECK-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; CHECK-NEXT: retl		; CHECK-NEXT: retl
BB:		BB:
%t = load <2 x i32>, <2 x i32>* %ptr		%t = load <2 x i32>, <2 x i32>* %ptr
ret <2 x i32> %t		ret <2 x i32> %t
}		}

test/CodeGen/X86/3dnow-intrinsics.ll

	Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_pf2id:			; X64-LABEL: test_pf2id:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: movdq2q %xmm0, %mm0			; X64-NEXT: movdq2q %xmm0, %mm0
	; X64-NEXT: pf2id %mm0, %mm0			; X64-NEXT: pf2id %mm0, %mm0
	; X64-NEXT: movq %mm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: movq %mm0, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movaps -{{[0-9]+}}(%rsp), %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x float> %a to x86_mmx			%0 = bitcast <2 x float> %a to x86_mmx
	%1 = tail call x86_mmx @llvm.x86.3dnow.pf2id(x86_mmx %0)			%1 = tail call x86_mmx @llvm.x86.3dnow.pf2id(x86_mmx %0)
	%2 = bitcast x86_mmx %1 to <2 x i32>			%2 = bitcast x86_mmx %1 to <2 x i32>
	ret <2 x i32> %2			ret <2 x i32> %2
	}			}

	▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_pfcmpeq:			; X64-LABEL: test_pfcmpeq:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: movdq2q %xmm1, %mm0			; X64-NEXT: movdq2q %xmm1, %mm0
	; X64-NEXT: movdq2q %xmm0, %mm1			; X64-NEXT: movdq2q %xmm0, %mm1
	; X64-NEXT: pfcmpeq %mm0, %mm1			; X64-NEXT: pfcmpeq %mm0, %mm1
	; X64-NEXT: movq %mm1, -{{[0-9]+}}(%rsp)			; X64-NEXT: movq %mm1, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movaps -{{[0-9]+}}(%rsp), %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x float> %a to x86_mmx			%0 = bitcast <2 x float> %a to x86_mmx
	%1 = bitcast <2 x float> %b to x86_mmx			%1 = bitcast <2 x float> %b to x86_mmx
	%2 = tail call x86_mmx @llvm.x86.3dnow.pfcmpeq(x86_mmx %0, x86_mmx %1)			%2 = tail call x86_mmx @llvm.x86.3dnow.pfcmpeq(x86_mmx %0, x86_mmx %1)
	%3 = bitcast x86_mmx %2 to <2 x i32>			%3 = bitcast x86_mmx %2 to <2 x i32>
	ret <2 x i32> %3			ret <2 x i32> %3
	}			}
	Show All 22 Lines
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_pfcmpge:			; X64-LABEL: test_pfcmpge:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: movdq2q %xmm1, %mm0			; X64-NEXT: movdq2q %xmm1, %mm0
	; X64-NEXT: movdq2q %xmm0, %mm1			; X64-NEXT: movdq2q %xmm0, %mm1
	; X64-NEXT: pfcmpge %mm0, %mm1			; X64-NEXT: pfcmpge %mm0, %mm1
	; X64-NEXT: movq %mm1, -{{[0-9]+}}(%rsp)			; X64-NEXT: movq %mm1, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movaps -{{[0-9]+}}(%rsp), %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x float> %a to x86_mmx			%0 = bitcast <2 x float> %a to x86_mmx
	%1 = bitcast <2 x float> %b to x86_mmx			%1 = bitcast <2 x float> %b to x86_mmx
	%2 = tail call x86_mmx @llvm.x86.3dnow.pfcmpge(x86_mmx %0, x86_mmx %1)			%2 = tail call x86_mmx @llvm.x86.3dnow.pfcmpge(x86_mmx %0, x86_mmx %1)
	%3 = bitcast x86_mmx %2 to <2 x i32>			%3 = bitcast x86_mmx %2 to <2 x i32>
	ret <2 x i32> %3			ret <2 x i32> %3
	}			}
	Show All 22 Lines
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_pfcmpgt:			; X64-LABEL: test_pfcmpgt:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: movdq2q %xmm1, %mm0			; X64-NEXT: movdq2q %xmm1, %mm0
	; X64-NEXT: movdq2q %xmm0, %mm1			; X64-NEXT: movdq2q %xmm0, %mm1
	; X64-NEXT: pfcmpgt %mm0, %mm1			; X64-NEXT: pfcmpgt %mm0, %mm1
	; X64-NEXT: movq %mm1, -{{[0-9]+}}(%rsp)			; X64-NEXT: movq %mm1, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movaps -{{[0-9]+}}(%rsp), %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x float> %a to x86_mmx			%0 = bitcast <2 x float> %a to x86_mmx
	%1 = bitcast <2 x float> %b to x86_mmx			%1 = bitcast <2 x float> %b to x86_mmx
	%2 = tail call x86_mmx @llvm.x86.3dnow.pfcmpgt(x86_mmx %0, x86_mmx %1)			%2 = tail call x86_mmx @llvm.x86.3dnow.pfcmpgt(x86_mmx %0, x86_mmx %1)
	%3 = bitcast x86_mmx %2 to <2 x i32>			%3 = bitcast x86_mmx %2 to <2 x i32>
	ret <2 x i32> %3			ret <2 x i32> %3
	}			}
	▲ Show 20 Lines • Show All 456 Lines • ▼ Show 20 Lines
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_pf2iw:			; X64-LABEL: test_pf2iw:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: movdq2q %xmm0, %mm0			; X64-NEXT: movdq2q %xmm0, %mm0
	; X64-NEXT: pf2iw %mm0, %mm0			; X64-NEXT: pf2iw %mm0, %mm0
	; X64-NEXT: movq %mm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: movq %mm0, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movaps -{{[0-9]+}}(%rsp), %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x float> %a to x86_mmx			%0 = bitcast <2 x float> %a to x86_mmx
	%1 = tail call x86_mmx @llvm.x86.3dnowa.pf2iw(x86_mmx %0)			%1 = tail call x86_mmx @llvm.x86.3dnowa.pf2iw(x86_mmx %0)
	%2 = bitcast x86_mmx %1 to <2 x i32>			%2 = bitcast x86_mmx %1 to <2 x i32>
	ret <2 x i32> %2			ret <2 x i32> %2
	}			}

	▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	; X86-NEXT: movl (%esp), %eax			; X86-NEXT: movl (%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_pswapdsi:			; X64-LABEL: test_pswapdsi:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X64-NEXT: movdq2q %xmm0, %mm0
	; X64-NEXT: movq %xmm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: pswapd %mm0, %mm0 # mm0 = mm0[1,0]
	; X64-NEXT: pswapd -{{[0-9]+}}(%rsp), %mm0 # mm0 = mem[1,0]
	; X64-NEXT: movq %mm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: movq %mm0, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movaps -{{[0-9]+}}(%rsp), %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i32> %a to x86_mmx			%0 = bitcast <2 x i32> %a to x86_mmx
	%1 = tail call x86_mmx @llvm.x86.3dnowa.pswapd(x86_mmx %0)			%1 = tail call x86_mmx @llvm.x86.3dnowa.pswapd(x86_mmx %0)
	%2 = bitcast x86_mmx %1 to <2 x i32>			%2 = bitcast x86_mmx %1 to <2 x i32>
	ret <2 x i32> %2			ret <2 x i32> %2
	}			}

	declare x86_mmx @llvm.x86.3dnowa.pswapd(x86_mmx) nounwind readnone			declare x86_mmx @llvm.x86.3dnowa.pswapd(x86_mmx) nounwind readnone

test/CodeGen/X86/avx2-masked-gather.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mcpu=skylake -mtriple=i386-unknown-linux-gnu -mattr=+avx2 \| FileCheck --check-prefix=X86 %s		; RUN: llc < %s -mcpu=skylake -mtriple=i386-unknown-linux-gnu -mattr=+avx2 \| FileCheck --check-prefix=X86 %s
; RUN: llc < %s -mcpu=skylake -mtriple=x86_64-unknown-linux-gnu -mattr=+avx2 \| FileCheck --check-prefix=X64 %s		; RUN: llc < %s -mcpu=skylake -mtriple=x86_64-unknown-linux-gnu -mattr=+avx2 \| FileCheck --check-prefix=X64 %s
; RUN: llc < %s -mcpu=skx -mtriple=x86_64-unknown-linux-gnu -mattr=+avx2,-avx512f \| FileCheck --check-prefix=X64 %s		; RUN: llc < %s -mcpu=skx -mtriple=x86_64-unknown-linux-gnu -mattr=+avx2,-avx512f \| FileCheck --check-prefix=X64 %s
; RUN: llc < %s -mcpu=skylake -mtriple=x86_64-unknown-linux-gnu -mattr=-avx2 \| FileCheck --check-prefix=NOGATHER %s		; RUN: llc < %s -mcpu=skylake -mtriple=x86_64-unknown-linux-gnu -mattr=-avx2 \| FileCheck --check-prefix=NOGATHER %s

declare <2 x i32> @llvm.masked.gather.v2i32(<2 x i32*> %ptrs, i32 %align, <2 x i1> %masks, <2 x i32> %passthro)		declare <2 x i32> @llvm.masked.gather.v2i32(<2 x i32*> %ptrs, i32 %align, <2 x i1> %masks, <2 x i32> %passthro)

define <2 x i32> @masked_gather_v2i32(<2 x i32> %ptr, <2 x i1> %masks, <2 x i32> %passthro) {		define <2 x i32> @masked_gather_v2i32(<2 x i32> %ptr, <2 x i1> %masks, <2 x i32> %passthro) {
; X86-LABEL: masked_gather_v2i32:		; X86-LABEL: masked_gather_v2i32:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; X86-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero		; X86-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; X86-NEXT: vpslld $31, %xmm0, %xmm0		; X86-NEXT: vpslld $31, %xmm0, %xmm0
		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
		; X86-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; X86-NEXT: vpgatherdd %xmm0, (,%xmm2), %xmm1		; X86-NEXT: vpgatherdd %xmm0, (,%xmm2), %xmm1
; X86-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero		; X86-NEXT: vmovdqa %xmm1, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: masked_gather_v2i32:		; X64-LABEL: masked_gather_v2i32:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vmovdqa (%rdi), %xmm2		; X64-NEXT: vmovdqa (%rdi), %xmm2
; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X64-NEXT: vpslld $31, %xmm0, %xmm0		; X64-NEXT: vpslld $31, %xmm0, %xmm0
; X64-NEXT: vpgatherqd %xmm0, (,%xmm2), %xmm1		; X64-NEXT: vpgatherqd %xmm0, (,%xmm2), %xmm1
; X64-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero		; X64-NEXT: vmovdqa %xmm1, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
;		;
; NOGATHER-LABEL: masked_gather_v2i32:		; NOGATHER-LABEL: masked_gather_v2i32:
; NOGATHER: # %bb.0: # %entry		; NOGATHER: # %bb.0: # %entry
; NOGATHER-NEXT: vmovdqa (%rdi), %xmm2		; NOGATHER-NEXT: vmovdqa (%rdi), %xmm2
; NOGATHER-NEXT: vpextrb $0, %xmm0, %eax		; NOGATHER-NEXT: vpextrb $0, %xmm0, %eax
; NOGATHER-NEXT: testb $1, %al		; NOGATHER-NEXT: testb $1, %al
; NOGATHER-NEXT: je .LBB0_2		; NOGATHER-NEXT: je .LBB0_2
; NOGATHER-NEXT: # %bb.1: # %cond.load		; NOGATHER-NEXT: # %bb.1: # %cond.load
; NOGATHER-NEXT: vmovq %xmm2, %rax		; NOGATHER-NEXT: vmovq %xmm2, %rax
; NOGATHER-NEXT: movl (%rax), %eax		; NOGATHER-NEXT: vpinsrd $0, (%rax), %xmm1, %xmm1
; NOGATHER-NEXT: vpinsrq $0, %rax, %xmm1, %xmm1
; NOGATHER-NEXT: .LBB0_2: # %else		; NOGATHER-NEXT: .LBB0_2: # %else
; NOGATHER-NEXT: vpextrb $8, %xmm0, %eax		; NOGATHER-NEXT: vpextrb $8, %xmm0, %eax
; NOGATHER-NEXT: testb $1, %al		; NOGATHER-NEXT: testb $1, %al
; NOGATHER-NEXT: je .LBB0_4		; NOGATHER-NEXT: je .LBB0_4
; NOGATHER-NEXT: # %bb.3: # %cond.load1		; NOGATHER-NEXT: # %bb.3: # %cond.load1
; NOGATHER-NEXT: vpextrq $1, %xmm2, %rax		; NOGATHER-NEXT: vpextrq $1, %xmm2, %rax
; NOGATHER-NEXT: movl (%rax), %eax		; NOGATHER-NEXT: vpinsrd $1, (%rax), %xmm1, %xmm1
; NOGATHER-NEXT: vpinsrq $1, %rax, %xmm1, %xmm1
; NOGATHER-NEXT: .LBB0_4: # %else2		; NOGATHER-NEXT: .LBB0_4: # %else2
; NOGATHER-NEXT: vmovdqa %xmm1, %xmm0		; NOGATHER-NEXT: vmovdqa %xmm1, %xmm0
; NOGATHER-NEXT: retq		; NOGATHER-NEXT: retq
entry:		entry:
%ld = load <2 x i32>, <2 x i32>* %ptr		%ld = load <2 x i32>, <2 x i32>* %ptr
%res = call <2 x i32> @llvm.masked.gather.v2i32(<2 x i32*> %ld, i32 0, <2 x i1> %masks, <2 x i32> %passthro)		%res = call <2 x i32> @llvm.masked.gather.v2i32(<2 x i32*> %ld, i32 0, <2 x i1> %masks, <2 x i32> %passthro)
ret <2 x i32> %res		ret <2 x i32> %res
}		}

define <4 x i32> @masked_gather_v2i32_concat(<2 x i32> %ptr, <2 x i1> %masks, <2 x i32> %passthro) {		define <4 x i32> @masked_gather_v2i32_concat(<2 x i32> %ptr, <2 x i1> %masks, <2 x i32> %passthro) {
; X86-LABEL: masked_gather_v2i32_concat:		; X86-LABEL: masked_gather_v2i32_concat:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; X86-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero		; X86-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; X86-NEXT: vpslld $31, %xmm0, %xmm0		; X86-NEXT: vpslld $31, %xmm0, %xmm0
		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
		; X86-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; X86-NEXT: vpgatherdd %xmm0, (,%xmm2), %xmm1		; X86-NEXT: vpgatherdd %xmm0, (,%xmm2), %xmm1
; X86-NEXT: vmovdqa %xmm1, %xmm0		; X86-NEXT: vmovdqa %xmm1, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: masked_gather_v2i32_concat:		; X64-LABEL: masked_gather_v2i32_concat:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vmovdqa (%rdi), %xmm2		; X64-NEXT: vmovdqa (%rdi), %xmm2
; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X64-NEXT: vpslld $31, %xmm0, %xmm0		; X64-NEXT: vpslld $31, %xmm0, %xmm0
; X64-NEXT: vpgatherqd %xmm0, (,%xmm2), %xmm1		; X64-NEXT: vpgatherqd %xmm0, (,%xmm2), %xmm1
; X64-NEXT: vmovdqa %xmm1, %xmm0		; X64-NEXT: vmovdqa %xmm1, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
;		;
; NOGATHER-LABEL: masked_gather_v2i32_concat:		; NOGATHER-LABEL: masked_gather_v2i32_concat:
; NOGATHER: # %bb.0: # %entry		; NOGATHER: # %bb.0: # %entry
; NOGATHER-NEXT: vmovdqa (%rdi), %xmm2		; NOGATHER-NEXT: vmovdqa (%rdi), %xmm2
; NOGATHER-NEXT: vpextrb $0, %xmm0, %eax		; NOGATHER-NEXT: vpextrb $0, %xmm0, %eax
; NOGATHER-NEXT: testb $1, %al		; NOGATHER-NEXT: testb $1, %al
; NOGATHER-NEXT: je .LBB1_2		; NOGATHER-NEXT: je .LBB1_2
; NOGATHER-NEXT: # %bb.1: # %cond.load		; NOGATHER-NEXT: # %bb.1: # %cond.load
; NOGATHER-NEXT: vmovq %xmm2, %rax		; NOGATHER-NEXT: vmovq %xmm2, %rax
; NOGATHER-NEXT: movl (%rax), %eax		; NOGATHER-NEXT: vpinsrd $0, (%rax), %xmm1, %xmm1
; NOGATHER-NEXT: vpinsrq $0, %rax, %xmm1, %xmm1
; NOGATHER-NEXT: .LBB1_2: # %else		; NOGATHER-NEXT: .LBB1_2: # %else
; NOGATHER-NEXT: vpextrb $8, %xmm0, %eax		; NOGATHER-NEXT: vpextrb $8, %xmm0, %eax
; NOGATHER-NEXT: testb $1, %al		; NOGATHER-NEXT: testb $1, %al
; NOGATHER-NEXT: je .LBB1_4		; NOGATHER-NEXT: je .LBB1_4
; NOGATHER-NEXT: # %bb.3: # %cond.load1		; NOGATHER-NEXT: # %bb.3: # %cond.load1
; NOGATHER-NEXT: vpextrq $1, %xmm2, %rax		; NOGATHER-NEXT: vpextrq $1, %xmm2, %rax
; NOGATHER-NEXT: movl (%rax), %eax		; NOGATHER-NEXT: vpinsrd $1, (%rax), %xmm1, %xmm1
; NOGATHER-NEXT: vpinsrq $1, %rax, %xmm1, %xmm1
; NOGATHER-NEXT: .LBB1_4: # %else2		; NOGATHER-NEXT: .LBB1_4: # %else2
; NOGATHER-NEXT: vpshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]		; NOGATHER-NEXT: vmovdqa %xmm1, %xmm0
; NOGATHER-NEXT: retq		; NOGATHER-NEXT: retq
entry:		entry:
%ld = load <2 x i32>, <2 x i32>* %ptr		%ld = load <2 x i32>, <2 x i32>* %ptr
%res = call <2 x i32> @llvm.masked.gather.v2i32(<2 x i32*> %ld, i32 0, <2 x i1> %masks, <2 x i32> %passthro)		%res = call <2 x i32> @llvm.masked.gather.v2i32(<2 x i32*> %ld, i32 0, <2 x i1> %masks, <2 x i32> %passthro)
%res2 = shufflevector <2 x i32> %res, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%res2 = shufflevector <2 x i32> %res, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x i32> %res2		ret <4 x i32> %res2
}		}

▲ Show 20 Lines • Show All 571 Lines • ▼ Show 20 Lines	entry:
ret <4 x double> %res		ret <4 x double> %res
}		}

declare <2 x i64> @llvm.masked.gather.v2i64(<2 x i64*> %ptrs, i32 %align, <2 x i1> %masks, <2 x i64> %passthro)		declare <2 x i64> @llvm.masked.gather.v2i64(<2 x i64*> %ptrs, i32 %align, <2 x i1> %masks, <2 x i64> %passthro)

define <2 x i64> @masked_gather_v2i64(<2 x i64> %ptr, <2 x i1> %masks, <2 x i64> %passthro) {		define <2 x i64> @masked_gather_v2i64(<2 x i64> %ptr, <2 x i1> %masks, <2 x i64> %passthro) {
; X86-LABEL: masked_gather_v2i64:		; X86-LABEL: masked_gather_v2i64:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: vpmovsxdq (%eax), %xmm2
; X86-NEXT: vpsllq $63, %xmm0, %xmm0		; X86-NEXT: vpsllq $63, %xmm0, %xmm0
; X86-NEXT: vpgatherqq %xmm0, (,%xmm2), %xmm1		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
		; X86-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
		; X86-NEXT: vpgatherdq %xmm0, (,%xmm2), %xmm1
; X86-NEXT: vmovdqa %xmm1, %xmm0		; X86-NEXT: vmovdqa %xmm1, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
		RKSimonUnsubmitted Not Done Reply Inline Actions Ouch RKSimon: Ouch
;		;
; X64-LABEL: masked_gather_v2i64:		; X64-LABEL: masked_gather_v2i64:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vpsllq $63, %xmm0, %xmm0		; X64-NEXT: vpsllq $63, %xmm0, %xmm0
; X64-NEXT: vmovdqa (%rdi), %xmm2		; X64-NEXT: vmovdqa (%rdi), %xmm2
; X64-NEXT: vpgatherqq %xmm0, (,%xmm2), %xmm1		; X64-NEXT: vpgatherqq %xmm0, (,%xmm2), %xmm1
; X64-NEXT: vmovdqa %xmm1, %xmm0		; X64-NEXT: vmovdqa %xmm1, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
Show All 23 Lines	entry:
ret <2 x i64> %res		ret <2 x i64> %res
}		}

declare <2 x double> @llvm.masked.gather.v2double(<2 x double*> %ptrs, i32 %align, <2 x i1> %masks, <2 x double> %passthro)		declare <2 x double> @llvm.masked.gather.v2double(<2 x double*> %ptrs, i32 %align, <2 x i1> %masks, <2 x double> %passthro)

define <2 x double> @masked_gather_v2double(<2 x double> %ptr, <2 x i1> %masks, <2 x double> %passthro) {		define <2 x double> @masked_gather_v2double(<2 x double> %ptr, <2 x i1> %masks, <2 x double> %passthro) {
; X86-LABEL: masked_gather_v2double:		; X86-LABEL: masked_gather_v2double:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: vpmovsxdq (%eax), %xmm2
; X86-NEXT: vpsllq $63, %xmm0, %xmm0		; X86-NEXT: vpsllq $63, %xmm0, %xmm0
; X86-NEXT: vgatherqpd %xmm0, (,%xmm2), %xmm1		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
		; X86-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
		zviUnsubmitted Not Done Reply Inline Actions This patch does not change mask argumenent representation, so his compare is redundant, right? zvi: This patch does not change mask argumenent representation, so his compare is redundant, right?
		craig.topperAuthorUnsubmitted Not Done Reply Inline Actions This compare is emulating an a v2i64 arithmetic shift right since we don't have that instruction. We only consider the lower bit of each mask to be valid coming in so we have to do a sign_extend_inreg operation. I thought we had a combine that used demanded bits that should have removed the right shift. But I think its getting tripped up by the concat_vectors that's in front of the gather. craig.topper: This compare is emulating an a v2i64 arithmetic shift right since we don't have that…
		; X86-NEXT: vgatherdpd %xmm0, (,%xmm2), %xmm1
; X86-NEXT: vmovapd %xmm1, %xmm0		; X86-NEXT: vmovapd %xmm1, %xmm0
		zviUnsubmitted Not Done Reply Inline Actions Any way to easily fix vmovd+vpinsrd -> vmovq? zvi: Any way to easily fix vmovd+vpinsrd -> vmovq?
		RKSimonUnsubmitted Not Done Reply Inline Actions Yes - why didn't EltsFromConsecutiveLoads convert this to a i64 VZEXT_LOAD (VMOVQ)? RKSimon: Yes - why didn't EltsFromConsecutiveLoads convert this to a i64 VZEXT_LOAD (VMOVQ)?
		craig.topperAuthorUnsubmitted Not Done Reply Inline Actions I'm not sure anything ever saw the VPINSRD as anything more than a insert_vector_elt. We never had it as a shuffle or build_vector where we could detect multiple elements. I wonder if we shouldn't just custom legalize v2i32 loads to VZEXT_LOAD during type legalization? craig.topper: I'm not sure anything ever saw the VPINSRD as anything more than a insert_vector_elt. We never…
; X86-NEXT: retl		; X86-NEXT: retl
;		;
		zviUnsubmitted Not Done Reply Inline Actions Is this redundant move a known issue? zvi: Is this redundant move a known issue?
		craig.topperAuthorUnsubmitted Not Done Reply Inline Actions It's there to clear bits 255:128 because we don't do a good job of detecting when the producer already zeroed those bits. I think we only whitelist a couple of instructions today. craig.topper: It's there to clear bits 255:128 because we don't do a good job of detecting when the producer…
; X64-LABEL: masked_gather_v2double:		; X64-LABEL: masked_gather_v2double:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: vpsllq $63, %xmm0, %xmm0		; X64-NEXT: vpsllq $63, %xmm0, %xmm0
; X64-NEXT: vmovapd (%rdi), %xmm2		; X64-NEXT: vmovapd (%rdi), %xmm2
; X64-NEXT: vgatherqpd %xmm0, (,%xmm2), %xmm1		; X64-NEXT: vgatherqpd %xmm0, (,%xmm2), %xmm1
; X64-NEXT: vmovapd %xmm1, %xmm0		; X64-NEXT: vmovapd %xmm1, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
;		;
Show All 25 Lines

test/CodeGen/X86/avx512-cvt.ll

	Show First 20 Lines • Show All 2,578 Lines • ▼ Show 20 Lines
	; KNL_WIDEN-NEXT: vcvtdq2ps %xmm0, %xmm0			; KNL_WIDEN-NEXT: vcvtdq2ps %xmm0, %xmm0
	; KNL_WIDEN-NEXT: retq			; KNL_WIDEN-NEXT: retq
	%cmpres = fcmp ogt <2 x float> %a, zeroinitializer			%cmpres = fcmp ogt <2 x float> %a, zeroinitializer
	%1 = sitofp <2 x i1> %cmpres to <2 x float>			%1 = sitofp <2 x i1> %cmpres to <2 x float>
	ret <2 x float> %1			ret <2 x float> %1
	}			}

	define <2 x double> @sbto2f64(<2 x double> %a) {			define <2 x double> @sbto2f64(<2 x double> %a) {
	; ALL-LABEL: sbto2f64:			; NOVL-LABEL: sbto2f64:
	; ALL: # %bb.0:			; NOVL: # %bb.0:
	; ALL-NEXT: vxorpd %xmm1, %xmm1, %xmm1			; NOVL-NEXT: vxorpd %xmm1, %xmm1, %xmm1
	; ALL-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0			; NOVL-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0
	; ALL-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]			; NOVL-NEXT: vpmovqd %zmm0, %ymm0
	; ALL-NEXT: vcvtdq2pd %xmm0, %xmm0			; NOVL-NEXT: vcvtdq2pd %xmm0, %xmm0
	; ALL-NEXT: retq			; NOVL-NEXT: vzeroupper
				; NOVL-NEXT: retq
				;
				; VLDQ-LABEL: sbto2f64:
				; VLDQ: # %bb.0:
				; VLDQ-NEXT: vxorpd %xmm1, %xmm1, %xmm1
				; VLDQ-NEXT: vcmpltpd %xmm0, %xmm1, %k0
				; VLDQ-NEXT: vpmovm2d %k0, %xmm0
				; VLDQ-NEXT: vcvtdq2pd %xmm0, %xmm0
				; VLDQ-NEXT: retq
				;
				; VLNODQ-LABEL: sbto2f64:
				; VLNODQ: # %bb.0:
				; VLNODQ-NEXT: vxorpd %xmm1, %xmm1, %xmm1
				; VLNODQ-NEXT: vcmpltpd %xmm0, %xmm1, %k1
				; VLNODQ-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0
				; VLNODQ-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}
				; VLNODQ-NEXT: vcvtdq2pd %xmm0, %xmm0
				; VLNODQ-NEXT: retq
	;			;
	; KNL_WIDEN-LABEL: sbto2f64:			; KNL_WIDEN-LABEL: sbto2f64:
	; KNL_WIDEN: # %bb.0:			; KNL_WIDEN: # %bb.0:
	; KNL_WIDEN-NEXT: vxorpd %xmm1, %xmm1, %xmm1			; KNL_WIDEN-NEXT: vxorpd %xmm1, %xmm1, %xmm1
	; KNL_WIDEN-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0			; KNL_WIDEN-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0
	; KNL_WIDEN-NEXT: vpmovqd %zmm0, %ymm0			; KNL_WIDEN-NEXT: vpmovqd %zmm0, %ymm0
	; KNL_WIDEN-NEXT: vcvtdq2pd %xmm0, %xmm0			; KNL_WIDEN-NEXT: vcvtdq2pd %xmm0, %xmm0
	; KNL_WIDEN-NEXT: vzeroupper			; KNL_WIDEN-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 390 Lines • ▼ Show 20 Lines
	; KNL_WIDEN-NEXT: vcvtdq2pd %xmm0, %ymm0			; KNL_WIDEN-NEXT: vcvtdq2pd %xmm0, %ymm0
	; KNL_WIDEN-NEXT: retq			; KNL_WIDEN-NEXT: retq
	%mask = icmp slt <4 x i32> %a, zeroinitializer			%mask = icmp slt <4 x i32> %a, zeroinitializer
	%1 = uitofp <4 x i1> %mask to <4 x double>			%1 = uitofp <4 x i1> %mask to <4 x double>
	ret <4 x double> %1			ret <4 x double> %1
	}			}

	define <2 x float> @ubto2f32(<2 x i32> %a) {			define <2 x float> @ubto2f32(<2 x i32> %a) {
	; ALL-LABEL: ubto2f32:			; NOVL-LABEL: ubto2f32:
	; ALL: # %bb.0:			; NOVL: # %bb.0:
	; ALL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; NOVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; ALL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]			; NOVL-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; ALL-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0			; NOVL-NEXT: vpbroadcastd {{.*#+}} xmm1 = [1065353216,1065353216,1065353216,1065353216]
	; ALL-NEXT: vpandn {{.*}}(%rip), %xmm0, %xmm0			; NOVL-NEXT: vpandn %xmm1, %xmm0, %xmm0
	; ALL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; NOVL-NEXT: retq
	; ALL-NEXT: retq			;
				; VL-LABEL: ubto2f32:
				; VL: # %bb.0:
				; VL-NEXT: vpxor %xmm1, %xmm1, %xmm1
				; VL-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
				; VL-NEXT: vpandnd {{.*}}(%rip){1to4}, %xmm0, %xmm0
				; VL-NEXT: retq
	;			;
	; KNL_WIDEN-LABEL: ubto2f32:			; KNL_WIDEN-LABEL: ubto2f32:
	; KNL_WIDEN: # %bb.0:			; KNL_WIDEN: # %bb.0:
	; KNL_WIDEN-NEXT: vpxor %xmm1, %xmm1, %xmm1			; KNL_WIDEN-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; KNL_WIDEN-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0			; KNL_WIDEN-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; KNL_WIDEN-NEXT: vpbroadcastd {{.*#+}} xmm1 = [1065353216,1065353216,1065353216,1065353216]			; KNL_WIDEN-NEXT: vpbroadcastd {{.*#+}} xmm1 = [1065353216,1065353216,1065353216,1065353216]
	; KNL_WIDEN-NEXT: vpandn %xmm1, %xmm0, %xmm0			; KNL_WIDEN-NEXT: vpandn %xmm1, %xmm0, %xmm0
	; KNL_WIDEN-NEXT: retq			; KNL_WIDEN-NEXT: retq
	%mask = icmp ne <2 x i32> %a, zeroinitializer			%mask = icmp ne <2 x i32> %a, zeroinitializer
	%1 = uitofp <2 x i1> %mask to <2 x float>			%1 = uitofp <2 x i1> %mask to <2 x float>
	ret <2 x float> %1			ret <2 x float> %1
	}			}

	define <2 x double> @ubto2f64(<2 x i32> %a) {			define <2 x double> @ubto2f64(<2 x i32> %a) {
	; ALL-LABEL: ubto2f64:			; NOVL-LABEL: ubto2f64:
	; ALL: # %bb.0:			; NOVL: # %bb.0:
	; ALL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; NOVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; ALL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]			; NOVL-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; ALL-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0			; NOVL-NEXT: vpbroadcastd {{.*#+}} xmm1 = [1,1,1,1]
	; ALL-NEXT: vpandn {{.*}}(%rip), %xmm0, %xmm0			; NOVL-NEXT: vpandn %xmm1, %xmm0, %xmm0
	; ALL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; NOVL-NEXT: vcvtdq2pd %xmm0, %xmm0
	; ALL-NEXT: vcvtdq2pd %xmm0, %xmm0			; NOVL-NEXT: retq
	; ALL-NEXT: retq			;
				; VL-LABEL: ubto2f64:
				; VL: # %bb.0:
				; VL-NEXT: vpxor %xmm1, %xmm1, %xmm1
				; VL-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
				; VL-NEXT: vpandnd {{.*}}(%rip){1to4}, %xmm0, %xmm0
				; VL-NEXT: vcvtdq2pd %xmm0, %xmm0
				; VL-NEXT: retq
	;			;
	; KNL_WIDEN-LABEL: ubto2f64:			; KNL_WIDEN-LABEL: ubto2f64:
	; KNL_WIDEN: # %bb.0:			; KNL_WIDEN: # %bb.0:
	; KNL_WIDEN-NEXT: vpxor %xmm1, %xmm1, %xmm1			; KNL_WIDEN-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; KNL_WIDEN-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0			; KNL_WIDEN-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; KNL_WIDEN-NEXT: vpbroadcastd {{.*#+}} xmm1 = [1,1,1,1]			; KNL_WIDEN-NEXT: vpbroadcastd {{.*#+}} xmm1 = [1,1,1,1]
	; KNL_WIDEN-NEXT: vpandn %xmm1, %xmm0, %xmm0			; KNL_WIDEN-NEXT: vpandn %xmm1, %xmm0, %xmm0
	; KNL_WIDEN-NEXT: vcvtdq2pd %xmm0, %xmm0			; KNL_WIDEN-NEXT: vcvtdq2pd %xmm0, %xmm0
	▲ Show 20 Lines • Show All 653 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-schedule.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,547 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq # sched: [7:1.00]
%1 = sitofp <2 x i1> %cmpres to <2 x float>		%1 = sitofp <2 x i1> %cmpres to <2 x float>
ret <2 x float> %1		ret <2 x float> %1
}		}

define <2 x double> @sbto2f64(<2 x double> %a) {		define <2 x double> @sbto2f64(<2 x double> %a) {
; GENERIC-LABEL: sbto2f64:		; GENERIC-LABEL: sbto2f64:
; GENERIC: # %bb.0:		; GENERIC: # %bb.0:
; GENERIC-NEXT: vxorpd %xmm1, %xmm1, %xmm1 # sched: [0:0.25]		; GENERIC-NEXT: vxorpd %xmm1, %xmm1, %xmm1 # sched: [0:0.25]
; GENERIC-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0 # sched: [3:1.00]		; GENERIC-NEXT: vcmpltpd %xmm0, %xmm1, %k0 # sched: [3:1.00]
; GENERIC-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3] sched: [1:1.00]		; GENERIC-NEXT: vpmovm2d %k0, %xmm0 # sched: [1:0.33]
; GENERIC-NEXT: vcvtdq2pd %xmm0, %xmm0 # sched: [4:1.00]		; GENERIC-NEXT: vcvtdq2pd %xmm0, %xmm0 # sched: [4:1.00]
; GENERIC-NEXT: retq # sched: [1:1.00]		; GENERIC-NEXT: retq # sched: [1:1.00]
;		;
; SKX-LABEL: sbto2f64:		; SKX-LABEL: sbto2f64:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vxorpd %xmm1, %xmm1, %xmm1 # sched: [1:0.33]		; SKX-NEXT: vxorpd %xmm1, %xmm1, %xmm1 # sched: [1:0.33]
; SKX-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0 # sched: [4:0.50]		; SKX-NEXT: vcmpltpd %xmm0, %xmm1, %k0 # sched: [3:1.00]
; SKX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3] sched: [1:1.00]		; SKX-NEXT: vpmovm2d %k0, %xmm0 # sched: [1:0.25]
; SKX-NEXT: vcvtdq2pd %xmm0, %xmm0 # sched: [4:0.50]		; SKX-NEXT: vcvtdq2pd %xmm0, %xmm0 # sched: [4:0.50]
; SKX-NEXT: retq # sched: [7:1.00]		; SKX-NEXT: retq # sched: [7:1.00]
%cmpres = fcmp ogt <2 x double> %a, zeroinitializer		%cmpres = fcmp ogt <2 x double> %a, zeroinitializer
%1 = sitofp <2 x i1> %cmpres to <2 x double>		%1 = sitofp <2 x i1> %cmpres to <2 x double>
ret <2 x double> %1		ret <2 x double> %1
}		}

define <16 x float> @ucto16f32(<16 x i8> %a) {		define <16 x float> @ucto16f32(<16 x i8> %a) {
▲ Show 20 Lines • Show All 329 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq # sched: [7:1.00]
%1 = uitofp <4 x i1> %mask to <4 x double>		%1 = uitofp <4 x i1> %mask to <4 x double>
ret <4 x double> %1		ret <4 x double> %1
}		}

define <2 x float> @ubto2f32(<2 x i32> %a) {		define <2 x float> @ubto2f32(<2 x i32> %a) {
; GENERIC-LABEL: ubto2f32:		; GENERIC-LABEL: ubto2f32:
; GENERIC: # %bb.0:		; GENERIC: # %bb.0:
; GENERIC-NEXT: vpxor %xmm1, %xmm1, %xmm1 # sched: [0:0.25]		; GENERIC-NEXT: vpxor %xmm1, %xmm1, %xmm1 # sched: [0:0.25]
; GENERIC-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3] sched: [1:0.50]		; GENERIC-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0 # sched: [1:0.50]
; GENERIC-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0 # sched: [1:0.50]		; GENERIC-NEXT: vpandnd {{.*}}(%rip){1to4}, %xmm0, %xmm0 # sched: [7:0.50]
; GENERIC-NEXT: vpandn {{.*}}(%rip), %xmm0, %xmm0 # sched: [7:0.50]
; GENERIC-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3] sched: [1:0.50]
; GENERIC-NEXT: retq # sched: [1:1.00]		; GENERIC-NEXT: retq # sched: [1:1.00]
;		;
; SKX-LABEL: ubto2f32:		; SKX-LABEL: ubto2f32:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpxor %xmm1, %xmm1, %xmm1 # sched: [1:0.33]		; SKX-NEXT: vpxor %xmm1, %xmm1, %xmm1 # sched: [1:0.33]
; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3] sched: [1:0.33]		; SKX-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0 # sched: [1:0.50]
; SKX-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0 # sched: [1:0.50]		; SKX-NEXT: vpandnd {{.*}}(%rip){1to4}, %xmm0, %xmm0 # sched: [7:0.50]
; SKX-NEXT: vpandn {{.*}}(%rip), %xmm0, %xmm0 # sched: [7:0.50]
; SKX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3] sched: [1:1.00]
; SKX-NEXT: retq # sched: [7:1.00]		; SKX-NEXT: retq # sched: [7:1.00]
%mask = icmp ne <2 x i32> %a, zeroinitializer		%mask = icmp ne <2 x i32> %a, zeroinitializer
%1 = uitofp <2 x i1> %mask to <2 x float>		%1 = uitofp <2 x i1> %mask to <2 x float>
ret <2 x float> %1		ret <2 x float> %1
}		}

define <2 x double> @ubto2f64(<2 x i32> %a) {		define <2 x double> @ubto2f64(<2 x i32> %a) {
; GENERIC-LABEL: ubto2f64:		; GENERIC-LABEL: ubto2f64:
; GENERIC: # %bb.0:		; GENERIC: # %bb.0:
; GENERIC-NEXT: vpxor %xmm1, %xmm1, %xmm1 # sched: [0:0.25]		; GENERIC-NEXT: vpxor %xmm1, %xmm1, %xmm1 # sched: [0:0.25]
; GENERIC-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3] sched: [1:0.50]		; GENERIC-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0 # sched: [1:0.50]
; GENERIC-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0 # sched: [1:0.50]		; GENERIC-NEXT: vpandnd {{.*}}(%rip){1to4}, %xmm0, %xmm0 # sched: [7:0.50]
; GENERIC-NEXT: vpandn {{.*}}(%rip), %xmm0, %xmm0 # sched: [7:0.50]
; GENERIC-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3] sched: [1:0.50]
; GENERIC-NEXT: vcvtdq2pd %xmm0, %xmm0 # sched: [4:1.00]		; GENERIC-NEXT: vcvtdq2pd %xmm0, %xmm0 # sched: [4:1.00]
; GENERIC-NEXT: retq # sched: [1:1.00]		; GENERIC-NEXT: retq # sched: [1:1.00]
;		;
; SKX-LABEL: ubto2f64:		; SKX-LABEL: ubto2f64:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpxor %xmm1, %xmm1, %xmm1 # sched: [1:0.33]		; SKX-NEXT: vpxor %xmm1, %xmm1, %xmm1 # sched: [1:0.33]
; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3] sched: [1:0.33]		; SKX-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0 # sched: [1:0.50]
; SKX-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0 # sched: [1:0.50]		; SKX-NEXT: vpandnd {{.*}}(%rip){1to4}, %xmm0, %xmm0 # sched: [7:0.50]
; SKX-NEXT: vpandn {{.*}}(%rip), %xmm0, %xmm0 # sched: [7:0.50]
; SKX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3] sched: [1:1.00]
; SKX-NEXT: vcvtdq2pd %xmm0, %xmm0 # sched: [4:0.50]		; SKX-NEXT: vcvtdq2pd %xmm0, %xmm0 # sched: [4:0.50]
; SKX-NEXT: retq # sched: [7:1.00]		; SKX-NEXT: retq # sched: [7:1.00]
%mask = icmp ne <2 x i32> %a, zeroinitializer		%mask = icmp ne <2 x i32> %a, zeroinitializer
%1 = uitofp <2 x i1> %mask to <2 x double>		%1 = uitofp <2 x i1> %mask to <2 x double>
ret <2 x double> %1		ret <2 x double> %1
}		}

define <8 x i16> @zext_8x8mem_to_8x16(<8 x i8> *%i , <8 x i1> %mask) nounwind readnone {		define <8 x i16> @zext_8x8mem_to_8x16(<8 x i8> *%i , <8 x i1> %mask) nounwind readnone {
▲ Show 20 Lines • Show All 5,807 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-shuffles/broadcast-vector-int.ll

Show First 20 Lines • Show All 530 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>		%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
%cmp = icmp eq <8 x i32> %mask, zeroinitializer		%cmp = icmp eq <8 x i32> %mask, zeroinitializer
%res = select <8 x i1> %cmp, <8 x i32> %shuf, <8 x i32> zeroinitializer		%res = select <8 x i1> %cmp, <8 x i32> %shuf, <8 x i32> zeroinitializer
ret <8 x i32> %res		ret <8 x i32> %res
}		}
define <16 x i32> @test_2xi32_to_16xi32_mem(<2 x i32>* %vp) {		define <16 x i32> @test_2xi32_to_16xi32_mem(<2 x i32>* %vp) {
; CHECK-LABEL: test_2xi32_to_16xi32_mem:		; CHECK-LABEL: test_2xi32_to_16xi32_mem:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpmovzxdq {{.*#+}} xmm0 = mem[0],zero,mem[1],zero		; CHECK-NEXT: vbroadcastsd (%rdi), %zmm0
; CHECK-NEXT: vmovdqa64 {{.*#+}} zmm1 = [0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2]
; CHECK-NEXT: vpermd %zmm0, %zmm1, %zmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <2 x i32>, <2 x i32>* %vp		%vec = load <2 x i32>, <2 x i32>* %vp
%res = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>		%res = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
ret <16 x i32> %res		ret <16 x i32> %res
}		}
define <16 x i32> @test_masked_2xi32_to_16xi32_mem_mask0(<2 x i32>* %vp, <16 x i32> %default, <16 x i32> %mask) {		define <16 x i32> @test_masked_2xi32_to_16xi32_mem_mask0(<2 x i32>* %vp, <16 x i32> %default, <16 x i32> %mask) {
; CHECK-LABEL: test_masked_2xi32_to_16xi32_mem_mask0:		; CHECK-LABEL: test_masked_2xi32_to_16xi32_mem_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpmovzxdq {{.*#+}} xmm2 = mem[0],zero,mem[1],zero
; CHECK-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2]
; CHECK-NEXT: vptestnmd %zmm1, %zmm1, %k1		; CHECK-NEXT: vptestnmd %zmm1, %zmm1, %k1
; CHECK-NEXT: vpermd %zmm2, %zmm3, %zmm0 {%k1}		; CHECK-NEXT: vbroadcasti32x2 {{.*#+}} zmm0 {%k1} = mem[0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <2 x i32>, <2 x i32>* %vp		%vec = load <2 x i32>, <2 x i32>* %vp
%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>		%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
%cmp = icmp eq <16 x i32> %mask, zeroinitializer		%cmp = icmp eq <16 x i32> %mask, zeroinitializer
%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> %default		%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> %default
ret <16 x i32> %res		ret <16 x i32> %res
}		}

define <16 x i32> @test_masked_z_2xi32_to_16xi32_mem_mask0(<2 x i32>* %vp, <16 x i32> %mask) {		define <16 x i32> @test_masked_z_2xi32_to_16xi32_mem_mask0(<2 x i32>* %vp, <16 x i32> %mask) {
; CHECK-LABEL: test_masked_z_2xi32_to_16xi32_mem_mask0:		; CHECK-LABEL: test_masked_z_2xi32_to_16xi32_mem_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpmovzxdq {{.*#+}} xmm1 = mem[0],zero,mem[1],zero
; CHECK-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2]
; CHECK-NEXT: vptestnmd %zmm0, %zmm0, %k1		; CHECK-NEXT: vptestnmd %zmm0, %zmm0, %k1
; CHECK-NEXT: vpermd %zmm1, %zmm2, %zmm0 {%k1} {z}		; CHECK-NEXT: vbroadcasti32x2 {{.*#+}} zmm0 {%k1} {z} = mem[0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <2 x i32>, <2 x i32>* %vp		%vec = load <2 x i32>, <2 x i32>* %vp
%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>		%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
%cmp = icmp eq <16 x i32> %mask, zeroinitializer		%cmp = icmp eq <16 x i32> %mask, zeroinitializer
%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> zeroinitializer		%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> zeroinitializer
ret <16 x i32> %res		ret <16 x i32> %res
}		}
define <16 x i32> @test_masked_2xi32_to_16xi32_mem_mask1(<2 x i32>* %vp, <16 x i32> %default, <16 x i32> %mask) {		define <16 x i32> @test_masked_2xi32_to_16xi32_mem_mask1(<2 x i32>* %vp, <16 x i32> %default, <16 x i32> %mask) {
; CHECK-LABEL: test_masked_2xi32_to_16xi32_mem_mask1:		; CHECK-LABEL: test_masked_2xi32_to_16xi32_mem_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpmovzxdq {{.*#+}} xmm2 = mem[0],zero,mem[1],zero
; CHECK-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2]
; CHECK-NEXT: vptestnmd %zmm1, %zmm1, %k1		; CHECK-NEXT: vptestnmd %zmm1, %zmm1, %k1
; CHECK-NEXT: vpermd %zmm2, %zmm3, %zmm0 {%k1}		; CHECK-NEXT: vbroadcasti32x2 {{.*#+}} zmm0 {%k1} = mem[0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <2 x i32>, <2 x i32>* %vp		%vec = load <2 x i32>, <2 x i32>* %vp
%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>		%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
%cmp = icmp eq <16 x i32> %mask, zeroinitializer		%cmp = icmp eq <16 x i32> %mask, zeroinitializer
%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> %default		%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> %default
ret <16 x i32> %res		ret <16 x i32> %res
}		}

define <16 x i32> @test_masked_z_2xi32_to_16xi32_mem_mask1(<2 x i32>* %vp, <16 x i32> %mask) {		define <16 x i32> @test_masked_z_2xi32_to_16xi32_mem_mask1(<2 x i32>* %vp, <16 x i32> %mask) {
; CHECK-LABEL: test_masked_z_2xi32_to_16xi32_mem_mask1:		; CHECK-LABEL: test_masked_z_2xi32_to_16xi32_mem_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpmovzxdq {{.*#+}} xmm1 = mem[0],zero,mem[1],zero
; CHECK-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2]
; CHECK-NEXT: vptestnmd %zmm0, %zmm0, %k1		; CHECK-NEXT: vptestnmd %zmm0, %zmm0, %k1
; CHECK-NEXT: vpermd %zmm1, %zmm2, %zmm0 {%k1} {z}		; CHECK-NEXT: vbroadcasti32x2 {{.*#+}} zmm0 {%k1} {z} = mem[0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <2 x i32>, <2 x i32>* %vp		%vec = load <2 x i32>, <2 x i32>* %vp
%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>		%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
%cmp = icmp eq <16 x i32> %mask, zeroinitializer		%cmp = icmp eq <16 x i32> %mask, zeroinitializer
%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> zeroinitializer		%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> zeroinitializer
ret <16 x i32> %res		ret <16 x i32> %res
}		}
define <16 x i32> @test_masked_2xi32_to_16xi32_mem_mask2(<2 x i32>* %vp, <16 x i32> %default, <16 x i32> %mask) {		define <16 x i32> @test_masked_2xi32_to_16xi32_mem_mask2(<2 x i32>* %vp, <16 x i32> %default, <16 x i32> %mask) {
; CHECK-LABEL: test_masked_2xi32_to_16xi32_mem_mask2:		; CHECK-LABEL: test_masked_2xi32_to_16xi32_mem_mask2:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpmovzxdq {{.*#+}} xmm2 = mem[0],zero,mem[1],zero
; CHECK-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2]
; CHECK-NEXT: vptestnmd %zmm1, %zmm1, %k1		; CHECK-NEXT: vptestnmd %zmm1, %zmm1, %k1
; CHECK-NEXT: vpermd %zmm2, %zmm3, %zmm0 {%k1}		; CHECK-NEXT: vbroadcasti32x2 {{.*#+}} zmm0 {%k1} = mem[0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <2 x i32>, <2 x i32>* %vp		%vec = load <2 x i32>, <2 x i32>* %vp
%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>		%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
%cmp = icmp eq <16 x i32> %mask, zeroinitializer		%cmp = icmp eq <16 x i32> %mask, zeroinitializer
%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> %default		%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> %default
ret <16 x i32> %res		ret <16 x i32> %res
}		}

define <16 x i32> @test_masked_z_2xi32_to_16xi32_mem_mask2(<2 x i32>* %vp, <16 x i32> %mask) {		define <16 x i32> @test_masked_z_2xi32_to_16xi32_mem_mask2(<2 x i32>* %vp, <16 x i32> %mask) {
; CHECK-LABEL: test_masked_z_2xi32_to_16xi32_mem_mask2:		; CHECK-LABEL: test_masked_z_2xi32_to_16xi32_mem_mask2:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpmovzxdq {{.*#+}} xmm1 = mem[0],zero,mem[1],zero
; CHECK-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2]
; CHECK-NEXT: vptestnmd %zmm0, %zmm0, %k1		; CHECK-NEXT: vptestnmd %zmm0, %zmm0, %k1
; CHECK-NEXT: vpermd %zmm1, %zmm2, %zmm0 {%k1} {z}		; CHECK-NEXT: vbroadcasti32x2 {{.*#+}} zmm0 {%k1} {z} = mem[0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <2 x i32>, <2 x i32>* %vp		%vec = load <2 x i32>, <2 x i32>* %vp
%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>		%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
%cmp = icmp eq <16 x i32> %mask, zeroinitializer		%cmp = icmp eq <16 x i32> %mask, zeroinitializer
%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> zeroinitializer		%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> zeroinitializer
ret <16 x i32> %res		ret <16 x i32> %res
}		}
define <16 x i32> @test_masked_2xi32_to_16xi32_mem_mask3(<2 x i32>* %vp, <16 x i32> %default, <16 x i32> %mask) {		define <16 x i32> @test_masked_2xi32_to_16xi32_mem_mask3(<2 x i32>* %vp, <16 x i32> %default, <16 x i32> %mask) {
; CHECK-LABEL: test_masked_2xi32_to_16xi32_mem_mask3:		; CHECK-LABEL: test_masked_2xi32_to_16xi32_mem_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpmovzxdq {{.*#+}} xmm2 = mem[0],zero,mem[1],zero
; CHECK-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2]
; CHECK-NEXT: vptestnmd %zmm1, %zmm1, %k1		; CHECK-NEXT: vptestnmd %zmm1, %zmm1, %k1
; CHECK-NEXT: vpermd %zmm2, %zmm3, %zmm0 {%k1}		; CHECK-NEXT: vbroadcasti32x2 {{.*#+}} zmm0 {%k1} = mem[0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <2 x i32>, <2 x i32>* %vp		%vec = load <2 x i32>, <2 x i32>* %vp
%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>		%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
%cmp = icmp eq <16 x i32> %mask, zeroinitializer		%cmp = icmp eq <16 x i32> %mask, zeroinitializer
%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> %default		%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> %default
ret <16 x i32> %res		ret <16 x i32> %res
}		}

define <16 x i32> @test_masked_z_2xi32_to_16xi32_mem_mask3(<2 x i32>* %vp, <16 x i32> %mask) {		define <16 x i32> @test_masked_z_2xi32_to_16xi32_mem_mask3(<2 x i32>* %vp, <16 x i32> %mask) {
; CHECK-LABEL: test_masked_z_2xi32_to_16xi32_mem_mask3:		; CHECK-LABEL: test_masked_z_2xi32_to_16xi32_mem_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpmovzxdq {{.*#+}} xmm1 = mem[0],zero,mem[1],zero
; CHECK-NEXT: vmovdqa64 {{.*#+}} zmm2 = [0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2]
; CHECK-NEXT: vptestnmd %zmm0, %zmm0, %k1		; CHECK-NEXT: vptestnmd %zmm0, %zmm0, %k1
; CHECK-NEXT: vpermd %zmm1, %zmm2, %zmm0 {%k1} {z}		; CHECK-NEXT: vbroadcasti32x2 {{.*#+}} zmm0 {%k1} {z} = mem[0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1]
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <2 x i32>, <2 x i32>* %vp		%vec = load <2 x i32>, <2 x i32>* %vp
%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>		%shuf = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
%cmp = icmp eq <16 x i32> %mask, zeroinitializer		%cmp = icmp eq <16 x i32> %mask, zeroinitializer
%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> zeroinitializer		%res = select <16 x i1> %cmp, <16 x i32> %shuf, <16 x i32> zeroinitializer
ret <16 x i32> %res		ret <16 x i32> %res
}		}
define <8 x i32> @test_4xi32_to_8xi32_mem(<4 x i32>* %vp) {		define <8 x i32> @test_4xi32_to_8xi32_mem(<4 x i32>* %vp) {
▲ Show 20 Lines • Show All 653 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-trunc.ll

	Show First 20 Lines • Show All 252 Lines • ▼ Show 20 Lines
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%x = trunc <4 x i64> %i to <4 x i32>			%x = trunc <4 x i64> %i to <4 x i32>
	store <4 x i32> %x, <4 x i32>* %res			store <4 x i32> %x, <4 x i32>* %res
	ret void			ret void
	}			}

	define <2 x i32> @trunc_qd_128(<2 x i64> %i) #0 {			define <2 x i32> @trunc_qd_128(<2 x i64> %i) #0 {
	; ALL-LABEL: trunc_qd_128:			; KNL-LABEL: trunc_qd_128:
	; ALL: ## %bb.0:			; KNL: ## %bb.0:
	; ALL-NEXT: retq			; KNL-NEXT: ## kill: def $xmm0 killed $xmm0 def $zmm0
				; KNL-NEXT: vpmovqd %zmm0, %ymm0
				; KNL-NEXT: ## kill: def $xmm0 killed $xmm0 killed $ymm0
				; KNL-NEXT: vzeroupper
				; KNL-NEXT: retq
				;
				; SKX-LABEL: trunc_qd_128:
				; SKX: ## %bb.0:
				; SKX-NEXT: ## kill: def $xmm0 killed $xmm0 def $ymm0
				; SKX-NEXT: vpmovqd %ymm0, %xmm0
				; SKX-NEXT: vzeroupper
				; SKX-NEXT: retq
	%x = trunc <2 x i64> %i to <2 x i32>			%x = trunc <2 x i64> %i to <2 x i32>
	ret <2 x i32> %x			ret <2 x i32> %x
	}			}

	define void @trunc_qd_128_mem(<2 x i64> %i, <2 x i32>* %res) #0 {			define void @trunc_qd_128_mem(<2 x i64> %i, <2 x i32>* %res) #0 {
	; KNL-LABEL: trunc_qd_128_mem:			; KNL-LABEL: trunc_qd_128_mem:
	; KNL: ## %bb.0:			; KNL: ## %bb.0:
	; KNL-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]			; KNL-NEXT: ## kill: def $xmm0 killed $xmm0 def $zmm0
	; KNL-NEXT: vmovlps %xmm0, (%rdi)			; KNL-NEXT: vpmovqd %zmm0, %ymm0
				; KNL-NEXT: vmovq %xmm0, (%rdi)
				; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: trunc_qd_128_mem:			; SKX-LABEL: trunc_qd_128_mem:
	; SKX: ## %bb.0:			; SKX: ## %bb.0:
	; SKX-NEXT: vpmovqd %xmm0, (%rdi)			; SKX-NEXT: vpmovqd %xmm0, (%rdi)
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%x = trunc <2 x i64> %i to <2 x i32>			%x = trunc <2 x i64> %i to <2 x i32>
	store <2 x i32> %x, <2 x i32>* %res			store <2 x i32> %x, <2 x i32>* %res
	▲ Show 20 Lines • Show All 809 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512vl-intrinsics-fast-isel.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,188 Lines • ▼ Show 20 Lines	entry:
%shuf.i = shufflevector <2 x i16> %conv.i, <2 x i16> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 2, i32 3, i32 2, i32 3>		%shuf.i = shufflevector <2 x i16> %conv.i, <2 x i16> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 2, i32 3, i32 2, i32 3>
%0 = bitcast <8 x i16> %shuf.i to <2 x i64>		%0 = bitcast <8 x i16> %shuf.i to <2 x i64>
ret <2 x i64> %0		ret <2 x i64> %0
}		}

define <2 x i64> @test_mm_cvtepi64_epi32(<2 x i64> %__A) {		define <2 x i64> @test_mm_cvtepi64_epi32(<2 x i64> %__A) {
; CHECK-LABEL: test_mm_cvtepi64_epi32:		; CHECK-LABEL: test_mm_cvtepi64_epi32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero		; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
		; CHECK-NEXT: vpmovqd %ymm0, %xmm0
		; CHECK-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
entry:		entry:
%conv.i = trunc <2 x i64> %__A to <2 x i32>		%conv.i = trunc <2 x i64> %__A to <2 x i32>
%shuf.i = shufflevector <2 x i32> %conv.i, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%shuf.i = shufflevector <2 x i32> %conv.i, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
%0 = bitcast <4 x i32> %shuf.i to <2 x i64>		%0 = bitcast <4 x i32> %shuf.i to <2 x i64>
ret <2 x i64> %0		ret <2 x i64> %0
}		}

▲ Show 20 Lines • Show All 4,379 Lines • Show Last 20 Lines

test/CodeGen/X86/bitcast-and-setcc-128.ll

Show First 20 Lines • Show All 485 Lines • ▼ Show 20 Lines	; AVX512BW-NEXT: retq
%y = and <2 x i1> %x0, %x1		%y = and <2 x i1> %x0, %x1
%res = bitcast <2 x i1> %y to i2		%res = bitcast <2 x i1> %y to i2
ret i2 %res		ret i2 %res
}		}

define i2 @v2i32(<2 x i32> %a, <2 x i32> %b, <2 x i32> %c, <2 x i32> %d) {		define i2 @v2i32(<2 x i32> %a, <2 x i32> %b, <2 x i32> %c, <2 x i32> %d) {
; SSE2-SSSE3-LABEL: v2i32:		; SSE2-SSSE3-LABEL: v2i32:
; SSE2-SSSE3: # %bb.0:		; SSE2-SSSE3: # %bb.0:
; SSE2-SSSE3-NEXT: psllq $32, %xmm2		; SSE2-SSSE3-NEXT: pcmpgtd %xmm1, %xmm0
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,3,2,3]		; SSE2-SSSE3-NEXT: movdqa %xmm0, %xmm1
; SSE2-SSSE3-NEXT: psrad $31, %xmm2
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,3,2,3]
; SSE2-SSSE3-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1]
; SSE2-SSSE3-NEXT: psllq $32, %xmm3
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]
; SSE2-SSSE3-NEXT: psrad $31, %xmm3
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,3,2,3]
; SSE2-SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
; SSE2-SSSE3-NEXT: psllq $32, %xmm0
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,3,2,3]
; SSE2-SSSE3-NEXT: psrad $31, %xmm0
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
; SSE2-SSSE3-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1]
; SSE2-SSSE3-NEXT: psllq $32, %xmm1
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,3,2,3]
; SSE2-SSSE3-NEXT: psrad $31, %xmm1		; SSE2-SSSE3-NEXT: psrad $31, %xmm1
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; SSE2-SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-SSSE3-NEXT: movdqa {{.*#+}} xmm1 = [2147483648,2147483648]		; SSE2-SSSE3-NEXT: pcmpgtd %xmm3, %xmm2
; SSE2-SSSE3-NEXT: pxor %xmm1, %xmm0		; SSE2-SSSE3-NEXT: movdqa %xmm2, %xmm1
; SSE2-SSSE3-NEXT: pxor %xmm1, %xmm3		; SSE2-SSSE3-NEXT: psrad $31, %xmm1
; SSE2-SSSE3-NEXT: movdqa %xmm3, %xmm5		; SSE2-SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE2-SSSE3-NEXT: pcmpgtd %xmm0, %xmm5		; SSE2-SSSE3-NEXT: pand %xmm0, %xmm2
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]		; SSE2-SSSE3-NEXT: movmskpd %xmm2, %eax
; SSE2-SSSE3-NEXT: pcmpeqd %xmm0, %xmm3
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; SSE2-SSSE3-NEXT: pand %xmm6, %xmm0
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm5[1,1,3,3]
; SSE2-SSSE3-NEXT: por %xmm0, %xmm3
; SSE2-SSSE3-NEXT: pxor %xmm1, %xmm2
; SSE2-SSSE3-NEXT: pxor %xmm1, %xmm4
; SSE2-SSSE3-NEXT: movdqa %xmm4, %xmm0
; SSE2-SSSE3-NEXT: pcmpgtd %xmm2, %xmm0
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,2,2]
; SSE2-SSSE3-NEXT: pcmpeqd %xmm2, %xmm4
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]
; SSE2-SSSE3-NEXT: pand %xmm1, %xmm2
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; SSE2-SSSE3-NEXT: por %xmm2, %xmm0
; SSE2-SSSE3-NEXT: pand %xmm3, %xmm0
; SSE2-SSSE3-NEXT: movmskpd %xmm0, %eax
; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax		; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax
; SSE2-SSSE3-NEXT: retq		; SSE2-SSSE3-NEXT: retq
;		;
; AVX1-LABEL: v2i32:		; AVX12-LABEL: v2i32:
; AVX1: # %bb.0:		; AVX12: # %bb.0:
; AVX1-NEXT: vpsllq $32, %xmm3, %xmm4		; AVX12-NEXT: vpcmpgtd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsrad $31, %xmm4, %xmm4		; AVX12-NEXT: vpmovsxdq %xmm0, %xmm0
; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]		; AVX12-NEXT: vpcmpgtd %xmm3, %xmm2, %xmm1
; AVX1-NEXT: vpsllq $32, %xmm2, %xmm4		; AVX12-NEXT: vpmovsxdq %xmm1, %xmm1
; AVX1-NEXT: vpsrad $31, %xmm4, %xmm4		; AVX12-NEXT: vpand %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]		; AVX12-NEXT: vmovmskpd %xmm0, %eax
; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2		; AVX12-NEXT: # kill: def $al killed $al killed $eax
; AVX1-NEXT: vpsllq $32, %xmm1, %xmm3		; AVX12-NEXT: retq
; AVX1-NEXT: vpsrad $31, %xmm3, %xmm3
; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
; AVX1-NEXT: vpsllq $32, %xmm0, %xmm3
; AVX1-NEXT: vpsrad $31, %xmm3, %xmm3
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vmovmskpd %xmm0, %eax
; AVX1-NEXT: # kill: def $al killed $al killed $eax
; AVX1-NEXT: retq
;
; AVX2-LABEL: v2i32:
; AVX2: # %bb.0:
; AVX2-NEXT: vpsllq $32, %xmm3, %xmm4
; AVX2-NEXT: vpsrad $31, %xmm4, %xmm4
; AVX2-NEXT: vpblendd {{.*#+}} xmm3 = xmm3[0],xmm4[1],xmm3[2],xmm4[3]
; AVX2-NEXT: vpsllq $32, %xmm2, %xmm4
; AVX2-NEXT: vpsrad $31, %xmm4, %xmm4
; AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0],xmm4[1],xmm2[2],xmm4[3]
; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
; AVX2-NEXT: vpsllq $32, %xmm1, %xmm3
; AVX2-NEXT: vpsrad $31, %xmm3, %xmm3
; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm3[1],xmm1[2],xmm3[3]
; AVX2-NEXT: vpsllq $32, %xmm0, %xmm3
; AVX2-NEXT: vpsrad $31, %xmm3, %xmm3
; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm3[1],xmm0[2],xmm3[3]
; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm0
; AVX2-NEXT: vmovmskpd %xmm0, %eax
; AVX2-NEXT: # kill: def $al killed $al killed $eax
; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: v2i32:		; AVX512F-LABEL: v2i32:
; AVX512F: # %bb.0:		; AVX512F: # %bb.0:
; AVX512F-NEXT: vpsllq $32, %xmm3, %xmm3		; AVX512F-NEXT: vpcmpgtd %xmm1, %xmm0, %k0
; AVX512F-NEXT: vpsraq $32, %xmm3, %xmm3		; AVX512F-NEXT: vpcmpgtd %xmm3, %xmm2, %k1
; AVX512F-NEXT: vpsllq $32, %xmm2, %xmm2		; AVX512F-NEXT: kandw %k1, %k0, %k0
; AVX512F-NEXT: vpsraq $32, %xmm2, %xmm2
; AVX512F-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX512F-NEXT: vpsraq $32, %xmm1, %xmm1
; AVX512F-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX512F-NEXT: vpsraq $32, %xmm0, %xmm0
; AVX512F-NEXT: vpcmpgtq %xmm1, %xmm0, %k1
; AVX512F-NEXT: vpcmpgtq %xmm3, %xmm2, %k0 {%k1}
; AVX512F-NEXT: kmovw %k0, %eax		; AVX512F-NEXT: kmovw %k0, %eax
; AVX512F-NEXT: # kill: def $al killed $al killed $eax		; AVX512F-NEXT: # kill: def $al killed $al killed $eax
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512BW-LABEL: v2i32:		; AVX512BW-LABEL: v2i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vpsllq $32, %xmm3, %xmm3		; AVX512BW-NEXT: vpcmpgtd %xmm1, %xmm0, %k0
; AVX512BW-NEXT: vpsraq $32, %xmm3, %xmm3		; AVX512BW-NEXT: vpcmpgtd %xmm3, %xmm2, %k1
; AVX512BW-NEXT: vpsllq $32, %xmm2, %xmm2		; AVX512BW-NEXT: kandw %k1, %k0, %k0
; AVX512BW-NEXT: vpsraq $32, %xmm2, %xmm2
; AVX512BW-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX512BW-NEXT: vpsraq $32, %xmm1, %xmm1
; AVX512BW-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX512BW-NEXT: vpsraq $32, %xmm0, %xmm0
; AVX512BW-NEXT: vpcmpgtq %xmm1, %xmm0, %k1
; AVX512BW-NEXT: vpcmpgtq %xmm3, %xmm2, %k0 {%k1}
; AVX512BW-NEXT: kmovd %k0, %eax		; AVX512BW-NEXT: kmovd %k0, %eax
; AVX512BW-NEXT: # kill: def $al killed $al killed $eax		; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
%x0 = icmp sgt <2 x i32> %a, %b		%x0 = icmp sgt <2 x i32> %a, %b
%x1 = icmp sgt <2 x i32> %c, %d		%x1 = icmp sgt <2 x i32> %c, %d
%y = and <2 x i1> %x0, %x1		%y = and <2 x i1> %x0, %x1
%res = bitcast <2 x i1> %y to i2		%res = bitcast <2 x i1> %y to i2
ret i2 %res		ret i2 %res
▲ Show 20 Lines • Show All 328 Lines • Show Last 20 Lines

test/CodeGen/X86/bitcast-setcc-128.ll

Show First 20 Lines • Show All 327 Lines • ▼ Show 20 Lines	; AVX512BW-NEXT: retq
%x = icmp sgt <2 x i16> %a, %b		%x = icmp sgt <2 x i16> %a, %b
%res = bitcast <2 x i1> %x to i2		%res = bitcast <2 x i1> %x to i2
ret i2 %res		ret i2 %res
}		}

define i2 @v2i32(<2 x i32> %a, <2 x i32> %b) {		define i2 @v2i32(<2 x i32> %a, <2 x i32> %b) {
; SSE2-SSSE3-LABEL: v2i32:		; SSE2-SSSE3-LABEL: v2i32:
; SSE2-SSSE3: # %bb.0:		; SSE2-SSSE3: # %bb.0:
; SSE2-SSSE3-NEXT: psllq $32, %xmm0		; SSE2-SSSE3-NEXT: pcmpgtd %xmm1, %xmm0
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,3,2,3]		; SSE2-SSSE3-NEXT: movdqa %xmm0, %xmm1
; SSE2-SSSE3-NEXT: psrad $31, %xmm0
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
; SSE2-SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
; SSE2-SSSE3-NEXT: psllq $32, %xmm1
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,3,2,3]
; SSE2-SSSE3-NEXT: psrad $31, %xmm1		; SSE2-SSSE3-NEXT: psrad $31, %xmm1
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; SSE2-SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-SSSE3-NEXT: movdqa {{.*#+}} xmm1 = [2147483648,2147483648]		; SSE2-SSSE3-NEXT: movmskpd %xmm0, %eax
; SSE2-SSSE3-NEXT: pxor %xmm1, %xmm0
; SSE2-SSSE3-NEXT: pxor %xmm1, %xmm2
; SSE2-SSSE3-NEXT: movdqa %xmm2, %xmm1
; SSE2-SSSE3-NEXT: pcmpgtd %xmm0, %xmm1
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,2,2]
; SSE2-SSSE3-NEXT: pcmpeqd %xmm0, %xmm2
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]
; SSE2-SSSE3-NEXT: pand %xmm3, %xmm0
; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; SSE2-SSSE3-NEXT: por %xmm0, %xmm1
; SSE2-SSSE3-NEXT: movmskpd %xmm1, %eax
; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax		; SSE2-SSSE3-NEXT: # kill: def $al killed $al killed $eax
; SSE2-SSSE3-NEXT: retq		; SSE2-SSSE3-NEXT: retq
;		;
; AVX1-LABEL: v2i32:		; AVX12-LABEL: v2i32:
; AVX1: # %bb.0:		; AVX12: # %bb.0:
; AVX1-NEXT: vpsllq $32, %xmm1, %xmm2		; AVX12-NEXT: vpcmpgtd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2		; AVX12-NEXT: vpmovsxdq %xmm0, %xmm0
; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]		; AVX12-NEXT: vmovmskpd %xmm0, %eax
; AVX1-NEXT: vpsllq $32, %xmm0, %xmm2		; AVX12-NEXT: # kill: def $al killed $al killed $eax
; AVX1-NEXT: vpsrad $31, %xmm2, %xmm2		; AVX12-NEXT: retq
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovmskpd %xmm0, %eax
; AVX1-NEXT: # kill: def $al killed $al killed $eax
; AVX1-NEXT: retq
;
; AVX2-LABEL: v2i32:
; AVX2: # %bb.0:
; AVX2-NEXT: vpsllq $32, %xmm1, %xmm2
; AVX2-NEXT: vpsrad $31, %xmm2, %xmm2
; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
; AVX2-NEXT: vpsllq $32, %xmm0, %xmm2
; AVX2-NEXT: vpsrad $31, %xmm2, %xmm2
; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vmovmskpd %xmm0, %eax
; AVX2-NEXT: # kill: def $al killed $al killed $eax
; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: v2i32:		; AVX512F-LABEL: v2i32:
; AVX512F: # %bb.0:		; AVX512F: # %bb.0:
; AVX512F-NEXT: vpsllq $32, %xmm1, %xmm1		; AVX512F-NEXT: vpcmpgtd %xmm1, %xmm0, %k0
; AVX512F-NEXT: vpsraq $32, %xmm1, %xmm1
; AVX512F-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX512F-NEXT: vpsraq $32, %xmm0, %xmm0
; AVX512F-NEXT: vpcmpgtq %xmm1, %xmm0, %k0
; AVX512F-NEXT: kmovw %k0, %eax		; AVX512F-NEXT: kmovw %k0, %eax
; AVX512F-NEXT: # kill: def $al killed $al killed $eax		; AVX512F-NEXT: # kill: def $al killed $al killed $eax
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512BW-LABEL: v2i32:		; AVX512BW-LABEL: v2i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vpsllq $32, %xmm1, %xmm1		; AVX512BW-NEXT: vpcmpgtd %xmm1, %xmm0, %k0
; AVX512BW-NEXT: vpsraq $32, %xmm1, %xmm1
; AVX512BW-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX512BW-NEXT: vpsraq $32, %xmm0, %xmm0
; AVX512BW-NEXT: vpcmpgtq %xmm1, %xmm0, %k0
; AVX512BW-NEXT: kmovd %k0, %eax		; AVX512BW-NEXT: kmovd %k0, %eax
; AVX512BW-NEXT: # kill: def $al killed $al killed $eax		; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
%x = icmp sgt <2 x i32> %a, %b		%x = icmp sgt <2 x i32> %a, %b
%res = bitcast <2 x i1> %x to i2		%res = bitcast <2 x i1> %x to i2
ret i2 %res		ret i2 %res
}		}

▲ Show 20 Lines • Show All 332 Lines • Show Last 20 Lines

test/CodeGen/X86/compress_expand.ll

	Show First 20 Lines • Show All 248 Lines • ▼ Show 20 Lines
	; KNL-NEXT: retq			; KNL-NEXT: retq
	call void @llvm.masked.compressstore.v4f32(<4 x float> %V, float* %base, <4 x i1> %mask)			call void @llvm.masked.compressstore.v4f32(<4 x float> %V, float* %base, <4 x i1> %mask)
	ret void			ret void
	}			}

	define <2 x float> @test13(float* %base, <2 x float> %src0, <2 x i32> %trigger) {			define <2 x float> @test13(float* %base, <2 x float> %src0, <2 x i32> %trigger) {
	; SKX-LABEL: test13:			; SKX-LABEL: test13:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpxor %xmm2, %xmm2, %xmm2			; SKX-NEXT: vptestnmd %xmm1, %xmm1, %k0
	; SKX-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; SKX-NEXT: kshiftlb $6, %k0, %k0
	; SKX-NEXT: vptestnmq %xmm1, %xmm1, %k1			; SKX-NEXT: kshiftrb $6, %k0, %k1
	; SKX-NEXT: vexpandps (%rdi), %xmm0 {%k1}			; SKX-NEXT: vexpandps (%rdi), %xmm0 {%k1}
	; SKX-NEXT: retq			; SKX-NEXT: retq
	;			;
	; KNL-LABEL: test13:			; KNL-LABEL: test13:
	; KNL: # %bb.0:			; KNL: # %bb.0:
				; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
	; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; KNL-NEXT: vpxor %xmm2, %xmm2, %xmm2			; KNL-NEXT: vptestnmd %zmm1, %zmm1, %k0
	; KNL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; KNL-NEXT: vptestnmq %zmm1, %zmm1, %k0
	; KNL-NEXT: kshiftlw $14, %k0, %k0			; KNL-NEXT: kshiftlw $14, %k0, %k0
	; KNL-NEXT: kshiftrw $14, %k0, %k1			; KNL-NEXT: kshiftrw $14, %k0, %k1
	; KNL-NEXT: vexpandps (%rdi), %zmm0 {%k1}			; KNL-NEXT: vexpandps (%rdi), %zmm0 {%k1}
	; KNL-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; KNL-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; KNL-NEXT: retq			; KNL-NEXT: retq
	%mask = icmp eq <2 x i32> %trigger, zeroinitializer			%mask = icmp eq <2 x i32> %trigger, zeroinitializer
	%res = call <2 x float> @llvm.masked.expandload.v2f32(float* %base, <2 x i1> %mask, <2 x float> %src0)			%res = call <2 x float> @llvm.masked.expandload.v2f32(float* %base, <2 x i1> %mask, <2 x float> %src0)
	ret <2 x float> %res			ret <2 x float> %res
	}			}

	define void @test14(float* %base, <2 x float> %V, <2 x i32> %trigger) {			define void @test14(float* %base, <2 x float> %V, <2 x i32> %trigger) {
	; SKX-LABEL: test14:			; SKX-LABEL: test14:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpxor %xmm2, %xmm2, %xmm2			; SKX-NEXT: vptestnmd %xmm1, %xmm1, %k0
	; SKX-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; SKX-NEXT: kshiftlb $6, %k0, %k0
	; SKX-NEXT: vptestnmq %xmm1, %xmm1, %k1			; SKX-NEXT: kshiftrb $6, %k0, %k1
	; SKX-NEXT: vcompressps %xmm0, (%rdi) {%k1}			; SKX-NEXT: vcompressps %xmm0, (%rdi) {%k1}
	; SKX-NEXT: retq			; SKX-NEXT: retq
	;			;
	; KNL-LABEL: test14:			; KNL-LABEL: test14:
	; KNL: # %bb.0:			; KNL: # %bb.0:
				; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
	; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; KNL-NEXT: vpxor %xmm2, %xmm2, %xmm2			; KNL-NEXT: vptestnmd %zmm1, %zmm1, %k0
	; KNL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; KNL-NEXT: vptestnmq %zmm1, %zmm1, %k0
	; KNL-NEXT: kshiftlw $14, %k0, %k0			; KNL-NEXT: kshiftlw $14, %k0, %k0
	; KNL-NEXT: kshiftrw $14, %k0, %k1			; KNL-NEXT: kshiftrw $14, %k0, %k1
	; KNL-NEXT: vcompressps %zmm0, (%rdi) {%k1}			; KNL-NEXT: vcompressps %zmm0, (%rdi) {%k1}
	; KNL-NEXT: retq			; KNL-NEXT: retq
	%mask = icmp eq <2 x i32> %trigger, zeroinitializer			%mask = icmp eq <2 x i32> %trigger, zeroinitializer
	call void @llvm.masked.compressstore.v2f32(<2 x float> %V, float* %base, <2 x i1> %mask)			call void @llvm.masked.compressstore.v2f32(<2 x float> %V, float* %base, <2 x i1> %mask)
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 117 Lines • Show Last 20 Lines

test/CodeGen/X86/cvtv2f32.ll

Show All 35 Lines	; X64-NEXT: retq
%t4 = insertelement <2 x float> %t2, float %t3, i32 1		%t4 = insertelement <2 x float> %t2, float %t3, i32 1
%t5 = fmul <2 x float> %v, %t4		%t5 = fmul <2 x float> %v, %t4
ret <2 x float> %t5		ret <2 x float> %t5
}		}

define <2 x float> @uitofp_2i32_buildvector_cvt(i32 %x, i32 %y, <2 x float> %v) {		define <2 x float> @uitofp_2i32_buildvector_cvt(i32 %x, i32 %y, <2 x float> %v) {
; X32-LABEL: uitofp_2i32_buildvector_cvt:		; X32-LABEL: uitofp_2i32_buildvector_cvt:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; X32-NEXT: movdqa {{.*#+}} xmm1 = [4503599627370496,4503599627370496]
; X32-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; X32-NEXT: pmovzxdq {{.*#+}} xmm2 = mem[0],zero,mem[1],zero
; X32-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm1[0]		; X32-NEXT: por %xmm1, %xmm2
; X32-NEXT: movapd {{.*#+}} xmm1 = [4503599627370496,4503599627370496]
; X32-NEXT: orpd %xmm1, %xmm2
; X32-NEXT: subpd %xmm1, %xmm2		; X32-NEXT: subpd %xmm1, %xmm2
; X32-NEXT: cvtpd2ps %xmm2, %xmm1		; X32-NEXT: cvtpd2ps %xmm2, %xmm1
; X32-NEXT: mulps %xmm1, %xmm0		; X32-NEXT: mulps %xmm1, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: uitofp_2i32_buildvector_cvt:		; X64-LABEL: uitofp_2i32_buildvector_cvt:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: movd %esi, %xmm1		; X64-NEXT: movd %edi, %xmm1
; X64-NEXT: movd %edi, %xmm2		; X64-NEXT: pinsrd $1, %esi, %xmm1
; X64-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]		; X64-NEXT: pmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
; X64-NEXT: movdqa {{.*#+}} xmm1 = [4503599627370496,4503599627370496]		; X64-NEXT: movdqa {{.*#+}} xmm2 = [4503599627370496,4503599627370496]
; X64-NEXT: por %xmm1, %xmm2		; X64-NEXT: por %xmm2, %xmm1
; X64-NEXT: subpd %xmm1, %xmm2		; X64-NEXT: subpd %xmm2, %xmm1
; X64-NEXT: cvtpd2ps %xmm2, %xmm1		; X64-NEXT: cvtpd2ps %xmm1, %xmm1
; X64-NEXT: mulps %xmm1, %xmm0		; X64-NEXT: mulps %xmm1, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%t1 = insertelement <2 x i32> undef, i32 %x, i32 0		%t1 = insertelement <2 x i32> undef, i32 %x, i32 0
%t2 = insertelement <2 x i32> %t1, i32 %y, i32 1		%t2 = insertelement <2 x i32> %t1, i32 %y, i32 1
%t3 = uitofp <2 x i32> %t2 to <2 x float>		%t3 = uitofp <2 x i32> %t2 to <2 x float>
%t4 = fmul <2 x float> %v, %t3		%t4 = fmul <2 x float> %v, %t3
ret <2 x float> %t4		ret <2 x float> %t4
}		}

define <2 x float> @uitofp_2i32_legalized(<2 x i32> %in, <2 x float> %v) {		define <2 x float> @uitofp_2i32_legalized(<2 x i32> %in, <2 x float> %v) {
; X32-LABEL: uitofp_2i32_legalized:		; X32-LABEL: uitofp_2i32_legalized:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: xorps %xmm2, %xmm2		; X32-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; X32-NEXT: blendps {{.*#+}} xmm2 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]		; X32-NEXT: movdqa {{.*#+}} xmm2 = [4503599627370496,4503599627370496]
; X32-NEXT: movaps {{.*#+}} xmm0 = [4503599627370496,4503599627370496]		; X32-NEXT: por %xmm2, %xmm0
; X32-NEXT: orps %xmm0, %xmm2		; X32-NEXT: subpd %xmm2, %xmm0
; X32-NEXT: subpd %xmm0, %xmm2		; X32-NEXT: cvtpd2ps %xmm0, %xmm0
; X32-NEXT: cvtpd2ps %xmm2, %xmm0
; X32-NEXT: mulps %xmm1, %xmm0		; X32-NEXT: mulps %xmm1, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: uitofp_2i32_legalized:		; X64-LABEL: uitofp_2i32_legalized:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: xorps %xmm2, %xmm2		; X64-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; X64-NEXT: blendps {{.*#+}} xmm2 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]		; X64-NEXT: movdqa {{.*#+}} xmm2 = [4503599627370496,4503599627370496]
; X64-NEXT: movaps {{.*#+}} xmm0 = [4503599627370496,4503599627370496]		; X64-NEXT: por %xmm2, %xmm0
; X64-NEXT: orps %xmm0, %xmm2		; X64-NEXT: subpd %xmm2, %xmm0
; X64-NEXT: subpd %xmm0, %xmm2		; X64-NEXT: cvtpd2ps %xmm0, %xmm0
; X64-NEXT: cvtpd2ps %xmm2, %xmm0
; X64-NEXT: mulps %xmm1, %xmm0		; X64-NEXT: mulps %xmm1, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%t1 = uitofp <2 x i32> %in to <2 x float>		%t1 = uitofp <2 x i32> %in to <2 x float>
%t2 = fmul <2 x float> %v, %t1		%t2 = fmul <2 x float> %v, %t1
ret <2 x float> %t2		ret <2 x float> %t2
}		}

test/CodeGen/X86/i64-to-float.ll

	Show All 10 Lines
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0			; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0
	; X32-SSE-NEXT: cvtdq2pd %xmm0, %xmm0			; X32-SSE-NEXT: cvtdq2pd %xmm0, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	;			;
	; X32-AVX-LABEL: mask_sitofp_2i64_2f64:			; X32-AVX-LABEL: mask_sitofp_2i64_2f64:
	; X32-AVX: # %bb.0:			; X32-AVX: # %bb.0:
	; X32-AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[8,9],zero,zero,xmm0[u,u,u,u,u,u,u,u]			; X32-AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[8,9],zero,zero,xmm0[8,9],zero,zero,zero,zero,zero,zero
	; X32-AVX-NEXT: vcvtdq2pd %xmm0, %xmm0			; X32-AVX-NEXT: vcvtdq2pd %xmm0, %xmm0
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mask_sitofp_2i64_2f64:			; X64-SSE-LABEL: mask_sitofp_2i64_2f64:
	; X64-SSE: # %bb.0:			; X64-SSE: # %bb.0:
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-SSE-NEXT: pand {{.*}}(%rip), %xmm0			; X64-SSE-NEXT: pand {{.*}}(%rip), %xmm0
	; X64-SSE-NEXT: cvtdq2pd %xmm0, %xmm0			; X64-SSE-NEXT: cvtdq2pd %xmm0, %xmm0
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mask_sitofp_2i64_2f64:			; X64-AVX-LABEL: mask_sitofp_2i64_2f64:
	; X64-AVX: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[8,9],zero,zero,xmm0[u,u,u,u,u,u,u,u]			; X64-AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[8,9],zero,zero,xmm0[8,9],zero,zero,zero,zero,zero,zero
	; X64-AVX-NEXT: vcvtdq2pd %xmm0, %xmm0			; X64-AVX-NEXT: vcvtdq2pd %xmm0, %xmm0
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%and = and <2 x i64> %a, <i64 255, i64 65535>			%and = and <2 x i64> %a, <i64 255, i64 65535>
	%cvt = sitofp <2 x i64> %and to <2 x double>			%cvt = sitofp <2 x i64> %and to <2 x double>
	ret <2 x double> %cvt			ret <2 x double> %cvt
	}			}

	define <2 x double> @mask_uitofp_2i64_2f64(<2 x i64> %a) nounwind {			define <2 x double> @mask_uitofp_2i64_2f64(<2 x i64> %a) nounwind {
	; X32-SSE-LABEL: mask_uitofp_2i64_2f64:			; X32-SSE-LABEL: mask_uitofp_2i64_2f64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0			; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0
	; X32-SSE-NEXT: cvtdq2pd %xmm0, %xmm0			; X32-SSE-NEXT: cvtdq2pd %xmm0, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	;			;
	; X32-AVX-LABEL: mask_uitofp_2i64_2f64:			; X32-AVX-LABEL: mask_uitofp_2i64_2f64:
	; X32-AVX: # %bb.0:			; X32-AVX: # %bb.0:
	; X32-AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[8,9],zero,zero,xmm0[u,u,u,u,u,u,u,u]			; X32-AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[8,9],zero,zero,xmm0[8,9],zero,zero,zero,zero,zero,zero
	; X32-AVX-NEXT: vcvtdq2pd %xmm0, %xmm0			; X32-AVX-NEXT: vcvtdq2pd %xmm0, %xmm0
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mask_uitofp_2i64_2f64:			; X64-SSE-LABEL: mask_uitofp_2i64_2f64:
	; X64-SSE: # %bb.0:			; X64-SSE: # %bb.0:
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-SSE-NEXT: pand {{.*}}(%rip), %xmm0			; X64-SSE-NEXT: pand {{.*}}(%rip), %xmm0
	; X64-SSE-NEXT: cvtdq2pd %xmm0, %xmm0			; X64-SSE-NEXT: cvtdq2pd %xmm0, %xmm0
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mask_uitofp_2i64_2f64:			; X64-AVX-LABEL: mask_uitofp_2i64_2f64:
	; X64-AVX: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[8,9],zero,zero,xmm0[u,u,u,u,u,u,u,u]			; X64-AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[8,9],zero,zero,xmm0[8,9],zero,zero,zero,zero,zero,zero
	; X64-AVX-NEXT: vcvtdq2pd %xmm0, %xmm0			; X64-AVX-NEXT: vcvtdq2pd %xmm0, %xmm0
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%and = and <2 x i64> %a, <i64 255, i64 65535>			%and = and <2 x i64> %a, <i64 255, i64 65535>
	%cvt = uitofp <2 x i64> %and to <2 x double>			%cvt = uitofp <2 x i64> %and to <2 x double>
	ret <2 x double> %cvt			ret <2 x double> %cvt
	}			}

	define <4 x float> @mask_sitofp_4i64_4f32(<4 x i64> %a) nounwind {			define <4 x float> @mask_sitofp_4i64_4f32(<4 x i64> %a) nounwind {
	▲ Show 20 Lines • Show All 172 Lines • Show Last 20 Lines

test/CodeGen/X86/insertelement-shuffle.ll

Show All 40 Lines	; X64_AVX512-NEXT: retq
%bc = bitcast <2 x i16> %ins2 to float		%bc = bitcast <2 x i16> %ins2 to float
%ins3 = insertelement <8 x float> %v, float %bc, i32 1		%ins3 = insertelement <8 x float> %v, float %bc, i32 1
ret <8 x float> %ins3		ret <8 x float> %ins3
}		}

define <8 x i64> @insert_subvector_512(i32 %x0, i32 %x1, <8 x i64> %v) nounwind {		define <8 x i64> @insert_subvector_512(i32 %x0, i32 %x1, <8 x i64> %v) nounwind {
; X32_AVX256-LABEL: insert_subvector_512:		; X32_AVX256-LABEL: insert_subvector_512:
; X32_AVX256: # %bb.0:		; X32_AVX256: # %bb.0:
; X32_AVX256-NEXT: pushl %ebp
; X32_AVX256-NEXT: movl %esp, %ebp
; X32_AVX256-NEXT: andl $-8, %esp
; X32_AVX256-NEXT: subl $8, %esp
; X32_AVX256-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
; X32_AVX256-NEXT: vmovlps %xmm2, (%esp)
; X32_AVX256-NEXT: vextracti128 $1, %ymm0, %xmm2		; X32_AVX256-NEXT: vextracti128 $1, %ymm0, %xmm2
; X32_AVX256-NEXT: vpinsrd $0, (%esp), %xmm2, %xmm2		; X32_AVX256-NEXT: vpinsrd $0, {{[0-9]+}}(%esp), %xmm2, %xmm2
; X32_AVX256-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm2, %xmm2		; X32_AVX256-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm2, %xmm2
; X32_AVX256-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0		; X32_AVX256-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
; X32_AVX256-NEXT: movl %ebp, %esp
; X32_AVX256-NEXT: popl %ebp
; X32_AVX256-NEXT: retl		; X32_AVX256-NEXT: retl
;		;
; X64_AVX256-LABEL: insert_subvector_512:		; X64_AVX256-LABEL: insert_subvector_512:
; X64_AVX256: # %bb.0:		; X64_AVX256: # %bb.0:
; X64_AVX256-NEXT: vmovd %edi, %xmm2		; X64_AVX256-NEXT: vmovd %edi, %xmm2
; X64_AVX256-NEXT: vpinsrd $1, %esi, %xmm2, %xmm2		; X64_AVX256-NEXT: vpinsrd $1, %esi, %xmm2, %xmm2
; X64_AVX256-NEXT: vmovq %xmm2, %rax		; X64_AVX256-NEXT: vmovq %xmm2, %rax
; X64_AVX256-NEXT: vextracti128 $1, %ymm0, %xmm2		; X64_AVX256-NEXT: vextracti128 $1, %ymm0, %xmm2
▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

test/CodeGen/X86/known-signbits-vector.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X64

	define <2 x double> @signbits_sext_v2i64_sitofp_v2f64(i32 %a0, i32 %a1) nounwind {			define <2 x double> @signbits_sext_v2i64_sitofp_v2f64(i32 %a0, i32 %a1) nounwind {
	; X32-LABEL: signbits_sext_v2i64_sitofp_v2f64:			; X32-LABEL: signbits_sext_v2i64_sitofp_v2f64:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: vcvtdq2pd {{[0-9]+}}(%esp), %xmm0			; X32-NEXT: vcvtdq2pd {{[0-9]+}}(%esp), %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: signbits_sext_v2i64_sitofp_v2f64:			; X64-LABEL: signbits_sext_v2i64_sitofp_v2f64:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vmovd %edi, %xmm0			; X64-NEXT: movslq %edi, %rax
	; X64-NEXT: vpinsrd $1, %esi, %xmm0, %xmm0			; X64-NEXT: movslq %esi, %rcx
				; X64-NEXT: vmovq %rcx, %xmm0
				; X64-NEXT: vmovq %rax, %xmm1
				; X64-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
				; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-NEXT: vcvtdq2pd %xmm0, %xmm0			; X64-NEXT: vcvtdq2pd %xmm0, %xmm0
				RKSimonUnsubmitted Not Done Reply Inline Actions Regression RKSimon: Regression
				craig.topperAuthorUnsubmitted Not Done Reply Inline Actions After type leglaization we have this. We could probably add a combine to catch the truncated build vector with sign extended inputs and squash them. Type-legalized selection DAG: %bb.0 'signbits_sext_v2i64_sitofp_v2f64:' SelectionDAG has 21 nodes: t0: ch = EntryToken t33: i32 = extract_vector_elt t27, Constant:i64<0> t35: i32 = extract_vector_elt t27, Constant:i64<1> t37: v4i32 = BUILD_VECTOR t33, t35, undef:i32, undef:i32 t30: v2f64 = X86ISD::CVTSI2P t37 t17: ch,glue = CopyToReg t0, Register:v2f64 $xmm0, t30 t2: i32,ch = CopyFromReg t0, Register:i32 %0 t5: i64 = sign_extend t2 t4: i32,ch = CopyFromReg t0, Register:i32 %1 t6: i64 = sign_extend t4 t26: v4i64 = BUILD_VECTOR t5, t6, undef:i64, undef:i64 t27: v4i32 = truncate t26 t18: ch = X86ISD::RET_FLAG t17, TargetConstant:i32<0>, Register:v2f64 $xmm0, t17:1 craig.topper: After type leglaization we have this. We could probably add a combine to catch the truncated…
	; X64-NEXT: retq			; X64-NEXT: retq
	%1 = sext i32 %a0 to i64			%1 = sext i32 %a0 to i64
	%2 = sext i32 %a1 to i64			%2 = sext i32 %a1 to i64
	%3 = insertelement <2 x i64> undef, i64 %1, i32 0			%3 = insertelement <2 x i64> undef, i64 %1, i32 0
	%4 = insertelement <2 x i64> %3, i64 %2, i32 1			%4 = insertelement <2 x i64> %3, i64 %2, i32 1
	%5 = sitofp <2 x i64> %4 to <2 x double>			%5 = sitofp <2 x i64> %4 to <2 x double>
	ret <2 x double> %5			ret <2 x double> %5
	}			}
	▲ Show 20 Lines • Show All 433 Lines • Show Last 20 Lines

test/CodeGen/X86/lower-bitcast.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown -mcpu=core2 -mattr=+sse2 \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown -mcpu=core2 -mattr=+sse2 \| FileCheck %s
	; RUN: llc < %s -mtriple=x86_64-unknown -mcpu=core2 -mattr=+sse2 -x86-experimental-vector-widening-legalization \| FileCheck %s --check-prefix=CHECK-WIDE			; RUN: llc < %s -mtriple=x86_64-unknown -mcpu=core2 -mattr=+sse2 -x86-experimental-vector-widening-legalization \| FileCheck %s --check-prefix=CHECK-WIDE

	; FIXME: Ideally we should be able to fold the entire body of @test1 into a			; FIXME: Ideally we should be able to fold the entire body of @test1 into a
	; single paddd instruction. At the moment we produce the sequence			; single paddd instruction. At the moment we produce the sequence
	; pshufd+paddq+pshufd. This is fixed with the widening legalization.			; pshufd+paddq+pshufd. This is fixed with the widening legalization.

	define double @test1(double %A) {			define double @test1(double %A) {
	; CHECK-LABEL: test1:			; CHECK-LABEL: test1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; CHECK-NEXT: paddd {{.*}}(%rip), %xmm0			; CHECK-NEXT: paddd {{.*}}(%rip), %xmm0
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;			;
	; CHECK-WIDE-LABEL: test1:			; CHECK-WIDE-LABEL: test1:
	; CHECK-WIDE: # %bb.0:			; CHECK-WIDE: # %bb.0:
	; CHECK-WIDE-NEXT: paddd {{.*}}(%rip), %xmm0			; CHECK-WIDE-NEXT: paddd {{.*}}(%rip), %xmm0
	; CHECK-WIDE-NEXT: retq			; CHECK-WIDE-NEXT: retq
	%1 = bitcast double %A to <2 x i32>			%1 = bitcast double %A to <2 x i32>
	%add = add <2 x i32> %1, <i32 3, i32 5>			%add = add <2 x i32> %1, <i32 3, i32 5>
	Show All 40 Lines

	; FIXME: Ideally we should be able to fold the entire body of @test4 into a			; FIXME: Ideally we should be able to fold the entire body of @test4 into a
	; single paddd instruction. This is fixed with the widening legalization.			; single paddd instruction. This is fixed with the widening legalization.

	define i64 @test4(i64 %A) {			define i64 @test4(i64 %A) {
	; CHECK-LABEL: test4:			; CHECK-LABEL: test4:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: movq %rdi, %xmm0			; CHECK-NEXT: movq %rdi, %xmm0
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; CHECK-NEXT: paddd {{.*}}(%rip), %xmm0			; CHECK-NEXT: paddd {{.*}}(%rip), %xmm0
	; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; CHECK-NEXT: movq %xmm0, %rax			; CHECK-NEXT: movq %xmm0, %rax
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;			;
	; CHECK-WIDE-LABEL: test4:			; CHECK-WIDE-LABEL: test4:
	; CHECK-WIDE: # %bb.0:			; CHECK-WIDE: # %bb.0:
	; CHECK-WIDE-NEXT: movq %rdi, %xmm0			; CHECK-WIDE-NEXT: movq %rdi, %xmm0
	; CHECK-WIDE-NEXT: paddd {{.*}}(%rip), %xmm0			; CHECK-WIDE-NEXT: paddd {{.*}}(%rip), %xmm0
	; CHECK-WIDE-NEXT: movq %xmm0, %rax			; CHECK-WIDE-NEXT: movq %xmm0, %rax
	▲ Show 20 Lines • Show All 99 Lines • Show Last 20 Lines

test/CodeGen/X86/masked_gather_scatter.ll

Show First 20 Lines • Show All 906 Lines • ▼ Show 20 Lines	; SKX_32-NEXT: retl
%res = call <4 x double> @llvm.masked.gather.v4f64.v4p0f64(<4 x double*> %gep.random, i32 4, <4 x i1> %mask, <4 x double> %src0)		%res = call <4 x double> @llvm.masked.gather.v4f64.v4p0f64(<4 x double*> %gep.random, i32 4, <4 x i1> %mask, <4 x double> %src0)
ret <4 x double>%res		ret <4 x double>%res
}		}

define <2 x double> @test17(double* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x double> %src0) {		define <2 x double> @test17(double* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x double> %src0) {
; KNL_64-LABEL: test17:		; KNL_64-LABEL: test17:
; KNL_64: # %bb.0:		; KNL_64: # %bb.0:
; KNL_64-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2		; KNL_64-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
; KNL_64-NEXT: vpsllq $32, %xmm0, %xmm0		; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; KNL_64-NEXT: vpsraq $32, %zmm0, %zmm0
; KNL_64-NEXT: vpsllq $63, %xmm1, %xmm1		; KNL_64-NEXT: vpsllq $63, %xmm1, %xmm1
; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k0		; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k0
; KNL_64-NEXT: kshiftlw $14, %k0, %k0		; KNL_64-NEXT: kshiftlw $14, %k0, %k0
; KNL_64-NEXT: kshiftrw $14, %k0, %k1		; KNL_64-NEXT: kshiftrw $14, %k0, %k1
; KNL_64-NEXT: vgatherqpd (%rdi,%zmm0,8), %zmm2 {%k1}		; KNL_64-NEXT: vgatherdpd (%rdi,%ymm0,8), %zmm2 {%k1}
; KNL_64-NEXT: vmovapd %xmm2, %xmm0		; KNL_64-NEXT: vmovapd %xmm2, %xmm0
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test17:		; KNL_32-LABEL: test17:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
; KNL_32-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2		; KNL_32-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
; KNL_32-NEXT: vpsllq $32, %xmm0, %xmm0		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; KNL_32-NEXT: vpsraq $32, %zmm0, %zmm0
; KNL_32-NEXT: vpsllq $63, %xmm1, %xmm1		; KNL_32-NEXT: vpsllq $63, %xmm1, %xmm1
; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k0		; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k0
; KNL_32-NEXT: kshiftlw $14, %k0, %k0		; KNL_32-NEXT: kshiftlw $14, %k0, %k0
; KNL_32-NEXT: kshiftrw $14, %k0, %k1		; KNL_32-NEXT: kshiftrw $14, %k0, %k1
; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL_32-NEXT: vgatherqpd (%eax,%zmm0,8), %zmm2 {%k1}		; KNL_32-NEXT: vgatherdpd (%eax,%ymm0,8), %zmm2 {%k1}
; KNL_32-NEXT: vmovapd %xmm2, %xmm0		; KNL_32-NEXT: vmovapd %xmm2, %xmm0
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test17:		; SKX-LABEL: test17:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpsllq $32, %xmm0, %xmm0
; SKX-NEXT: vpsraq $32, %xmm0, %xmm0
; SKX-NEXT: vpsllq $63, %xmm1, %xmm1		; SKX-NEXT: vpsllq $63, %xmm1, %xmm1
; SKX-NEXT: vpmovq2m %xmm1, %k1		; SKX-NEXT: vpmovq2m %xmm1, %k1
; SKX-NEXT: vgatherqpd (%rdi,%xmm0,8), %xmm2 {%k1}		; SKX-NEXT: vgatherdpd (%rdi,%xmm0,8), %xmm2 {%k1}
; SKX-NEXT: vmovapd %xmm2, %xmm0		; SKX-NEXT: vmovapd %xmm2, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test17:		; SKX_32-LABEL: test17:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: vpsllq $32, %xmm0, %xmm0
; SKX_32-NEXT: vpsraq $32, %xmm0, %xmm0
; SKX_32-NEXT: vpsllq $63, %xmm1, %xmm1		; SKX_32-NEXT: vpsllq $63, %xmm1, %xmm1
; SKX_32-NEXT: vpmovq2m %xmm1, %k1		; SKX_32-NEXT: vpmovq2m %xmm1, %k1
; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; SKX_32-NEXT: vgatherqpd (%eax,%xmm0,8), %xmm2 {%k1}		; SKX_32-NEXT: vgatherdpd (%eax,%xmm0,8), %xmm2 {%k1}
; SKX_32-NEXT: vmovapd %xmm2, %xmm0		; SKX_32-NEXT: vmovapd %xmm2, %xmm0
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl

%sext_ind = sext <2 x i32> %ind to <2 x i64>		%sext_ind = sext <2 x i32> %ind to <2 x i64>
%gep.random = getelementptr double, double* %base, <2 x i64> %sext_ind		%gep.random = getelementptr double, double* %base, <2 x i64> %sext_ind
%res = call <2 x double> @llvm.masked.gather.v2f64.v2p0f64(<2 x double*> %gep.random, i32 4, <2 x i1> %mask, <2 x double> %src0)		%res = call <2 x double> @llvm.masked.gather.v2f64.v2p0f64(<2 x double*> %gep.random, i32 4, <2 x i1> %mask, <2 x double> %src0)
ret <2 x double>%res		ret <2 x double>%res
}		}
▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
; KNL_64-NEXT: kshiftlw $14, %k0, %k0		; KNL_64-NEXT: kshiftlw $14, %k0, %k0
; KNL_64-NEXT: kshiftrw $14, %k0, %k1		; KNL_64-NEXT: kshiftrw $14, %k0, %k1
; KNL_64-NEXT: vscatterqps %ymm0, (,%zmm1) {%k1}		; KNL_64-NEXT: vscatterqps %ymm0, (,%zmm1) {%k1}
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test20:		; KNL_32-LABEL: test20:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
		; KNL_32-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_32-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,2,2,3]
; KNL_32-NEXT: vpsllq $63, %xmm2, %xmm2		; KNL_32-NEXT: vpsllq $63, %xmm2, %xmm2
; KNL_32-NEXT: vptestmq %zmm2, %zmm2, %k0		; KNL_32-NEXT: vptestmq %zmm2, %zmm2, %k0
; KNL_32-NEXT: kshiftlw $14, %k0, %k0		; KNL_32-NEXT: kshiftlw $14, %k0, %k0
; KNL_32-NEXT: kshiftrw $14, %k0, %k1		; KNL_32-NEXT: kshiftrw $14, %k0, %k1
; KNL_32-NEXT: vscatterdps %zmm0, (,%zmm1) {%k1}		; KNL_32-NEXT: vscatterdps %zmm0, (,%zmm1) {%k1}
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test20:		; SKX-LABEL: test20:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpsllq $63, %xmm2, %xmm2		; SKX-NEXT: vpsllq $63, %xmm2, %xmm2
; SKX-NEXT: vpmovq2m %xmm2, %k1		; SKX-NEXT: vpmovq2m %xmm2, %k1
; SKX-NEXT: vscatterqps %xmm0, (,%xmm1) {%k1}		; SKX-NEXT: vscatterqps %xmm0, (,%xmm1) {%k1}
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test20:		; SKX_32-LABEL: test20:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SKX_32-NEXT: vpsllq $63, %xmm2, %xmm2		; SKX_32-NEXT: vpsllq $63, %xmm2, %xmm2
; SKX_32-NEXT: vpmovq2m %xmm2, %k1		; SKX_32-NEXT: vpmovq2m %xmm2, %k1
; SKX_32-NEXT: vscatterdps %xmm0, (,%xmm1) {%k1}		; SKX_32-NEXT: vscatterdps %xmm0, (,%xmm1) {%k1}
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
call void @llvm.masked.scatter.v2f32.v2p0f32(<2 x float> %a1, <2 x float*> %ptr, i32 4, <2 x i1> %mask)		call void @llvm.masked.scatter.v2f32.v2p0f32(<2 x float> %a1, <2 x float*> %ptr, i32 4, <2 x i1> %mask)
ret void		ret void
}		}

; Data type requires promotion		; Data type requires promotion
define void @test21(<2 x i32>%a1, <2 x i32*> %ptr, <2 x i1>%mask) {		define void @test21(<2 x i32>%a1, <2 x i32*> %ptr, <2 x i1>%mask) {
; KNL_64-LABEL: test21:		; KNL_64-LABEL: test21:
; KNL_64: # %bb.0:		; KNL_64: # %bb.0:
; KNL_64-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1		; KNL_64-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
		; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; KNL_64-NEXT: vpsllq $63, %xmm2, %xmm2		; KNL_64-NEXT: vpsllq $63, %xmm2, %xmm2
; KNL_64-NEXT: vptestmq %zmm2, %zmm2, %k0		; KNL_64-NEXT: vptestmq %zmm2, %zmm2, %k0
; KNL_64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; KNL_64-NEXT: kshiftlw $14, %k0, %k0		; KNL_64-NEXT: kshiftlw $14, %k0, %k0
; KNL_64-NEXT: kshiftrw $14, %k0, %k1		; KNL_64-NEXT: kshiftrw $14, %k0, %k1
; KNL_64-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}		; KNL_64-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test21:		; KNL_32-LABEL: test21:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
		; KNL_32-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_32-NEXT: vpsllq $63, %xmm2, %xmm2		; KNL_32-NEXT: vpsllq $63, %xmm2, %xmm2
; KNL_32-NEXT: vptestmq %zmm2, %zmm2, %k0		; KNL_32-NEXT: vptestmq %zmm2, %zmm2, %k0
; KNL_32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; KNL_32-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; KNL_32-NEXT: kshiftlw $14, %k0, %k0		; KNL_32-NEXT: kshiftlw $14, %k0, %k0
; KNL_32-NEXT: kshiftrw $14, %k0, %k1		; KNL_32-NEXT: kshiftrw $14, %k0, %k1
; KNL_32-NEXT: vpscatterdd %zmm0, (,%zmm1) {%k1}		; KNL_32-NEXT: vpscatterdd %zmm0, (,%zmm1) {%k1}
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test21:		; SKX-LABEL: test21:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpsllq $63, %xmm2, %xmm2		; SKX-NEXT: vpsllq $63, %xmm2, %xmm2
; SKX-NEXT: vpmovq2m %xmm2, %k1		; SKX-NEXT: vpmovq2m %xmm2, %k1
; SKX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SKX-NEXT: vpscatterqd %xmm0, (,%xmm1) {%k1}		; SKX-NEXT: vpscatterqd %xmm0, (,%xmm1) {%k1}
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test21:		; SKX_32-LABEL: test21:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: vpsllq $63, %xmm2, %xmm2		; SKX_32-NEXT: vpsllq $63, %xmm2, %xmm2
; SKX_32-NEXT: vpmovq2m %xmm2, %k1		; SKX_32-NEXT: vpmovq2m %xmm2, %k1
; SKX_32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SKX_32-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SKX_32-NEXT: vpscatterdd %xmm0, (,%xmm1) {%k1}		; SKX_32-NEXT: vpscatterdd %xmm0, (,%xmm1) {%k1}
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
call void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32> %a1, <2 x i32*> %ptr, i32 4, <2 x i1> %mask)		call void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32> %a1, <2 x i32*> %ptr, i32 4, <2 x i1> %mask)
ret void		ret void
}		}

; The result type requires widening		; The result type requires widening
declare <2 x float> @llvm.masked.gather.v2f32.v2p0f32(<2 x float*>, i32, <2 x i1>, <2 x float>)		declare <2 x float> @llvm.masked.gather.v2f32.v2p0f32(<2 x float*>, i32, <2 x i1>, <2 x float>)

define <2 x float> @test22(float* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x float> %src0) {		define <2 x float> @test22(float* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x float> %src0) {
; KNL_64-LABEL: test22:		; KNL_64-LABEL: test22:
; KNL_64: # %bb.0:		; KNL_64: # %bb.0:
; KNL_64-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2		; KNL_64-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
; KNL_64-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]		; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_64-NEXT: vpsllq $63, %xmm1, %xmm1		; KNL_64-NEXT: vpsllq $63, %xmm1, %xmm1
; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k0		; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k0
; KNL_64-NEXT: kshiftlw $14, %k0, %k0		; KNL_64-NEXT: kshiftlw $14, %k0, %k0
; KNL_64-NEXT: kshiftrw $14, %k0, %k1		; KNL_64-NEXT: kshiftrw $14, %k0, %k1
; KNL_64-NEXT: vgatherdps (%rdi,%zmm0,4), %zmm2 {%k1}		; KNL_64-NEXT: vgatherdps (%rdi,%zmm0,4), %zmm2 {%k1}
; KNL_64-NEXT: vmovaps %xmm2, %xmm0		; KNL_64-NEXT: vmovaps %xmm2, %xmm0
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test22:		; KNL_32-LABEL: test22:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
; KNL_32-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2		; KNL_32-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
; KNL_32-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_32-NEXT: vpsllq $63, %xmm1, %xmm1		; KNL_32-NEXT: vpsllq $63, %xmm1, %xmm1
; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k0		; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k0
; KNL_32-NEXT: kshiftlw $14, %k0, %k0		; KNL_32-NEXT: kshiftlw $14, %k0, %k0
; KNL_32-NEXT: kshiftrw $14, %k0, %k1		; KNL_32-NEXT: kshiftrw $14, %k0, %k1
; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL_32-NEXT: vgatherdps (%eax,%zmm0,4), %zmm2 {%k1}		; KNL_32-NEXT: vgatherdps (%eax,%zmm0,4), %zmm2 {%k1}
; KNL_32-NEXT: vmovaps %xmm2, %xmm0		; KNL_32-NEXT: vmovaps %xmm2, %xmm0
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test22:		; SKX-LABEL: test22:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SKX-NEXT: vpsllq $63, %xmm1, %xmm1		; SKX-NEXT: vpsllq $63, %xmm1, %xmm1
; SKX-NEXT: vpmovq2m %xmm1, %k1		; SKX-NEXT: vpmovq2m %xmm1, %k1
; SKX-NEXT: vgatherdps (%rdi,%xmm0,4), %xmm2 {%k1}		; SKX-NEXT: vgatherdps (%rdi,%xmm0,4), %xmm2 {%k1}
; SKX-NEXT: vmovaps %xmm2, %xmm0		; SKX-NEXT: vmovaps %xmm2, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test22:		; SKX_32-LABEL: test22:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SKX_32-NEXT: vpsllq $63, %xmm1, %xmm1		; SKX_32-NEXT: vpsllq $63, %xmm1, %xmm1
; SKX_32-NEXT: vpmovq2m %xmm1, %k1		; SKX_32-NEXT: vpmovq2m %xmm1, %k1
; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; SKX_32-NEXT: vgatherdps (%eax,%xmm0,4), %xmm2 {%k1}		; SKX_32-NEXT: vgatherdps (%eax,%xmm0,4), %xmm2 {%k1}
; SKX_32-NEXT: vmovaps %xmm2, %xmm0		; SKX_32-NEXT: vmovaps %xmm2, %xmm0
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
%sext_ind = sext <2 x i32> %ind to <2 x i64>		%sext_ind = sext <2 x i32> %ind to <2 x i64>
%gep.random = getelementptr float, float* %base, <2 x i64> %sext_ind		%gep.random = getelementptr float, float* %base, <2 x i64> %sext_ind
▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
}		}

declare <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*>, i32, <2 x i1>, <2 x i32>)		declare <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*>, i32, <2 x i1>, <2 x i32>)
declare <2 x i64> @llvm.masked.gather.v2i64.v2p0i64(<2 x i64*>, i32, <2 x i1>, <2 x i64>)		declare <2 x i64> @llvm.masked.gather.v2i64.v2p0i64(<2 x i64*>, i32, <2 x i1>, <2 x i64>)

define <2 x i32> @test23(i32* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x i32> %src0) {		define <2 x i32> @test23(i32* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x i32> %src0) {
; KNL_64-LABEL: test23:		; KNL_64-LABEL: test23:
; KNL_64: # %bb.0:		; KNL_64: # %bb.0:
		; KNL_64-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
		; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_64-NEXT: vpsllq $63, %xmm1, %xmm1		; KNL_64-NEXT: vpsllq $63, %xmm1, %xmm1
; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k0		; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k0
; KNL_64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; KNL_64-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
; KNL_64-NEXT: kshiftlw $14, %k0, %k0		; KNL_64-NEXT: kshiftlw $14, %k0, %k0
; KNL_64-NEXT: kshiftrw $14, %k0, %k1		; KNL_64-NEXT: kshiftrw $14, %k0, %k1
; KNL_64-NEXT: vpgatherdd (%rdi,%zmm0,4), %zmm1 {%k1}		; KNL_64-NEXT: vpgatherdd (%rdi,%zmm0,4), %zmm2 {%k1}
; KNL_64-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero		; KNL_64-NEXT: vmovdqa %xmm2, %xmm0
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test23:		; KNL_32-LABEL: test23:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
		; KNL_32-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_32-NEXT: vpsllq $63, %xmm1, %xmm1		; KNL_32-NEXT: vpsllq $63, %xmm1, %xmm1
; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k0		; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k0
; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL_32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; KNL_32-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
; KNL_32-NEXT: kshiftlw $14, %k0, %k0		; KNL_32-NEXT: kshiftlw $14, %k0, %k0
; KNL_32-NEXT: kshiftrw $14, %k0, %k1		; KNL_32-NEXT: kshiftrw $14, %k0, %k1
; KNL_32-NEXT: vpgatherdd (%eax,%zmm0,4), %zmm1 {%k1}		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL_32-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero		; KNL_32-NEXT: vpgatherdd (%eax,%zmm0,4), %zmm2 {%k1}
		; KNL_32-NEXT: vmovdqa %xmm2, %xmm0
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test23:		; SKX-LABEL: test23:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpsllq $63, %xmm1, %xmm1		; SKX-NEXT: vpsllq $63, %xmm1, %xmm1
; SKX-NEXT: vpmovq2m %xmm1, %k1		; SKX-NEXT: vpmovq2m %xmm1, %k1
; SKX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; SKX-NEXT: vpgatherdd (%rdi,%xmm0,4), %xmm2 {%k1}
; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]		; SKX-NEXT: vmovdqa %xmm2, %xmm0
; SKX-NEXT: vpgatherdd (%rdi,%xmm0,4), %xmm1 {%k1}
; SKX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test23:		; SKX_32-LABEL: test23:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: vpsllq $63, %xmm1, %xmm1		; SKX_32-NEXT: vpsllq $63, %xmm1, %xmm1
; SKX_32-NEXT: vpmovq2m %xmm1, %k1		; SKX_32-NEXT: vpmovq2m %xmm1, %k1
; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; SKX_32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; SKX_32-NEXT: vpgatherdd (%eax,%xmm0,4), %xmm2 {%k1}
; SKX_32-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]		; SKX_32-NEXT: vmovdqa %xmm2, %xmm0
; SKX_32-NEXT: vpgatherdd (%eax,%xmm0,4), %xmm1 {%k1}
; SKX_32-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
%sext_ind = sext <2 x i32> %ind to <2 x i64>		%sext_ind = sext <2 x i32> %ind to <2 x i64>
%gep.random = getelementptr i32, i32* %base, <2 x i64> %sext_ind		%gep.random = getelementptr i32, i32* %base, <2 x i64> %sext_ind
%res = call <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*> %gep.random, i32 4, <2 x i1> %mask, <2 x i32> %src0)		%res = call <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*> %gep.random, i32 4, <2 x i1> %mask, <2 x i32> %src0)
ret <2 x i32>%res		ret <2 x i32>%res
}		}

define <2 x i32> @test23b(i32* %base, <2 x i64> %ind, <2 x i1> %mask, <2 x i32> %src0) {		define <2 x i32> @test23b(i32* %base, <2 x i64> %ind, <2 x i1> %mask, <2 x i32> %src0) {
; KNL_64-LABEL: test23b:		; KNL_64-LABEL: test23b:
; KNL_64: # %bb.0:		; KNL_64: # %bb.0:
		; KNL_64-NEXT: # kill: def $xmm2 killed $xmm2 def $ymm2
; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_64-NEXT: vpsllq $63, %xmm1, %xmm1		; KNL_64-NEXT: vpsllq $63, %xmm1, %xmm1
; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k0		; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k0
; KNL_64-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
; KNL_64-NEXT: kshiftlw $14, %k0, %k0		; KNL_64-NEXT: kshiftlw $14, %k0, %k0
; KNL_64-NEXT: kshiftrw $14, %k0, %k1		; KNL_64-NEXT: kshiftrw $14, %k0, %k1
; KNL_64-NEXT: vpgatherqd (%rdi,%zmm0,4), %ymm1 {%k1}		; KNL_64-NEXT: vpgatherqd (%rdi,%zmm0,4), %ymm2 {%k1}
; KNL_64-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero		; KNL_64-NEXT: vmovdqa %xmm2, %xmm0
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test23b:		; KNL_32-LABEL: test23b:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
		; KNL_32-NEXT: # kill: def $xmm2 killed $xmm2 def $ymm2
; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_32-NEXT: vpsllq $63, %xmm1, %xmm1		; KNL_32-NEXT: vpsllq $63, %xmm1, %xmm1
; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k0		; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k0
; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL_32-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
; KNL_32-NEXT: kshiftlw $14, %k0, %k0		; KNL_32-NEXT: kshiftlw $14, %k0, %k0
; KNL_32-NEXT: kshiftrw $14, %k0, %k1		; KNL_32-NEXT: kshiftrw $14, %k0, %k1
; KNL_32-NEXT: vpgatherqd (%eax,%zmm0,4), %ymm1 {%k1}		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL_32-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero		; KNL_32-NEXT: vpgatherqd (%eax,%zmm0,4), %ymm2 {%k1}
		; KNL_32-NEXT: vmovdqa %xmm2, %xmm0
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test23b:		; SKX-LABEL: test23b:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpsllq $63, %xmm1, %xmm1		; SKX-NEXT: vpsllq $63, %xmm1, %xmm1
; SKX-NEXT: vpmovq2m %xmm1, %k1		; SKX-NEXT: vpmovq2m %xmm1, %k1
; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]		; SKX-NEXT: vpgatherqd (%rdi,%xmm0,4), %xmm2 {%k1}
; SKX-NEXT: vpgatherqd (%rdi,%xmm0,4), %xmm1 {%k1}		; SKX-NEXT: vmovdqa %xmm2, %xmm0
; SKX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test23b:		; SKX_32-LABEL: test23b:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: vpsllq $63, %xmm1, %xmm1		; SKX_32-NEXT: vpsllq $63, %xmm1, %xmm1
; SKX_32-NEXT: vpmovq2m %xmm1, %k1		; SKX_32-NEXT: vpmovq2m %xmm1, %k1
; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; SKX_32-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]		; SKX_32-NEXT: vpgatherqd (%eax,%xmm0,4), %xmm2 {%k1}
; SKX_32-NEXT: vpgatherqd (%eax,%xmm0,4), %xmm1 {%k1}		; SKX_32-NEXT: vmovdqa %xmm2, %xmm0
; SKX_32-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
%gep.random = getelementptr i32, i32* %base, <2 x i64> %ind		%gep.random = getelementptr i32, i32* %base, <2 x i64> %ind
%res = call <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*> %gep.random, i32 4, <2 x i1> %mask, <2 x i32> %src0)		%res = call <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*> %gep.random, i32 4, <2 x i1> %mask, <2 x i32> %src0)
ret <2 x i32>%res		ret <2 x i32>%res
}		}

define <2 x i32> @test24(i32* %base, <2 x i32> %ind) {		define <2 x i32> @test24(i32* %base, <2 x i32> %ind) {
; KNL_64-LABEL: test24:		; KNL_64-LABEL: test24:
; KNL_64: # %bb.0:		; KNL_64: # %bb.0:
; KNL_64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_64-NEXT: movw $3, %ax		; KNL_64-NEXT: movw $3, %ax
; KNL_64-NEXT: kmovw %eax, %k1		; KNL_64-NEXT: kmovw %eax, %k1
; KNL_64-NEXT: vpgatherdd (%rdi,%zmm0,4), %zmm1 {%k1}		; KNL_64-NEXT: vpgatherdd (%rdi,%zmm0,4), %zmm1 {%k1}
; KNL_64-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero		; KNL_64-NEXT: vmovdqa %xmm1, %xmm0
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test24:		; KNL_32-LABEL: test24:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL_32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; KNL_32-NEXT: movw $3, %cx		; KNL_32-NEXT: movw $3, %cx
; KNL_32-NEXT: kmovw %ecx, %k1		; KNL_32-NEXT: kmovw %ecx, %k1
; KNL_32-NEXT: vpgatherdd (%eax,%zmm0,4), %zmm1 {%k1}		; KNL_32-NEXT: vpgatherdd (%eax,%zmm0,4), %zmm1 {%k1}
; KNL_32-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero		; KNL_32-NEXT: vmovdqa %xmm1, %xmm0
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test24:		; SKX-LABEL: test24:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: movb $3, %al		; SKX-NEXT: movb $3, %al
; SKX-NEXT: kmovw %eax, %k1		; SKX-NEXT: kmovw %eax, %k1
; SKX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SKX-NEXT: vpgatherdd (%rdi,%xmm0,4), %xmm1 {%k1}		; SKX-NEXT: vpgatherdd (%rdi,%xmm0,4), %xmm1 {%k1}
; SKX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero		; SKX-NEXT: vmovdqa %xmm1, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test24:		; SKX_32-LABEL: test24:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; SKX_32-NEXT: movb $3, %cl		; SKX_32-NEXT: movb $3, %cl
; SKX_32-NEXT: kmovw %ecx, %k1		; SKX_32-NEXT: kmovw %ecx, %k1
; SKX_32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SKX_32-NEXT: vpgatherdd (%eax,%xmm0,4), %xmm1 {%k1}		; SKX_32-NEXT: vpgatherdd (%eax,%xmm0,4), %xmm1 {%k1}
; SKX_32-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero		; SKX_32-NEXT: vmovdqa %xmm1, %xmm0
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
%sext_ind = sext <2 x i32> %ind to <2 x i64>		%sext_ind = sext <2 x i32> %ind to <2 x i64>
%gep.random = getelementptr i32, i32* %base, <2 x i64> %sext_ind		%gep.random = getelementptr i32, i32* %base, <2 x i64> %sext_ind
%res = call <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*> %gep.random, i32 4, <2 x i1> <i1 true, i1 true>, <2 x i32> undef)		%res = call <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*> %gep.random, i32 4, <2 x i1> <i1 true, i1 true>, <2 x i32> undef)
ret <2 x i32>%res		ret <2 x i32>%res
}		}

define <2 x i64> @test25(i64* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x i64> %src0) {		define <2 x i64> @test25(i64* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x i64> %src0) {
; KNL_64-LABEL: test25:		; KNL_64-LABEL: test25:
; KNL_64: # %bb.0:		; KNL_64: # %bb.0:
; KNL_64-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2		; KNL_64-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
; KNL_64-NEXT: vpsllq $32, %xmm0, %xmm0		; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; KNL_64-NEXT: vpsraq $32, %zmm0, %zmm0
; KNL_64-NEXT: vpsllq $63, %xmm1, %xmm1		; KNL_64-NEXT: vpsllq $63, %xmm1, %xmm1
; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k0		; KNL_64-NEXT: vptestmq %zmm1, %zmm1, %k0
; KNL_64-NEXT: kshiftlw $14, %k0, %k0		; KNL_64-NEXT: kshiftlw $14, %k0, %k0
; KNL_64-NEXT: kshiftrw $14, %k0, %k1		; KNL_64-NEXT: kshiftrw $14, %k0, %k1
; KNL_64-NEXT: vpgatherqq (%rdi,%zmm0,8), %zmm2 {%k1}		; KNL_64-NEXT: vpgatherdq (%rdi,%ymm0,8), %zmm2 {%k1}
; KNL_64-NEXT: vmovdqa %xmm2, %xmm0		; KNL_64-NEXT: vmovdqa %xmm2, %xmm0
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test25:		; KNL_32-LABEL: test25:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
; KNL_32-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2		; KNL_32-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
; KNL_32-NEXT: vpsllq $32, %xmm0, %xmm0		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; KNL_32-NEXT: vpsraq $32, %zmm0, %zmm0
; KNL_32-NEXT: vpsllq $63, %xmm1, %xmm1		; KNL_32-NEXT: vpsllq $63, %xmm1, %xmm1
; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k0		; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k0
; KNL_32-NEXT: kshiftlw $14, %k0, %k0		; KNL_32-NEXT: kshiftlw $14, %k0, %k0
; KNL_32-NEXT: kshiftrw $14, %k0, %k1		; KNL_32-NEXT: kshiftrw $14, %k0, %k1
; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL_32-NEXT: vpgatherqq (%eax,%zmm0,8), %zmm2 {%k1}		; KNL_32-NEXT: vpgatherdq (%eax,%ymm0,8), %zmm2 {%k1}
; KNL_32-NEXT: vmovdqa %xmm2, %xmm0		; KNL_32-NEXT: vmovdqa %xmm2, %xmm0
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test25:		; SKX-LABEL: test25:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpsllq $32, %xmm0, %xmm0
; SKX-NEXT: vpsraq $32, %xmm0, %xmm0
; SKX-NEXT: vpsllq $63, %xmm1, %xmm1		; SKX-NEXT: vpsllq $63, %xmm1, %xmm1
; SKX-NEXT: vpmovq2m %xmm1, %k1		; SKX-NEXT: vpmovq2m %xmm1, %k1
; SKX-NEXT: vpgatherqq (%rdi,%xmm0,8), %xmm2 {%k1}		; SKX-NEXT: vpgatherdq (%rdi,%xmm0,8), %xmm2 {%k1}
; SKX-NEXT: vmovdqa %xmm2, %xmm0		; SKX-NEXT: vmovdqa %xmm2, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test25:		; SKX_32-LABEL: test25:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: vpsllq $32, %xmm0, %xmm0
; SKX_32-NEXT: vpsraq $32, %xmm0, %xmm0
; SKX_32-NEXT: vpsllq $63, %xmm1, %xmm1		; SKX_32-NEXT: vpsllq $63, %xmm1, %xmm1
; SKX_32-NEXT: vpmovq2m %xmm1, %k1		; SKX_32-NEXT: vpmovq2m %xmm1, %k1
; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; SKX_32-NEXT: vpgatherqq (%eax,%xmm0,8), %xmm2 {%k1}		; SKX_32-NEXT: vpgatherdq (%eax,%xmm0,8), %xmm2 {%k1}
; SKX_32-NEXT: vmovdqa %xmm2, %xmm0		; SKX_32-NEXT: vmovdqa %xmm2, %xmm0
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
%sext_ind = sext <2 x i32> %ind to <2 x i64>		%sext_ind = sext <2 x i32> %ind to <2 x i64>
%gep.random = getelementptr i64, i64* %base, <2 x i64> %sext_ind		%gep.random = getelementptr i64, i64* %base, <2 x i64> %sext_ind
%res = call <2 x i64> @llvm.masked.gather.v2i64.v2p0i64(<2 x i64*> %gep.random, i32 8, <2 x i1> %mask, <2 x i64> %src0)		%res = call <2 x i64> @llvm.masked.gather.v2i64.v2p0i64(<2 x i64*> %gep.random, i32 8, <2 x i1> %mask, <2 x i64> %src0)
ret <2 x i64>%res		ret <2 x i64>%res
}		}

define <2 x i64> @test26(i64* %base, <2 x i32> %ind, <2 x i64> %src0) {		define <2 x i64> @test26(i64* %base, <2 x i32> %ind, <2 x i64> %src0) {
; KNL_64-LABEL: test26:		; KNL_64-LABEL: test26:
; KNL_64: # %bb.0:		; KNL_64: # %bb.0:
; KNL_64-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1		; KNL_64-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
; KNL_64-NEXT: vpsllq $32, %xmm0, %xmm0		; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; KNL_64-NEXT: vpsraq $32, %zmm0, %zmm0
; KNL_64-NEXT: movb $3, %al		; KNL_64-NEXT: movb $3, %al
; KNL_64-NEXT: kmovw %eax, %k1		; KNL_64-NEXT: kmovw %eax, %k1
; KNL_64-NEXT: vpgatherqq (%rdi,%zmm0,8), %zmm1 {%k1}		; KNL_64-NEXT: vpgatherdq (%rdi,%ymm0,8), %zmm1 {%k1}
; KNL_64-NEXT: vmovdqa %xmm1, %xmm0		; KNL_64-NEXT: vmovdqa %xmm1, %xmm0
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test26:		; KNL_32-LABEL: test26:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
; KNL_32-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1		; KNL_32-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
; KNL_32-NEXT: vpsllq $32, %xmm0, %xmm0		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; KNL_32-NEXT: vpsraq $32, %zmm0, %zmm0
; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL_32-NEXT: movb $3, %cl		; KNL_32-NEXT: movb $3, %cl
; KNL_32-NEXT: kmovw %ecx, %k1		; KNL_32-NEXT: kmovw %ecx, %k1
; KNL_32-NEXT: vpgatherqq (%eax,%zmm0,8), %zmm1 {%k1}		; KNL_32-NEXT: vpgatherdq (%eax,%ymm0,8), %zmm1 {%k1}
; KNL_32-NEXT: vmovdqa %xmm1, %xmm0		; KNL_32-NEXT: vmovdqa %xmm1, %xmm0
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test26:		; SKX-LABEL: test26:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpsllq $32, %xmm0, %xmm0
; SKX-NEXT: vpsraq $32, %xmm0, %xmm0
; SKX-NEXT: kxnorw %k0, %k0, %k1		; SKX-NEXT: kxnorw %k0, %k0, %k1
; SKX-NEXT: vpgatherqq (%rdi,%xmm0,8), %xmm1 {%k1}		; SKX-NEXT: vpgatherdq (%rdi,%xmm0,8), %xmm1 {%k1}
; SKX-NEXT: vmovdqa %xmm1, %xmm0		; SKX-NEXT: vmovdqa %xmm1, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test26:		; SKX_32-LABEL: test26:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: vpsllq $32, %xmm0, %xmm0
; SKX_32-NEXT: vpsraq $32, %xmm0, %xmm0
; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; SKX_32-NEXT: kxnorw %k0, %k0, %k1		; SKX_32-NEXT: kxnorw %k0, %k0, %k1
; SKX_32-NEXT: vpgatherqq (%eax,%xmm0,8), %xmm1 {%k1}		; SKX_32-NEXT: vpgatherdq (%eax,%xmm0,8), %xmm1 {%k1}
; SKX_32-NEXT: vmovdqa %xmm1, %xmm0		; SKX_32-NEXT: vmovdqa %xmm1, %xmm0
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
%sext_ind = sext <2 x i32> %ind to <2 x i64>		%sext_ind = sext <2 x i32> %ind to <2 x i64>
%gep.random = getelementptr i64, i64* %base, <2 x i64> %sext_ind		%gep.random = getelementptr i64, i64* %base, <2 x i64> %sext_ind
%res = call <2 x i64> @llvm.masked.gather.v2i64.v2p0i64(<2 x i64*> %gep.random, i32 8, <2 x i1> <i1 true, i1 true>, <2 x i64> %src0)		%res = call <2 x i64> @llvm.masked.gather.v2i64.v2p0i64(<2 x i64*> %gep.random, i32 8, <2 x i1> <i1 true, i1 true>, <2 x i64> %src0)
ret <2 x i64>%res		ret <2 x i64>%res
}		}

; Result type requires widening; all-ones mask		; Result type requires widening; all-ones mask
define <2 x float> @test27(float* %base, <2 x i32> %ind) {		define <2 x float> @test27(float* %base, <2 x i32> %ind) {
; KNL_64-LABEL: test27:		; KNL_64-LABEL: test27:
; KNL_64: # %bb.0:		; KNL_64: # %bb.0:
; KNL_64-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]		; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_64-NEXT: movw $3, %ax		; KNL_64-NEXT: movw $3, %ax
; KNL_64-NEXT: kmovw %eax, %k1		; KNL_64-NEXT: kmovw %eax, %k1
; KNL_64-NEXT: vgatherdps (%rdi,%zmm1,4), %zmm0 {%k1}		; KNL_64-NEXT: vgatherdps (%rdi,%zmm0,4), %zmm1 {%k1}
; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; KNL_64-NEXT: vmovaps %xmm1, %xmm0
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test27:		; KNL_32-LABEL: test27:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
; KNL_32-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL_32-NEXT: movw $3, %cx		; KNL_32-NEXT: movw $3, %cx
; KNL_32-NEXT: kmovw %ecx, %k1		; KNL_32-NEXT: kmovw %ecx, %k1
; KNL_32-NEXT: vgatherdps (%eax,%zmm1,4), %zmm0 {%k1}		; KNL_32-NEXT: vgatherdps (%eax,%zmm0,4), %zmm1 {%k1}
; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; KNL_32-NEXT: vmovaps %xmm1, %xmm0
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test27:		; SKX-LABEL: test27:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]
; SKX-NEXT: movb $3, %al		; SKX-NEXT: movb $3, %al
; SKX-NEXT: kmovw %eax, %k1		; SKX-NEXT: kmovw %eax, %k1
; SKX-NEXT: vgatherdps (%rdi,%xmm1,4), %xmm0 {%k1}		; SKX-NEXT: vgatherdps (%rdi,%xmm0,4), %xmm1 {%k1}
		; SKX-NEXT: vmovaps %xmm1, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test27:		; SKX_32-LABEL: test27:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]
; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; SKX_32-NEXT: movb $3, %cl		; SKX_32-NEXT: movb $3, %cl
; SKX_32-NEXT: kmovw %ecx, %k1		; SKX_32-NEXT: kmovw %ecx, %k1
; SKX_32-NEXT: vgatherdps (%eax,%xmm1,4), %xmm0 {%k1}		; SKX_32-NEXT: vgatherdps (%eax,%xmm0,4), %xmm1 {%k1}
		; SKX_32-NEXT: vmovaps %xmm1, %xmm0
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
%sext_ind = sext <2 x i32> %ind to <2 x i64>		%sext_ind = sext <2 x i32> %ind to <2 x i64>
%gep.random = getelementptr float, float* %base, <2 x i64> %sext_ind		%gep.random = getelementptr float, float* %base, <2 x i64> %sext_ind
%res = call <2 x float> @llvm.masked.gather.v2f32.v2p0f32(<2 x float*> %gep.random, i32 4, <2 x i1> <i1 true, i1 true>, <2 x float> undef)		%res = call <2 x float> @llvm.masked.gather.v2f32.v2p0f32(<2 x float*> %gep.random, i32 4, <2 x i1> <i1 true, i1 true>, <2 x float> undef)
ret <2 x float>%res		ret <2 x float>%res
}		}

; Data type requires promotion, mask is all-ones		; Data type requires promotion, mask is all-ones
define void @test28(<2 x i32>%a1, <2 x i32*> %ptr) {		define void @test28(<2 x i32>%a1, <2 x i32*> %ptr) {
; KNL_64-LABEL: test28:		; KNL_64-LABEL: test28:
; KNL_64: # %bb.0:		; KNL_64: # %bb.0:
; KNL_64-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1		; KNL_64-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
; KNL_64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; KNL_64-NEXT: movb $3, %al		; KNL_64-NEXT: movb $3, %al
; KNL_64-NEXT: kmovw %eax, %k1		; KNL_64-NEXT: kmovw %eax, %k1
; KNL_64-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}		; KNL_64-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test28:		; KNL_32-LABEL: test28:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
; KNL_32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; KNL_32-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
; KNL_32-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_32-NEXT: movw $3, %ax		; KNL_32-NEXT: movw $3, %ax
; KNL_32-NEXT: kmovw %eax, %k1		; KNL_32-NEXT: kmovw %eax, %k1
; KNL_32-NEXT: vpscatterdd %zmm0, (,%zmm1) {%k1}		; KNL_32-NEXT: vpscatterdd %zmm0, (,%zmm1) {%k1}
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test28:		; SKX-LABEL: test28:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SKX-NEXT: kxnorw %k0, %k0, %k1		; SKX-NEXT: kxnorw %k0, %k0, %k1
; SKX-NEXT: vpscatterqd %xmm0, (,%xmm1) {%k1}		; SKX-NEXT: vpscatterqd %xmm0, (,%xmm1) {%k1}
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test28:		; SKX_32-LABEL: test28:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: movb $3, %al		; SKX_32-NEXT: movb $3, %al
; SKX_32-NEXT: kmovw %eax, %k1		; SKX_32-NEXT: kmovw %eax, %k1
; SKX_32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SKX_32-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SKX_32-NEXT: vpscatterdd %xmm0, (,%xmm1) {%k1}		; SKX_32-NEXT: vpscatterdd %xmm0, (,%xmm1) {%k1}
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
call void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32> %a1, <2 x i32*> %ptr, i32 4, <2 x i1> <i1 true, i1 true>)		call void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32> %a1, <2 x i32*> %ptr, i32 4, <2 x i1> <i1 true, i1 true>)
ret void		ret void
}		}

; SCALAR-LABEL: test29		; SCALAR-LABEL: test29
; SCALAR: extractelement <16 x float*>		; SCALAR: extractelement <16 x float*>
▲ Show 20 Lines • Show All 1,052 Lines • ▼ Show 20 Lines	; SKX_32-NEXT: retl
ret <8 x float>%res		ret <8 x float>%res
}		}
declare <8 x float> @llvm.masked.gather.v8f32.v8p0f32(<8 x float*>, i32, <8 x i1>, <8 x float>)		declare <8 x float> @llvm.masked.gather.v8f32.v8p0f32(<8 x float*>, i32, <8 x i1>, <8 x float>)

; Index requires promotion		; Index requires promotion
define void @test_scatter_2i32_index(<2 x double> %a1, double* %base, <2 x i32> %ind, <2 x i1> %mask) {		define void @test_scatter_2i32_index(<2 x double> %a1, double* %base, <2 x i32> %ind, <2 x i1> %mask) {
; KNL_64-LABEL: test_scatter_2i32_index:		; KNL_64-LABEL: test_scatter_2i32_index:
; KNL_64: # %bb.0:		; KNL_64: # %bb.0:
		; KNL_64-NEXT: # kill: def $xmm1 killed $xmm1 def $ymm1
; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; KNL_64-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_64-NEXT: vpsllq $32, %xmm1, %xmm1
; KNL_64-NEXT: vpsraq $32, %zmm1, %zmm1
; KNL_64-NEXT: vpsllq $63, %xmm2, %xmm2		; KNL_64-NEXT: vpsllq $63, %xmm2, %xmm2
; KNL_64-NEXT: vptestmq %zmm2, %zmm2, %k0		; KNL_64-NEXT: vptestmq %zmm2, %zmm2, %k0
; KNL_64-NEXT: kshiftlw $14, %k0, %k0		; KNL_64-NEXT: kshiftlw $14, %k0, %k0
; KNL_64-NEXT: kshiftrw $14, %k0, %k1		; KNL_64-NEXT: kshiftrw $14, %k0, %k1
; KNL_64-NEXT: vscatterqpd %zmm0, (%rdi,%zmm1,8) {%k1}		; KNL_64-NEXT: vscatterdpd %zmm0, (%rdi,%ymm1,8) {%k1}
; KNL_64-NEXT: vzeroupper		; KNL_64-NEXT: vzeroupper
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test_scatter_2i32_index:		; KNL_32-LABEL: test_scatter_2i32_index:
; KNL_32: # %bb.0:		; KNL_32: # %bb.0:
		; KNL_32-NEXT: # kill: def $xmm1 killed $xmm1 def $ymm1
; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; KNL_32-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL_32-NEXT: vpsllq $32, %xmm1, %xmm1
; KNL_32-NEXT: vpsraq $32, %zmm1, %zmm1
; KNL_32-NEXT: vpsllq $63, %xmm2, %xmm2		; KNL_32-NEXT: vpsllq $63, %xmm2, %xmm2
; KNL_32-NEXT: vptestmq %zmm2, %zmm2, %k0		; KNL_32-NEXT: vptestmq %zmm2, %zmm2, %k0
; KNL_32-NEXT: kshiftlw $14, %k0, %k0		; KNL_32-NEXT: kshiftlw $14, %k0, %k0
; KNL_32-NEXT: kshiftrw $14, %k0, %k1		; KNL_32-NEXT: kshiftrw $14, %k0, %k1
; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; KNL_32-NEXT: vscatterqpd %zmm0, (%eax,%zmm1,8) {%k1}		; KNL_32-NEXT: vscatterdpd %zmm0, (%eax,%ymm1,8) {%k1}
; KNL_32-NEXT: vzeroupper		; KNL_32-NEXT: vzeroupper
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test_scatter_2i32_index:		; SKX-LABEL: test_scatter_2i32_index:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpsllq $63, %xmm2, %xmm2		; SKX-NEXT: vpsllq $63, %xmm2, %xmm2
; SKX-NEXT: vpmovq2m %xmm2, %k1		; SKX-NEXT: vpmovq2m %xmm2, %k1
; SKX-NEXT: vpsllq $32, %xmm1, %xmm1		; SKX-NEXT: vscatterdpd %xmm0, (%rdi,%xmm1,8) {%k1}
; SKX-NEXT: vpsraq $32, %xmm1, %xmm1
; SKX-NEXT: vscatterqpd %xmm0, (%rdi,%xmm1,8) {%k1}
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test_scatter_2i32_index:		; SKX_32-LABEL: test_scatter_2i32_index:
; SKX_32: # %bb.0:		; SKX_32: # %bb.0:
; SKX_32-NEXT: vpsllq $63, %xmm2, %xmm2		; SKX_32-NEXT: vpsllq $63, %xmm2, %xmm2
; SKX_32-NEXT: vpmovq2m %xmm2, %k1		; SKX_32-NEXT: vpmovq2m %xmm2, %k1
; SKX_32-NEXT: vpsllq $32, %xmm1, %xmm1
; SKX_32-NEXT: vpsraq $32, %xmm1, %xmm1
; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax		; SKX_32-NEXT: movl {{[0-9]+}}(%esp), %eax
; SKX_32-NEXT: vscatterqpd %xmm0, (%eax,%xmm1,8) {%k1}		; SKX_32-NEXT: vscatterdpd %xmm0, (%eax,%xmm1,8) {%k1}
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
%gep = getelementptr double, double *%base, <2 x i32> %ind		%gep = getelementptr double, double *%base, <2 x i32> %ind
call void @llvm.masked.scatter.v2f64.v2p0f64(<2 x double> %a1, <2 x double*> %gep, i32 4, <2 x i1> %mask)		call void @llvm.masked.scatter.v2f64.v2p0f64(<2 x double> %a1, <2 x double*> %gep, i32 4, <2 x i1> %mask)
ret void		ret void
}		}
declare void @llvm.masked.scatter.v2f64.v2p0f64(<2 x double>, <2 x double*>, i32, <2 x i1>)		declare void @llvm.masked.scatter.v2f64.v2p0f64(<2 x double>, <2 x double*>, i32, <2 x i1>)

define <16 x float> @zext_index(float* %base, <16 x i32> %ind) {		define <16 x float> @zext_index(float* %base, <16 x i32> %ind) {
▲ Show 20 Lines • Show All 251 Lines • Show Last 20 Lines

test/CodeGen/X86/masked_gather_scatter_widen.ll

	Show All 24 Lines
	; WIDEN_KNL-NEXT: kshiftrw $14, %k0, %k1			; WIDEN_KNL-NEXT: kshiftrw $14, %k0, %k1
	; WIDEN_KNL-NEXT: vgatherdpd (%rdi,%ymm0,8), %zmm2 {%k1}			; WIDEN_KNL-NEXT: vgatherdpd (%rdi,%ymm0,8), %zmm2 {%k1}
	; WIDEN_KNL-NEXT: vmovapd %xmm2, %xmm0			; WIDEN_KNL-NEXT: vmovapd %xmm2, %xmm0
	; WIDEN_KNL-NEXT: vzeroupper			; WIDEN_KNL-NEXT: vzeroupper
	; WIDEN_KNL-NEXT: retq			; WIDEN_KNL-NEXT: retq
	;			;
	; PROMOTE_SKX-LABEL: test_gather_v2i32_index:			; PROMOTE_SKX-LABEL: test_gather_v2i32_index:
	; PROMOTE_SKX: # %bb.0:			; PROMOTE_SKX: # %bb.0:
	; PROMOTE_SKX-NEXT: vpsllq $32, %xmm0, %xmm0
	; PROMOTE_SKX-NEXT: vpsraq $32, %xmm0, %xmm0
	; PROMOTE_SKX-NEXT: vpsllq $63, %xmm1, %xmm1			; PROMOTE_SKX-NEXT: vpsllq $63, %xmm1, %xmm1
	; PROMOTE_SKX-NEXT: vpmovq2m %xmm1, %k1			; PROMOTE_SKX-NEXT: vpmovq2m %xmm1, %k1
	; PROMOTE_SKX-NEXT: vgatherqpd (%rdi,%xmm0,8), %xmm2 {%k1}			; PROMOTE_SKX-NEXT: vgatherdpd (%rdi,%xmm0,8), %xmm2 {%k1}
	; PROMOTE_SKX-NEXT: vmovapd %xmm2, %xmm0			; PROMOTE_SKX-NEXT: vmovapd %xmm2, %xmm0
	; PROMOTE_SKX-NEXT: retq			; PROMOTE_SKX-NEXT: retq
	;			;
	; PROMOTE_KNL-LABEL: test_gather_v2i32_index:			; PROMOTE_KNL-LABEL: test_gather_v2i32_index:
	; PROMOTE_KNL: # %bb.0:			; PROMOTE_KNL: # %bb.0:
	; PROMOTE_KNL-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2			; PROMOTE_KNL-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
	; PROMOTE_KNL-NEXT: vpsllq $32, %xmm0, %xmm0			; PROMOTE_KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
	; PROMOTE_KNL-NEXT: vpsraq $32, %zmm0, %zmm0
	; PROMOTE_KNL-NEXT: vpsllq $63, %xmm1, %xmm1			; PROMOTE_KNL-NEXT: vpsllq $63, %xmm1, %xmm1
	; PROMOTE_KNL-NEXT: vptestmq %zmm1, %zmm1, %k0			; PROMOTE_KNL-NEXT: vptestmq %zmm1, %zmm1, %k0
	; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0			; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0
	; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1			; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1
	; PROMOTE_KNL-NEXT: vgatherqpd (%rdi,%zmm0,8), %zmm2 {%k1}			; PROMOTE_KNL-NEXT: vgatherdpd (%rdi,%ymm0,8), %zmm2 {%k1}
	; PROMOTE_KNL-NEXT: vmovapd %xmm2, %xmm0			; PROMOTE_KNL-NEXT: vmovapd %xmm2, %xmm0
	; PROMOTE_KNL-NEXT: vzeroupper			; PROMOTE_KNL-NEXT: vzeroupper
	; PROMOTE_KNL-NEXT: retq			; PROMOTE_KNL-NEXT: retq
	;			;
	; WIDEN_AVX2-LABEL: test_gather_v2i32_index:			; WIDEN_AVX2-LABEL: test_gather_v2i32_index:
	; WIDEN_AVX2: # %bb.0:			; WIDEN_AVX2: # %bb.0:
	; WIDEN_AVX2-NEXT: vpsllq $63, %xmm1, %xmm1			; WIDEN_AVX2-NEXT: vpsllq $63, %xmm1, %xmm1
	; WIDEN_AVX2-NEXT: vgatherdpd %xmm1, (%rdi,%xmm0,8), %xmm2			; WIDEN_AVX2-NEXT: vgatherdpd %xmm1, (%rdi,%xmm0,8), %xmm2
	; WIDEN_AVX2-NEXT: vmovapd %xmm2, %xmm0			; WIDEN_AVX2-NEXT: vmovapd %xmm2, %xmm0
	; WIDEN_AVX2-NEXT: retq			; WIDEN_AVX2-NEXT: retq
	;			;
	; PROMOTE_AVX2-LABEL: test_gather_v2i32_index:			; PROMOTE_AVX2-LABEL: test_gather_v2i32_index:
	; PROMOTE_AVX2: # %bb.0:			; PROMOTE_AVX2: # %bb.0:
	; PROMOTE_AVX2-NEXT: vpsllq $32, %xmm0, %xmm3
	; PROMOTE_AVX2-NEXT: vpsrad $31, %xmm3, %xmm3
	; PROMOTE_AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm3[1],xmm0[2],xmm3[3]
	; PROMOTE_AVX2-NEXT: vpsllq $63, %xmm1, %xmm1			; PROMOTE_AVX2-NEXT: vpsllq $63, %xmm1, %xmm1
	; PROMOTE_AVX2-NEXT: vgatherqpd %xmm1, (%rdi,%xmm0,8), %xmm2			; PROMOTE_AVX2-NEXT: vgatherdpd %xmm1, (%rdi,%xmm0,8), %xmm2
	; PROMOTE_AVX2-NEXT: vmovapd %xmm2, %xmm0			; PROMOTE_AVX2-NEXT: vmovapd %xmm2, %xmm0
	; PROMOTE_AVX2-NEXT: retq			; PROMOTE_AVX2-NEXT: retq
	%gep.random = getelementptr double, double* %base, <2 x i32> %ind			%gep.random = getelementptr double, double* %base, <2 x i32> %ind
	%res = call <2 x double> @llvm.masked.gather.v2f64.v2p0f64(<2 x double*> %gep.random, i32 4, <2 x i1> %mask, <2 x double> %src0)			%res = call <2 x double> @llvm.masked.gather.v2f64.v2p0f64(<2 x double*> %gep.random, i32 4, <2 x i1> %mask, <2 x double> %src0)
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define void @test_scatter_v2i32_index(<2 x double> %a1, double* %base, <2 x i32> %ind, <2 x i1> %mask) {			define void @test_scatter_v2i32_index(<2 x double> %a1, double* %base, <2 x i32> %ind, <2 x i1> %mask) {
	Show All 15 Lines
	; WIDEN_KNL-NEXT: vscatterdpd %zmm0, (%rdi,%ymm1,8) {%k1}			; WIDEN_KNL-NEXT: vscatterdpd %zmm0, (%rdi,%ymm1,8) {%k1}
	; WIDEN_KNL-NEXT: vzeroupper			; WIDEN_KNL-NEXT: vzeroupper
	; WIDEN_KNL-NEXT: retq			; WIDEN_KNL-NEXT: retq
	;			;
	; PROMOTE_SKX-LABEL: test_scatter_v2i32_index:			; PROMOTE_SKX-LABEL: test_scatter_v2i32_index:
	; PROMOTE_SKX: # %bb.0:			; PROMOTE_SKX: # %bb.0:
	; PROMOTE_SKX-NEXT: vpsllq $63, %xmm2, %xmm2			; PROMOTE_SKX-NEXT: vpsllq $63, %xmm2, %xmm2
	; PROMOTE_SKX-NEXT: vpmovq2m %xmm2, %k1			; PROMOTE_SKX-NEXT: vpmovq2m %xmm2, %k1
	; PROMOTE_SKX-NEXT: vpsllq $32, %xmm1, %xmm1			; PROMOTE_SKX-NEXT: vscatterdpd %xmm0, (%rdi,%xmm1,8) {%k1}
	; PROMOTE_SKX-NEXT: vpsraq $32, %xmm1, %xmm1
	; PROMOTE_SKX-NEXT: vscatterqpd %xmm0, (%rdi,%xmm1,8) {%k1}
	; PROMOTE_SKX-NEXT: retq			; PROMOTE_SKX-NEXT: retq
	;			;
	; PROMOTE_KNL-LABEL: test_scatter_v2i32_index:			; PROMOTE_KNL-LABEL: test_scatter_v2i32_index:
	; PROMOTE_KNL: # %bb.0:			; PROMOTE_KNL: # %bb.0:
				; PROMOTE_KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $ymm1
	; PROMOTE_KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; PROMOTE_KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; PROMOTE_KNL-NEXT: vpsllq $32, %xmm1, %xmm1
	; PROMOTE_KNL-NEXT: vpsraq $32, %zmm1, %zmm1
	; PROMOTE_KNL-NEXT: vpsllq $63, %xmm2, %xmm2			; PROMOTE_KNL-NEXT: vpsllq $63, %xmm2, %xmm2
	; PROMOTE_KNL-NEXT: vptestmq %zmm2, %zmm2, %k0			; PROMOTE_KNL-NEXT: vptestmq %zmm2, %zmm2, %k0
	; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0			; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0
	; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1			; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1
	; PROMOTE_KNL-NEXT: vscatterqpd %zmm0, (%rdi,%zmm1,8) {%k1}			; PROMOTE_KNL-NEXT: vscatterdpd %zmm0, (%rdi,%ymm1,8) {%k1}
	; PROMOTE_KNL-NEXT: vzeroupper			; PROMOTE_KNL-NEXT: vzeroupper
	; PROMOTE_KNL-NEXT: retq			; PROMOTE_KNL-NEXT: retq
	;			;
	; WIDEN_AVX2-LABEL: test_scatter_v2i32_index:			; WIDEN_AVX2-LABEL: test_scatter_v2i32_index:
	; WIDEN_AVX2: # %bb.0:			; WIDEN_AVX2: # %bb.0:
	; WIDEN_AVX2-NEXT: vpmovsxdq %xmm1, %xmm1			; WIDEN_AVX2-NEXT: vpmovsxdq %xmm1, %xmm1
	; WIDEN_AVX2-NEXT: vpsllq $3, %xmm1, %xmm1			; WIDEN_AVX2-NEXT: vpsllq $3, %xmm1, %xmm1
	; WIDEN_AVX2-NEXT: vmovq %rdi, %xmm3			; WIDEN_AVX2-NEXT: vmovq %rdi, %xmm3
	Show All 12 Lines
	; WIDEN_AVX2-NEXT: # %bb.3: # %cond.store1			; WIDEN_AVX2-NEXT: # %bb.3: # %cond.store1
	; WIDEN_AVX2-NEXT: vpextrq $1, %xmm1, %rax			; WIDEN_AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; WIDEN_AVX2-NEXT: vmovhpd %xmm0, (%rax)			; WIDEN_AVX2-NEXT: vmovhpd %xmm0, (%rax)
	; WIDEN_AVX2-NEXT: .LBB1_4: # %else2			; WIDEN_AVX2-NEXT: .LBB1_4: # %else2
	; WIDEN_AVX2-NEXT: retq			; WIDEN_AVX2-NEXT: retq
	;			;
	; PROMOTE_AVX2-LABEL: test_scatter_v2i32_index:			; PROMOTE_AVX2-LABEL: test_scatter_v2i32_index:
	; PROMOTE_AVX2: # %bb.0:			; PROMOTE_AVX2: # %bb.0:
	; PROMOTE_AVX2-NEXT: vpsllq $32, %xmm1, %xmm3			; PROMOTE_AVX2-NEXT: vpmovsxdq %xmm1, %xmm1
	; PROMOTE_AVX2-NEXT: vpsrad $31, %xmm3, %xmm3
	; PROMOTE_AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm3[1],xmm1[2],xmm3[3]
	; PROMOTE_AVX2-NEXT: vpsllq $3, %xmm1, %xmm1			; PROMOTE_AVX2-NEXT: vpsllq $3, %xmm1, %xmm1
	; PROMOTE_AVX2-NEXT: vmovq %rdi, %xmm3			; PROMOTE_AVX2-NEXT: vmovq %rdi, %xmm3
	; PROMOTE_AVX2-NEXT: vpbroadcastq %xmm3, %xmm3			; PROMOTE_AVX2-NEXT: vpbroadcastq %xmm3, %xmm3
	; PROMOTE_AVX2-NEXT: vpaddq %xmm1, %xmm3, %xmm1			; PROMOTE_AVX2-NEXT: vpaddq %xmm1, %xmm3, %xmm1
	; PROMOTE_AVX2-NEXT: vpextrb $0, %xmm2, %eax			; PROMOTE_AVX2-NEXT: vpextrb $0, %xmm2, %eax
	; PROMOTE_AVX2-NEXT: testb $1, %al			; PROMOTE_AVX2-NEXT: testb $1, %al
	; PROMOTE_AVX2-NEXT: je .LBB1_2			; PROMOTE_AVX2-NEXT: je .LBB1_2
	; PROMOTE_AVX2-NEXT: # %bb.1: # %cond.store			; PROMOTE_AVX2-NEXT: # %bb.1: # %cond.store
	Show All 34 Lines
	; WIDEN_KNL-NEXT: vmovdqa %xmm2, %xmm0			; WIDEN_KNL-NEXT: vmovdqa %xmm2, %xmm0
	; WIDEN_KNL-NEXT: vzeroupper			; WIDEN_KNL-NEXT: vzeroupper
	; WIDEN_KNL-NEXT: retq			; WIDEN_KNL-NEXT: retq
	;			;
	; PROMOTE_SKX-LABEL: test_gather_v2i32_data:			; PROMOTE_SKX-LABEL: test_gather_v2i32_data:
	; PROMOTE_SKX: # %bb.0:			; PROMOTE_SKX: # %bb.0:
	; PROMOTE_SKX-NEXT: vpsllq $63, %xmm1, %xmm1			; PROMOTE_SKX-NEXT: vpsllq $63, %xmm1, %xmm1
	; PROMOTE_SKX-NEXT: vpmovq2m %xmm1, %k1			; PROMOTE_SKX-NEXT: vpmovq2m %xmm1, %k1
	; PROMOTE_SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]			; PROMOTE_SKX-NEXT: vpgatherqd (,%xmm0), %xmm2 {%k1}
	; PROMOTE_SKX-NEXT: vpgatherqd (,%xmm0), %xmm1 {%k1}			; PROMOTE_SKX-NEXT: vmovdqa %xmm2, %xmm0
	; PROMOTE_SKX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero
	; PROMOTE_SKX-NEXT: retq			; PROMOTE_SKX-NEXT: retq
	;			;
	; PROMOTE_KNL-LABEL: test_gather_v2i32_data:			; PROMOTE_KNL-LABEL: test_gather_v2i32_data:
	; PROMOTE_KNL: # %bb.0:			; PROMOTE_KNL: # %bb.0:
				; PROMOTE_KNL-NEXT: # kill: def $xmm2 killed $xmm2 def $ymm2
	; PROMOTE_KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; PROMOTE_KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; PROMOTE_KNL-NEXT: vpsllq $63, %xmm1, %xmm1			; PROMOTE_KNL-NEXT: vpsllq $63, %xmm1, %xmm1
	; PROMOTE_KNL-NEXT: vptestmq %zmm1, %zmm1, %k0			; PROMOTE_KNL-NEXT: vptestmq %zmm1, %zmm1, %k0
	; PROMOTE_KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0			; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0
	; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1			; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1
	; PROMOTE_KNL-NEXT: vpgatherqd (,%zmm0), %ymm1 {%k1}			; PROMOTE_KNL-NEXT: vpgatherqd (,%zmm0), %ymm2 {%k1}
	; PROMOTE_KNL-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero			; PROMOTE_KNL-NEXT: vmovdqa %xmm2, %xmm0
	; PROMOTE_KNL-NEXT: vzeroupper			; PROMOTE_KNL-NEXT: vzeroupper
	; PROMOTE_KNL-NEXT: retq			; PROMOTE_KNL-NEXT: retq
	;			;
	; WIDEN_AVX2-LABEL: test_gather_v2i32_data:			; WIDEN_AVX2-LABEL: test_gather_v2i32_data:
	; WIDEN_AVX2: # %bb.0:			; WIDEN_AVX2: # %bb.0:
	; WIDEN_AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; WIDEN_AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; WIDEN_AVX2-NEXT: vpslld $31, %xmm1, %xmm1			; WIDEN_AVX2-NEXT: vpslld $31, %xmm1, %xmm1
	; WIDEN_AVX2-NEXT: vpgatherqd %xmm1, (,%xmm0), %xmm2			; WIDEN_AVX2-NEXT: vpgatherqd %xmm1, (,%xmm0), %xmm2
	; WIDEN_AVX2-NEXT: vmovdqa %xmm2, %xmm0			; WIDEN_AVX2-NEXT: vmovdqa %xmm2, %xmm0
	; WIDEN_AVX2-NEXT: retq			; WIDEN_AVX2-NEXT: retq
	;			;
	; PROMOTE_AVX2-LABEL: test_gather_v2i32_data:			; PROMOTE_AVX2-LABEL: test_gather_v2i32_data:
	; PROMOTE_AVX2: # %bb.0:			; PROMOTE_AVX2: # %bb.0:
	; PROMOTE_AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
	; PROMOTE_AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; PROMOTE_AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; PROMOTE_AVX2-NEXT: vpslld $31, %xmm1, %xmm1			; PROMOTE_AVX2-NEXT: vpslld $31, %xmm1, %xmm1
	; PROMOTE_AVX2-NEXT: vpgatherqd %xmm1, (,%xmm0), %xmm2			; PROMOTE_AVX2-NEXT: vpgatherqd %xmm1, (,%xmm0), %xmm2
	; PROMOTE_AVX2-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm2[0],zero,xmm2[1],zero			; PROMOTE_AVX2-NEXT: vmovdqa %xmm2, %xmm0
	; PROMOTE_AVX2-NEXT: retq			; PROMOTE_AVX2-NEXT: retq
	%res = call <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*> %ptr, i32 4, <2 x i1> %mask, <2 x i32> %src0)			%res = call <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*> %ptr, i32 4, <2 x i1> %mask, <2 x i32> %src0)
	ret <2 x i32>%res			ret <2 x i32>%res
	}			}

	define void @test_scatter_v2i32_data(<2 x i32>%a1, <2 x i32*> %ptr, <2 x i1>%mask) {			define void @test_scatter_v2i32_data(<2 x i32>%a1, <2 x i32*> %ptr, <2 x i1>%mask) {
	; WIDEN_SKX-LABEL: test_scatter_v2i32_data:			; WIDEN_SKX-LABEL: test_scatter_v2i32_data:
	; WIDEN_SKX: # %bb.0:			; WIDEN_SKX: # %bb.0:
	Show All 13 Lines
	; WIDEN_KNL-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}			; WIDEN_KNL-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}
	; WIDEN_KNL-NEXT: vzeroupper			; WIDEN_KNL-NEXT: vzeroupper
	; WIDEN_KNL-NEXT: retq			; WIDEN_KNL-NEXT: retq
	;			;
	; PROMOTE_SKX-LABEL: test_scatter_v2i32_data:			; PROMOTE_SKX-LABEL: test_scatter_v2i32_data:
	; PROMOTE_SKX: # %bb.0:			; PROMOTE_SKX: # %bb.0:
	; PROMOTE_SKX-NEXT: vpsllq $63, %xmm2, %xmm2			; PROMOTE_SKX-NEXT: vpsllq $63, %xmm2, %xmm2
	; PROMOTE_SKX-NEXT: vpmovq2m %xmm2, %k1			; PROMOTE_SKX-NEXT: vpmovq2m %xmm2, %k1
	; PROMOTE_SKX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; PROMOTE_SKX-NEXT: vpscatterqd %xmm0, (,%xmm1) {%k1}			; PROMOTE_SKX-NEXT: vpscatterqd %xmm0, (,%xmm1) {%k1}
	; PROMOTE_SKX-NEXT: retq			; PROMOTE_SKX-NEXT: retq
	;			;
	; PROMOTE_KNL-LABEL: test_scatter_v2i32_data:			; PROMOTE_KNL-LABEL: test_scatter_v2i32_data:
	; PROMOTE_KNL: # %bb.0:			; PROMOTE_KNL: # %bb.0:
	; PROMOTE_KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1			; PROMOTE_KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
				; PROMOTE_KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
	; PROMOTE_KNL-NEXT: vpsllq $63, %xmm2, %xmm2			; PROMOTE_KNL-NEXT: vpsllq $63, %xmm2, %xmm2
	; PROMOTE_KNL-NEXT: vptestmq %zmm2, %zmm2, %k0			; PROMOTE_KNL-NEXT: vptestmq %zmm2, %zmm2, %k0
	; PROMOTE_KNL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0			; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0
	; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1			; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1
	; PROMOTE_KNL-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}			; PROMOTE_KNL-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}
	; PROMOTE_KNL-NEXT: vzeroupper			; PROMOTE_KNL-NEXT: vzeroupper
	; PROMOTE_KNL-NEXT: retq			; PROMOTE_KNL-NEXT: retq
	;			;
	; WIDEN_AVX2-LABEL: test_scatter_v2i32_data:			; WIDEN_AVX2-LABEL: test_scatter_v2i32_data:
	; WIDEN_AVX2: # %bb.0:			; WIDEN_AVX2: # %bb.0:
	Show All 22 Lines
	; PROMOTE_AVX2-NEXT: vmovq %xmm1, %rax			; PROMOTE_AVX2-NEXT: vmovq %xmm1, %rax
	; PROMOTE_AVX2-NEXT: vmovss %xmm0, (%rax)			; PROMOTE_AVX2-NEXT: vmovss %xmm0, (%rax)
	; PROMOTE_AVX2-NEXT: .LBB3_2: # %else			; PROMOTE_AVX2-NEXT: .LBB3_2: # %else
	; PROMOTE_AVX2-NEXT: vpextrb $8, %xmm2, %eax			; PROMOTE_AVX2-NEXT: vpextrb $8, %xmm2, %eax
	; PROMOTE_AVX2-NEXT: testb $1, %al			; PROMOTE_AVX2-NEXT: testb $1, %al
	; PROMOTE_AVX2-NEXT: je .LBB3_4			; PROMOTE_AVX2-NEXT: je .LBB3_4
	; PROMOTE_AVX2-NEXT: # %bb.3: # %cond.store1			; PROMOTE_AVX2-NEXT: # %bb.3: # %cond.store1
	; PROMOTE_AVX2-NEXT: vpextrq $1, %xmm1, %rax			; PROMOTE_AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; PROMOTE_AVX2-NEXT: vextractps $2, %xmm0, (%rax)			; PROMOTE_AVX2-NEXT: vextractps $1, %xmm0, (%rax)
	; PROMOTE_AVX2-NEXT: .LBB3_4: # %else2			; PROMOTE_AVX2-NEXT: .LBB3_4: # %else2
	; PROMOTE_AVX2-NEXT: retq			; PROMOTE_AVX2-NEXT: retq
	call void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32> %a1, <2 x i32*> %ptr, i32 4, <2 x i1> %mask)			call void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32> %a1, <2 x i32*> %ptr, i32 4, <2 x i1> %mask)
	ret void			ret void
	}			}

	define <2 x i32> @test_gather_v2i32_data_index(i32* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x i32> %src0) {			define <2 x i32> @test_gather_v2i32_data_index(i32* %base, <2 x i32> %ind, <2 x i1> %mask, <2 x i32> %src0) {
	; WIDEN_SKX-LABEL: test_gather_v2i32_data_index:			; WIDEN_SKX-LABEL: test_gather_v2i32_data_index:
	Show All 16 Lines
	; WIDEN_KNL-NEXT: vmovdqa %xmm2, %xmm0			; WIDEN_KNL-NEXT: vmovdqa %xmm2, %xmm0
	; WIDEN_KNL-NEXT: vzeroupper			; WIDEN_KNL-NEXT: vzeroupper
	; WIDEN_KNL-NEXT: retq			; WIDEN_KNL-NEXT: retq
	;			;
	; PROMOTE_SKX-LABEL: test_gather_v2i32_data_index:			; PROMOTE_SKX-LABEL: test_gather_v2i32_data_index:
	; PROMOTE_SKX: # %bb.0:			; PROMOTE_SKX: # %bb.0:
	; PROMOTE_SKX-NEXT: vpsllq $63, %xmm1, %xmm1			; PROMOTE_SKX-NEXT: vpsllq $63, %xmm1, %xmm1
	; PROMOTE_SKX-NEXT: vpmovq2m %xmm1, %k1			; PROMOTE_SKX-NEXT: vpmovq2m %xmm1, %k1
	; PROMOTE_SKX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; PROMOTE_SKX-NEXT: vpgatherdd (%rdi,%xmm0,4), %xmm2 {%k1}
	; PROMOTE_SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]			; PROMOTE_SKX-NEXT: vmovdqa %xmm2, %xmm0
	; PROMOTE_SKX-NEXT: vpgatherdd (%rdi,%xmm0,4), %xmm1 {%k1}
	; PROMOTE_SKX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero
	; PROMOTE_SKX-NEXT: retq			; PROMOTE_SKX-NEXT: retq
	;			;
	; PROMOTE_KNL-LABEL: test_gather_v2i32_data_index:			; PROMOTE_KNL-LABEL: test_gather_v2i32_data_index:
	; PROMOTE_KNL: # %bb.0:			; PROMOTE_KNL: # %bb.0:
				; PROMOTE_KNL-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
				; PROMOTE_KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; PROMOTE_KNL-NEXT: vpsllq $63, %xmm1, %xmm1			; PROMOTE_KNL-NEXT: vpsllq $63, %xmm1, %xmm1
	; PROMOTE_KNL-NEXT: vptestmq %zmm1, %zmm1, %k0			; PROMOTE_KNL-NEXT: vptestmq %zmm1, %zmm1, %k0
	; PROMOTE_KNL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; PROMOTE_KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
	; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0			; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0
	; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1			; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1
	; PROMOTE_KNL-NEXT: vpgatherdd (%rdi,%zmm0,4), %zmm1 {%k1}			; PROMOTE_KNL-NEXT: vpgatherdd (%rdi,%zmm0,4), %zmm2 {%k1}
	; PROMOTE_KNL-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero			; PROMOTE_KNL-NEXT: vmovdqa %xmm2, %xmm0
	; PROMOTE_KNL-NEXT: vzeroupper			; PROMOTE_KNL-NEXT: vzeroupper
	; PROMOTE_KNL-NEXT: retq			; PROMOTE_KNL-NEXT: retq
	;			;
	; WIDEN_AVX2-LABEL: test_gather_v2i32_data_index:			; WIDEN_AVX2-LABEL: test_gather_v2i32_data_index:
	; WIDEN_AVX2: # %bb.0:			; WIDEN_AVX2: # %bb.0:
	; WIDEN_AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,2],zero,zero			; WIDEN_AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,2],zero,zero
	; WIDEN_AVX2-NEXT: vpslld $31, %xmm1, %xmm1			; WIDEN_AVX2-NEXT: vpslld $31, %xmm1, %xmm1
	; WIDEN_AVX2-NEXT: vpgatherdd %xmm1, (%rdi,%xmm0,4), %xmm2			; WIDEN_AVX2-NEXT: vpgatherdd %xmm1, (%rdi,%xmm0,4), %xmm2
	; WIDEN_AVX2-NEXT: vmovdqa %xmm2, %xmm0			; WIDEN_AVX2-NEXT: vmovdqa %xmm2, %xmm0
	; WIDEN_AVX2-NEXT: retq			; WIDEN_AVX2-NEXT: retq
	;			;
	; PROMOTE_AVX2-LABEL: test_gather_v2i32_data_index:			; PROMOTE_AVX2-LABEL: test_gather_v2i32_data_index:
	; PROMOTE_AVX2: # %bb.0:			; PROMOTE_AVX2: # %bb.0:
	; PROMOTE_AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; PROMOTE_AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
	; PROMOTE_AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,2],zero,zero			; PROMOTE_AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,2],zero,zero
	; PROMOTE_AVX2-NEXT: vpslld $31, %xmm1, %xmm1			; PROMOTE_AVX2-NEXT: vpslld $31, %xmm1, %xmm1
	; PROMOTE_AVX2-NEXT: vpgatherdd %xmm1, (%rdi,%xmm0,4), %xmm2			; PROMOTE_AVX2-NEXT: vpgatherdd %xmm1, (%rdi,%xmm0,4), %xmm2
	; PROMOTE_AVX2-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm2[0],zero,xmm2[1],zero			; PROMOTE_AVX2-NEXT: vmovdqa %xmm2, %xmm0
	; PROMOTE_AVX2-NEXT: retq			; PROMOTE_AVX2-NEXT: retq
	%gep.random = getelementptr i32, i32* %base, <2 x i32> %ind			%gep.random = getelementptr i32, i32* %base, <2 x i32> %ind
	%res = call <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*> %gep.random, i32 4, <2 x i1> %mask, <2 x i32> %src0)			%res = call <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*> %gep.random, i32 4, <2 x i1> %mask, <2 x i32> %src0)
	ret <2 x i32> %res			ret <2 x i32> %res
	}			}

	define void @test_scatter_v2i32_data_index(<2 x i32> %a1, i32* %base, <2 x i32> %ind, <2 x i1> %mask) {			define void @test_scatter_v2i32_data_index(<2 x i32> %a1, i32* %base, <2 x i32> %ind, <2 x i1> %mask) {
	; WIDEN_SKX-LABEL: test_scatter_v2i32_data_index:			; WIDEN_SKX-LABEL: test_scatter_v2i32_data_index:
	Show All 14 Lines
	; WIDEN_KNL-NEXT: vpscatterdd %zmm0, (%rdi,%zmm1,4) {%k1}			; WIDEN_KNL-NEXT: vpscatterdd %zmm0, (%rdi,%zmm1,4) {%k1}
	; WIDEN_KNL-NEXT: vzeroupper			; WIDEN_KNL-NEXT: vzeroupper
	; WIDEN_KNL-NEXT: retq			; WIDEN_KNL-NEXT: retq
	;			;
	; PROMOTE_SKX-LABEL: test_scatter_v2i32_data_index:			; PROMOTE_SKX-LABEL: test_scatter_v2i32_data_index:
	; PROMOTE_SKX: # %bb.0:			; PROMOTE_SKX: # %bb.0:
	; PROMOTE_SKX-NEXT: vpsllq $63, %xmm2, %xmm2			; PROMOTE_SKX-NEXT: vpsllq $63, %xmm2, %xmm2
	; PROMOTE_SKX-NEXT: vpmovq2m %xmm2, %k1			; PROMOTE_SKX-NEXT: vpmovq2m %xmm2, %k1
	; PROMOTE_SKX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; PROMOTE_SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; PROMOTE_SKX-NEXT: vpscatterdd %xmm0, (%rdi,%xmm1,4) {%k1}			; PROMOTE_SKX-NEXT: vpscatterdd %xmm0, (%rdi,%xmm1,4) {%k1}
	; PROMOTE_SKX-NEXT: retq			; PROMOTE_SKX-NEXT: retq
	;			;
	; PROMOTE_KNL-LABEL: test_scatter_v2i32_data_index:			; PROMOTE_KNL-LABEL: test_scatter_v2i32_data_index:
	; PROMOTE_KNL: # %bb.0:			; PROMOTE_KNL: # %bb.0:
				; PROMOTE_KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
				; PROMOTE_KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; PROMOTE_KNL-NEXT: vpsllq $63, %xmm2, %xmm2			; PROMOTE_KNL-NEXT: vpsllq $63, %xmm2, %xmm2
	; PROMOTE_KNL-NEXT: vptestmq %zmm2, %zmm2, %k0			; PROMOTE_KNL-NEXT: vptestmq %zmm2, %zmm2, %k0
	; PROMOTE_KNL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; PROMOTE_KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0			; PROMOTE_KNL-NEXT: kshiftlw $14, %k0, %k0
	; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1			; PROMOTE_KNL-NEXT: kshiftrw $14, %k0, %k1
	; PROMOTE_KNL-NEXT: vpscatterdd %zmm0, (%rdi,%zmm1,4) {%k1}			; PROMOTE_KNL-NEXT: vpscatterdd %zmm0, (%rdi,%zmm1,4) {%k1}
	; PROMOTE_KNL-NEXT: vzeroupper			; PROMOTE_KNL-NEXT: vzeroupper
	; PROMOTE_KNL-NEXT: retq			; PROMOTE_KNL-NEXT: retq
	;			;
	; WIDEN_AVX2-LABEL: test_scatter_v2i32_data_index:			; WIDEN_AVX2-LABEL: test_scatter_v2i32_data_index:
	; WIDEN_AVX2: # %bb.0:			; WIDEN_AVX2: # %bb.0:
	Show All 15 Lines
	; WIDEN_AVX2-NEXT: # %bb.3: # %cond.store1			; WIDEN_AVX2-NEXT: # %bb.3: # %cond.store1
	; WIDEN_AVX2-NEXT: vpextrq $1, %xmm1, %rax			; WIDEN_AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; WIDEN_AVX2-NEXT: vextractps $1, %xmm0, (%rax)			; WIDEN_AVX2-NEXT: vextractps $1, %xmm0, (%rax)
	; WIDEN_AVX2-NEXT: .LBB5_4: # %else2			; WIDEN_AVX2-NEXT: .LBB5_4: # %else2
	; WIDEN_AVX2-NEXT: retq			; WIDEN_AVX2-NEXT: retq
	;			;
	; PROMOTE_AVX2-LABEL: test_scatter_v2i32_data_index:			; PROMOTE_AVX2-LABEL: test_scatter_v2i32_data_index:
	; PROMOTE_AVX2: # %bb.0:			; PROMOTE_AVX2: # %bb.0:
	; PROMOTE_AVX2-NEXT: vpsllq $32, %xmm1, %xmm3			; PROMOTE_AVX2-NEXT: vpmovsxdq %xmm1, %xmm1
	; PROMOTE_AVX2-NEXT: vpsrad $31, %xmm3, %xmm3
	; PROMOTE_AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm3[1],xmm1[2],xmm3[3]
	; PROMOTE_AVX2-NEXT: vpsllq $2, %xmm1, %xmm1			; PROMOTE_AVX2-NEXT: vpsllq $2, %xmm1, %xmm1
	; PROMOTE_AVX2-NEXT: vmovq %rdi, %xmm3			; PROMOTE_AVX2-NEXT: vmovq %rdi, %xmm3
	; PROMOTE_AVX2-NEXT: vpbroadcastq %xmm3, %xmm3			; PROMOTE_AVX2-NEXT: vpbroadcastq %xmm3, %xmm3
	; PROMOTE_AVX2-NEXT: vpaddq %xmm1, %xmm3, %xmm1			; PROMOTE_AVX2-NEXT: vpaddq %xmm1, %xmm3, %xmm1
	; PROMOTE_AVX2-NEXT: vpextrb $0, %xmm2, %eax			; PROMOTE_AVX2-NEXT: vpextrb $0, %xmm2, %eax
	; PROMOTE_AVX2-NEXT: testb $1, %al			; PROMOTE_AVX2-NEXT: testb $1, %al
	; PROMOTE_AVX2-NEXT: je .LBB5_2			; PROMOTE_AVX2-NEXT: je .LBB5_2
	; PROMOTE_AVX2-NEXT: # %bb.1: # %cond.store			; PROMOTE_AVX2-NEXT: # %bb.1: # %cond.store
	; PROMOTE_AVX2-NEXT: vmovq %xmm1, %rax			; PROMOTE_AVX2-NEXT: vmovq %xmm1, %rax
	; PROMOTE_AVX2-NEXT: vmovss %xmm0, (%rax)			; PROMOTE_AVX2-NEXT: vmovss %xmm0, (%rax)
	; PROMOTE_AVX2-NEXT: .LBB5_2: # %else			; PROMOTE_AVX2-NEXT: .LBB5_2: # %else
	; PROMOTE_AVX2-NEXT: vpextrb $8, %xmm2, %eax			; PROMOTE_AVX2-NEXT: vpextrb $8, %xmm2, %eax
	; PROMOTE_AVX2-NEXT: testb $1, %al			; PROMOTE_AVX2-NEXT: testb $1, %al
	; PROMOTE_AVX2-NEXT: je .LBB5_4			; PROMOTE_AVX2-NEXT: je .LBB5_4
	; PROMOTE_AVX2-NEXT: # %bb.3: # %cond.store1			; PROMOTE_AVX2-NEXT: # %bb.3: # %cond.store1
	; PROMOTE_AVX2-NEXT: vpextrq $1, %xmm1, %rax			; PROMOTE_AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; PROMOTE_AVX2-NEXT: vextractps $2, %xmm0, (%rax)			; PROMOTE_AVX2-NEXT: vextractps $1, %xmm0, (%rax)
	; PROMOTE_AVX2-NEXT: .LBB5_4: # %else2			; PROMOTE_AVX2-NEXT: .LBB5_4: # %else2
	; PROMOTE_AVX2-NEXT: retq			; PROMOTE_AVX2-NEXT: retq
	%gep = getelementptr i32, i32 *%base, <2 x i32> %ind			%gep = getelementptr i32, i32 *%base, <2 x i32> %ind
	call void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32> %a1, <2 x i32*> %gep, i32 4, <2 x i1> %mask)			call void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32> %a1, <2 x i32*> %gep, i32 4, <2 x i1> %mask)
	ret void			ret void
	}			}

	declare <2 x double> @llvm.masked.gather.v2f64.v2p0f64(<2 x double*>, i32, <2 x i1>, <2 x double>)			declare <2 x double> @llvm.masked.gather.v2f64.v2p0f64(<2 x double*>, i32, <2 x i1>, <2 x double>)
	declare void @llvm.masked.scatter.v2f64.v2p0f64(<2 x double>, <2 x double*>, i32, <2 x i1>)			declare void @llvm.masked.scatter.v2f64.v2p0f64(<2 x double>, <2 x double*>, i32, <2 x i1>)
	declare <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*>, i32, <2 x i1>, <2 x i32>)			declare <2 x i32> @llvm.masked.gather.v2i32.v2p0i32(<2 x i32*>, i32, <2 x i1>, <2 x i32>)
	declare void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32> , <2 x i32*> , i32 , <2 x i1>)			declare void @llvm.masked.scatter.v2i32.v2p0i32(<2 x i32> , <2 x i32*> , i32 , <2 x i1>)

test/CodeGen/X86/masked_memop.ll

	Show First 20 Lines • Show All 477 Lines • ▼ Show 20 Lines
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%mask = icmp eq <8 x i32> %trigger, zeroinitializer			%mask = icmp eq <8 x i32> %trigger, zeroinitializer
	call void @llvm.masked.store.v8i32.p0v8i32(<8 x i32>%val, <8 x i32>* %addr, i32 4, <8 x i1>%mask)			call void @llvm.masked.store.v8i32.p0v8i32(<8 x i32>%val, <8 x i32>* %addr, i32 4, <8 x i1>%mask)
	ret void			ret void
	}			}

	define void @test14(<2 x i32> %trigger, <2 x float>* %addr, <2 x float> %val) {			define void @test14(<2 x i32> %trigger, <2 x float>* %addr, <2 x float> %val) {
	; AVX1-LABEL: test14:			; AVX-LABEL: test14:
	; AVX1: ## %bb.0:			; AVX: ## %bb.0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX-NEXT: vpcmpeqd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero			; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX1-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)			; AVX-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2-LABEL: test14:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX2-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)
	; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: test14:			; AVX512F-LABEL: test14:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: ## kill: def $xmm1 killed $xmm1 def $zmm1			; AVX512F-NEXT: ## kill: def $xmm1 killed $xmm1 def $zmm1
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX512F-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; AVX512F-NEXT: vptestnmq %zmm0, %zmm0, %k0
	; AVX512F-NEXT: kshiftlw $14, %k0, %k0			; AVX512F-NEXT: kshiftlw $14, %k0, %k0
	; AVX512F-NEXT: kshiftrw $14, %k0, %k1			; AVX512F-NEXT: kshiftrw $14, %k0, %k1
	; AVX512F-NEXT: vmovups %zmm1, (%rdi) {%k1}			; AVX512F-NEXT: vmovups %zmm1, (%rdi) {%k1}
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; SKX-LABEL: test14:			; SKX-LABEL: test14:
	; SKX: ## %bb.0:			; SKX: ## %bb.0:
	; SKX-NEXT: vpxor %xmm2, %xmm2, %xmm2			; SKX-NEXT: vptestnmd %xmm0, %xmm0, %k0
	; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; SKX-NEXT: kshiftlw $14, %k0, %k0
	; SKX-NEXT: vptestnmq %xmm0, %xmm0, %k1			; SKX-NEXT: kshiftrw $14, %k0, %k1
	; SKX-NEXT: vmovups %xmm1, (%rdi) {%k1}			; SKX-NEXT: vmovups %xmm1, (%rdi) {%k1}
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%mask = icmp eq <2 x i32> %trigger, zeroinitializer			%mask = icmp eq <2 x i32> %trigger, zeroinitializer
	call void @llvm.masked.store.v2f32.p0v2f32(<2 x float>%val, <2 x float>* %addr, i32 4, <2 x i1>%mask)			call void @llvm.masked.store.v2f32.p0v2f32(<2 x float>%val, <2 x float>* %addr, i32 4, <2 x i1>%mask)
	ret void			ret void
	}			}

	define void @test15(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %val) {			define void @test15(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %val) {
	; AVX1-LABEL: test15:			; AVX1-LABEL: test15:
	; AVX1: ## %bb.0:			; AVX1: ## %bb.0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX1-NEXT: vpcmpeqd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero			; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)			; AVX1-NEXT: vmaskmovps %xmm1, %xmm0, (%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test15:			; AVX2-LABEL: test15:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX2-NEXT: vpcmpeqd %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero			; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX2-NEXT: vpmaskmovd %xmm1, %xmm0, (%rdi)			; AVX2-NEXT: vpmaskmovd %xmm1, %xmm0, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: test15:			; AVX512F-LABEL: test15:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512F-NEXT: ## kill: def $xmm1 killed $xmm1 def $zmm1
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: vptestnmq %zmm0, %zmm0, %k0			; AVX512F-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; AVX512F-NEXT: kshiftlw $14, %k0, %k0			; AVX512F-NEXT: kshiftlw $14, %k0, %k0
	; AVX512F-NEXT: kshiftrw $14, %k0, %k1			; AVX512F-NEXT: kshiftrw $14, %k0, %k1
	; AVX512F-NEXT: vmovdqu32 %zmm0, (%rdi) {%k1}			; AVX512F-NEXT: vmovdqu32 %zmm1, (%rdi) {%k1}
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; SKX-LABEL: test15:			; SKX-LABEL: test15:
	; SKX: ## %bb.0:			; SKX: ## %bb.0:
	; SKX-NEXT: vpxor %xmm2, %xmm2, %xmm2			; SKX-NEXT: vptestnmd %xmm0, %xmm0, %k0
	; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; SKX-NEXT: kshiftlw $14, %k0, %k0
	; SKX-NEXT: vptestnmq %xmm0, %xmm0, %k1			; SKX-NEXT: kshiftrw $14, %k0, %k1
	; SKX-NEXT: vpmovqd %xmm1, (%rdi) {%k1}			; SKX-NEXT: vmovdqu32 %xmm1, (%rdi) {%k1}
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%mask = icmp eq <2 x i32> %trigger, zeroinitializer			%mask = icmp eq <2 x i32> %trigger, zeroinitializer
	call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32>%val, <2 x i32>* %addr, i32 4, <2 x i1>%mask)			call void @llvm.masked.store.v2i32.p0v2i32(<2 x i32>%val, <2 x i32>* %addr, i32 4, <2 x i1>%mask)
	ret void			ret void
	}			}

	define <2 x float> @test16(<2 x i32> %trigger, <2 x float>* %addr, <2 x float> %dst) {			define <2 x float> @test16(<2 x i32> %trigger, <2 x float>* %addr, <2 x float> %dst) {
	; AVX1-LABEL: test16:			; AVX-LABEL: test16:
	; AVX1: ## %bb.0:			; AVX: ## %bb.0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX-NEXT: vpcmpeqd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero			; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX1-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2			; AVX-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2
	; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0			; AVX-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2-LABEL: test16:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX2-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2
	; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: test16:			; AVX512F-LABEL: test16:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: ## kill: def $xmm1 killed $xmm1 def $zmm1			; AVX512F-NEXT: ## kill: def $xmm1 killed $xmm1 def $zmm1
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX512F-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; AVX512F-NEXT: vptestnmq %zmm0, %zmm0, %k0
	; AVX512F-NEXT: kshiftlw $14, %k0, %k0			; AVX512F-NEXT: kshiftlw $14, %k0, %k0
	; AVX512F-NEXT: kshiftrw $14, %k0, %k1			; AVX512F-NEXT: kshiftrw $14, %k0, %k1
	; AVX512F-NEXT: vblendmps (%rdi), %zmm1, %zmm0 {%k1}			; AVX512F-NEXT: vblendmps (%rdi), %zmm1, %zmm0 {%k1}
	; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; SKX-LABEL: test16:			; SKX-LABEL: test16:
	; SKX: ## %bb.0:			; SKX: ## %bb.0:
	; SKX-NEXT: vpxor %xmm2, %xmm2, %xmm2			; SKX-NEXT: vptestnmd %xmm0, %xmm0, %k0
	; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; SKX-NEXT: kshiftlw $14, %k0, %k0
	; SKX-NEXT: vptestnmq %xmm0, %xmm0, %k1			; SKX-NEXT: kshiftrw $14, %k0, %k1
	; SKX-NEXT: vblendmps (%rdi), %xmm1, %xmm0 {%k1}			; SKX-NEXT: vblendmps (%rdi), %xmm1, %xmm0 {%k1}
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%mask = icmp eq <2 x i32> %trigger, zeroinitializer			%mask = icmp eq <2 x i32> %trigger, zeroinitializer
	%res = call <2 x float> @llvm.masked.load.v2f32.p0v2f32(<2 x float>* %addr, i32 4, <2 x i1>%mask, <2 x float>%dst)			%res = call <2 x float> @llvm.masked.load.v2f32.p0v2f32(<2 x float>* %addr, i32 4, <2 x i1>%mask, <2 x float>%dst)
	ret <2 x float> %res			ret <2 x float> %res
	}			}

	define <2 x i32> @test17(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %dst) {			define <2 x i32> @test17(<2 x i32> %trigger, <2 x i32>* %addr, <2 x i32> %dst) {
	; AVX1-LABEL: test17:			; AVX1-LABEL: test17:
	; AVX1: ## %bb.0:			; AVX1: ## %bb.0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX1-NEXT: vpcmpeqd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero			; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX1-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2			; AVX1-NEXT: vmaskmovps (%rdi), %xmm0, %xmm2
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0			; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX1-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test17:			; AVX2-LABEL: test17:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX2-NEXT: vpcmpeqd %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero			; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX2-NEXT: vpmaskmovd (%rdi), %xmm0, %xmm2			; AVX2-NEXT: vpmaskmovd (%rdi), %xmm0, %xmm2
	; AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0			; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX2-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: test17:			; AVX512F-LABEL: test17:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512F-NEXT: ## kill: def $xmm1 killed $xmm1 def $zmm1
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: vptestnmq %zmm0, %zmm0, %k0			; AVX512F-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; AVX512F-NEXT: kshiftlw $14, %k0, %k0			; AVX512F-NEXT: kshiftlw $14, %k0, %k0
	; AVX512F-NEXT: kshiftrw $14, %k0, %k1			; AVX512F-NEXT: kshiftrw $14, %k0, %k1
	; AVX512F-NEXT: vmovdqu32 (%rdi), %zmm0 {%k1}			; AVX512F-NEXT: vpblendmd (%rdi), %zmm1, %zmm0 {%k1}
	; AVX512F-NEXT: vpmovsxdq %xmm0, %xmm0			; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; SKX-LABEL: test17:			; SKX-LABEL: test17:
	; SKX: ## %bb.0:			; SKX: ## %bb.0:
	; SKX-NEXT: vpxor %xmm2, %xmm2, %xmm2			; SKX-NEXT: vptestnmd %xmm0, %xmm0, %k0
	; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; SKX-NEXT: kshiftlw $14, %k0, %k0
	; SKX-NEXT: vptestnmq %xmm0, %xmm0, %k1			; SKX-NEXT: kshiftrw $14, %k0, %k1
	; SKX-NEXT: vpshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]			; SKX-NEXT: vpblendmd (%rdi), %xmm1, %xmm0 {%k1}
	; SKX-NEXT: vmovdqu32 (%rdi), %xmm0 {%k1}
	; SKX-NEXT: vpmovsxdq %xmm0, %xmm0
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%mask = icmp eq <2 x i32> %trigger, zeroinitializer			%mask = icmp eq <2 x i32> %trigger, zeroinitializer
	%res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1>%mask, <2 x i32>%dst)			%res = call <2 x i32> @llvm.masked.load.v2i32.p0v2i32(<2 x i32>* %addr, i32 4, <2 x i1>%mask, <2 x i32>%dst)
	ret <2 x i32> %res			ret <2 x i32> %res
	}			}

	define <2 x float> @test18(<2 x i32> %trigger, <2 x float>* %addr) {			define <2 x float> @test18(<2 x i32> %trigger, <2 x float>* %addr) {
	; AVX1-LABEL: test18:			; AVX-LABEL: test18:
	; AVX1: ## %bb.0:			; AVX: ## %bb.0:
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]			; AVX-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero			; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX1-NEXT: vmaskmovps (%rdi), %xmm0, %xmm0			; AVX-NEXT: vmaskmovps (%rdi), %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2-LABEL: test18:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
	; AVX2-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
	; AVX2-NEXT: vmaskmovps (%rdi), %xmm0, %xmm0
	; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: test18:			; AVX512F-LABEL: test18:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]			; AVX512F-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; AVX512F-NEXT: vptestnmq %zmm0, %zmm0, %k0
	; AVX512F-NEXT: kshiftlw $14, %k0, %k0			; AVX512F-NEXT: kshiftlw $14, %k0, %k0
	; AVX512F-NEXT: kshiftrw $14, %k0, %k1			; AVX512F-NEXT: kshiftrw $14, %k0, %k1
	; AVX512F-NEXT: vmovups (%rdi), %zmm0 {%k1} {z}			; AVX512F-NEXT: vmovups (%rdi), %zmm0 {%k1} {z}
	; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; SKX-LABEL: test18:			; SKX-LABEL: test18:
	; SKX: ## %bb.0:			; SKX: ## %bb.0:
	; SKX-NEXT: vpxor %xmm1, %xmm1, %xmm1			; SKX-NEXT: vptestnmd %xmm0, %xmm0, %k0
	; SKX-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]			; SKX-NEXT: kshiftlw $14, %k0, %k0
	; SKX-NEXT: vptestnmq %xmm0, %xmm0, %k1			; SKX-NEXT: kshiftrw $14, %k0, %k1
	; SKX-NEXT: vmovups (%rdi), %xmm0 {%k1} {z}			; SKX-NEXT: vmovups (%rdi), %xmm0 {%k1} {z}
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%mask = icmp eq <2 x i32> %trigger, zeroinitializer			%mask = icmp eq <2 x i32> %trigger, zeroinitializer
	%res = call <2 x float> @llvm.masked.load.v2f32.p0v2f32(<2 x float>* %addr, i32 4, <2 x i1>%mask, <2 x float>undef)			%res = call <2 x float> @llvm.masked.load.v2f32.p0v2f32(<2 x float>* %addr, i32 4, <2 x i1>%mask, <2 x float>undef)
	ret <2 x float> %res			ret <2 x float> %res
	}			}

	define <4 x float> @load_all(<4 x i32> %trigger, <4 x float>* %addr) {			define <4 x float> @load_all(<4 x i32> %trigger, <4 x float>* %addr) {
	▲ Show 20 Lines • Show All 720 Lines • Show Last 20 Lines

test/CodeGen/X86/mmx-arith.ll

Show First 20 Lines • Show All 196 Lines • ▼ Show 20 Lines	entry:
store x86_mmx %tmp70a, x86_mmx* %A		store x86_mmx %tmp70a, x86_mmx* %A
tail call void @llvm.x86.mmx.emms()		tail call void @llvm.x86.mmx.emms()
ret void		ret void
}		}

define void @test1(x86_mmx* %A, x86_mmx* %B) {		define void @test1(x86_mmx* %A, x86_mmx* %B) {
; X32-LABEL: test1:		; X32-LABEL: test1:
; X32: # %bb.0: # %entry		; X32: # %bb.0: # %entry
; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]		; X32-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; X32-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; X32-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1,1,3]		; X32-NEXT: paddd %xmm0, %xmm1
; X32-NEXT: paddq %xmm0, %xmm1		; X32-NEXT: movq %xmm1, (%ecx)
; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]		; X32-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; X32-NEXT: movq %xmm0, (%eax)		; X32-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; X32-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]
; X32-NEXT: movdqa %xmm1, %xmm2
; X32-NEXT: pmuludq %xmm0, %xmm2
; X32-NEXT: psrlq $32, %xmm1
; X32-NEXT: pmuludq %xmm0, %xmm1		; X32-NEXT: pmuludq %xmm0, %xmm1
; X32-NEXT: psllq $32, %xmm1		; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
; X32-NEXT: paddq %xmm2, %xmm1		; X32-NEXT: pmuludq %xmm0, %xmm2
; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]		; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
; X32-NEXT: movq %xmm0, (%eax)		; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; X32-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; X32-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]		; X32-NEXT: movq %xmm1, (%ecx)
; X32-NEXT: andps %xmm1, %xmm0		; X32-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]		; X32-NEXT: pand %xmm1, %xmm0
; X32-NEXT: movq %xmm1, (%eax)		; X32-NEXT: movq %xmm0, (%ecx)
; X32-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; X32-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; X32-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1,1,3]		; X32-NEXT: por %xmm0, %xmm1
; X32-NEXT: orps %xmm0, %xmm1		; X32-NEXT: movq %xmm1, (%ecx)
; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]		; X32-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; X32-NEXT: movq %xmm0, (%eax)		; X32-NEXT: pxor %xmm1, %xmm0
; X32-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; X32-NEXT: movq %xmm0, (%ecx)
; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]
; X32-NEXT: xorps %xmm1, %xmm0
; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X32-NEXT: movq %xmm0, (%eax)
; X32-NEXT: emms		; X32-NEXT: emms
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: test1:		; X64-LABEL: test1:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]		; X64-NEXT: paddd %xmm0, %xmm1
; X64-NEXT: paddq %xmm0, %xmm1		; X64-NEXT: movq %xmm1, (%rdi)
; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
; X64-NEXT: movq %xmm0, (%rdi)
; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]		; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; X64-NEXT: movdqa %xmm1, %xmm2
; X64-NEXT: pmuludq %xmm0, %xmm2
; X64-NEXT: psrlq $32, %xmm1
; X64-NEXT: pmuludq %xmm0, %xmm1		; X64-NEXT: pmuludq %xmm0, %xmm1
; X64-NEXT: psllq $32, %xmm1		; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; X64-NEXT: paddq %xmm2, %xmm1		; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]		; X64-NEXT: pmuludq %xmm2, %xmm0
; X64-NEXT: movq %xmm0, (%rdi)		; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
		; X64-NEXT: movq %xmm1, (%rdi)
; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
; X64-NEXT: pand %xmm1, %xmm0		; X64-NEXT: pand %xmm1, %xmm0
; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]		; X64-NEXT: movq %xmm0, (%rdi)
; X64-NEXT: movq %xmm1, (%rdi)
; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]
; X64-NEXT: por %xmm0, %xmm1		; X64-NEXT: por %xmm0, %xmm1
; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]		; X64-NEXT: movq %xmm1, (%rdi)
; X64-NEXT: movq %xmm0, (%rdi)
; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
; X64-NEXT: pxor %xmm1, %xmm0		; X64-NEXT: pxor %xmm1, %xmm0
; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X64-NEXT: movq %xmm0, (%rdi)		; X64-NEXT: movq %xmm0, (%rdi)
; X64-NEXT: emms		; X64-NEXT: emms
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%tmp1 = load x86_mmx, x86_mmx* %A		%tmp1 = load x86_mmx, x86_mmx* %A
%tmp3 = load x86_mmx, x86_mmx* %B		%tmp3 = load x86_mmx, x86_mmx* %B
%tmp1a = bitcast x86_mmx %tmp1 to <2 x i32>		%tmp1a = bitcast x86_mmx %tmp1 to <2 x i32>
%tmp3a = bitcast x86_mmx %tmp3 to <2 x i32>		%tmp3a = bitcast x86_mmx %tmp3 to <2 x i32>
▲ Show 20 Lines • Show All 269 Lines • ▼ Show 20 Lines	entry:
tail call void @llvm.x86.mmx.emms( )		tail call void @llvm.x86.mmx.emms( )
ret void		ret void
}		}

define <1 x i64> @test3(<1 x i64>* %a, <1 x i64>* %b, i32 %count) nounwind {		define <1 x i64> @test3(<1 x i64>* %a, <1 x i64>* %b, i32 %count) nounwind {
; X32-LABEL: test3:		; X32-LABEL: test3:
; X32: # %bb.0: # %entry		; X32: # %bb.0: # %entry
; X32-NEXT: pushl %ebp		; X32-NEXT: pushl %ebp
; X32-NEXT: movl %esp, %ebp
; X32-NEXT: pushl %ebx		; X32-NEXT: pushl %ebx
; X32-NEXT: pushl %edi		; X32-NEXT: pushl %edi
; X32-NEXT: pushl %esi		; X32-NEXT: pushl %esi
; X32-NEXT: andl $-8, %esp		; X32-NEXT: cmpl $0, {{[0-9]+}}(%esp)
; X32-NEXT: subl $16, %esp
; X32-NEXT: cmpl $0, 16(%ebp)
; X32-NEXT: je .LBB3_1		; X32-NEXT: je .LBB3_1
; X32-NEXT: # %bb.2: # %bb26.preheader		; X32-NEXT: # %bb.2: # %bb26.preheader
		; X32-NEXT: movl {{[0-9]+}}(%esp), %esi
		; X32-NEXT: movl {{[0-9]+}}(%esp), %edi
; X32-NEXT: xorl %ebx, %ebx		; X32-NEXT: xorl %ebx, %ebx
; X32-NEXT: xorl %eax, %eax		; X32-NEXT: xorl %eax, %eax
; X32-NEXT: xorl %edx, %edx		; X32-NEXT: xorl %edx, %edx
; X32-NEXT: .p2align 4, 0x90		; X32-NEXT: .p2align 4, 0x90
; X32-NEXT: .LBB3_3: # %bb26		; X32-NEXT: .LBB3_3: # %bb26
; X32-NEXT: # =>This Inner Loop Header: Depth=1		; X32-NEXT: # =>This Inner Loop Header: Depth=1
; X32-NEXT: movl 8(%ebp), %ecx		; X32-NEXT: movl (%edi,%ebx,8), %ebp
; X32-NEXT: movl %ecx, %esi		; X32-NEXT: movl 4(%edi,%ebx,8), %ecx
; X32-NEXT: movl (%ecx,%ebx,8), %ecx		; X32-NEXT: addl (%esi,%ebx,8), %ebp
; X32-NEXT: movl 4(%esi,%ebx,8), %esi		; X32-NEXT: adcl 4(%esi,%ebx,8), %ecx
; X32-NEXT: movl 12(%ebp), %edi		; X32-NEXT: addl %ebp, %eax
; X32-NEXT: addl (%edi,%ebx,8), %ecx		; X32-NEXT: adcl %ecx, %edx
; X32-NEXT: adcl 4(%edi,%ebx,8), %esi
; X32-NEXT: addl %eax, %ecx
; X32-NEXT: movl %ecx, (%esp)
; X32-NEXT: adcl %edx, %esi
; X32-NEXT: movl %esi, {{[0-9]+}}(%esp)
; X32-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; X32-NEXT: movd %xmm0, %eax
; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,0,1]
; X32-NEXT: movd %xmm0, %edx
; X32-NEXT: incl %ebx		; X32-NEXT: incl %ebx
; X32-NEXT: cmpl 16(%ebp), %ebx		; X32-NEXT: cmpl {{[0-9]+}}(%esp), %ebx
; X32-NEXT: jb .LBB3_3		; X32-NEXT: jb .LBB3_3
; X32-NEXT: jmp .LBB3_4		; X32-NEXT: jmp .LBB3_4
; X32-NEXT: .LBB3_1:		; X32-NEXT: .LBB3_1:
; X32-NEXT: xorl %eax, %eax		; X32-NEXT: xorl %eax, %eax
; X32-NEXT: xorl %edx, %edx		; X32-NEXT: xorl %edx, %edx
; X32-NEXT: .LBB3_4: # %bb31		; X32-NEXT: .LBB3_4: # %bb31
; X32-NEXT: leal -12(%ebp), %esp
; X32-NEXT: popl %esi		; X32-NEXT: popl %esi
; X32-NEXT: popl %edi		; X32-NEXT: popl %edi
; X32-NEXT: popl %ebx		; X32-NEXT: popl %ebx
; X32-NEXT: popl %ebp		; X32-NEXT: popl %ebp
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: test3:		; X64-LABEL: test3:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
▲ Show 20 Lines • Show All 243 Lines • Show Last 20 Lines

test/CodeGen/X86/mmx-cvt.ll

Show First 20 Lines • Show All 290 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
ret <2 x double> %9		ret <2 x double> %9
}		}

define <4 x float> @sitofp_v2i32_v2f32(<1 x i64>*) nounwind {		define <4 x float> @sitofp_v2i32_v2f32(<1 x i64>*) nounwind {
; X86-LABEL: sitofp_v2i32_v2f32:		; X86-LABEL: sitofp_v2i32_v2f32:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: pushl %ebp		; X86-NEXT: pushl %ebp
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-16, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $32, %esp
; X86-NEXT: movl 8(%ebp), %eax		; X86-NEXT: movl 8(%ebp), %eax
; X86-NEXT: movq (%eax), %mm0		; X86-NEXT: movq (%eax), %mm0
; X86-NEXT: paddd %mm0, %mm0		; X86-NEXT: paddd %mm0, %mm0
; X86-NEXT: movq %mm0, (%esp)		; X86-NEXT: movq %mm0, (%esp)
; X86-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; X86-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; X86-NEXT: cvtdq2ps %xmm0, %xmm0		; X86-NEXT: cvtdq2ps %xmm0, %xmm0
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
▲ Show 20 Lines • Show All 61 Lines • Show Last 20 Lines

test/CodeGen/X86/mulvi32.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE42			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE42
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2

	; PR6399			; PR6399

	define <2 x i32> @_mul2xi32a(<2 x i32>, <2 x i32>) {			define <2 x i32> @_mul2xi32a(<2 x i32>, <2 x i32>) {
	; SSE-LABEL: _mul2xi32a:			; SSE2-LABEL: _mul2xi32a:
	; SSE: # %bb.0:			; SSE2: # %bb.0:
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE-NEXT: psrlq $32, %xmm2			; SSE2-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: pmuludq %xmm1, %xmm2			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE-NEXT: movdqa %xmm1, %xmm3			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE-NEXT: psrlq $32, %xmm3			; SSE2-NEXT: pmuludq %xmm2, %xmm1
	; SSE-NEXT: pmuludq %xmm0, %xmm3			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE-NEXT: paddq %xmm2, %xmm3			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE-NEXT: psllq $32, %xmm3			; SSE2-NEXT: retq
	; SSE-NEXT: pmuludq %xmm1, %xmm0			;
	; SSE-NEXT: paddq %xmm3, %xmm0			; SSE42-LABEL: _mul2xi32a:
	; SSE-NEXT: retq			; SSE42: # %bb.0:
				; SSE42-NEXT: pmulld %xmm1, %xmm0
				; SSE42-NEXT: retq
	;			;
	; AVX-LABEL: _mul2xi32a:			; AVX-LABEL: _mul2xi32a:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%r = mul <2 x i32> %0, %1			%r = mul <2 x i32> %0, %1
	ret <2 x i32> %r			ret <2 x i32> %r
	}			}

	define <2 x i32> @_mul2xi32b(<2 x i32>, <2 x i32>) {			define <2 x i32> @_mul2xi32b(<2 x i32>, <2 x i32>) {
	; SSE2-LABEL: _mul2xi32b:			; SSE-LABEL: _mul2xi32b:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: pmuludq %xmm1, %xmm0			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; SSE-NEXT: retq
	; SSE2-NEXT: retq
	;
	; SSE42-LABEL: _mul2xi32b:
	; SSE42: # %bb.0:
	; SSE42-NEXT: pmuludq %xmm1, %xmm0
	; SSE42-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; SSE42-NEXT: retq
	;			;
	; AVX-LABEL: _mul2xi32b:			; AVX-LABEL: _mul2xi32b:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%factor0 = shufflevector <2 x i32> %0, <2 x i32> undef, <4 x i32> <i32 0, i32 undef, i32 2, i32 undef>			%factor0 = shufflevector <2 x i32> %0, <2 x i32> undef, <4 x i32> <i32 0, i32 undef, i32 2, i32 undef>
	%factor1 = shufflevector <2 x i32> %1, <2 x i32> undef, <4 x i32> <i32 0, i32 undef, i32 2, i32 undef>			%factor1 = shufflevector <2 x i32> %1, <2 x i32> undef, <4 x i32> <i32 0, i32 undef, i32 2, i32 undef>
	%product64 = call <2 x i64> @llvm.x86.sse2.pmulu.dq(<4 x i32> %factor0, <4 x i32> %factor1) readnone			%product64 = call <2 x i64> @llvm.x86.sse2.pmulu.dq(<4 x i32> %factor0, <4 x i32> %factor1) readnone
	%product = bitcast <2 x i64> %product64 to <4 x i32>			%product = bitcast <2 x i64> %product64 to <4 x i32>
	%r = shufflevector <4 x i32> %product, <4 x i32> undef, <2 x i32> <i32 0, i32 4>			%r = shufflevector <4 x i32> %product, <4 x i32> undef, <2 x i32> <i32 0, i32 4>
	ret <2 x i32> %r			ret <2 x i32> %r
	}			}
	▲ Show 20 Lines • Show All 326 Lines • Show Last 20 Lines

test/CodeGen/X86/oddshuffles.ll

Show First 20 Lines • Show All 62 Lines • ▼ Show 20 Lines	; XOP-NEXT: retq
%r = shufflevector <2 x double> %a, <2 x double> %b, <3 x i32> <i32 0, i32 2, i32 1>		%r = shufflevector <2 x double> %a, <2 x double> %b, <3 x i32> <i32 0, i32 2, i32 1>
store <3 x double> %r, <3 x double>* %p		store <3 x double> %r, <3 x double>* %p
ret void		ret void
}		}

define void @v3i32(<2 x i32> %a, <2 x i32> %b, <3 x i32>* %p) nounwind {		define void @v3i32(<2 x i32> %a, <2 x i32> %b, <3 x i32>* %p) nounwind {
; SSE2-LABEL: v3i32:		; SSE2-LABEL: v3i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: movd %xmm2, 8(%rdi)		; SSE2-NEXT: movd %xmm2, 8(%rdi)
; SSE2-NEXT: movq %xmm0, (%rdi)		; SSE2-NEXT: movq %xmm0, (%rdi)
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: v3i32:		; SSE42-LABEL: v3i32:
; SSE42: # %bb.0:		; SSE42: # %bb.0:
; SSE42-NEXT: extractps $2, %xmm0, 8(%rdi)		; SSE42-NEXT: extractps $1, %xmm0, 8(%rdi)
; SSE42-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE42-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE42-NEXT: movlps %xmm0, (%rdi)		; SSE42-NEXT: movlps %xmm0, (%rdi)
; SSE42-NEXT: retq		; SSE42-NEXT: retq
;		;
; AVX-LABEL: v3i32:		; AVX-LABEL: v3i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vunpcklps {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; AVX-NEXT: vunpcklps {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; AVX-NEXT: vextractps $2, %xmm0, 8(%rdi)		; AVX-NEXT: vextractps $1, %xmm0, 8(%rdi)
; AVX-NEXT: vmovlps %xmm1, (%rdi)		; AVX-NEXT: vmovlps %xmm1, (%rdi)
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; XOP-LABEL: v3i32:		; XOP-LABEL: v3i32:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vunpcklps {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; XOP-NEXT: vunpcklps {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; XOP-NEXT: vextractps $2, %xmm0, 8(%rdi)		; XOP-NEXT: vextractps $1, %xmm0, 8(%rdi)
; XOP-NEXT: vmovlps %xmm1, (%rdi)		; XOP-NEXT: vmovlps %xmm1, (%rdi)
; XOP-NEXT: retq		; XOP-NEXT: retq
%r = shufflevector <2 x i32> %a, <2 x i32> %b, <3 x i32> <i32 0, i32 2, i32 1>		%r = shufflevector <2 x i32> %a, <2 x i32> %b, <3 x i32> <i32 0, i32 2, i32 1>
store <3 x i32> %r, <3 x i32>* %p		store <3 x i32> %r, <3 x i32>* %p
ret void		ret void
}		}

define void @v5i16(<4 x i16> %a, <4 x i16> %b, <5 x i16>* %p) nounwind {		define void @v5i16(<4 x i16> %a, <4 x i16> %b, <5 x i16>* %p) nounwind {
▲ Show 20 Lines • Show All 151 Lines • ▼ Show 20 Lines
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,3,1,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,3,1,3]
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,65535,0,65535,0,65535,65535,65535]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,65535,0,65535,0,65535,65535,65535]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,1,0,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,1,0,3]
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,0,2,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,0,2,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,4,7]		; SSE2-NEXT: pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,4,7]
; SSE2-NEXT: pand %xmm2, %xmm1		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pandn %xmm0, %xmm2		; SSE2-NEXT: pandn %xmm0, %xmm2
; SSE2-NEXT: por %xmm1, %xmm2		; SSE2-NEXT: por %xmm1, %xmm2
; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [255,255,255,255,255,255,255,255]
; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: packuswb %xmm0, %xmm0
; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
; SSE2-NEXT: movb %al, 6(%rdi)		; SSE2-NEXT: movb %al, 6(%rdi)
; SSE2-NEXT: movd %xmm0, (%rdi)		; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
; SSE2-NEXT: pextrw $2, %xmm0, %eax		; SSE2-NEXT: packuswb %xmm2, %xmm2
		; SSE2-NEXT: movd %xmm2, (%rdi)
		; SSE2-NEXT: pextrw $2, %xmm2, %eax
; SSE2-NEXT: movw %ax, 4(%rdi)		; SSE2-NEXT: movw %ax, 4(%rdi)
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: v7i8:		; SSE42-LABEL: v7i8:
; SSE42: # %bb.0:		; SSE42: # %bb.0:
; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,3,1,3]		; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,3,1,3]
; SSE42-NEXT: pextrb $0, %xmm1, 6(%rdi)		; SSE42-NEXT: pextrb $0, %xmm1, 6(%rdi)
; SSE42-NEXT: pshufb {{.*#+}} xmm1 = xmm1[8,9,8,9,4,5,8,9,0,1,12,13,0,1,14,15]		; SSE42-NEXT: pshufb {{.*#+}} xmm1 = xmm1[8,9,8,9,4,5,8,9,0,1,12,13,0,1,14,15]
; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5,6,7]		; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5,6,7]
; SSE42-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,2,4,6,8,10,12,u,u,u,u,u,u,u,u,u]		; SSE42-NEXT: movdqa %xmm1, %xmm0
; SSE42-NEXT: pextrw $2, %xmm1, 4(%rdi)		; SSE42-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,u,u,u,u,u,u,u,u,u]
		; SSE42-NEXT: pextrw $2, %xmm0, 4(%rdi)
		; SSE42-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,2,4,6,u,u,u,u,u,u,u,u,u,u,u,u]
; SSE42-NEXT: movd %xmm1, (%rdi)		; SSE42-NEXT: movd %xmm1, (%rdi)
; SSE42-NEXT: retq		; SSE42-NEXT: retq
;		;
; AVX-LABEL: v7i8:		; AVX-LABEL: v7i8:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,3,1,3]		; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,3,1,3]
; AVX-NEXT: vpshufb {{.*#+}} xmm2 = xmm1[8,9,8,9,4,5,8,9,0,1,12,13,0,1,14,15]		; AVX-NEXT: vpshufb {{.*#+}} xmm2 = xmm1[8,9,8,9,4,5,8,9,0,1,12,13,0,1,14,15]
; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5,6,7]		; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5,6,7]
; AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,u,u,u,u,u,u,u,u,u]		; AVX-NEXT: vpshufb {{.*#+}} xmm2 = xmm0[0,2,4,6,8,10,12,u,u,u,u,u,u,u,u,u]
; AVX-NEXT: vpextrb $0, %xmm1, 6(%rdi)		; AVX-NEXT: vpextrb $0, %xmm1, 6(%rdi)
; AVX-NEXT: vpextrw $2, %xmm0, 4(%rdi)		; AVX-NEXT: vpextrw $2, %xmm2, 4(%rdi)
		; AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,u,u,u,u,u,u,u,u,u,u,u,u]
; AVX-NEXT: vmovd %xmm0, (%rdi)		; AVX-NEXT: vmovd %xmm0, (%rdi)
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; XOP-LABEL: v7i8:		; XOP-LABEL: v7i8:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm0[0],xmm1[8],xmm0[12],xmm1[8],xmm0[4],xmm1[12,0,u,u,u,u,u,u,u,u,u]		; XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm0[0,1],xmm1[8,9],xmm0[12,13],xmm1[8,9],xmm0[4,5],xmm1[12,13,0,1,14,15]
		; XOP-NEXT: vpshufb {{.*#+}} xmm2 = xmm0[0,2,4,6,8,10,12,u,u,u,u,u,u,u,u,u]
; XOP-NEXT: vpextrb $0, %xmm1, 6(%rdi)		; XOP-NEXT: vpextrb $0, %xmm1, 6(%rdi)
; XOP-NEXT: vpextrw $2, %xmm0, 4(%rdi)		; XOP-NEXT: vpextrw $2, %xmm2, 4(%rdi)
		; XOP-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,u,u,u,u,u,u,u,u,u,u,u,u]
; XOP-NEXT: vmovd %xmm0, (%rdi)		; XOP-NEXT: vmovd %xmm0, (%rdi)
; XOP-NEXT: retq		; XOP-NEXT: retq
%r = shufflevector <4 x i8> %a, <4 x i8> %b, <7 x i32> <i32 0, i32 6, i32 3, i32 6, i32 1, i32 7, i32 4>		%r = shufflevector <4 x i8> %a, <4 x i8> %b, <7 x i32> <i32 0, i32 6, i32 3, i32 6, i32 1, i32 7, i32 4>
store <7 x i8> %r, <7 x i8>* %p		store <7 x i8> %r, <7 x i8>* %p
ret void		ret void
}		}

define void @v7i16(<4 x i16> %a, <4 x i16> %b, <7 x i16>* %p) nounwind {		define void @v7i16(<4 x i16> %a, <4 x i16> %b, <7 x i16>* %p) nounwind {
▲ Show 20 Lines • Show All 1,462 Lines • Show Last 20 Lines

test/CodeGen/X86/pointer-vector.ll

Show First 20 Lines • Show All 111 Lines • ▼ Show 20 Lines	entry:
%T = bitcast <4 x i8> %G to <4 x i32>		%T = bitcast <4 x i8> %G to <4 x i32>
ret <4 x i32*> %T		ret <4 x i32*> %T
}		}

define <2 x i32> @BITCAST1(<2 x i8>* %p) nounwind {		define <2 x i32> @BITCAST1(<2 x i8>* %p) nounwind {
; CHECK-LABEL: BITCAST1:		; CHECK-LABEL: BITCAST1:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax		; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-NEXT: pmovzxdq {{.*#+}} xmm0 = mem[0],zero,mem[1],zero		; CHECK-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; CHECK-NEXT: retl		; CHECK-NEXT: retl
entry:		entry:
%G = load <2 x i8>, <2 x i8>* %p		%G = load <2 x i8>, <2 x i8>* %p
%T = bitcast <2 x i8> %G to <2 x i32>		%T = bitcast <2 x i8> %G to <2 x i32>
ret <2 x i32*> %T		ret <2 x i32*> %T
}		}

define <4 x i32> @ICMP0(<4 x i8> %p0, <4 x i8> %p1) nounwind {		define <4 x i32> @ICMP0(<4 x i8> %p0, <4 x i8> %p1) nounwind {
Show All 37 Lines

test/CodeGen/X86/ret-mmx.ll

	Show All 27 Lines
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	ret <1 x i64> <i64 1>			ret <1 x i64> <i64 1>
	}			}

	define <2 x i32> @t3() nounwind {			define <2 x i32> @t3() nounwind {
	; CHECK-LABEL: t3:			; CHECK-LABEL: t3:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: movl $1, %eax			; CHECK-NEXT: movl $1, %eax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	ret <2 x i32> <i32 1, i32 0>			ret <2 x i32> <i32 1, i32 0>
	}			}

	define double @t4() nounwind {			define double @t4() nounwind {
	; CHECK-LABEL: t4:			; CHECK-LABEL: t4:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: movl $1, %eax			; CHECK-NEXT: movl $1, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	ret double bitcast (<2 x i32> <i32 1, i32 0> to double)			ret double bitcast (<2 x i32> <i32 1, i32 0> to double)
	}			}

test/CodeGen/X86/sad.ll

	Show First 20 Lines • Show All 1,072 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: .p2align 4, 0x90			; SSE2-NEXT: .p2align 4, 0x90
	; SSE2-NEXT: .LBB3_1: # %vector.body			; SSE2-NEXT: .LBB3_1: # %vector.body
	; SSE2-NEXT: # =>This Inner Loop Header: Depth=1			; SSE2-NEXT: # =>This Inner Loop Header: Depth=1
	; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE2-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE2-NEXT: pand %xmm1, %xmm3			; SSE2-NEXT: pand %xmm1, %xmm3
	; SSE2-NEXT: pand %xmm1, %xmm2			; SSE2-NEXT: pand %xmm1, %xmm2
	; SSE2-NEXT: psadbw %xmm3, %xmm2			; SSE2-NEXT: psadbw %xmm3, %xmm2
	; SSE2-NEXT: paddq %xmm2, %xmm0			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
				; SSE2-NEXT: paddd %xmm2, %xmm0
	; SSE2-NEXT: addq $4, %rax			; SSE2-NEXT: addq $4, %rax
	; SSE2-NEXT: jne .LBB3_1			; SSE2-NEXT: jne .LBB3_1
	; SSE2-NEXT: # %bb.2: # %middle.block			; SSE2-NEXT: # %bb.2: # %middle.block
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; SSE2-NEXT: paddq %xmm0, %xmm1			; SSE2-NEXT: paddd %xmm0, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax			; SSE2-NEXT: movd %xmm1, %eax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX-LABEL: sad_2i8:			; AVX1-LABEL: sad_2i8:
	; AVX: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX1-NEXT: movq $-1024, %rax # imm = 0xFC00
	; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: .p2align 4, 0x90			; AVX1-NEXT: .p2align 4, 0x90
	; AVX-NEXT: .LBB3_1: # %vector.body			; AVX1-NEXT: .LBB3_1: # %vector.body
	; AVX-NEXT: # =>This Inner Loop Header: Depth=1			; AVX1-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX-NEXT: vmovd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; AVX-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; AVX-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0],xmm0[1,2,3,4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0],xmm0[1,2,3,4,5,6,7]
	; AVX-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0],xmm0[1,2,3,4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0],xmm0[1,2,3,4,5,6,7]
	; AVX-NEXT: vpsadbw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsadbw %xmm3, %xmm2, %xmm2
	; AVX-NEXT: vpaddq %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]
	; AVX-NEXT: addq $4, %rax			; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; AVX-NEXT: jne .LBB3_1			; AVX1-NEXT: addq $4, %rax
	; AVX-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: jne .LBB3_1
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX-NEXT: vpaddq %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: vmovd %xmm0, %eax
				; AVX1-NEXT: retq
				;
				; AVX2-LABEL: sad_2i8:
				; AVX2: # %bb.0: # %entry
				; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
				; AVX2-NEXT: movq $-1024, %rax # imm = 0xFC00
				; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
				; AVX2-NEXT: .p2align 4, 0x90
				; AVX2-NEXT: .LBB3_1: # %vector.body
				; AVX2-NEXT: # =>This Inner Loop Header: Depth=1
				; AVX2-NEXT: vmovd {{.*#+}} xmm2 = mem[0],zero,zero,zero
				; AVX2-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero
				; AVX2-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0],xmm0[1,2,3,4,5,6,7]
				; AVX2-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0],xmm0[1,2,3,4,5,6,7]
				; AVX2-NEXT: vpsadbw %xmm3, %xmm2, %xmm2
				; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]
				; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
				; AVX2-NEXT: vpaddd %xmm1, %xmm2, %xmm1
				; AVX2-NEXT: addq $4, %rax
				; AVX2-NEXT: jne .LBB3_1
				; AVX2-NEXT: # %bb.2: # %middle.block
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
				; AVX2-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX2-NEXT: vmovd %xmm0, %eax
				; AVX2-NEXT: vzeroupper
				; AVX2-NEXT: retq
				;
				; AVX512-LABEL: sad_2i8:
				; AVX512: # %bb.0: # %entry
				; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
				; AVX512-NEXT: movq $-1024, %rax # imm = 0xFC00
				; AVX512-NEXT: vpxor %xmm1, %xmm1, %xmm1
				; AVX512-NEXT: .p2align 4, 0x90
				; AVX512-NEXT: .LBB3_1: # %vector.body
				; AVX512-NEXT: # =>This Inner Loop Header: Depth=1
				; AVX512-NEXT: vmovd {{.*#+}} xmm2 = mem[0],zero,zero,zero
				; AVX512-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero
				; AVX512-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0],xmm0[1,2,3,4,5,6,7]
				; AVX512-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0],xmm0[1,2,3,4,5,6,7]
				; AVX512-NEXT: vpsadbw %xmm3, %xmm2, %xmm2
				; AVX512-NEXT: vpmovqd %zmm2, %ymm2
				; AVX512-NEXT: vpaddd %xmm1, %xmm2, %xmm1
				; AVX512-NEXT: addq $4, %rax
				; AVX512-NEXT: jne .LBB3_1
				; AVX512-NEXT: # %bb.2: # %middle.block
				; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
				; AVX512-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX512-NEXT: vmovd %xmm0, %eax
				; AVX512-NEXT: vzeroupper
				; AVX512-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	%vec.phi = phi <2 x i32> [ zeroinitializer, %entry ], [ %10, %vector.body ]			%vec.phi = phi <2 x i32> [ zeroinitializer, %entry ], [ %10, %vector.body ]
	%0 = getelementptr inbounds [1024 x i8], [1024 x i8]* @a, i64 0, i64 %index			%0 = getelementptr inbounds [1024 x i8], [1024 x i8]* @a, i64 0, i64 %index
	%1 = bitcast i8* %0 to <2 x i8>*			%1 = bitcast i8* %0 to <2 x i8>*
	▲ Show 20 Lines • Show All 494 Lines • Show Last 20 Lines

test/CodeGen/X86/shrink_vmul.ll

	Show All 34 Lines
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; X86-SSE-NEXT: movq %xmm1, (%esi,%ecx,4)			; X86-SSE-NEXT: movq %xmm1, (%esi,%ecx,4)
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: .cfi_def_cfa_offset 4			; X86-SSE-NEXT: .cfi_def_cfa_offset 4
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8:			; X86-AVX-LABEL: mul_2xi8:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: pushl %esi			; X86-AVX-NEXT: pushl %edi
	; X86-AVX-NEXT: .cfi_def_cfa_offset 8			; X86-AVX-NEXT: .cfi_def_cfa_offset 8
	; X86-AVX-NEXT: .cfi_offset %esi, -8			; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 12
				; X86-AVX-NEXT: .cfi_offset %esi, -12
				; X86-AVX-NEXT: .cfi_offset %edi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-AVX-NEXT: movl c, %esi			; X86-AVX-NEXT: movl c, %esi
	; X86-AVX-NEXT: vpmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X86-AVX-NEXT: movzbl 1(%edx,%ecx), %edi
				zviUnsubmitted Not Done Reply Inline Actions Two more missed vmovq opportunities zvi: Two more missed vmovq opportunities
	; X86-AVX-NEXT: vpmovzxbq {{.*#+}} xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X86-AVX-NEXT: movzbl (%edx,%ecx), %edx
	; X86-AVX-NEXT: vpmaddwd %xmm0, %xmm1, %xmm0			; X86-AVX-NEXT: vmovd %edx, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X86-AVX-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0
				; X86-AVX-NEXT: movzbl 1(%eax,%ecx), %edx
				; X86-AVX-NEXT: movzbl (%eax,%ecx), %eax
				; X86-AVX-NEXT: vmovd %eax, %xmm1
				; X86-AVX-NEXT: vpinsrd $1, %edx, %xmm1, %xmm1
				; X86-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0
	; X86-AVX-NEXT: vmovq %xmm0, (%esi,%ecx,4)			; X86-AVX-NEXT: vmovq %xmm0, (%esi,%ecx,4)
	; X86-AVX-NEXT: popl %esi			; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: popl %edi
	; X86-AVX-NEXT: .cfi_def_cfa_offset 4			; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8:			; X64-SSE-LABEL: mul_2xi8:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rdx), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rdx), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: movzwl (%rsi,%rdx), %ecx			; X64-SSE-NEXT: movzwl (%rsi,%rdx), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm1			; X64-SSE-NEXT: movd %ecx, %xmm1
	; X64-SSE-NEXT: pxor %xmm2, %xmm2			; X64-SSE-NEXT: pxor %xmm2, %xmm2
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; X64-SSE-NEXT: pmullw %xmm0, %xmm1			; X64-SSE-NEXT: pmullw %xmm0, %xmm1
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; X64-SSE-NEXT: movq %xmm1, (%rax,%rdx,4)			; X64-SSE-NEXT: movq %xmm1, (%rax,%rdx,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8:			; X64-AVX-LABEL: mul_2xi8:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X64-AVX-NEXT: movzbl 1(%rdi,%rdx), %ecx
	; X64-AVX-NEXT: vpmovzxbq {{.*#+}} xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X64-AVX-NEXT: movzbl (%rdi,%rdx), %edi
	; X64-AVX-NEXT: vpmaddwd %xmm0, %xmm1, %xmm0			; X64-AVX-NEXT: vmovd %edi, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
				; X64-AVX-NEXT: movzbl 1(%rsi,%rdx), %ecx
				; X64-AVX-NEXT: movzbl (%rsi,%rdx), %esi
				; X64-AVX-NEXT: vmovd %esi, %xmm1
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm1, %xmm1
				; X64-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rdx,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rdx,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i8>*			%tmp7 = bitcast i8* %tmp6 to <2 x i8>*
	%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1			%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1
	%tmp8 = zext <2 x i8> %wide.load to <2 x i32>			%tmp8 = zext <2 x i8> %wide.load to <2 x i32>
	▲ Show 20 Lines • Show All 880 Lines • ▼ Show 20 Lines
	; X86-SSE-NEXT: psrad $16, %xmm0			; X86-SSE-NEXT: psrad $16, %xmm0
	; X86-SSE-NEXT: movq %xmm0, (%esi,%ecx,4)			; X86-SSE-NEXT: movq %xmm0, (%esi,%ecx,4)
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: .cfi_def_cfa_offset 4			; X86-SSE-NEXT: .cfi_def_cfa_offset 4
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_sext:			; X86-AVX-LABEL: mul_2xi8_sext:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: pushl %esi			; X86-AVX-NEXT: pushl %edi
	; X86-AVX-NEXT: .cfi_def_cfa_offset 8			; X86-AVX-NEXT: .cfi_def_cfa_offset 8
	; X86-AVX-NEXT: .cfi_offset %esi, -8			; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 12
				; X86-AVX-NEXT: .cfi_offset %esi, -12
				; X86-AVX-NEXT: .cfi_offset %edi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-AVX-NEXT: movl c, %esi			; X86-AVX-NEXT: movl c, %esi
	; X86-AVX-NEXT: vpmovsxbq (%edx,%ecx), %xmm0			; X86-AVX-NEXT: movsbl 1(%edx,%ecx), %edi
	; X86-AVX-NEXT: vpmovsxbq (%eax,%ecx), %xmm1			; X86-AVX-NEXT: movsbl (%edx,%ecx), %edx
				; X86-AVX-NEXT: vmovd %edx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0
				; X86-AVX-NEXT: movsbl 1(%eax,%ecx), %edx
				; X86-AVX-NEXT: movsbl (%eax,%ecx), %eax
				; X86-AVX-NEXT: vmovd %eax, %xmm1
				; X86-AVX-NEXT: vpinsrd $1, %edx, %xmm1, %xmm1
	; X86-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0			; X86-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%esi,%ecx,4)			; X86-AVX-NEXT: vmovq %xmm0, (%esi,%ecx,4)
	; X86-AVX-NEXT: popl %esi			; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: popl %edi
	; X86-AVX-NEXT: .cfi_def_cfa_offset 4			; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8_sext:			; X64-SSE-LABEL: mul_2xi8_sext:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rdx), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rdx), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: movzwl (%rsi,%rdx), %ecx			; X64-SSE-NEXT: movzwl (%rsi,%rdx), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm1			; X64-SSE-NEXT: movd %ecx, %xmm1
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X64-SSE-NEXT: psraw $8, %xmm0			; X64-SSE-NEXT: psraw $8, %xmm0
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X64-SSE-NEXT: psraw $8, %xmm1			; X64-SSE-NEXT: psraw $8, %xmm1
	; X64-SSE-NEXT: pmullw %xmm0, %xmm1			; X64-SSE-NEXT: pmullw %xmm0, %xmm1
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X64-SSE-NEXT: psrad $16, %xmm0			; X64-SSE-NEXT: psrad $16, %xmm0
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rdx,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rdx,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_sext:			; X64-AVX-LABEL: mul_2xi8_sext:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovsxbq (%rdi,%rdx), %xmm0			; X64-AVX-NEXT: movsbl 1(%rdi,%rdx), %ecx
	; X64-AVX-NEXT: vpmovsxbq (%rsi,%rdx), %xmm1			; X64-AVX-NEXT: movsbl (%rdi,%rdx), %edi
				; X64-AVX-NEXT: vmovd %edi, %xmm0
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
				; X64-AVX-NEXT: movsbl 1(%rsi,%rdx), %ecx
				; X64-AVX-NEXT: movsbl (%rsi,%rdx), %esi
				; X64-AVX-NEXT: vmovd %esi, %xmm1
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm1, %xmm1
	; X64-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0			; X64-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rdx,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rdx,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i8>*			%tmp7 = bitcast i8* %tmp6 to <2 x i8>*
	%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1			%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1
	%tmp8 = sext <2 x i8> %wide.load to <2 x i32>			%tmp8 = sext <2 x i8> %wide.load to <2 x i32>
	Show All 38 Lines
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X86-SSE-NEXT: movq %xmm0, (%esi,%ecx,4)			; X86-SSE-NEXT: movq %xmm0, (%esi,%ecx,4)
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: .cfi_def_cfa_offset 4			; X86-SSE-NEXT: .cfi_def_cfa_offset 4
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_sext_zext:			; X86-AVX-LABEL: mul_2xi8_sext_zext:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: pushl %esi			; X86-AVX-NEXT: pushl %edi
	; X86-AVX-NEXT: .cfi_def_cfa_offset 8			; X86-AVX-NEXT: .cfi_def_cfa_offset 8
	; X86-AVX-NEXT: .cfi_offset %esi, -8			; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 12
				; X86-AVX-NEXT: .cfi_offset %esi, -12
				; X86-AVX-NEXT: .cfi_offset %edi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-AVX-NEXT: movl c, %esi			; X86-AVX-NEXT: movl c, %esi
	; X86-AVX-NEXT: vpmovsxbq (%edx,%ecx), %xmm0			; X86-AVX-NEXT: movsbl 1(%edx,%ecx), %edi
	; X86-AVX-NEXT: vpmovzxbq {{.*#+}} xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X86-AVX-NEXT: movsbl (%edx,%ecx), %edx
				; X86-AVX-NEXT: vmovd %edx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0
				; X86-AVX-NEXT: movzbl 1(%eax,%ecx), %edx
				; X86-AVX-NEXT: movzbl (%eax,%ecx), %eax
				; X86-AVX-NEXT: vmovd %eax, %xmm1
				; X86-AVX-NEXT: vpinsrd $1, %edx, %xmm1, %xmm1
	; X86-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0			; X86-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%esi,%ecx,4)			; X86-AVX-NEXT: vmovq %xmm0, (%esi,%ecx,4)
	; X86-AVX-NEXT: popl %esi			; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: popl %edi
	; X86-AVX-NEXT: .cfi_def_cfa_offset 4			; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8_sext_zext:			; X64-SSE-LABEL: mul_2xi8_sext_zext:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rdx), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rdx), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: movzwl (%rsi,%rdx), %ecx			; X64-SSE-NEXT: movzwl (%rsi,%rdx), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm1			; X64-SSE-NEXT: movd %ecx, %xmm1
	; X64-SSE-NEXT: pxor %xmm2, %xmm2			; X64-SSE-NEXT: pxor %xmm2, %xmm2
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X64-SSE-NEXT: psraw $8, %xmm0			; X64-SSE-NEXT: psraw $8, %xmm0
	; X64-SSE-NEXT: movdqa %xmm1, %xmm2			; X64-SSE-NEXT: movdqa %xmm1, %xmm2
	; X64-SSE-NEXT: pmulhw %xmm0, %xmm2			; X64-SSE-NEXT: pmulhw %xmm0, %xmm2
	; X64-SSE-NEXT: pmullw %xmm1, %xmm0			; X64-SSE-NEXT: pmullw %xmm1, %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rdx,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rdx,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_sext_zext:			; X64-AVX-LABEL: mul_2xi8_sext_zext:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovsxbq (%rdi,%rdx), %xmm0			; X64-AVX-NEXT: movsbl 1(%rdi,%rdx), %ecx
	; X64-AVX-NEXT: vpmovzxbq {{.*#+}} xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X64-AVX-NEXT: movsbl (%rdi,%rdx), %edi
				; X64-AVX-NEXT: vmovd %edi, %xmm0
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
				; X64-AVX-NEXT: movzbl 1(%rsi,%rdx), %ecx
				; X64-AVX-NEXT: movzbl (%rsi,%rdx), %esi
				; X64-AVX-NEXT: vmovd %esi, %xmm1
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm1, %xmm1
	; X64-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0			; X64-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rdx,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rdx,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i8>*			%tmp7 = bitcast i8* %tmp6 to <2 x i8>*
	%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1			%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1
	%tmp8 = sext <2 x i8> %wide.load to <2 x i32>			%tmp8 = sext <2 x i8> %wide.load to <2 x i32>
	Show All 32 Lines
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; X86-SSE-NEXT: movq %xmm1, (%esi,%ecx,4)			; X86-SSE-NEXT: movq %xmm1, (%esi,%ecx,4)
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: .cfi_def_cfa_offset 4			; X86-SSE-NEXT: .cfi_def_cfa_offset 4
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi16_sext:			; X86-AVX-LABEL: mul_2xi16_sext:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: pushl %esi			; X86-AVX-NEXT: pushl %edi
	; X86-AVX-NEXT: .cfi_def_cfa_offset 8			; X86-AVX-NEXT: .cfi_def_cfa_offset 8
	; X86-AVX-NEXT: .cfi_offset %esi, -8			; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 12
				; X86-AVX-NEXT: .cfi_offset %esi, -12
				; X86-AVX-NEXT: .cfi_offset %edi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-AVX-NEXT: movl c, %esi			; X86-AVX-NEXT: movl c, %esi
	; X86-AVX-NEXT: vpmovsxwq (%edx,%ecx), %xmm0			; X86-AVX-NEXT: movswl 2(%edx,%ecx), %edi
	; X86-AVX-NEXT: vpmovsxwq (%eax,%ecx), %xmm1			; X86-AVX-NEXT: movswl (%edx,%ecx), %edx
				; X86-AVX-NEXT: vmovd %edx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0
				; X86-AVX-NEXT: movswl 2(%eax,%ecx), %edx
				; X86-AVX-NEXT: movswl (%eax,%ecx), %eax
				; X86-AVX-NEXT: vmovd %eax, %xmm1
				; X86-AVX-NEXT: vpinsrd $1, %edx, %xmm1, %xmm1
	; X86-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0			; X86-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%esi,%ecx,4)			; X86-AVX-NEXT: vmovq %xmm0, (%esi,%ecx,4)
	; X86-AVX-NEXT: popl %esi			; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: popl %edi
	; X86-AVX-NEXT: .cfi_def_cfa_offset 4			; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi16_sext:			; X64-SSE-LABEL: mul_2xi16_sext:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: movdqa %xmm1, %xmm2			; X64-SSE-NEXT: movdqa %xmm1, %xmm2
	; X64-SSE-NEXT: pmulhw %xmm0, %xmm2			; X64-SSE-NEXT: pmulhw %xmm0, %xmm2
	; X64-SSE-NEXT: pmullw %xmm0, %xmm1			; X64-SSE-NEXT: pmullw %xmm0, %xmm1
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; X64-SSE-NEXT: movq %xmm1, (%rax,%rdx,4)			; X64-SSE-NEXT: movq %xmm1, (%rax,%rdx,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi16_sext:			; X64-AVX-LABEL: mul_2xi16_sext:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovsxwq (%rdi,%rdx), %xmm0			; X64-AVX-NEXT: movswl 2(%rdi,%rdx), %ecx
	; X64-AVX-NEXT: vpmovsxwq (%rsi,%rdx), %xmm1			; X64-AVX-NEXT: movswl (%rdi,%rdx), %edi
				; X64-AVX-NEXT: vmovd %edi, %xmm0
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
				; X64-AVX-NEXT: movswl 2(%rsi,%rdx), %ecx
				; X64-AVX-NEXT: movswl (%rsi,%rdx), %esi
				; X64-AVX-NEXT: vmovd %esi, %xmm1
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm1, %xmm1
	; X64-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0			; X64-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rdx,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rdx,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i16>*			%tmp7 = bitcast i8* %tmp6 to <2 x i16>*
	%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1			%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1
	%tmp8 = sext <2 x i16> %wide.load to <2 x i32>			%tmp8 = sext <2 x i16> %wide.load to <2 x i32>
	Show All 22 Lines
	; X86-SSE-NEXT: .cfi_offset %esi, -8			; X86-SSE-NEXT: .cfi_offset %esi, -8
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-SSE-NEXT: movl c, %esi			; X86-SSE-NEXT: movl c, %esi
	; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]			; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
	; X86-SSE-NEXT: psrad $16, %xmm0			; X86-SSE-NEXT: psrad $16, %xmm0
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X86-SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: pxor %xmm2, %xmm2			; X86-SSE-NEXT: pxor %xmm2, %xmm2
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; X86-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; X86-SSE-NEXT: pmuludq %xmm0, %xmm1			; X86-SSE-NEXT: pmuludq %xmm0, %xmm1
	; X86-SSE-NEXT: pmuludq %xmm0, %xmm2			; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; X86-SSE-NEXT: psllq $32, %xmm2			; X86-SSE-NEXT: pmuludq %xmm2, %xmm0
	; X86-SSE-NEXT: paddq %xmm1, %xmm2			; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]			; X86-SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X86-SSE-NEXT: movq %xmm0, (%esi,%ecx,4)			; X86-SSE-NEXT: movq %xmm1, (%esi,%ecx,4)
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: .cfi_def_cfa_offset 4			; X86-SSE-NEXT: .cfi_def_cfa_offset 4
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi16_sext_zext:			; X86-AVX-LABEL: mul_2xi16_sext_zext:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: pushl %esi			; X86-AVX-NEXT: pushl %edi
	; X86-AVX-NEXT: .cfi_def_cfa_offset 8			; X86-AVX-NEXT: .cfi_def_cfa_offset 8
	; X86-AVX-NEXT: .cfi_offset %esi, -8			; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 12
				; X86-AVX-NEXT: .cfi_offset %esi, -12
				; X86-AVX-NEXT: .cfi_offset %edi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-AVX-NEXT: movl c, %esi			; X86-AVX-NEXT: movl c, %esi
	; X86-AVX-NEXT: vpmovsxwq (%edx,%ecx), %xmm0			; X86-AVX-NEXT: movswl 2(%edx,%ecx), %edi
				; X86-AVX-NEXT: movswl (%edx,%ecx), %edx
				; X86-AVX-NEXT: vmovd %edx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0
	; X86-AVX-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-AVX-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X86-AVX-NEXT: vpmovzxwd {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero			; X86-AVX-NEXT: vpmovzxwd {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; X86-AVX-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
	; X86-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0			; X86-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%esi,%ecx,4)			; X86-AVX-NEXT: vmovq %xmm0, (%esi,%ecx,4)
	; X86-AVX-NEXT: popl %esi			; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: popl %edi
	; X86-AVX-NEXT: .cfi_def_cfa_offset 4			; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi16_sext_zext:			; X64-SSE-LABEL: mul_2xi16_sext_zext:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]			; X64-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
	; X64-SSE-NEXT: psrad $16, %xmm0			; X64-SSE-NEXT: psrad $16, %xmm0
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X64-SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: pxor %xmm2, %xmm2			; X64-SSE-NEXT: pxor %xmm2, %xmm2
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,1,3]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; X64-SSE-NEXT: pmuludq %xmm0, %xmm1			; X64-SSE-NEXT: pmuludq %xmm0, %xmm1
	; X64-SSE-NEXT: pmuludq %xmm0, %xmm2			; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; X64-SSE-NEXT: psllq $32, %xmm2			; X64-SSE-NEXT: pmuludq %xmm2, %xmm0
	; X64-SSE-NEXT: paddq %xmm1, %xmm2			; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]			; X64-SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rdx,4)			; X64-SSE-NEXT: movq %xmm1, (%rax,%rdx,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi16_sext_zext:			; X64-AVX-LABEL: mul_2xi16_sext_zext:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovsxwq (%rdi,%rdx), %xmm0			; X64-AVX-NEXT: movswl 2(%rdi,%rdx), %ecx
				; X64-AVX-NEXT: movswl (%rdi,%rdx), %edi
				; X64-AVX-NEXT: vmovd %edi, %xmm0
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; X64-AVX-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-AVX-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-AVX-NEXT: vpmovzxwd {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero			; X64-AVX-NEXT: vpmovzxwd {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; X64-AVX-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
	; X64-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0			; X64-AVX-NEXT: vpmulld %xmm0, %xmm1, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rdx,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rdx,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i16>*			%tmp7 = bitcast i8* %tmp6 to <2 x i16>*
	%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1			%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1
	%tmp8 = sext <2 x i16> %wide.load to <2 x i32>			%tmp8 = sext <2 x i16> %wide.load to <2 x i32>
	▲ Show 20 Lines • Show All 194 Lines • ▼ Show 20 Lines
	; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X86-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; X86-SSE-NEXT: pmullw {{\.LCPI.*}}, %xmm0			; X86-SSE-NEXT: pmullw {{\.LCPI.*}}, %xmm0
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_varconst1:			; X86-AVX-LABEL: mul_2xi8_varconst1:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
				; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: .cfi_offset %esi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vpmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X86-AVX-NEXT: movzbl 1(%ecx,%eax), %esi
				; X86-AVX-NEXT: movzbl (%ecx,%eax), %ecx
				; X86-AVX-NEXT: vmovd %ecx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %esi, %xmm0, %xmm0
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
				; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8_varconst1:			; X64-SSE-LABEL: mul_2xi8_varconst1:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: pxor %xmm1, %xmm1			; X64-SSE-NEXT: pxor %xmm1, %xmm1
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; X64-SSE-NEXT: pmullw {{.*}}(%rip), %xmm0			; X64-SSE-NEXT: pmullw {{.*}}(%rip), %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_varconst1:			; X64-AVX-LABEL: mul_2xi8_varconst1:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X64-AVX-NEXT: movzbl 1(%rdi,%rsi), %ecx
	; X64-AVX-NEXT: movl $255, %ecx			; X64-AVX-NEXT: movzbl (%rdi,%rsi), %edx
	; X64-AVX-NEXT: vmovq %rcx, %xmm1			; X64-AVX-NEXT: vmovd %edx, %xmm0
	; X64-AVX-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]			; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; X64-AVX-NEXT: vpmaddwd %xmm1, %xmm0, %xmm0			; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i8>*			%tmp7 = bitcast i8* %tmp6 to <2 x i8>*
	%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1			%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1
	%tmp8 = zext <2 x i8> %wide.load to <2 x i32>			%tmp8 = zext <2 x i8> %wide.load to <2 x i32>
	Show All 22 Lines
	; X86-SSE-NEXT: pmullw {{\.LCPI.*}}, %xmm0			; X86-SSE-NEXT: pmullw {{\.LCPI.*}}, %xmm0
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; X86-SSE-NEXT: psrad $16, %xmm0			; X86-SSE-NEXT: psrad $16, %xmm0
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_varconst2:			; X86-AVX-LABEL: mul_2xi8_varconst2:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
				; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: .cfi_offset %esi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vpmovsxbq (%ecx,%eax), %xmm0			; X86-AVX-NEXT: movsbl 1(%ecx,%eax), %esi
				; X86-AVX-NEXT: movsbl (%ecx,%eax), %ecx
				; X86-AVX-NEXT: vmovd %ecx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %esi, %xmm0, %xmm0
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
				; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8_varconst2:			; X64-SSE-LABEL: mul_2xi8_varconst2:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X64-SSE-NEXT: psraw $8, %xmm0			; X64-SSE-NEXT: psraw $8, %xmm0
	; X64-SSE-NEXT: pmullw {{.*}}(%rip), %xmm0			; X64-SSE-NEXT: pmullw {{.*}}(%rip), %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; X64-SSE-NEXT: psrad $16, %xmm0			; X64-SSE-NEXT: psrad $16, %xmm0
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_varconst2:			; X64-AVX-LABEL: mul_2xi8_varconst2:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovsxbq (%rdi,%rsi), %xmm0			; X64-AVX-NEXT: movsbl 1(%rdi,%rsi), %ecx
				; X64-AVX-NEXT: movsbl (%rdi,%rsi), %edx
				; X64-AVX-NEXT: vmovd %edx, %xmm0
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i8>*			%tmp7 = bitcast i8* %tmp6 to <2 x i8>*
	%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1			%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1
	%tmp8 = sext <2 x i8> %wide.load to <2 x i32>			%tmp8 = sext <2 x i8> %wide.load to <2 x i32>
	Show All 24 Lines
	; X86-SSE-NEXT: pmulhw %xmm1, %xmm2			; X86-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X86-SSE-NEXT: pmullw %xmm1, %xmm0			; X86-SSE-NEXT: pmullw %xmm1, %xmm0
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_varconst3:			; X86-AVX-LABEL: mul_2xi8_varconst3:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
				; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: .cfi_offset %esi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vpmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X86-AVX-NEXT: movzbl 1(%ecx,%eax), %esi
				; X86-AVX-NEXT: movzbl (%ecx,%eax), %ecx
				; X86-AVX-NEXT: vmovd %ecx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %esi, %xmm0, %xmm0
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
				; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8_varconst3:			; X64-SSE-LABEL: mul_2xi8_varconst3:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: pxor %xmm1, %xmm1			; X64-SSE-NEXT: pxor %xmm1, %xmm1
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <0,256,u,u,u,u,u,u>			; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <0,256,u,u,u,u,u,u>
	; X64-SSE-NEXT: movdqa %xmm0, %xmm2			; X64-SSE-NEXT: movdqa %xmm0, %xmm2
	; X64-SSE-NEXT: pmulhw %xmm1, %xmm2			; X64-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X64-SSE-NEXT: pmullw %xmm1, %xmm0			; X64-SSE-NEXT: pmullw %xmm1, %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_varconst3:			; X64-AVX-LABEL: mul_2xi8_varconst3:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X64-AVX-NEXT: movzbl 1(%rdi,%rsi), %ecx
	; X64-AVX-NEXT: movl $256, %ecx # imm = 0x100			; X64-AVX-NEXT: movzbl (%rdi,%rsi), %edx
	; X64-AVX-NEXT: vmovq %rcx, %xmm1			; X64-AVX-NEXT: vmovd %edx, %xmm0
	; X64-AVX-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]			; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; X64-AVX-NEXT: vpmaddwd %xmm1, %xmm0, %xmm0			; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i8>*			%tmp7 = bitcast i8* %tmp6 to <2 x i8>*
	%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1			%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1
	%tmp8 = zext <2 x i8> %wide.load to <2 x i32>			%tmp8 = zext <2 x i8> %wide.load to <2 x i32>
	Show All 24 Lines
	; X86-SSE-NEXT: pmulhw %xmm1, %xmm2			; X86-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X86-SSE-NEXT: pmullw %xmm1, %xmm0			; X86-SSE-NEXT: pmullw %xmm1, %xmm0
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_varconst4:			; X86-AVX-LABEL: mul_2xi8_varconst4:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
				; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: .cfi_offset %esi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vpmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X86-AVX-NEXT: movzbl 1(%ecx,%eax), %esi
				; X86-AVX-NEXT: movzbl (%ecx,%eax), %ecx
				; X86-AVX-NEXT: vmovd %ecx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %esi, %xmm0, %xmm0
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
				; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8_varconst4:			; X64-SSE-LABEL: mul_2xi8_varconst4:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: pxor %xmm1, %xmm1			; X64-SSE-NEXT: pxor %xmm1, %xmm1
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <65535,255,u,u,u,u,u,u>			; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <65535,255,u,u,u,u,u,u>
	; X64-SSE-NEXT: movdqa %xmm0, %xmm2			; X64-SSE-NEXT: movdqa %xmm0, %xmm2
	; X64-SSE-NEXT: pmulhw %xmm1, %xmm2			; X64-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X64-SSE-NEXT: pmullw %xmm1, %xmm0			; X64-SSE-NEXT: pmullw %xmm1, %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_varconst4:			; X64-AVX-LABEL: mul_2xi8_varconst4:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; X64-AVX-NEXT: movzbl 1(%rdi,%rsi), %ecx
				; X64-AVX-NEXT: movzbl (%rdi,%rsi), %edx
				; X64-AVX-NEXT: vmovd %edx, %xmm0
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i8>*			%tmp7 = bitcast i8* %tmp6 to <2 x i8>*
	%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1			%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1
	%tmp8 = zext <2 x i8> %wide.load to <2 x i32>			%tmp8 = zext <2 x i8> %wide.load to <2 x i32>
	Show All 24 Lines
	; X86-SSE-NEXT: pmulhw %xmm1, %xmm2			; X86-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X86-SSE-NEXT: pmullw %xmm1, %xmm0			; X86-SSE-NEXT: pmullw %xmm1, %xmm0
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_varconst5:			; X86-AVX-LABEL: mul_2xi8_varconst5:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
				; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: .cfi_offset %esi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vpmovsxbq (%ecx,%eax), %xmm0			; X86-AVX-NEXT: movsbl 1(%ecx,%eax), %esi
				; X86-AVX-NEXT: movsbl (%ecx,%eax), %ecx
				; X86-AVX-NEXT: vmovd %ecx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %esi, %xmm0, %xmm0
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
				; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8_varconst5:			; X64-SSE-LABEL: mul_2xi8_varconst5:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X64-SSE-NEXT: psraw $8, %xmm0			; X64-SSE-NEXT: psraw $8, %xmm0
	; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <65407,127,u,u,u,u,u,u>			; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <65407,127,u,u,u,u,u,u>
	; X64-SSE-NEXT: movdqa %xmm0, %xmm2			; X64-SSE-NEXT: movdqa %xmm0, %xmm2
	; X64-SSE-NEXT: pmulhw %xmm1, %xmm2			; X64-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X64-SSE-NEXT: pmullw %xmm1, %xmm0			; X64-SSE-NEXT: pmullw %xmm1, %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_varconst5:			; X64-AVX-LABEL: mul_2xi8_varconst5:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovsxbq (%rdi,%rsi), %xmm0			; X64-AVX-NEXT: movsbl 1(%rdi,%rsi), %ecx
				; X64-AVX-NEXT: movsbl (%rdi,%rsi), %edx
				; X64-AVX-NEXT: vmovd %edx, %xmm0
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i8>*			%tmp7 = bitcast i8* %tmp6 to <2 x i8>*
	%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1			%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1
	%tmp8 = sext <2 x i8> %wide.load to <2 x i32>			%tmp8 = sext <2 x i8> %wide.load to <2 x i32>
	Show All 24 Lines
	; X86-SSE-NEXT: pmulhw %xmm1, %xmm2			; X86-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X86-SSE-NEXT: pmullw %xmm1, %xmm0			; X86-SSE-NEXT: pmullw %xmm1, %xmm0
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi8_varconst6:			; X86-AVX-LABEL: mul_2xi8_varconst6:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
				; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: .cfi_offset %esi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vpmovsxbq (%ecx,%eax), %xmm0			; X86-AVX-NEXT: movsbl 1(%ecx,%eax), %esi
				; X86-AVX-NEXT: movsbl (%ecx,%eax), %ecx
				; X86-AVX-NEXT: vmovd %ecx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %esi, %xmm0, %xmm0
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
				; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi8_varconst6:			; X64-SSE-LABEL: mul_2xi8_varconst6:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx			; X64-SSE-NEXT: movzwl (%rdi,%rsi), %ecx
	; X64-SSE-NEXT: movd %ecx, %xmm0			; X64-SSE-NEXT: movd %ecx, %xmm0
	; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X64-SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X64-SSE-NEXT: psraw $8, %xmm0			; X64-SSE-NEXT: psraw $8, %xmm0
	; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <65408,128,u,u,u,u,u,u>			; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <65408,128,u,u,u,u,u,u>
	; X64-SSE-NEXT: movdqa %xmm0, %xmm2			; X64-SSE-NEXT: movdqa %xmm0, %xmm2
	; X64-SSE-NEXT: pmulhw %xmm1, %xmm2			; X64-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X64-SSE-NEXT: pmullw %xmm1, %xmm0			; X64-SSE-NEXT: pmullw %xmm1, %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi8_varconst6:			; X64-AVX-LABEL: mul_2xi8_varconst6:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovsxbq (%rdi,%rsi), %xmm0			; X64-AVX-NEXT: movsbl 1(%rdi,%rsi), %ecx
				; X64-AVX-NEXT: movsbl (%rdi,%rsi), %edx
				; X64-AVX-NEXT: vmovd %edx, %xmm0
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i8>*			%tmp7 = bitcast i8* %tmp6 to <2 x i8>*
	%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1			%wide.load = load <2 x i8>, <2 x i8>* %tmp7, align 1
	%tmp8 = sext <2 x i8> %wide.load to <2 x i32>			%tmp8 = sext <2 x i8> %wide.load to <2 x i32>
	Show All 26 Lines
	;			;
	; X86-AVX-LABEL: mul_2xi16_varconst1:			; X86-AVX-LABEL: mul_2xi16_varconst1:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; X86-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; X86-AVX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi16_varconst1:			; X64-SSE-LABEL: mul_2xi16_varconst1:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <0,65535,u,u,u,u,u,u>			; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <0,65535,u,u,u,u,u,u>
	; X64-SSE-NEXT: movdqa %xmm0, %xmm2			; X64-SSE-NEXT: movdqa %xmm0, %xmm2
	; X64-SSE-NEXT: pmulhuw %xmm1, %xmm2			; X64-SSE-NEXT: pmulhuw %xmm1, %xmm2
	; X64-SSE-NEXT: pmullw %xmm1, %xmm0			; X64-SSE-NEXT: pmullw %xmm1, %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi16_varconst1:			; X64-AVX-LABEL: mul_2xi16_varconst1:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; X64-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; X64-AVX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero			; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: movl $65535, %ecx # imm = 0xFFFF
	; X64-AVX-NEXT: vmovq %rcx, %xmm1
	; X64-AVX-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]
	; X64-AVX-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i16>*			%tmp7 = bitcast i8* %tmp6 to <2 x i16>*
	%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1			%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1
	%tmp8 = zext <2 x i16> %wide.load to <2 x i32>			%tmp8 = zext <2 x i16> %wide.load to <2 x i32>
	Show All 21 Lines
	; X86-SSE-NEXT: pmulhw %xmm1, %xmm2			; X86-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X86-SSE-NEXT: pmullw %xmm1, %xmm0			; X86-SSE-NEXT: pmullw %xmm1, %xmm0
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi16_varconst2:			; X86-AVX-LABEL: mul_2xi16_varconst2:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
				; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: .cfi_offset %esi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vpmovsxwq (%ecx,%eax), %xmm0			; X86-AVX-NEXT: movswl 2(%ecx,%eax), %esi
				; X86-AVX-NEXT: movswl (%ecx,%eax), %ecx
				; X86-AVX-NEXT: vmovd %ecx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %esi, %xmm0, %xmm0
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
				; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi16_varconst2:			; X64-SSE-LABEL: mul_2xi16_varconst2:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <32768,32767,u,u,u,u,u,u>			; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <32768,32767,u,u,u,u,u,u>
	; X64-SSE-NEXT: movdqa %xmm0, %xmm2			; X64-SSE-NEXT: movdqa %xmm0, %xmm2
	; X64-SSE-NEXT: pmulhw %xmm1, %xmm2			; X64-SSE-NEXT: pmulhw %xmm1, %xmm2
	; X64-SSE-NEXT: pmullw %xmm1, %xmm0			; X64-SSE-NEXT: pmullw %xmm1, %xmm0
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi16_varconst2:			; X64-AVX-LABEL: mul_2xi16_varconst2:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovsxwq (%rdi,%rsi), %xmm0			; X64-AVX-NEXT: movswl 2(%rdi,%rsi), %ecx
				; X64-AVX-NEXT: movswl (%rdi,%rsi), %edx
				; X64-AVX-NEXT: vmovd %edx, %xmm0
				; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i16>*			%tmp7 = bitcast i8* %tmp6 to <2 x i16>*
	%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1			%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1
	%tmp8 = sext <2 x i16> %wide.load to <2 x i32>			%tmp8 = sext <2 x i16> %wide.load to <2 x i32>
	Show All 13 Lines
	; X86-SSE-LABEL: mul_2xi16_varconst3:			; X86-SSE-LABEL: mul_2xi16_varconst3:
	; X86-SSE: # %bb.0: # %entry			; X86-SSE: # %bb.0: # %entry
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-SSE-NEXT: movl c, %edx			; X86-SSE-NEXT: movl c, %edx
	; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: pxor %xmm1, %xmm1			; X86-SSE-NEXT: pxor %xmm1, %xmm1
	; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X86-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X86-SSE-NEXT: movdqa {{.*#+}} xmm1 = <0,65536,u,u>
	; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = <0,u,65536,u>			; X86-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
				; X86-SSE-NEXT: pmuludq %xmm1, %xmm0
				; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; X86-SSE-NEXT: pmuludq %xmm2, %xmm1			; X86-SSE-NEXT: pmuludq %xmm2, %xmm1
	; X86-SSE-NEXT: movdqa %xmm2, %xmm3			; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; X86-SSE-NEXT: psrlq $32, %xmm3			; X86-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X86-SSE-NEXT: pmuludq %xmm0, %xmm3
	; X86-SSE-NEXT: paddq %xmm1, %xmm3
	; X86-SSE-NEXT: psllq $32, %xmm3
	; X86-SSE-NEXT: pmuludq %xmm2, %xmm0
	; X86-SSE-NEXT: paddq %xmm3, %xmm0
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi16_varconst3:			; X86-AVX-LABEL: mul_2xi16_varconst3:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; X86-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; X86-AVX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi16_varconst3:			; X64-SSE-LABEL: mul_2xi16_varconst3:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: pxor %xmm1, %xmm1			; X64-SSE-NEXT: pxor %xmm1, %xmm1
	; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; X64-SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <0,65536,u,u>
	; X64-SSE-NEXT: movl $65536, %ecx # imm = 0x10000			; X64-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; X64-SSE-NEXT: movq %rcx, %xmm2			; X64-SSE-NEXT: pmuludq %xmm1, %xmm0
	; X64-SSE-NEXT: pslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; X64-SSE-NEXT: pmuludq %xmm2, %xmm0			; X64-SSE-NEXT: pmuludq %xmm2, %xmm1
	; X64-SSE-NEXT: pmuludq %xmm1, %xmm2			; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; X64-SSE-NEXT: psllq $32, %xmm2			; X64-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X64-SSE-NEXT: paddq %xmm0, %xmm2
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi16_varconst3:			; X64-AVX-LABEL: mul_2xi16_varconst3:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; X64-AVX-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; X64-AVX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero			; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: movl $65536, %ecx # imm = 0x10000
	; X64-AVX-NEXT: vmovq %rcx, %xmm1
	; X64-AVX-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]
	; X64-AVX-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i16>*			%tmp7 = bitcast i8* %tmp6 to <2 x i16>*
	%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1			%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1
	%tmp8 = zext <2 x i16> %wide.load to <2 x i32>			%tmp8 = zext <2 x i16> %wide.load to <2 x i32>
	Show All 13 Lines
	; X86-SSE-LABEL: mul_2xi16_varconst4:			; X86-SSE-LABEL: mul_2xi16_varconst4:
	; X86-SSE: # %bb.0: # %entry			; X86-SSE: # %bb.0: # %entry
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-SSE-NEXT: movl c, %edx			; X86-SSE-NEXT: movl c, %edx
	; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]			; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
	; X86-SSE-NEXT: psrad $16, %xmm0			; X86-SSE-NEXT: psrad $16, %xmm0
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X86-SSE-NEXT: movdqa {{.*#+}} xmm1 = <0,32768,u,u>
	; X86-SSE-NEXT: movdqa {{.*#+}} xmm1 = <0,u,32768,u>			; X86-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; X86-SSE-NEXT: pxor %xmm2, %xmm2
	; X86-SSE-NEXT: pmuludq %xmm1, %xmm2
	; X86-SSE-NEXT: movdqa %xmm1, %xmm3
	; X86-SSE-NEXT: psrlq $32, %xmm3
	; X86-SSE-NEXT: pmuludq %xmm0, %xmm3
	; X86-SSE-NEXT: paddq %xmm2, %xmm3
	; X86-SSE-NEXT: psllq $32, %xmm3
	; X86-SSE-NEXT: pmuludq %xmm1, %xmm0			; X86-SSE-NEXT: pmuludq %xmm1, %xmm0
	; X86-SSE-NEXT: paddq %xmm3, %xmm0			; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X86-SSE-NEXT: pmuludq %xmm2, %xmm1
				; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
				; X86-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)			; X86-SSE-NEXT: movq %xmm0, (%edx,%eax,4)
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X86-AVX-LABEL: mul_2xi16_varconst4:			; X86-AVX-LABEL: mul_2xi16_varconst4:
	; X86-AVX: # %bb.0: # %entry			; X86-AVX: # %bb.0: # %entry
				; X86-AVX-NEXT: pushl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 8
				; X86-AVX-NEXT: .cfi_offset %esi, -8
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-AVX-NEXT: movl c, %edx			; X86-AVX-NEXT: movl c, %edx
	; X86-AVX-NEXT: vpmovsxwq (%ecx,%eax), %xmm0			; X86-AVX-NEXT: movswl 2(%ecx,%eax), %esi
				; X86-AVX-NEXT: movswl (%ecx,%eax), %ecx
				; X86-AVX-NEXT: vmovd %ecx, %xmm0
				; X86-AVX-NEXT: vpinsrd $1, %esi, %xmm0, %xmm0
	; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0			; X86-AVX-NEXT: vpmulld {{\.LCPI.*}}, %xmm0, %xmm0
	; X86-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)			; X86-AVX-NEXT: vmovq %xmm0, (%edx,%eax,4)
				; X86-AVX-NEXT: popl %esi
				; X86-AVX-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X64-SSE-LABEL: mul_2xi16_varconst4:			; X64-SSE-LABEL: mul_2xi16_varconst4:
	; X64-SSE: # %bb.0: # %entry			; X64-SSE: # %bb.0: # %entry
	; X64-SSE-NEXT: movq {{.*}}(%rip), %rax			; X64-SSE-NEXT: movq {{.*}}(%rip), %rax
	; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]			; X64-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
	; X64-SSE-NEXT: psrad $16, %xmm0			; X64-SSE-NEXT: psrad $16, %xmm0
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; X64-SSE-NEXT: movdqa {{.*#+}} xmm1 = <0,32768,u,u>
	; X64-SSE-NEXT: movl $32768, %ecx # imm = 0x8000			; X64-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; X64-SSE-NEXT: movq %rcx, %xmm1
	; X64-SSE-NEXT: pslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]
	; X64-SSE-NEXT: pmuludq %xmm1, %xmm0			; X64-SSE-NEXT: pmuludq %xmm1, %xmm0
	; X64-SSE-NEXT: pxor %xmm2, %xmm2			; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; X64-SSE-NEXT: pmuludq %xmm1, %xmm2			; X64-SSE-NEXT: pmuludq %xmm2, %xmm1
	; X64-SSE-NEXT: psllq $32, %xmm2			; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; X64-SSE-NEXT: paddq %xmm0, %xmm2			; X64-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)			; X64-SSE-NEXT: movq %xmm0, (%rax,%rsi,4)
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX-LABEL: mul_2xi16_varconst4:			; X64-AVX-LABEL: mul_2xi16_varconst4:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: movq {{.*}}(%rip), %rax			; X64-AVX-NEXT: movq {{.*}}(%rip), %rax
	; X64-AVX-NEXT: vpmovsxwq (%rdi,%rsi), %xmm0			; X64-AVX-NEXT: movswl 2(%rdi,%rsi), %ecx
	; X64-AVX-NEXT: movl $32768, %ecx # imm = 0x8000			; X64-AVX-NEXT: movswl (%rdi,%rsi), %edx
	; X64-AVX-NEXT: vmovq %rcx, %xmm1			; X64-AVX-NEXT: vmovd %edx, %xmm0
	; X64-AVX-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]			; X64-AVX-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; X64-AVX-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; X64-AVX-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; X64-AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)			; X64-AVX-NEXT: vmovq %xmm0, (%rax,%rsi,4)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%pre = load i32, i32* @c			%pre = load i32, i32* @c
	%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index			%tmp6 = getelementptr inbounds i8, i8* %a, i64 %index
	%tmp7 = bitcast i8* %tmp6 to <2 x i16>*			%tmp7 = bitcast i8* %tmp6 to <2 x i16>*
	%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1			%wide.load = load <2 x i16>, <2 x i16>* %tmp7, align 1
	%tmp8 = sext <2 x i16> %wide.load to <2 x i32>			%tmp8 = sext <2 x i16> %wide.load to <2 x i32>
	▲ Show 20 Lines • Show All 543 Lines • Show Last 20 Lines

test/CodeGen/X86/shuffle-strided-with-offset-128.ll

	Show First 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: shuffle_v4i32_to_v2i32_1:			; AVX-LABEL: shuffle_v4i32_to_v2i32_1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilps {{.*#+}} xmm0 = mem[1,3,2,3]			; AVX-NEXT: vpermilps {{.*#+}} xmm0 = mem[1,3,2,3]
	; AVX-NEXT: vmovlps %xmm0, (%rsi)			; AVX-NEXT: vmovlps %xmm0, (%rsi)
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512F-LABEL: shuffle_v4i32_to_v2i32_1:			; AVX512-LABEL: shuffle_v4i32_to_v2i32_1:
	; AVX512F: # %bb.0:			; AVX512: # %bb.0:
	; AVX512F-NEXT: vpermilps {{.*#+}} xmm0 = mem[1,3,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = mem[1,3,2,3]
	; AVX512F-NEXT: vmovlps %xmm0, (%rsi)			; AVX512-NEXT: vmovlps %xmm0, (%rsi)
	; AVX512F-NEXT: retq			; AVX512-NEXT: retq
	;
	; AVX512VL-LABEL: shuffle_v4i32_to_v2i32_1:
	; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpshufd {{.*#+}} xmm0 = mem[1,1,3,3]
	; AVX512VL-NEXT: vpmovqd %xmm0, (%rsi)
	; AVX512VL-NEXT: retq
	;
	; AVX512BW-LABEL: shuffle_v4i32_to_v2i32_1:
	; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpermilps {{.*#+}} xmm0 = mem[1,3,2,3]
	; AVX512BW-NEXT: vmovlps %xmm0, (%rsi)
	; AVX512BW-NEXT: retq
	;
	; AVX512BWVL-LABEL: shuffle_v4i32_to_v2i32_1:
	; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = mem[1,1,3,3]
	; AVX512BWVL-NEXT: vpmovqd %xmm0, (%rsi)
	; AVX512BWVL-NEXT: retq
	%vec = load <4 x i32>, <4 x i32>* %L			%vec = load <4 x i32>, <4 x i32>* %L
	%strided.vec = shufflevector <4 x i32> %vec, <4 x i32> undef, <2 x i32> <i32 1, i32 3>			%strided.vec = shufflevector <4 x i32> %vec, <4 x i32> undef, <2 x i32> <i32 1, i32 3>
	store <2 x i32> %strided.vec, <2 x i32>* %S			store <2 x i32> %strided.vec, <2 x i32>* %S
	ret void			ret void
	}			}

	define void @shuffle_v16i8_to_v4i8_1(<16 x i8>* %L, <4 x i8>* %S) nounwind {			define void @shuffle_v16i8_to_v4i8_1(<16 x i8>* %L, <4 x i8>* %S) nounwind {
	; SSE2-LABEL: shuffle_v16i8_to_v4i8_1:			; SSE2-LABEL: shuffle_v16i8_to_v4i8_1:
	▲ Show 20 Lines • Show All 773 Lines • Show Last 20 Lines

test/CodeGen/X86/shuffle-vs-trunc-128.ll

	Show First 20 Lines • Show All 241 Lines • ▼ Show 20 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: shuffle_v4i32_to_v2i32:			; AVX-LABEL: shuffle_v4i32_to_v2i32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilps {{.*#+}} xmm0 = mem[0,2,2,3]			; AVX-NEXT: vpermilps {{.*#+}} xmm0 = mem[0,2,2,3]
	; AVX-NEXT: vmovlps %xmm0, (%rsi)			; AVX-NEXT: vmovlps %xmm0, (%rsi)
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512F-LABEL: shuffle_v4i32_to_v2i32:			; AVX512-LABEL: shuffle_v4i32_to_v2i32:
	; AVX512F: # %bb.0:			; AVX512: # %bb.0:
	; AVX512F-NEXT: vpermilps {{.*#+}} xmm0 = mem[0,2,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = mem[0,2,2,3]
				zviUnsubmitted Not Done Reply Inline Actions What happened here? zvi: What happened here?
	; AVX512F-NEXT: vmovlps %xmm0, (%rsi)			; AVX512-NEXT: vmovlps %xmm0, (%rsi)
	; AVX512F-NEXT: retq			; AVX512-NEXT: retq
	;
	; AVX512VL-LABEL: shuffle_v4i32_to_v2i32:
	; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512VL-NEXT: vpmovqd %xmm0, (%rsi)
	; AVX512VL-NEXT: retq
	;
	; AVX512BW-LABEL: shuffle_v4i32_to_v2i32:
	; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpermilps {{.*#+}} xmm0 = mem[0,2,2,3]
	; AVX512BW-NEXT: vmovlps %xmm0, (%rsi)
	; AVX512BW-NEXT: retq
	;
	; AVX512BWVL-LABEL: shuffle_v4i32_to_v2i32:
	; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512BWVL-NEXT: vpmovqd %xmm0, (%rsi)
	; AVX512BWVL-NEXT: retq
	%vec = load <4 x i32>, <4 x i32>* %L			%vec = load <4 x i32>, <4 x i32>* %L
	%strided.vec = shufflevector <4 x i32> %vec, <4 x i32> undef, <2 x i32> <i32 0, i32 2>			%strided.vec = shufflevector <4 x i32> %vec, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
	store <2 x i32> %strided.vec, <2 x i32>* %S			store <2 x i32> %strided.vec, <2 x i32>* %S
	ret void			ret void
	}			}

	define void @trunc_v2i64_to_v2i32(<4 x i32>* %L, <2 x i32>* %S) nounwind {			define void @trunc_v2i64_to_v2i32(<4 x i32>* %L, <2 x i32>* %S) nounwind {
	; SSE-LABEL: trunc_v2i64_to_v2i32:			; SSE-LABEL: trunc_v2i64_to_v2i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = mem[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = mem[0,2,2,3]
	; SSE-NEXT: movq %xmm0, (%rsi)			; SSE-NEXT: movq %xmm0, (%rsi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: trunc_v2i64_to_v2i32:			; AVX1-LABEL: trunc_v2i64_to_v2i32:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vpermilps {{.*#+}} xmm0 = mem[0,2,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = mem[0,2,2,3]
	; AVX-NEXT: vmovlps %xmm0, (%rsi)			; AVX1-NEXT: vmovlps %xmm0, (%rsi)
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-SLOW-LABEL: trunc_v2i64_to_v2i32:
				; AVX2-SLOW: # %bb.0:
				; AVX2-SLOW-NEXT: vmovaps (%rdi), %xmm0
				; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
				zviUnsubmitted Not Done Reply Inline Actions What about this? zvi: What about this?
				craig.topperAuthorUnsubmitted Not Done Reply Inline Actions We type legalized the v2i64->v2i32 truncate by widening to v4i64 and then truncating. Maybe we just need to emit a bitcast to v4i32 and a vector shuffle ourselves? craig.topper: We type legalized the v2i64->v2i32 truncate by widening to v4i64 and then truncating. Maybe we…
				; AVX2-SLOW-NEXT: vmovlps %xmm0, (%rsi)
				; AVX2-SLOW-NEXT: vzeroupper
				; AVX2-SLOW-NEXT: retq
				;
				; AVX2-FAST-LABEL: trunc_v2i64_to_v2i32:
				; AVX2-FAST: # %bb.0:
				; AVX2-FAST-NEXT: vmovaps (%rdi), %xmm0
				; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
				; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
				; AVX2-FAST-NEXT: vmovlps %xmm0, (%rsi)
				; AVX2-FAST-NEXT: vzeroupper
				; AVX2-FAST-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_v2i64_to_v2i32:			; AVX512F-LABEL: trunc_v2i64_to_v2i32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpermilps {{.*#+}} xmm0 = mem[0,2,2,3]			; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512F-NEXT: vmovlps %xmm0, (%rsi)			; AVX512F-NEXT: vpmovqd %zmm0, %ymm0
				; AVX512F-NEXT: vmovq %xmm0, (%rsi)
				; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: trunc_v2i64_to_v2i32:			; AVX512VL-LABEL: trunc_v2i64_to_v2i32:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0			; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512VL-NEXT: vpmovqd %xmm0, (%rsi)			; AVX512VL-NEXT: vpmovqd %xmm0, (%rsi)
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc_v2i64_to_v2i32:			; AVX512BW-LABEL: trunc_v2i64_to_v2i32:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpermilps {{.*#+}} xmm0 = mem[0,2,2,3]			; AVX512BW-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512BW-NEXT: vmovlps %xmm0, (%rsi)			; AVX512BW-NEXT: vpmovqd %zmm0, %ymm0
				; AVX512BW-NEXT: vmovq %xmm0, (%rsi)
				; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: trunc_v2i64_to_v2i32:			; AVX512BWVL-LABEL: trunc_v2i64_to_v2i32:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vmovdqa (%rdi), %xmm0			; AVX512BWVL-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512BWVL-NEXT: vpmovqd %xmm0, (%rsi)			; AVX512BWVL-NEXT: vpmovqd %xmm0, (%rsi)
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	%vec = load <4 x i32>, <4 x i32>* %L			%vec = load <4 x i32>, <4 x i32>* %L
	▲ Show 20 Lines • Show All 352 Lines • Show Last 20 Lines

test/CodeGen/X86/sse-fsignum.ll

Show All 27 Lines	entry:
%4 = fcmp ogt <4 x float> %1, zeroinitializer		%4 = fcmp ogt <4 x float> %1, zeroinitializer
%5 = sitofp <4 x i1> %4 to <4 x float>		%5 = sitofp <4 x i1> %4 to <4 x float>
%6 = fsub <4 x float> %3, %5		%6 = fsub <4 x float> %3, %5
store <4 x float> %6, <4 x float>* %0		store <4 x float> %6, <4 x float>* %0
ret void		ret void
}		}

define void @signum64a(<2 x double>*) {		define void @signum64a(<2 x double>*) {
; AVX-LABEL: signum64a:		; AVX1-LABEL: signum64a:
; AVX: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX-NEXT: vmovapd (%rdi), %xmm0		; AVX1-NEXT: vmovapd (%rdi), %xmm0
; AVX-NEXT: vxorpd %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vxorpd %xmm1, %xmm1, %xmm1
; AVX-NEXT: vcmpltpd %xmm1, %xmm0, %xmm2		; AVX1-NEXT: vcmpltpd %xmm1, %xmm0, %xmm2
; AVX-NEXT: vpermilps {{.*#+}} xmm2 = xmm2[0,2,2,3]		; AVX1-NEXT: vpermilps {{.*#+}} xmm2 = xmm2[0,2,2,3]
; AVX-NEXT: vcvtdq2pd %xmm2, %xmm2		; AVX1-NEXT: vcvtdq2pd %xmm2, %xmm2
; AVX-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0		; AVX1-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0
; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]
; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0		; AVX1-NEXT: vcvtdq2pd %xmm0, %xmm0
; AVX-NEXT: vsubpd %xmm0, %xmm2, %xmm0		; AVX1-NEXT: vsubpd %xmm0, %xmm2, %xmm0
; AVX-NEXT: vmovapd %xmm0, (%rdi)		; AVX1-NEXT: vmovapd %xmm0, (%rdi)
; AVX-NEXT: retq		; AVX1-NEXT: retq
		;
		; AVX2-LABEL: signum64a:
		; AVX2: # %bb.0: # %entry
		; AVX2-NEXT: vmovapd (%rdi), %xmm0
		; AVX2-NEXT: vxorpd %xmm1, %xmm1, %xmm1
		; AVX2-NEXT: vcmpltpd %xmm1, %xmm0, %xmm2
		; AVX2-NEXT: vpermilps {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]
		; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,2,3]
		; AVX2-NEXT: vcvtdq2pd %xmm2, %xmm2
		; AVX2-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0
		; AVX2-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]
		; AVX2-NEXT: vcvtdq2pd %xmm0, %xmm0
		; AVX2-NEXT: vsubpd %xmm0, %xmm2, %xmm0
		; AVX2-NEXT: vmovapd %xmm0, (%rdi)
		; AVX2-NEXT: vzeroupper
		; AVX2-NEXT: retq
		;
		; AVX512F-LABEL: signum64a:
		; AVX512F: # %bb.0: # %entry
		; AVX512F-NEXT: vmovapd (%rdi), %xmm0
		; AVX512F-NEXT: vxorpd %xmm1, %xmm1, %xmm1
		; AVX512F-NEXT: vcmpltpd %xmm1, %xmm0, %xmm2
		; AVX512F-NEXT: vpmovqd %zmm2, %ymm2
		; AVX512F-NEXT: vcvtdq2pd %xmm2, %xmm2
		; AVX512F-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0
		; AVX512F-NEXT: vpmovqd %zmm0, %ymm0
		; AVX512F-NEXT: vcvtdq2pd %xmm0, %xmm0
		; AVX512F-NEXT: vsubpd %xmm0, %xmm2, %xmm0
		; AVX512F-NEXT: vmovapd %xmm0, (%rdi)
		; AVX512F-NEXT: vzeroupper
		; AVX512F-NEXT: retq
entry:		entry:
%1 = load <2 x double>, <2 x double>* %0		%1 = load <2 x double>, <2 x double>* %0
%2 = fcmp olt <2 x double> %1, zeroinitializer		%2 = fcmp olt <2 x double> %1, zeroinitializer
%3 = sitofp <2 x i1> %2 to <2 x double>		%3 = sitofp <2 x i1> %2 to <2 x double>
%4 = fcmp ogt <2 x double> %1, zeroinitializer		%4 = fcmp ogt <2 x double> %1, zeroinitializer
%5 = sitofp <2 x i1> %4 to <2 x double>		%5 = sitofp <2 x i1> %4 to <2 x double>
%6 = fsub <2 x double> %3, %5		%6 = fsub <2 x double> %3, %5
store <2 x double> %6, <2 x double>* %0		store <2 x double> %6, <2 x double>* %0
▲ Show 20 Lines • Show All 184 Lines • Show Last 20 Lines

test/CodeGen/X86/trunc-ext-ld-st.ll

	Show First 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	%T = load <2 x i16>, <2 x i16>* %A			%T = load <2 x i16>, <2 x i16>* %A
	%G = add <2 x i16> %T, <i16 9, i16 7>			%G = add <2 x i16> %T, <i16 9, i16 7>
	store <2 x i16> %G, <2 x i16>* %A			store <2 x i16> %G, <2 x i16>* %A
	ret void			ret void
	}			}

	define void @load_2_i32(<2 x i32>* %A) {			define void @load_2_i32(<2 x i32>* %A) {
	; SSE2-LABEL: load_2_i32:			; CHECK-LABEL: load_2_i32:
	; SSE2: # %bb.0:			; CHECK: # %bb.0:
	; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; CHECK-NEXT: paddd {{.*}}(%rip), %xmm0
	; SSE2-NEXT: paddd {{.*}}(%rip), %xmm0			; CHECK-NEXT: movq %xmm0, (%rdi)
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; CHECK-NEXT: retq
	; SSE2-NEXT: movq %xmm0, (%rdi)
	; SSE2-NEXT: retq
	;
	; SSE41-LABEL: load_2_i32:
	; SSE41: # %bb.0:
	; SSE41-NEXT: pmovzxdq {{.*#+}} xmm0 = mem[0],zero,mem[1],zero
	; SSE41-NEXT: paddd {{.*}}(%rip), %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE41-NEXT: movq %xmm0, (%rdi)
	; SSE41-NEXT: retq
	%T = load <2 x i32>, <2 x i32>* %A			%T = load <2 x i32>, <2 x i32>* %A
	%G = add <2 x i32> %T, <i32 9, i32 7>			%G = add <2 x i32> %T, <i32 9, i32 7>
	store <2 x i32> %G, <2 x i32>* %A			store <2 x i32> %G, <2 x i32>* %A
	ret void			ret void
	}			}

	define void @load_4_i8(<4 x i8>* %A) {			define void @load_4_i8(<4 x i8>* %A) {
	; SSE2-LABEL: load_4_i8:			; SSE2-LABEL: load_4_i8:
	▲ Show 20 Lines • Show All 72 Lines • Show Last 20 Lines

test/CodeGen/X86/trunc-subvector.ll

Show All 34 Lines	; AVX-NEXT: retq
%s = shufflevector <8 x i64> %x, <8 x i64> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%s = shufflevector <8 x i64> %x, <8 x i64> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
%t = trunc <4 x i64> %s to <4 x i32>		%t = trunc <4 x i64> %s to <4 x i32>
ret <4 x i32> %t		ret <4 x i32> %t
}		}

define <2 x i32> @test3(<8 x i32> %v) {		define <2 x i32> @test3(<8 x i32> %v) {
; SSE2-LABEL: test3:		; SSE2-LABEL: test3:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: psrad $31, %xmm1
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX2-LABEL: test3:		; AVX-LABEL: test3:
; AVX2: # %bb.0:		; AVX: # %bb.0:
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX2-NEXT: vpmovsxdq %xmm0, %xmm0		; AVX-NEXT: vzeroupper
; AVX2-NEXT: vzeroupper		; AVX-NEXT: retq
; AVX2-NEXT: retq
;
; AVX512-LABEL: test3:
; AVX512: # %bb.0:
; AVX512-NEXT: vpmovsxdq %ymm0, %zmm0
; AVX512-NEXT: vextracti32x4 $2, %zmm0, %xmm0
; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq
%x = sext <8 x i32> %v to <8 x i64>		%x = sext <8 x i32> %v to <8 x i64>
%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 4, i32 5>		%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 4, i32 5>
%t = trunc <2 x i64> %s to <2 x i32>		%t = trunc <2 x i64> %s to <2 x i32>
ret <2 x i32> %t		ret <2 x i32> %t
}		}

define <2 x i32> @test4(<8 x i32> %v) {		define <2 x i32> @test4(<8 x i32> %v) {
; SSE2-LABEL: test4:		; SSE2-LABEL: test4:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrad $31, %xmm1
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX2-LABEL: test4:		; AVX-LABEL: test4:
; AVX2: # %bb.0:		; AVX: # %bb.0:
; AVX2-NEXT: vpmovsxdq %xmm0, %xmm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX2-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX-NEXT: retq
;
; AVX512-LABEL: test4:
; AVX512: # %bb.0:
; AVX512-NEXT: vpmovsxdq %ymm0, %zmm0
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq
%x = sext <8 x i32> %v to <8 x i64>		%x = sext <8 x i32> %v to <8 x i64>
%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 0, i32 1>		%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 0, i32 1>
%t = trunc <2 x i64> %s to <2 x i32>		%t = trunc <2 x i64> %s to <2 x i32>
ret <2 x i32> %t		ret <2 x i32> %t
}		}

define <2 x i32> @test5(<8 x i32> %v) {		define <2 x i32> @test5(<8 x i32> %v) {
; SSE2-LABEL: test5:		; SSE2-LABEL: test5:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
; SSE2-NEXT: psrad $31, %xmm2		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE2-NEXT: movdqa %xmm0, %xmm2
; SSE2-NEXT: psrad $31, %xmm2
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: shufpd {{.*#+}} xmm0 = xmm0[1],xmm1[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX2-LABEL: test5:		; AVX2-LABEL: test5:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpmovsxdq %xmm0, %ymm1		; AVX2-NEXT: vpmovsxdq %xmm0, %ymm1
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
; AVX2-NEXT: vpmovsxdq %xmm0, %ymm0		; AVX2-NEXT: vpmovsxdq %xmm0, %ymm0
; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm1[8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4,5,6,7],ymm1[24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20,21,22,23]		; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm1[8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4,5,6,7],ymm1[24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20,21,22,23]
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,1,2,3]		; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [4,2,4,6,4,6,6,7]
		; AVX2-NEXT: vpermd %ymm0, %ymm1, %ymm0
; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: test5:		; AVX512-LABEL: test5:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpmovsxdq %ymm0, %zmm0		; AVX512-NEXT: vpmovsxdq %ymm0, %zmm0
; AVX512-NEXT: vextracti32x4 $2, %zmm0, %xmm1		; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX512-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[8,9,10,11,12,13,14,15],ymm1[0,1,2,3,4,5,6,7],ymm0[24,25,26,27,28,29,30,31],ymm1[16,17,18,19,20,21,22,23]
; AVX512-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7]		; AVX512-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,1,2,3]
		; AVX512-NEXT: vpmovqd %zmm0, %ymm0
		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%x = sext <8 x i32> %v to <8 x i64>		%x = sext <8 x i32> %v to <8 x i64>
%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 3, i32 4>		%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 3, i32 4>
%t = trunc <2 x i64> %s to <2 x i32>		%t = trunc <2 x i64> %s to <2 x i32>
ret <2 x i32> %t		ret <2 x i32> %t
}		}

Show All 29 Lines	; AVX-NEXT: retq
%t = trunc <4 x i64> %s to <4 x i32>		%t = trunc <4 x i64> %s to <4 x i32>
ret <4 x i32> %t		ret <4 x i32> %t
}		}

define <2 x i32> @test8(<8 x i32> %v) {		define <2 x i32> @test8(<8 x i32> %v) {
; SSE2-LABEL: test8:		; SSE2-LABEL: test8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: xorps %xmm1, %xmm1
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX2-LABEL: test8:		; AVX-LABEL: test8:
; AVX2: # %bb.0:		; AVX: # %bb.0:
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero		; AVX-NEXT: vzeroupper
; AVX2-NEXT: vzeroupper		; AVX-NEXT: retq
; AVX2-NEXT: retq
;
; AVX512-LABEL: test8:
; AVX512: # %bb.0:
; AVX512-NEXT: vpmovzxdq {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero
; AVX512-NEXT: vextracti32x4 $2, %zmm0, %xmm0
; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq
%x = zext <8 x i32> %v to <8 x i64>		%x = zext <8 x i32> %v to <8 x i64>
%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 4, i32 5>		%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 4, i32 5>
%t = trunc <2 x i64> %s to <2 x i32>		%t = trunc <2 x i64> %s to <2 x i32>
ret <2 x i32> %t		ret <2 x i32> %t
}		}

define <2 x i32> @test9(<8 x i32> %v) {		define <2 x i32> @test9(<8 x i32> %v) {
; SSE2-LABEL: test9:		; SSE2-LABEL: test9:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: xorps %xmm1, %xmm1
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX2-LABEL: test9:		; AVX-LABEL: test9:
; AVX2: # %bb.0:		; AVX: # %bb.0:
; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX2-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX-NEXT: retq
;
; AVX512-LABEL: test9:
; AVX512: # %bb.0:
; AVX512-NEXT: vpmovzxdq {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq
%x = zext <8 x i32> %v to <8 x i64>		%x = zext <8 x i32> %v to <8 x i64>
%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 0, i32 1>		%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 0, i32 1>
%t = trunc <2 x i64> %s to <2 x i32>		%t = trunc <2 x i64> %s to <2 x i32>
ret <2 x i32> %t		ret <2 x i32> %t
}		}

define <2 x i32> @test10(<8 x i32> %v) {		define <2 x i32> @test10(<8 x i32> %v) {
; SSE2-LABEL: test10:		; SSE2-LABEL: test10:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: xorpd %xmm2, %xmm2		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: unpckhps {{.*#+}} xmm0 = xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSE2-NEXT: shufpd {{.*#+}} xmm0 = xmm0[1],xmm1[0]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX2-LABEL: test10:		; AVX2-LABEL: test10:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm1[8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4,5,6,7],ymm1[24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20,21,22,23]		; AVX2-NEXT: vpalignr {{.*#+}} ymm0 = ymm1[8,9,10,11,12,13,14,15],ymm0[0,1,2,3,4,5,6,7],ymm1[24,25,26,27,28,29,30,31],ymm0[16,17,18,19,20,21,22,23]
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,1,2,3]		; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [4,2,4,6,4,6,6,7]
		; AVX2-NEXT: vpermd %ymm0, %ymm1, %ymm0
; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: test10:		; AVX512-LABEL: test10:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpmovzxdq {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero		; AVX512-NEXT: vpmovzxdq {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero
; AVX512-NEXT: vextracti32x4 $2, %zmm0, %xmm1		; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX512-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[8,9,10,11,12,13,14,15],ymm1[0,1,2,3,4,5,6,7],ymm0[24,25,26,27,28,29,30,31],ymm1[16,17,18,19,20,21,22,23]
; AVX512-NEXT: vpalignr {{.*#+}} xmm0 = xmm0[8,9,10,11,12,13,14,15],xmm1[0,1,2,3,4,5,6,7]		; AVX512-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,1,2,3]
		; AVX512-NEXT: vpmovqd %zmm0, %ymm0
		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%x = zext <8 x i32> %v to <8 x i64>		%x = zext <8 x i32> %v to <8 x i64>
%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 3, i32 4>		%s = shufflevector <8 x i64> %x, <8 x i64> undef, <2 x i32> <i32 3, i32 4>
%t = trunc <2 x i64> %s to <2 x i32>		%t = trunc <2 x i64> %s to <2 x i32>
ret <2 x i32> %t		ret <2 x i32> %t
}		}

test/CodeGen/X86/unfold-masked-merge-vector-variablemask.ll

	Show First 20 Lines • Show All 686 Lines • ▼ Show 20 Lines
	; CHECK-SSE1-NEXT: andl %edx, %eax			; CHECK-SSE1-NEXT: andl %edx, %eax
	; CHECK-SSE1-NEXT: orl %edi, %eax			; CHECK-SSE1-NEXT: orl %edi, %eax
	; CHECK-SSE1-NEXT: movl %r9d, %edx			; CHECK-SSE1-NEXT: movl %r9d, %edx
	; CHECK-SSE1-NEXT: retq			; CHECK-SSE1-NEXT: retq
	;			;
	; CHECK-SSE2-LABEL: out_v2i32:			; CHECK-SSE2-LABEL: out_v2i32:
	; CHECK-SSE2: # %bb.0:			; CHECK-SSE2: # %bb.0:
	; CHECK-SSE2-NEXT: andps %xmm2, %xmm0			; CHECK-SSE2-NEXT: andps %xmm2, %xmm0
	; CHECK-SSE2-NEXT: xorps {{.*}}(%rip), %xmm2			; CHECK-SSE2-NEXT: andnps %xmm1, %xmm2
	; CHECK-SSE2-NEXT: andps %xmm1, %xmm2
	; CHECK-SSE2-NEXT: orps %xmm2, %xmm0			; CHECK-SSE2-NEXT: orps %xmm2, %xmm0
	; CHECK-SSE2-NEXT: retq			; CHECK-SSE2-NEXT: retq
	;			;
	; CHECK-XOP-LABEL: out_v2i32:			; CHECK-XOP-LABEL: out_v2i32:
	; CHECK-XOP: # %bb.0:			; CHECK-XOP: # %bb.0:
	; CHECK-XOP-NEXT: vandps %xmm2, %xmm0, %xmm0			; CHECK-XOP-NEXT: vpcmov %xmm2, %xmm1, %xmm0, %xmm0
	; CHECK-XOP-NEXT: vxorps {{.*}}(%rip), %xmm2, %xmm2
	; CHECK-XOP-NEXT: vandps %xmm2, %xmm1, %xmm1
	; CHECK-XOP-NEXT: vorps %xmm1, %xmm0, %xmm0
	; CHECK-XOP-NEXT: retq			; CHECK-XOP-NEXT: retq
	%mx = and <2 x i32> %x, %mask			%mx = and <2 x i32> %x, %mask
	%notmask = xor <2 x i32> %mask, <i32 -1, i32 -1>			%notmask = xor <2 x i32> %mask, <i32 -1, i32 -1>
	%my = and <2 x i32> %y, %notmask			%my = and <2 x i32> %y, %notmask
	%r = or <2 x i32> %mx, %my			%r = or <2 x i32> %mx, %my
	ret <2 x i32> %r			ret <2 x i32> %r
	}			}

	▲ Show 20 Lines • Show All 3,959 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_cast3.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=i386-apple-darwin10 -mattr=+avx \| FileCheck %s		; RUN: llc < %s -mtriple=i386-apple-darwin10 -mattr=+avx \| FileCheck %s
; RUN: llc < %s -mtriple=i386-apple-darwin10 -mattr=+avx -x86-experimental-vector-widening-legalization \| FileCheck %s --check-prefix=CHECK-WIDE		; RUN: llc < %s -mtriple=i386-apple-darwin10 -mattr=+avx -x86-experimental-vector-widening-legalization \| FileCheck %s --check-prefix=CHECK-WIDE

define <2 x float> @cvt_v2i8_v2f32(<2 x i8> %src) {		define <2 x float> @cvt_v2i8_v2f32(<2 x i8> %src) {
; CHECK-LABEL: cvt_v2i8_v2f32:		; CHECK-LABEL: cvt_v2i8_v2f32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpsllq $56, %xmm0, %xmm0		; CHECK-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; CHECK-NEXT: vpslld $24, %xmm0, %xmm0
; CHECK-NEXT: vpsrad $24, %xmm0, %xmm0		; CHECK-NEXT: vpsrad $24, %xmm0, %xmm0
; CHECK-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
; CHECK-NEXT: vcvtdq2ps %xmm0, %xmm0		; CHECK-NEXT: vcvtdq2ps %xmm0, %xmm0
; CHECK-NEXT: retl		; CHECK-NEXT: retl
;		;
; CHECK-WIDE-LABEL: cvt_v2i8_v2f32:		; CHECK-WIDE-LABEL: cvt_v2i8_v2f32:
; CHECK-WIDE: ## %bb.0:		; CHECK-WIDE: ## %bb.0:
; CHECK-WIDE-NEXT: vpmovsxbd %xmm0, %xmm0		; CHECK-WIDE-NEXT: vpmovsxbd %xmm0, %xmm0
; CHECK-WIDE-NEXT: vcvtdq2ps %xmm0, %xmm0		; CHECK-WIDE-NEXT: vcvtdq2ps %xmm0, %xmm0
; CHECK-WIDE-NEXT: retl		; CHECK-WIDE-NEXT: retl
%res = sitofp <2 x i8> %src to <2 x float>		%res = sitofp <2 x i8> %src to <2 x float>
ret <2 x float> %res		ret <2 x float> %res
}		}

define <2 x float> @cvt_v2i16_v2f32(<2 x i16> %src) {		define <2 x float> @cvt_v2i16_v2f32(<2 x i16> %src) {
; CHECK-LABEL: cvt_v2i16_v2f32:		; CHECK-LABEL: cvt_v2i16_v2f32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpsllq $48, %xmm0, %xmm0		; CHECK-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; CHECK-NEXT: vpslld $16, %xmm0, %xmm0
; CHECK-NEXT: vpsrad $16, %xmm0, %xmm0		; CHECK-NEXT: vpsrad $16, %xmm0, %xmm0
; CHECK-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
; CHECK-NEXT: vcvtdq2ps %xmm0, %xmm0		; CHECK-NEXT: vcvtdq2ps %xmm0, %xmm0
; CHECK-NEXT: retl		; CHECK-NEXT: retl
;		;
; CHECK-WIDE-LABEL: cvt_v2i16_v2f32:		; CHECK-WIDE-LABEL: cvt_v2i16_v2f32:
; CHECK-WIDE: ## %bb.0:		; CHECK-WIDE: ## %bb.0:
; CHECK-WIDE-NEXT: vpmovsxwd %xmm0, %xmm0		; CHECK-WIDE-NEXT: vpmovsxwd %xmm0, %xmm0
; CHECK-WIDE-NEXT: vcvtdq2ps %xmm0, %xmm0		; CHECK-WIDE-NEXT: vcvtdq2ps %xmm0, %xmm0
; CHECK-WIDE-NEXT: retl		; CHECK-WIDE-NEXT: retl
%res = sitofp <2 x i16> %src to <2 x float>		%res = sitofp <2 x i16> %src to <2 x float>
ret <2 x float> %res		ret <2 x float> %res
}		}

define <2 x float> @cvt_v2i32_v2f32(<2 x i32> %src) {		define <2 x float> @cvt_v2i32_v2f32(<2 x i32> %src) {
; CHECK-LABEL: cvt_v2i32_v2f32:		; CHECK-LABEL: cvt_v2i32_v2f32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]
; CHECK-NEXT: vcvtdq2ps %xmm0, %xmm0		; CHECK-NEXT: vcvtdq2ps %xmm0, %xmm0
; CHECK-NEXT: retl		; CHECK-NEXT: retl
;		;
; CHECK-WIDE-LABEL: cvt_v2i32_v2f32:		; CHECK-WIDE-LABEL: cvt_v2i32_v2f32:
; CHECK-WIDE: ## %bb.0:		; CHECK-WIDE: ## %bb.0:
; CHECK-WIDE-NEXT: vcvtdq2ps %xmm0, %xmm0		; CHECK-WIDE-NEXT: vcvtdq2ps %xmm0, %xmm0
; CHECK-WIDE-NEXT: retl		; CHECK-WIDE-NEXT: retl
%res = sitofp <2 x i32> %src to <2 x float>		%res = sitofp <2 x i32> %src to <2 x float>
ret <2 x float> %res		ret <2 x float> %res
}		}

define <2 x float> @cvt_v2u8_v2f32(<2 x i8> %src) {		define <2 x float> @cvt_v2u8_v2f32(<2 x i8> %src) {
; CHECK-LABEL: cvt_v2u8_v2f32:		; CHECK-LABEL: cvt_v2u8_v2f32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[u,u,u,u,u,u,u,u]		; CHECK-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[8],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: vcvtdq2ps %xmm0, %xmm0		; CHECK-NEXT: vcvtdq2ps %xmm0, %xmm0
; CHECK-NEXT: retl		; CHECK-NEXT: retl
;		;
; CHECK-WIDE-LABEL: cvt_v2u8_v2f32:		; CHECK-WIDE-LABEL: cvt_v2u8_v2f32:
; CHECK-WIDE: ## %bb.0:		; CHECK-WIDE: ## %bb.0:
; CHECK-WIDE-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero		; CHECK-WIDE-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
; CHECK-WIDE-NEXT: vcvtdq2ps %xmm0, %xmm0		; CHECK-WIDE-NEXT: vcvtdq2ps %xmm0, %xmm0
; CHECK-WIDE-NEXT: retl		; CHECK-WIDE-NEXT: retl
%res = uitofp <2 x i8> %src to <2 x float>		%res = uitofp <2 x i8> %src to <2 x float>
ret <2 x float> %res		ret <2 x float> %res
}		}

define <2 x float> @cvt_v2u16_v2f32(<2 x i16> %src) {		define <2 x float> @cvt_v2u16_v2f32(<2 x i16> %src) {
; CHECK-LABEL: cvt_v2u16_v2f32:		; CHECK-LABEL: cvt_v2u16_v2f32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1],zero,zero,xmm0[8,9],zero,zero,xmm0[8,9],zero,zero,xmm0[10,11],zero,zero		; CHECK-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; CHECK-NEXT: vpxor %xmm1, %xmm1, %xmm1
		; CHECK-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4,5,6,7]
; CHECK-NEXT: vcvtdq2ps %xmm0, %xmm0		; CHECK-NEXT: vcvtdq2ps %xmm0, %xmm0
; CHECK-NEXT: retl		; CHECK-NEXT: retl
;		;
; CHECK-WIDE-LABEL: cvt_v2u16_v2f32:		; CHECK-WIDE-LABEL: cvt_v2u16_v2f32:
; CHECK-WIDE: ## %bb.0:		; CHECK-WIDE: ## %bb.0:
; CHECK-WIDE-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero		; CHECK-WIDE-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
; CHECK-WIDE-NEXT: vcvtdq2ps %xmm0, %xmm0		; CHECK-WIDE-NEXT: vcvtdq2ps %xmm0, %xmm0
; CHECK-WIDE-NEXT: retl		; CHECK-WIDE-NEXT: retl
%res = uitofp <2 x i16> %src to <2 x float>		%res = uitofp <2 x i16> %src to <2 x float>
ret <2 x float> %res		ret <2 x float> %res
}		}

define <2 x float> @cvt_v2u32_v2f32(<2 x i32> %src) {		define <2 x float> @cvt_v2u32_v2f32(<2 x i32> %src) {
; CHECK-LABEL: cvt_v2u32_v2f32:		; CHECK-LABEL: cvt_v2u32_v2f32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vxorps %xmm1, %xmm1, %xmm1		; CHECK-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]		; CHECK-NEXT: vmovdqa {{.*#+}} xmm1 = [4503599627370496,4503599627370496]
; CHECK-NEXT: vmovaps {{.*#+}} xmm1 = [4503599627370496,4503599627370496]		; CHECK-NEXT: vpor %xmm1, %xmm0, %xmm0
; CHECK-NEXT: vorps %xmm1, %xmm0, %xmm0
; CHECK-NEXT: vsubpd %xmm1, %xmm0, %xmm0		; CHECK-NEXT: vsubpd %xmm1, %xmm0, %xmm0
; CHECK-NEXT: vcvtpd2ps %xmm0, %xmm0		; CHECK-NEXT: vcvtpd2ps %xmm0, %xmm0
; CHECK-NEXT: retl		; CHECK-NEXT: retl
;		;
; CHECK-WIDE-LABEL: cvt_v2u32_v2f32:		; CHECK-WIDE-LABEL: cvt_v2u32_v2f32:
; CHECK-WIDE: ## %bb.0:		; CHECK-WIDE: ## %bb.0:
; CHECK-WIDE-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero		; CHECK-WIDE-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; CHECK-WIDE-NEXT: vmovdqa {{.*#+}} xmm1 = [4503599627370496,4503599627370496]		; CHECK-WIDE-NEXT: vmovdqa {{.*#+}} xmm1 = [4503599627370496,4503599627370496]
▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines	; CHECK-WIDE-NEXT: retl
%res = fptosi <2 x float> %src to <2 x i16>		%res = fptosi <2 x float> %src to <2 x i16>
ret <2 x i16> %res		ret <2 x i16> %res
}		}

define <2 x i32> @cvt_v2f32_v2i32(<2 x float> %src) {		define <2 x i32> @cvt_v2f32_v2i32(<2 x float> %src) {
; CHECK-LABEL: cvt_v2f32_v2i32:		; CHECK-LABEL: cvt_v2f32_v2i32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vcvttps2dq %xmm0, %xmm0		; CHECK-NEXT: vcvttps2dq %xmm0, %xmm0
; CHECK-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; CHECK-NEXT: retl		; CHECK-NEXT: retl
;		;
; CHECK-WIDE-LABEL: cvt_v2f32_v2i32:		; CHECK-WIDE-LABEL: cvt_v2f32_v2i32:
; CHECK-WIDE: ## %bb.0:		; CHECK-WIDE: ## %bb.0:
; CHECK-WIDE-NEXT: vcvttps2dq %xmm0, %xmm0		; CHECK-WIDE-NEXT: vcvttps2dq %xmm0, %xmm0
; CHECK-WIDE-NEXT: retl		; CHECK-WIDE-NEXT: retl
%res = fptosi <2 x float> %src to <2 x i32>		%res = fptosi <2 x float> %src to <2 x i32>
ret <2 x i32> %res		ret <2 x i32> %res
▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines	; CHECK-WIDE-NEXT: retl
ret <2 x i16> %res		ret <2 x i16> %res
}		}

define <2 x i32> @cvt_v2f32_v2u32(<2 x float> %src) {		define <2 x i32> @cvt_v2f32_v2u32(<2 x float> %src) {
; CHECK-LABEL: cvt_v2f32_v2u32:		; CHECK-LABEL: cvt_v2f32_v2u32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: subl $68, %esp		; CHECK-NEXT: subl $68, %esp
; CHECK-NEXT: .cfi_def_cfa_offset 72		; CHECK-NEXT: .cfi_def_cfa_offset 72
; CHECK-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; CHECK-NEXT: vmovss %xmm0, {{[0-9]+}}(%esp)
; CHECK-NEXT: vmovss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; CHECK-NEXT: vextractps $1, %xmm0, {{[0-9]+}}(%esp)
; CHECK-NEXT: vcmpltss %xmm2, %xmm1, %xmm3		; CHECK-NEXT: vextractps $2, %xmm0, {{[0-9]+}}(%esp)
; CHECK-NEXT: vsubss %xmm2, %xmm1, %xmm4		; CHECK-NEXT: vextractps $3, %xmm0, {{[0-9]+}}(%esp)
; CHECK-NEXT: vblendvps %xmm3, %xmm1, %xmm4, %xmm3
; CHECK-NEXT: vmovss %xmm3, {{[0-9]+}}(%esp)
; CHECK-NEXT: vcmpltss %xmm2, %xmm0, %xmm3
; CHECK-NEXT: vsubss %xmm2, %xmm0, %xmm4
; CHECK-NEXT: vblendvps %xmm3, %xmm0, %xmm4, %xmm3
; CHECK-NEXT: vmovss %xmm3, {{[0-9]+}}(%esp)
; CHECK-NEXT: flds {{[0-9]+}}(%esp)		; CHECK-NEXT: flds {{[0-9]+}}(%esp)
; CHECK-NEXT: fisttpll (%esp)		; CHECK-NEXT: fisttpll {{[0-9]+}}(%esp)
; CHECK-NEXT: flds {{[0-9]+}}(%esp)		; CHECK-NEXT: flds {{[0-9]+}}(%esp)
; CHECK-NEXT: fisttpll {{[0-9]+}}(%esp)		; CHECK-NEXT: fisttpll {{[0-9]+}}(%esp)
; CHECK-NEXT: xorl %eax, %eax		; CHECK-NEXT: flds {{[0-9]+}}(%esp)
; CHECK-NEXT: vucomiss %xmm2, %xmm1		; CHECK-NEXT: fisttpll {{[0-9]+}}(%esp)
; CHECK-NEXT: setae %al		; CHECK-NEXT: flds {{[0-9]+}}(%esp)
; CHECK-NEXT: shll $31, %eax		; CHECK-NEXT: fisttpll (%esp)
; CHECK-NEXT: xorl {{[0-9]+}}(%esp), %eax
; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: vucomiss %xmm2, %xmm0
; CHECK-NEXT: setae %cl
; CHECK-NEXT: shll $31, %ecx
; CHECK-NEXT: xorl {{[0-9]+}}(%esp), %ecx
; CHECK-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0		; CHECK-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm0, %xmm0
; CHECK-NEXT: vpinsrd $2, (%esp), %xmm0, %xmm0		; CHECK-NEXT: vpinsrd $2, {{[0-9]+}}(%esp), %xmm0, %xmm0
; CHECK-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0		; CHECK-NEXT: vpinsrd $3, (%esp), %xmm0, %xmm0
; CHECK-NEXT: addl $68, %esp		; CHECK-NEXT: addl $68, %esp
; CHECK-NEXT: retl		; CHECK-NEXT: retl
;		;
; CHECK-WIDE-LABEL: cvt_v2f32_v2u32:		; CHECK-WIDE-LABEL: cvt_v2f32_v2u32:
; CHECK-WIDE: ## %bb.0:		; CHECK-WIDE: ## %bb.0:
; CHECK-WIDE-NEXT: subl $68, %esp		; CHECK-WIDE-NEXT: subl $68, %esp
; CHECK-WIDE-NEXT: .cfi_def_cfa_offset 72		; CHECK-WIDE-NEXT: .cfi_def_cfa_offset 72
; CHECK-WIDE-NEXT: vmovss %xmm0, {{[0-9]+}}(%esp)		; CHECK-WIDE-NEXT: vmovss %xmm0, {{[0-9]+}}(%esp)
Show All 20 Lines

test/CodeGen/X86/vec_ctbits.ll

	Show First 20 Lines • Show All 104 Lines • ▼ Show 20 Lines

	declare <2 x i32> @llvm.cttz.v2i32(<2 x i32>, i1)			declare <2 x i32> @llvm.cttz.v2i32(<2 x i32>, i1)
	declare <2 x i32> @llvm.ctlz.v2i32(<2 x i32>, i1)			declare <2 x i32> @llvm.ctlz.v2i32(<2 x i32>, i1)
	declare <2 x i32> @llvm.ctpop.v2i32(<2 x i32>)			declare <2 x i32> @llvm.ctpop.v2i32(<2 x i32>)

	define <2 x i32> @promtz(<2 x i32> %a) nounwind {			define <2 x i32> @promtz(<2 x i32> %a) nounwind {
	; CHECK-LABEL: promtz:			; CHECK-LABEL: promtz:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: por {{.*}}(%rip), %xmm0
	; CHECK-NEXT: pcmpeqd %xmm1, %xmm1			; CHECK-NEXT: pcmpeqd %xmm1, %xmm1
	; CHECK-NEXT: paddq %xmm0, %xmm1			; CHECK-NEXT: paddd %xmm0, %xmm1
	; CHECK-NEXT: pandn %xmm1, %xmm0			; CHECK-NEXT: pandn %xmm1, %xmm0
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: movdqa %xmm0, %xmm1
	; CHECK-NEXT: psrlw $1, %xmm1			; CHECK-NEXT: psrlw $1, %xmm1
	; CHECK-NEXT: pand {{.*}}(%rip), %xmm1			; CHECK-NEXT: pand {{.*}}(%rip), %xmm1
	; CHECK-NEXT: psubb %xmm1, %xmm0			; CHECK-NEXT: psubb %xmm1, %xmm0
	; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]			; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
	; CHECK-NEXT: movdqa %xmm0, %xmm2			; CHECK-NEXT: movdqa %xmm0, %xmm2
	; CHECK-NEXT: pand %xmm1, %xmm2			; CHECK-NEXT: pand %xmm1, %xmm2
	; CHECK-NEXT: psrlw $2, %xmm0			; CHECK-NEXT: psrlw $2, %xmm0
	; CHECK-NEXT: pand %xmm1, %xmm0			; CHECK-NEXT: pand %xmm1, %xmm0
	; CHECK-NEXT: paddb %xmm2, %xmm0			; CHECK-NEXT: paddb %xmm2, %xmm0
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: movdqa %xmm0, %xmm1
	; CHECK-NEXT: psrlw $4, %xmm1			; CHECK-NEXT: psrlw $4, %xmm1
	; CHECK-NEXT: paddb %xmm0, %xmm1			; CHECK-NEXT: paddb %xmm0, %xmm1
	; CHECK-NEXT: pand {{.*}}(%rip), %xmm1			; CHECK-NEXT: pand {{.*}}(%rip), %xmm1
	; CHECK-NEXT: pxor %xmm0, %xmm0			; CHECK-NEXT: pxor %xmm0, %xmm0
				; CHECK-NEXT: movdqa %xmm1, %xmm2
				; CHECK-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm0[2],xmm2[3],xmm0[3]
				; CHECK-NEXT: psadbw %xmm0, %xmm2
				; CHECK-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; CHECK-NEXT: psadbw %xmm0, %xmm1			; CHECK-NEXT: psadbw %xmm0, %xmm1
				; CHECK-NEXT: packuswb %xmm2, %xmm1
	; CHECK-NEXT: movdqa %xmm1, %xmm0			; CHECK-NEXT: movdqa %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%c = call <2 x i32> @llvm.cttz.v2i32(<2 x i32> %a, i1 false)			%c = call <2 x i32> @llvm.cttz.v2i32(<2 x i32> %a, i1 false)
	ret <2 x i32> %c			ret <2 x i32> %c

	}			}
	define <2 x i32> @promlz(<2 x i32> %a) nounwind {			define <2 x i32> @promlz(<2 x i32> %a) nounwind {
	; CHECK-LABEL: promlz:			; CHECK-LABEL: promlz:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pand {{.*}}(%rip), %xmm0
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: movdqa %xmm0, %xmm1
	; CHECK-NEXT: psrlq $1, %xmm1			; CHECK-NEXT: psrld $1, %xmm1
	; CHECK-NEXT: por %xmm0, %xmm1			; CHECK-NEXT: por %xmm0, %xmm1
	; CHECK-NEXT: movdqa %xmm1, %xmm0			; CHECK-NEXT: movdqa %xmm1, %xmm0
	; CHECK-NEXT: psrlq $2, %xmm0			; CHECK-NEXT: psrld $2, %xmm0
	; CHECK-NEXT: por %xmm1, %xmm0			; CHECK-NEXT: por %xmm1, %xmm0
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: movdqa %xmm0, %xmm1
	; CHECK-NEXT: psrlq $4, %xmm1			; CHECK-NEXT: psrld $4, %xmm1
	; CHECK-NEXT: por %xmm0, %xmm1			; CHECK-NEXT: por %xmm0, %xmm1
	; CHECK-NEXT: movdqa %xmm1, %xmm0			; CHECK-NEXT: movdqa %xmm1, %xmm0
	; CHECK-NEXT: psrlq $8, %xmm0			; CHECK-NEXT: psrld $8, %xmm0
	; CHECK-NEXT: por %xmm1, %xmm0			; CHECK-NEXT: por %xmm1, %xmm0
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: movdqa %xmm0, %xmm1
	; CHECK-NEXT: psrlq $16, %xmm1			; CHECK-NEXT: psrld $16, %xmm1
	; CHECK-NEXT: por %xmm0, %xmm1			; CHECK-NEXT: por %xmm0, %xmm1
	; CHECK-NEXT: movdqa %xmm1, %xmm0			; CHECK-NEXT: pcmpeqd %xmm2, %xmm2
	; CHECK-NEXT: psrlq $32, %xmm0			; CHECK-NEXT: pxor %xmm1, %xmm2
	; CHECK-NEXT: por %xmm1, %xmm0			; CHECK-NEXT: movdqa %xmm2, %xmm0
	; CHECK-NEXT: pcmpeqd %xmm1, %xmm1
	; CHECK-NEXT: pxor %xmm0, %xmm1
	; CHECK-NEXT: movdqa %xmm1, %xmm0
	; CHECK-NEXT: psrlw $1, %xmm0			; CHECK-NEXT: psrlw $1, %xmm0
	; CHECK-NEXT: pand {{.*}}(%rip), %xmm0			; CHECK-NEXT: pand {{.*}}(%rip), %xmm0
	; CHECK-NEXT: psubb %xmm0, %xmm1			; CHECK-NEXT: psubb %xmm0, %xmm2
	; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]			; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
	; CHECK-NEXT: movdqa %xmm1, %xmm2			; CHECK-NEXT: movdqa %xmm2, %xmm1
	; CHECK-NEXT: pand %xmm0, %xmm2
	; CHECK-NEXT: psrlw $2, %xmm1
	; CHECK-NEXT: pand %xmm0, %xmm1			; CHECK-NEXT: pand %xmm0, %xmm1
	; CHECK-NEXT: paddb %xmm2, %xmm1			; CHECK-NEXT: psrlw $2, %xmm2
	; CHECK-NEXT: movdqa %xmm1, %xmm2			; CHECK-NEXT: pand %xmm0, %xmm2
	; CHECK-NEXT: psrlw $4, %xmm2
	; CHECK-NEXT: paddb %xmm1, %xmm2			; CHECK-NEXT: paddb %xmm1, %xmm2
	; CHECK-NEXT: pand {{.*}}(%rip), %xmm2			; CHECK-NEXT: movdqa %xmm2, %xmm0
	; CHECK-NEXT: pxor %xmm0, %xmm0			; CHECK-NEXT: psrlw $4, %xmm0
	; CHECK-NEXT: psadbw %xmm2, %xmm0			; CHECK-NEXT: paddb %xmm2, %xmm0
	; CHECK-NEXT: psubq {{.*}}(%rip), %xmm0			; CHECK-NEXT: pand {{.*}}(%rip), %xmm0
				; CHECK-NEXT: pxor %xmm1, %xmm1
				; CHECK-NEXT: movdqa %xmm0, %xmm2
				; CHECK-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
				; CHECK-NEXT: psadbw %xmm1, %xmm2
				; CHECK-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; CHECK-NEXT: psadbw %xmm1, %xmm0
				; CHECK-NEXT: packuswb %xmm2, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%c = call <2 x i32> @llvm.ctlz.v2i32(<2 x i32> %a, i1 false)			%c = call <2 x i32> @llvm.ctlz.v2i32(<2 x i32> %a, i1 false)
	ret <2 x i32> %c			ret <2 x i32> %c

	}			}

	define <2 x i32> @prompop(<2 x i32> %a) nounwind {			define <2 x i32> @prompop(<2 x i32> %a) nounwind {
	; CHECK-LABEL: prompop:			; CHECK-LABEL: prompop:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pand {{.*}}(%rip), %xmm0
	; CHECK-NEXT: pxor %xmm2, %xmm2
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: movdqa %xmm0, %xmm1
	; CHECK-NEXT: psrlw $1, %xmm1			; CHECK-NEXT: psrlw $1, %xmm1
	; CHECK-NEXT: pand {{.*}}(%rip), %xmm1			; CHECK-NEXT: pand {{.*}}(%rip), %xmm1
	; CHECK-NEXT: psubb %xmm1, %xmm0			; CHECK-NEXT: psubb %xmm1, %xmm0
	; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]			; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
	; CHECK-NEXT: movdqa %xmm0, %xmm3			; CHECK-NEXT: movdqa %xmm0, %xmm2
	; CHECK-NEXT: pand %xmm1, %xmm3			; CHECK-NEXT: pand %xmm1, %xmm2
	; CHECK-NEXT: psrlw $2, %xmm0			; CHECK-NEXT: psrlw $2, %xmm0
	; CHECK-NEXT: pand %xmm1, %xmm0			; CHECK-NEXT: pand %xmm1, %xmm0
	; CHECK-NEXT: paddb %xmm3, %xmm0			; CHECK-NEXT: paddb %xmm2, %xmm0
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: movdqa %xmm0, %xmm1
	; CHECK-NEXT: psrlw $4, %xmm1			; CHECK-NEXT: psrlw $4, %xmm1
	; CHECK-NEXT: paddb %xmm0, %xmm1			; CHECK-NEXT: paddb %xmm0, %xmm1
	; CHECK-NEXT: pand {{.*}}(%rip), %xmm1			; CHECK-NEXT: pand {{.*}}(%rip), %xmm1
	; CHECK-NEXT: psadbw %xmm2, %xmm1			; CHECK-NEXT: pxor %xmm0, %xmm0
				; CHECK-NEXT: movdqa %xmm1, %xmm2
				; CHECK-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm0[2],xmm2[3],xmm0[3]
				; CHECK-NEXT: psadbw %xmm0, %xmm2
				; CHECK-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; CHECK-NEXT: psadbw %xmm0, %xmm1
				; CHECK-NEXT: packuswb %xmm2, %xmm1
	; CHECK-NEXT: movdqa %xmm1, %xmm0			; CHECK-NEXT: movdqa %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%c = call <2 x i32> @llvm.ctpop.v2i32(<2 x i32> %a)			%c = call <2 x i32> @llvm.ctpop.v2i32(<2 x i32> %a)
	ret <2 x i32> %c			ret <2 x i32> %c
	}			}

test/CodeGen/X86/vec_extract-mmx.ll

	Show First 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	}			}

	; Verify we don't muck with extractelts from the upper lane.			; Verify we don't muck with extractelts from the upper lane.
	define i32 @test4(x86_mmx %a) nounwind {			define i32 @test4(x86_mmx %a) nounwind {
	; X32-LABEL: test4:			; X32-LABEL: test4:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: pushl %ebp			; X32-NEXT: pushl %ebp
	; X32-NEXT: movl %esp, %ebp			; X32-NEXT: movl %esp, %ebp
	; X32-NEXT: andl $-8, %esp			; X32-NEXT: andl $-16, %esp
	; X32-NEXT: subl $8, %esp			; X32-NEXT: subl $32, %esp
	; X32-NEXT: movq %mm0, (%esp)			; X32-NEXT: movq %mm0, (%esp)
	; X32-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,0,1]
	; X32-NEXT: movd %xmm0, %eax
	; X32-NEXT: movl %ebp, %esp			; X32-NEXT: movl %ebp, %esp
	; X32-NEXT: popl %ebp			; X32-NEXT: popl %ebp
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test4:			; X64-LABEL: test4:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %mm0, -{{[0-9]+}}(%rsp)			; X64-NEXT: movq %mm0, -{{[0-9]+}}(%rsp)
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movl -{{[0-9]+}}(%rsp), %eax
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,0,1]
	; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp0 = bitcast x86_mmx %a to <2 x i32>			%tmp0 = bitcast x86_mmx %a to <2 x i32>
	%tmp1 = extractelement <2 x i32> %tmp0, i32 1			%tmp1 = extractelement <2 x i32> %tmp0, i32 1
	ret i32 %tmp1			ret i32 %tmp1
	}			}

	declare x86_mmx @llvm.x86.sse.pshuf.w(x86_mmx, i8)			declare x86_mmx @llvm.x86.sse.pshuf.w(x86_mmx, i8)
	declare void @llvm.x86.mmx.emms()			declare void @llvm.x86.mmx.emms()

test/CodeGen/X86/vec_fp_to_int.ll

Show First 20 Lines • Show All 109 Lines • ▼ Show 20 Lines	; WIDEN-NEXT: retq
%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x i32> %ext		ret <4 x i32> %ext
}		}

define <2 x i32> @fptosi_2f64_to_2i32(<2 x double> %a) {		define <2 x i32> @fptosi_2f64_to_2i32(<2 x double> %a) {
; SSE-LABEL: fptosi_2f64_to_2i32:		; SSE-LABEL: fptosi_2f64_to_2i32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: cvttpd2dq %xmm0, %xmm0		; SSE-NEXT: cvttpd2dq %xmm0, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: fptosi_2f64_to_2i32:		; AVX-LABEL: fptosi_2f64_to_2i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vcvttpd2dq %xmm0, %xmm0		; AVX-NEXT: vcvttpd2dq %xmm0, %xmm0
; AVX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; WIDEN-LABEL: fptosi_2f64_to_2i32:		; WIDEN-LABEL: fptosi_2f64_to_2i32:
; WIDEN: # %bb.0:		; WIDEN: # %bb.0:
; WIDEN-NEXT: vcvttpd2dq %xmm0, %xmm0		; WIDEN-NEXT: vcvttpd2dq %xmm0, %xmm0
; WIDEN-NEXT: retq		; WIDEN-NEXT: retq
%cvt = fptosi <2 x double> %a to <2 x i32>		%cvt = fptosi <2 x double> %a to <2 x i32>
ret <2 x i32> %cvt		ret <2 x i32> %cvt
▲ Show 20 Lines • Show All 278 Lines • ▼ Show 20 Lines
; WIDEN_KNL-NEXT: retq		; WIDEN_KNL-NEXT: retq
%cvt = fptoui <2 x double> %a to <2 x i64>		%cvt = fptoui <2 x double> %a to <2 x i64>
ret <2 x i64> %cvt		ret <2 x i64> %cvt
}		}

define <4 x i32> @fptoui_2f64_to_4i32(<2 x double> %a) {		define <4 x i32> @fptoui_2f64_to_4i32(<2 x double> %a) {
; SSE-LABEL: fptoui_2f64_to_4i32:		; SSE-LABEL: fptoui_2f64_to_4i32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero		; SSE-NEXT: cvttsd2si %xmm0, %rax
; SSE-NEXT: movapd %xmm0, %xmm1		; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: subsd %xmm2, %xmm1
; SSE-NEXT: cvttsd2si %xmm1, %rax
; SSE-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
; SSE-NEXT: xorq %rcx, %rax
; SSE-NEXT: cvttsd2si %xmm0, %rdx
; SSE-NEXT: ucomisd %xmm2, %xmm0
; SSE-NEXT: cmovaeq %rax, %rdx
; SSE-NEXT: movq %rdx, %xmm1
; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: movapd %xmm0, %xmm3
; SSE-NEXT: subsd %xmm2, %xmm3
; SSE-NEXT: cvttsd2si %xmm3, %rax
; SSE-NEXT: xorq %rcx, %rax
; SSE-NEXT: cvttsd2si %xmm0, %rcx		; SSE-NEXT: cvttsd2si %xmm0, %rcx
; SSE-NEXT: ucomisd %xmm2, %xmm0		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: cmovaeq %rax, %rcx		; SSE-NEXT: movd %ecx, %xmm1
; SSE-NEXT: movq %rcx, %xmm0		; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]		; SSE-NEXT: movq {{.*#+}} xmm0 = xmm0[0],zero
; SSE-NEXT: pxor %xmm0, %xmm0
; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[2,3]
; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: fptoui_2f64_to_4i32:		; VEX-LABEL: fptoui_2f64_to_4i32:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero		; VEX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm2		; VEX-NEXT: vcvttsd2si %xmm1, %rax
; VEX-NEXT: vcvttsd2si %xmm2, %rax
; VEX-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
; VEX-NEXT: xorq %rcx, %rax
; VEX-NEXT: vcvttsd2si %xmm0, %rdx
; VEX-NEXT: vucomisd %xmm1, %xmm0
; VEX-NEXT: cmovaeq %rax, %rdx
; VEX-NEXT: vmovq %rdx, %xmm2
; VEX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm3
; VEX-NEXT: vcvttsd2si %xmm3, %rax
; VEX-NEXT: xorq %rcx, %rax
; VEX-NEXT: vcvttsd2si %xmm0, %rcx		; VEX-NEXT: vcvttsd2si %xmm0, %rcx
; VEX-NEXT: vucomisd %xmm1, %xmm0		; VEX-NEXT: vmovd %ecx, %xmm0
; VEX-NEXT: cmovaeq %rax, %rcx		; VEX-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
; VEX-NEXT: vmovq %rcx, %xmm0		; VEX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: fptoui_2f64_to_4i32:		; AVX512F-LABEL: fptoui_2f64_to_4i32:
; AVX512F: # %bb.0:		; AVX512F: # %bb.0:
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; AVX512F-NEXT: vcvttpd2udq %zmm0, %ymm0		; AVX512F-NEXT: vcvttpd2udq %zmm0, %ymm0
; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero		; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
Show All 32 Lines	; WIDEN_KNL-NEXT: retq
%cvt = fptoui <2 x double> %a to <2 x i32>		%cvt = fptoui <2 x double> %a to <2 x i32>
%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x i32> %ext		ret <4 x i32> %ext
}		}

define <4 x i32> @fptoui_2f64_to_2i32(<2 x double> %a) {		define <4 x i32> @fptoui_2f64_to_2i32(<2 x double> %a) {
; SSE-LABEL: fptoui_2f64_to_2i32:		; SSE-LABEL: fptoui_2f64_to_2i32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: cvttsd2si %xmm0, %rax
; SSE-NEXT: movapd %xmm0, %xmm2		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: subsd %xmm1, %xmm2		; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: cvttsd2si %xmm2, %rax		; SSE-NEXT: cvttsd2si %xmm0, %rax
; SSE-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: xorq %rcx, %rax		; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE-NEXT: cvttsd2si %xmm0, %rdx		; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE-NEXT: ucomisd %xmm1, %xmm0
; SSE-NEXT: cmovaeq %rax, %rdx
; SSE-NEXT: movq %rdx, %xmm2
; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: movapd %xmm0, %xmm3
; SSE-NEXT: subsd %xmm1, %xmm3
; SSE-NEXT: cvttsd2si %xmm3, %rax
; SSE-NEXT: xorq %rcx, %rax
; SSE-NEXT: cvttsd2si %xmm0, %rcx
; SSE-NEXT: ucomisd %xmm1, %xmm0
; SSE-NEXT: cmovaeq %rax, %rcx
; SSE-NEXT: movq %rcx, %xmm0
; SSE-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm0[0]
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: fptoui_2f64_to_2i32:		; VEX-LABEL: fptoui_2f64_to_2i32:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero		; VEX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm2		; VEX-NEXT: vcvttsd2si %xmm1, %rax
; VEX-NEXT: vcvttsd2si %xmm2, %rax
; VEX-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
; VEX-NEXT: xorq %rcx, %rax
; VEX-NEXT: vcvttsd2si %xmm0, %rdx
; VEX-NEXT: vucomisd %xmm1, %xmm0
; VEX-NEXT: cmovaeq %rax, %rdx
; VEX-NEXT: vmovq %rdx, %xmm2
; VEX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; VEX-NEXT: vsubsd %xmm1, %xmm0, %xmm3
; VEX-NEXT: vcvttsd2si %xmm3, %rax
; VEX-NEXT: xorq %rcx, %rax
; VEX-NEXT: vcvttsd2si %xmm0, %rcx		; VEX-NEXT: vcvttsd2si %xmm0, %rcx
; VEX-NEXT: vucomisd %xmm1, %xmm0		; VEX-NEXT: vmovd %ecx, %xmm0
; VEX-NEXT: cmovaeq %rax, %rcx		; VEX-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
; VEX-NEXT: vmovq %rcx, %xmm0		; VEX-NEXT: vcvttsd2si %xmm0, %rax
; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]		; VEX-NEXT: vpinsrd $2, %eax, %xmm0, %xmm0
; VEX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; VEX-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: fptoui_2f64_to_2i32:		; AVX512F-LABEL: fptoui_2f64_to_2i32:
; AVX512F: # %bb.0:		; AVX512F: # %bb.0:
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; AVX512F-NEXT: vcvttpd2udq %zmm0, %ymm0		; AVX512F-NEXT: vcvttpd2udq %zmm0, %ymm0
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
Show All 32 Lines	; WIDEN_KNL-NEXT: retq
%cvt = fptoui <2 x double> %a to <2 x i32>		%cvt = fptoui <2 x double> %a to <2 x i32>
%ext = shufflevector <2 x i32> %cvt, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>		%ext = shufflevector <2 x i32> %cvt, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
ret <4 x i32> %ext		ret <4 x i32> %ext
}		}

define <4 x i32> @fptoui_4f64_to_2i32(<2 x double> %a) {		define <4 x i32> @fptoui_4f64_to_2i32(<2 x double> %a) {
; SSE-LABEL: fptoui_4f64_to_2i32:		; SSE-LABEL: fptoui_4f64_to_2i32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero		; SSE-NEXT: cvttsd2si %xmm0, %rax
; SSE-NEXT: movapd %xmm0, %xmm1		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: subsd %xmm2, %xmm1		; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: cvttsd2si %xmm1, %rax		; SSE-NEXT: cvttsd2si %xmm0, %rax
; SSE-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: xorq %rcx, %rax		; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE-NEXT: cvttsd2si %xmm0, %rdx		; SSE-NEXT: movq {{.*#+}} xmm0 = xmm1[0],zero
; SSE-NEXT: ucomisd %xmm2, %xmm0
; SSE-NEXT: cmovaeq %rax, %rdx
; SSE-NEXT: movq %rdx, %xmm1
; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: movapd %xmm0, %xmm3
; SSE-NEXT: subsd %xmm2, %xmm3
; SSE-NEXT: cvttsd2si %xmm3, %rax
; SSE-NEXT: xorq %rcx, %rax
; SSE-NEXT: cvttsd2si %xmm0, %rcx
; SSE-NEXT: ucomisd %xmm2, %xmm0
; SSE-NEXT: cmovaeq %rax, %rcx
; SSE-NEXT: movq %rcx, %xmm0
; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE-NEXT: pxor %xmm0, %xmm0
; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[2,3]
; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: fptoui_4f64_to_2i32:		; VEX-LABEL: fptoui_4f64_to_2i32:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vcvttsd2si %xmm0, %rax		; VEX-NEXT: vcvttsd2si %xmm0, %rax
; VEX-NEXT: vmovd %eax, %xmm1		; VEX-NEXT: vmovd %eax, %xmm1
; VEX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; VEX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; VEX-NEXT: vcvttsd2si %xmm0, %rax		; VEX-NEXT: vcvttsd2si %xmm0, %rax
▲ Show 20 Lines • Show All 247 Lines • ▼ Show 20 Lines
; WIDEN_KNL-NEXT: retq		; WIDEN_KNL-NEXT: retq
%cvt = fptoui <4 x double> %a to <4 x i64>		%cvt = fptoui <4 x double> %a to <4 x i64>
ret <4 x i64> %cvt		ret <4 x i64> %cvt
}		}

define <4 x i32> @fptoui_4f64_to_4i32(<4 x double> %a) {		define <4 x i32> @fptoui_4f64_to_4i32(<4 x double> %a) {
; SSE-LABEL: fptoui_4f64_to_4i32:		; SSE-LABEL: fptoui_4f64_to_4i32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero		; SSE-NEXT: cvttsd2si %xmm1, %rax
; SSE-NEXT: movapd %xmm1, %xmm3		; SSE-NEXT: movd %eax, %xmm2
; SSE-NEXT: subsd %xmm2, %xmm3		; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]
; SSE-NEXT: cvttsd2si %xmm3, %rcx		; SSE-NEXT: cvttsd2si %xmm1, %rax
; SSE-NEXT: movabsq $-9223372036854775808, %rax # imm = 0x8000000000000000		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: xorq %rax, %rcx		; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE-NEXT: cvttsd2si %xmm1, %rdx
; SSE-NEXT: ucomisd %xmm2, %xmm1
; SSE-NEXT: cmovaeq %rcx, %rdx
; SSE-NEXT: movq %rdx, %xmm3
; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
; SSE-NEXT: movapd %xmm1, %xmm4
; SSE-NEXT: subsd %xmm2, %xmm4
; SSE-NEXT: cvttsd2si %xmm4, %rcx
; SSE-NEXT: xorq %rax, %rcx
; SSE-NEXT: cvttsd2si %xmm1, %rdx
; SSE-NEXT: ucomisd %xmm2, %xmm1
; SSE-NEXT: cmovaeq %rcx, %rdx
; SSE-NEXT: movq %rdx, %xmm1
; SSE-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm1[0]
; SSE-NEXT: movapd %xmm0, %xmm1
; SSE-NEXT: subsd %xmm2, %xmm1
; SSE-NEXT: cvttsd2si %xmm1, %rcx
; SSE-NEXT: xorq %rax, %rcx
; SSE-NEXT: cvttsd2si %xmm0, %rdx
; SSE-NEXT: ucomisd %xmm2, %xmm0
; SSE-NEXT: cmovaeq %rcx, %rdx
; SSE-NEXT: movq %rdx, %xmm1
; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: movapd %xmm0, %xmm4
; SSE-NEXT: subsd %xmm2, %xmm4
; SSE-NEXT: cvttsd2si %xmm4, %rcx
; SSE-NEXT: xorq %rax, %rcx
; SSE-NEXT: cvttsd2si %xmm0, %rax		; SSE-NEXT: cvttsd2si %xmm0, %rax
; SSE-NEXT: ucomisd %xmm2, %xmm0		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: cmovaeq %rcx, %rax		; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: movq %rax, %xmm0		; SSE-NEXT: cvttsd2si %xmm0, %rax
; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm3[0,2]		; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE-NEXT: movaps %xmm1, %xmm0		; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
		; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: fptoui_4f64_to_4i32:		; VEX-LABEL: fptoui_4f64_to_4i32:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; VEX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; VEX-NEXT: vcvttsd2si %xmm1, %rax		; VEX-NEXT: vcvttsd2si %xmm1, %rax
; VEX-NEXT: vcvttsd2si %xmm0, %rcx		; VEX-NEXT: vcvttsd2si %xmm0, %rcx
; VEX-NEXT: vmovd %ecx, %xmm1		; VEX-NEXT: vmovd %ecx, %xmm1
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
;		;
; Float to Signed Integer		; Float to Signed Integer
;		;

define <2 x i32> @fptosi_2f32_to_2i32(<2 x float> %a) {		define <2 x i32> @fptosi_2f32_to_2i32(<2 x float> %a) {
; SSE-LABEL: fptosi_2f32_to_2i32:		; SSE-LABEL: fptosi_2f32_to_2i32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: cvttps2dq %xmm0, %xmm0		; SSE-NEXT: cvttps2dq %xmm0, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: fptosi_2f32_to_2i32:		; AVX-LABEL: fptosi_2f32_to_2i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vcvttps2dq %xmm0, %xmm0		; AVX-NEXT: vcvttps2dq %xmm0, %xmm0
; AVX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; WIDEN-LABEL: fptosi_2f32_to_2i32:		; WIDEN-LABEL: fptosi_2f32_to_2i32:
; WIDEN: # %bb.0:		; WIDEN: # %bb.0:
; WIDEN-NEXT: vcvttps2dq %xmm0, %xmm0		; WIDEN-NEXT: vcvttps2dq %xmm0, %xmm0
; WIDEN-NEXT: retq		; WIDEN-NEXT: retq
%cvt = fptosi <2 x float> %a to <2 x i32>		%cvt = fptosi <2 x float> %a to <2 x i32>
ret <2 x i32> %cvt		ret <2 x i32> %cvt
▲ Show 20 Lines • Show All 456 Lines • ▼ Show 20 Lines

;		;
; Float to Unsigned Integer		; Float to Unsigned Integer
;		;

define <2 x i32> @fptoui_2f32_to_2i32(<2 x float> %a) {		define <2 x i32> @fptoui_2f32_to_2i32(<2 x float> %a) {
; SSE-LABEL: fptoui_2f32_to_2i32:		; SSE-LABEL: fptoui_2f32_to_2i32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE-NEXT: movaps %xmm0, %xmm1		; SSE-NEXT: movaps %xmm0, %xmm1
; SSE-NEXT: subss %xmm2, %xmm1		; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1],xmm0[2,3]
; SSE-NEXT: cvttss2si %xmm1, %rax		; SSE-NEXT: cvttss2si %xmm1, %rax
; SSE-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: xorq %rcx, %rax		; SSE-NEXT: movaps %xmm0, %xmm2
; SSE-NEXT: cvttss2si %xmm0, %rdx		; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
; SSE-NEXT: ucomiss %xmm2, %xmm0		; SSE-NEXT: cvttss2si %xmm2, %rax
; SSE-NEXT: cmovaeq %rax, %rdx		; SSE-NEXT: movd %eax, %xmm2
; SSE-NEXT: movq %rdx, %xmm1		; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
		; SSE-NEXT: cvttss2si %xmm0, %rax
		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]		; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
; SSE-NEXT: movaps %xmm0, %xmm3		; SSE-NEXT: cvttss2si %xmm0, %rax
; SSE-NEXT: subss %xmm2, %xmm3		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: cvttss2si %xmm3, %rax		; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE-NEXT: xorq %rcx, %rax		; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; SSE-NEXT: cvttss2si %xmm0, %rcx
; SSE-NEXT: ucomiss %xmm2, %xmm0
; SSE-NEXT: cmovaeq %rax, %rcx
; SSE-NEXT: movq %rcx, %xmm0
; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE-NEXT: movdqa %xmm1, %xmm0		; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: fptoui_2f32_to_2i32:		; VEX-LABEL: fptoui_2f32_to_2i32:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; VEX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; VEX-NEXT: vsubss %xmm1, %xmm0, %xmm2		; VEX-NEXT: vcvttss2si %xmm1, %rax
; VEX-NEXT: vcvttss2si %xmm2, %rax
; VEX-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
; VEX-NEXT: xorq %rcx, %rax
; VEX-NEXT: vcvttss2si %xmm0, %rdx
; VEX-NEXT: vucomiss %xmm1, %xmm0
; VEX-NEXT: cmovaeq %rax, %rdx
; VEX-NEXT: vmovq %rdx, %xmm2
; VEX-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
; VEX-NEXT: vsubss %xmm1, %xmm0, %xmm3
; VEX-NEXT: vcvttss2si %xmm3, %rax
; VEX-NEXT: xorq %rcx, %rax
; VEX-NEXT: vcvttss2si %xmm0, %rcx		; VEX-NEXT: vcvttss2si %xmm0, %rcx
; VEX-NEXT: vucomiss %xmm1, %xmm0		; VEX-NEXT: vmovd %ecx, %xmm1
; VEX-NEXT: cmovaeq %rax, %rcx		; VEX-NEXT: vpinsrd $1, %eax, %xmm1, %xmm1
; VEX-NEXT: vmovq %rcx, %xmm0		; VEX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]		; VEX-NEXT: vcvttss2si %xmm2, %rax
		; VEX-NEXT: vpinsrd $2, %eax, %xmm1, %xmm1
		; VEX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
		; VEX-NEXT: vcvttss2si %xmm0, %rax
		; VEX-NEXT: vpinsrd $3, %eax, %xmm1, %xmm0
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: fptoui_2f32_to_2i32:		; AVX512F-LABEL: fptoui_2f32_to_2i32:
; AVX512F: # %bb.0:		; AVX512F: # %bb.0:
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; AVX512F-NEXT: vcvttps2udq %zmm0, %zmm0		; AVX512F-NEXT: vcvttps2udq %zmm0, %zmm0
; AVX512F-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: fptoui_2f32_to_2i32:		; AVX512VL-LABEL: fptoui_2f32_to_2i32:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vcvttps2udq %xmm0, %xmm0		; AVX512VL-NEXT: vcvttps2udq %xmm0, %xmm0
; AVX512VL-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: fptoui_2f32_to_2i32:		; AVX512DQ-LABEL: fptoui_2f32_to_2i32:
; AVX512DQ: # %bb.0:		; AVX512DQ: # %bb.0:
; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; AVX512DQ-NEXT: vcvttps2udq %zmm0, %zmm0		; AVX512DQ-NEXT: vcvttps2udq %zmm0, %zmm0
; AVX512DQ-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero		; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512DQ-NEXT: vzeroupper		; AVX512DQ-NEXT: vzeroupper
; AVX512DQ-NEXT: retq		; AVX512DQ-NEXT: retq
;		;
; AVX512VLDQ-LABEL: fptoui_2f32_to_2i32:		; AVX512VLDQ-LABEL: fptoui_2f32_to_2i32:
; AVX512VLDQ: # %bb.0:		; AVX512VLDQ: # %bb.0:
; AVX512VLDQ-NEXT: vcvttps2udq %xmm0, %xmm0		; AVX512VLDQ-NEXT: vcvttps2udq %xmm0, %xmm0
; AVX512VLDQ-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; AVX512VLDQ-NEXT: retq		; AVX512VLDQ-NEXT: retq
;		;
; WIDEN_SKX-LABEL: fptoui_2f32_to_2i32:		; WIDEN_SKX-LABEL: fptoui_2f32_to_2i32:
; WIDEN_SKX: # %bb.0:		; WIDEN_SKX: # %bb.0:
; WIDEN_SKX-NEXT: vcvttps2udq %xmm0, %xmm0		; WIDEN_SKX-NEXT: vcvttps2udq %xmm0, %xmm0
; WIDEN_SKX-NEXT: retq		; WIDEN_SKX-NEXT: retq
;		;
; WIDEN_KNL-LABEL: fptoui_2f32_to_2i32:		; WIDEN_KNL-LABEL: fptoui_2f32_to_2i32:
▲ Show 20 Lines • Show All 1,108 Lines • ▼ Show 20 Lines
;		;
; Special Cases		; Special Cases
;		;

define <4 x i32> @fptosi_2f16_to_4i32(<2 x half> %a) nounwind {		define <4 x i32> @fptosi_2f16_to_4i32(<2 x half> %a) nounwind {
; SSE-LABEL: fptosi_2f16_to_4i32:		; SSE-LABEL: fptosi_2f16_to_4i32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: pushq %rax		; SSE-NEXT: pushq %rax
; SSE-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
		; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: callq __gnu_f2h_ieee		; SSE-NEXT: callq __gnu_f2h_ieee
; SSE-NEXT: movzwl %ax, %edi		; SSE-NEXT: movzwl %ax, %edi
; SSE-NEXT: callq __gnu_h2f_ieee		; SSE-NEXT: callq __gnu_h2f_ieee
; SSE-NEXT: movss %xmm0, (%rsp) # 4-byte Spill		; SSE-NEXT: movss %xmm0, (%rsp) # 4-byte Spill
; SSE-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; SSE-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; SSE-NEXT: # xmm0 = mem[0],zero,zero,zero		; SSE-NEXT: # xmm0 = mem[0],zero,zero,zero
; SSE-NEXT: callq __gnu_f2h_ieee		; SSE-NEXT: callq __gnu_f2h_ieee
; SSE-NEXT: movzwl %ax, %edi		; SSE-NEXT: movzwl %ax, %edi
; SSE-NEXT: callq __gnu_h2f_ieee		; SSE-NEXT: callq __gnu_h2f_ieee
; SSE-NEXT: cvttss2si %xmm0, %rax		; SSE-NEXT: cvttss2si %xmm0, %eax
; SSE-NEXT: movq %rax, %xmm1		; SSE-NEXT: cvttss2si (%rsp), %ecx # 4-byte Folded Reload
; SSE-NEXT: cvttss2si (%rsp), %rax # 4-byte Folded Reload		; SSE-NEXT: movd %ecx, %xmm0
; SSE-NEXT: movq %rax, %xmm0		; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE-NEXT: pxor %xmm1, %xmm1		; SSE-NEXT: movq {{.*#+}} xmm0 = xmm1[0],zero
; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[2,3]
; SSE-NEXT: popq %rax		; SSE-NEXT: popq %rax
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: fptosi_2f16_to_4i32:		; VEX-LABEL: fptosi_2f16_to_4i32:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: pushq %rax		; VEX-NEXT: pushq %rax
; VEX-NEXT: vmovss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; VEX-NEXT: vmovss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
		; VEX-NEXT: vmovaps %xmm1, %xmm0
; VEX-NEXT: callq __gnu_f2h_ieee		; VEX-NEXT: callq __gnu_f2h_ieee
; VEX-NEXT: movzwl %ax, %edi		; VEX-NEXT: movzwl %ax, %edi
; VEX-NEXT: callq __gnu_h2f_ieee		; VEX-NEXT: callq __gnu_h2f_ieee
; VEX-NEXT: vmovss %xmm0, (%rsp) # 4-byte Spill		; VEX-NEXT: vmovss %xmm0, (%rsp) # 4-byte Spill
; VEX-NEXT: vmovss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; VEX-NEXT: vmovss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; VEX-NEXT: # xmm0 = mem[0],zero,zero,zero		; VEX-NEXT: # xmm0 = mem[0],zero,zero,zero
; VEX-NEXT: callq __gnu_f2h_ieee		; VEX-NEXT: callq __gnu_f2h_ieee
; VEX-NEXT: movzwl %ax, %edi		; VEX-NEXT: movzwl %ax, %edi
; VEX-NEXT: callq __gnu_h2f_ieee		; VEX-NEXT: callq __gnu_h2f_ieee
; VEX-NEXT: vcvttss2si %xmm0, %rax		; VEX-NEXT: vcvttss2si %xmm0, %eax
; VEX-NEXT: vmovq %rax, %xmm0		; VEX-NEXT: vcvttss2si (%rsp), %ecx # 4-byte Folded Reload
; VEX-NEXT: vcvttss2si (%rsp), %rax # 4-byte Folded Reload		; VEX-NEXT: vmovd %ecx, %xmm0
; VEX-NEXT: vmovq %rax, %xmm1		; VEX-NEXT: vmovd %eax, %xmm1
; VEX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]		; VEX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero		; VEX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; VEX-NEXT: popq %rax		; VEX-NEXT: popq %rax
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512-LABEL: fptosi_2f16_to_4i32:		; AVX512-LABEL: fptosi_2f16_to_4i32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX512-NEXT: vcvtph2ps %xmm0, %xmm0
; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1		; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX512-NEXT: vcvtph2ps %xmm1, %xmm1		; AVX512-NEXT: vcvtph2ps %xmm1, %xmm1
; AVX512-NEXT: vcvttss2si %xmm1, %rax		; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX512-NEXT: vmovq %rax, %xmm1		; AVX512-NEXT: vcvtph2ps %xmm0, %xmm0
; AVX512-NEXT: vcvttss2si %xmm0, %rax		; AVX512-NEXT: vcvttss2si %xmm0, %eax
; AVX512-NEXT: vmovq %rax, %xmm0		; AVX512-NEXT: vcvttss2si %xmm1, %ecx
; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512-NEXT: vmovd %ecx, %xmm0
; AVX512-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero		; AVX512-NEXT: vmovd %eax, %xmm1
		; AVX512-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
		; AVX512-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512-NEXT: retq		; AVX512-NEXT: retq
;		;
; WIDEN-LABEL: fptosi_2f16_to_4i32:		; WIDEN-LABEL: fptosi_2f16_to_4i32:
; WIDEN: # %bb.0:		; WIDEN: # %bb.0:
; WIDEN-NEXT: vcvtps2ph $4, %xmm1, %xmm1		; WIDEN-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; WIDEN-NEXT: vcvtph2ps %xmm1, %xmm1		; WIDEN-NEXT: vcvtph2ps %xmm1, %xmm1
; WIDEN-NEXT: vcvtps2ph $4, %xmm0, %xmm0		; WIDEN-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; WIDEN-NEXT: vcvtph2ps %xmm0, %xmm0		; WIDEN-NEXT: vcvtph2ps %xmm0, %xmm0
Show All 14 Lines
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: fldt {{[0-9]+}}(%rsp)		; SSE-NEXT: fldt {{[0-9]+}}(%rsp)
; SSE-NEXT: fldt {{[0-9]+}}(%rsp)		; SSE-NEXT: fldt {{[0-9]+}}(%rsp)
; SSE-NEXT: fnstcw -{{[0-9]+}}(%rsp)		; SSE-NEXT: fnstcw -{{[0-9]+}}(%rsp)
; SSE-NEXT: movzwl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzwl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movw $3199, -{{[0-9]+}}(%rsp) # imm = 0xC7F		; SSE-NEXT: movw $3199, -{{[0-9]+}}(%rsp) # imm = 0xC7F
; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)		; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)
; SSE-NEXT: movw %ax, -{{[0-9]+}}(%rsp)		; SSE-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; SSE-NEXT: fistpll -{{[0-9]+}}(%rsp)		; SSE-NEXT: fistpl -{{[0-9]+}}(%rsp)
; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)		; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)
; SSE-NEXT: fnstcw -{{[0-9]+}}(%rsp)		; SSE-NEXT: fnstcw -{{[0-9]+}}(%rsp)
; SSE-NEXT: movzwl -{{[0-9]+}}(%rsp), %eax		; SSE-NEXT: movzwl -{{[0-9]+}}(%rsp), %eax
; SSE-NEXT: movw $3199, -{{[0-9]+}}(%rsp) # imm = 0xC7F		; SSE-NEXT: movw $3199, -{{[0-9]+}}(%rsp) # imm = 0xC7F
; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)		; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)
; SSE-NEXT: movw %ax, -{{[0-9]+}}(%rsp)		; SSE-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; SSE-NEXT: fistpll -{{[0-9]+}}(%rsp)		; SSE-NEXT: fistpl -{{[0-9]+}}(%rsp)
; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)		; SSE-NEXT: fldcw -{{[0-9]+}}(%rsp)
; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: movq {{.*#+}} xmm0 = xmm1[0],zero
; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[2,3]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: fptosi_2f80_to_4i32:		; AVX-LABEL: fptosi_2f80_to_4i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: fldt {{[0-9]+}}(%rsp)		; AVX-NEXT: fldt {{[0-9]+}}(%rsp)
; AVX-NEXT: fldt {{[0-9]+}}(%rsp)		; AVX-NEXT: fldt {{[0-9]+}}(%rsp)
; AVX-NEXT: fisttpll -{{[0-9]+}}(%rsp)		; AVX-NEXT: fisttpl -{{[0-9]+}}(%rsp)
; AVX-NEXT: fisttpll -{{[0-9]+}}(%rsp)		; AVX-NEXT: fisttpl -{{[0-9]+}}(%rsp)
; AVX-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; AVX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; AVX-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero		; AVX-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; AVX-NEXT: vmovlhps {{.*#+}} xmm0 = xmm1[0],xmm0[0]		; AVX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero		; AVX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; WIDEN-LABEL: fptosi_2f80_to_4i32:		; WIDEN-LABEL: fptosi_2f80_to_4i32:
; WIDEN: # %bb.0:		; WIDEN: # %bb.0:
; WIDEN-NEXT: fldt {{[0-9]+}}(%rsp)		; WIDEN-NEXT: fldt {{[0-9]+}}(%rsp)
; WIDEN-NEXT: fldt {{[0-9]+}}(%rsp)		; WIDEN-NEXT: fldt {{[0-9]+}}(%rsp)
; WIDEN-NEXT: fisttpl -{{[0-9]+}}(%rsp)		; WIDEN-NEXT: fisttpl -{{[0-9]+}}(%rsp)
; WIDEN-NEXT: fisttpl -{{[0-9]+}}(%rsp)		; WIDEN-NEXT: fisttpl -{{[0-9]+}}(%rsp)
; WIDEN-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; WIDEN-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; WIDEN-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; WIDEN-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; WIDEN-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]		; WIDEN-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; WIDEN-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero		; WIDEN-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; WIDEN-NEXT: retq		; WIDEN-NEXT: retq
%cvt = fptosi <2 x x86_fp80> %a to <2 x i32>		%cvt = fptosi <2 x x86_fp80> %a to <2 x i32>
%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x i32> %ext		ret <4 x i32> %ext
}		}

define <4 x i32> @fptosi_2f128_to_4i32(<2 x fp128> %a) nounwind {		define <4 x i32> @fptosi_2f128_to_4i32(<2 x fp128> %a) nounwind {
; SSE-LABEL: fptosi_2f128_to_4i32:		; SSE-LABEL: fptosi_2f128_to_4i32:
; SSE: # %bb.0:		; SSE: # %bb.0:
		; SSE-NEXT: pushq %rbp
; SSE-NEXT: pushq %r14		; SSE-NEXT: pushq %r14
; SSE-NEXT: pushq %rbx		; SSE-NEXT: pushq %rbx
; SSE-NEXT: subq $24, %rsp		; SSE-NEXT: movq %rcx, %r14
; SSE-NEXT: movq %rsi, %r14		; SSE-NEXT: movq %rdx, %rbx
; SSE-NEXT: movq %rdi, %rbx		; SSE-NEXT: callq __fixtfsi
; SSE-NEXT: movq %rdx, %rdi		; SSE-NEXT: movl %eax, %ebp
; SSE-NEXT: movq %rcx, %rsi
; SSE-NEXT: callq __fixtfdi
; SSE-NEXT: movq %rax, %xmm0
; SSE-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; SSE-NEXT: movq %rbx, %rdi		; SSE-NEXT: movq %rbx, %rdi
; SSE-NEXT: movq %r14, %rsi		; SSE-NEXT: movq %r14, %rsi
; SSE-NEXT: callq __fixtfdi		; SSE-NEXT: callq __fixtfsi
; SSE-NEXT: movq %rax, %xmm0		; SSE-NEXT: movd %eax, %xmm0
; SSE-NEXT: punpcklqdq (%rsp), %xmm0 # 16-byte Folded Reload		; SSE-NEXT: movd %ebp, %xmm1
; SSE-NEXT: # xmm0 = xmm0[0],mem[0]		; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: movq {{.*#+}} xmm0 = xmm1[0],zero
; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[2,3]
; SSE-NEXT: addq $24, %rsp
; SSE-NEXT: popq %rbx		; SSE-NEXT: popq %rbx
; SSE-NEXT: popq %r14		; SSE-NEXT: popq %r14
		; SSE-NEXT: popq %rbp
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: fptosi_2f128_to_4i32:		; AVX-LABEL: fptosi_2f128_to_4i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
		; AVX-NEXT: pushq %rbp
; AVX-NEXT: pushq %r14		; AVX-NEXT: pushq %r14
; AVX-NEXT: pushq %rbx		; AVX-NEXT: pushq %rbx
; AVX-NEXT: subq $24, %rsp		; AVX-NEXT: movq %rcx, %r14
; AVX-NEXT: movq %rsi, %r14		; AVX-NEXT: movq %rdx, %rbx
; AVX-NEXT: movq %rdi, %rbx		; AVX-NEXT: callq __fixtfsi
; AVX-NEXT: movq %rdx, %rdi		; AVX-NEXT: movl %eax, %ebp
; AVX-NEXT: movq %rcx, %rsi
; AVX-NEXT: callq __fixtfdi
; AVX-NEXT: vmovq %rax, %xmm0
; AVX-NEXT: vmovdqa %xmm0, (%rsp) # 16-byte Spill
; AVX-NEXT: movq %rbx, %rdi		; AVX-NEXT: movq %rbx, %rdi
; AVX-NEXT: movq %r14, %rsi		; AVX-NEXT: movq %r14, %rsi
; AVX-NEXT: callq __fixtfdi		; AVX-NEXT: callq __fixtfsi
; AVX-NEXT: vmovq %rax, %xmm0		; AVX-NEXT: vmovd %eax, %xmm0
; AVX-NEXT: vpunpcklqdq (%rsp), %xmm0, %xmm0 # 16-byte Folded Reload		; AVX-NEXT: vmovd %ebp, %xmm1
; AVX-NEXT: # xmm0 = xmm0[0],mem[0]		; AVX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,2],zero,zero		; AVX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX-NEXT: addq $24, %rsp
; AVX-NEXT: popq %rbx		; AVX-NEXT: popq %rbx
; AVX-NEXT: popq %r14		; AVX-NEXT: popq %r14
		; AVX-NEXT: popq %rbp
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; WIDEN-LABEL: fptosi_2f128_to_4i32:		; WIDEN-LABEL: fptosi_2f128_to_4i32:
; WIDEN: # %bb.0:		; WIDEN: # %bb.0:
; WIDEN-NEXT: pushq %rbp		; WIDEN-NEXT: pushq %rbp
; WIDEN-NEXT: pushq %r14		; WIDEN-NEXT: pushq %r14
; WIDEN-NEXT: pushq %rbx		; WIDEN-NEXT: pushq %rbx
; WIDEN-NEXT: movq %rcx, %r14		; WIDEN-NEXT: movq %rcx, %r14
Show All 18 Lines

test/CodeGen/X86/vec_insert-5.ll

	Show All 11 Lines
	; X32-NEXT: shll $12, %ecx			; X32-NEXT: shll $12, %ecx
	; X32-NEXT: movd %ecx, %xmm0			; X32-NEXT: movd %ecx, %xmm0
	; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,0,1,1]			; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,0,1,1]
	; X32-NEXT: movq %xmm0, (%eax)			; X32-NEXT: movq %xmm0, (%eax)
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: t1:			; X64-LABEL: t1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: # kill: def $edi killed $edi def $rdi
	; X64-NEXT: shll $12, %edi			; X64-NEXT: shll $12, %edi
	; X64-NEXT: movq %rdi, %xmm0			; X64-NEXT: movd %edi, %xmm0
	; X64-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5,6,7]			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,0,1,1]
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-NEXT: movq %xmm0, (%rsi)			; X64-NEXT: movq %xmm0, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp12 = shl i32 %a, 12			%tmp12 = shl i32 %a, 12
	%tmp21 = insertelement <2 x i32> undef, i32 %tmp12, i32 1			%tmp21 = insertelement <2 x i32> undef, i32 %tmp12, i32 1
	%tmp22 = insertelement <2 x i32> %tmp21, i32 0, i32 0			%tmp22 = insertelement <2 x i32> %tmp21, i32 0, i32 0
	%tmp23 = bitcast <2 x i32> %tmp22 to x86_mmx			%tmp23 = bitcast <2 x i32> %tmp22 to x86_mmx
	store x86_mmx %tmp23, x86_mmx* %P			store x86_mmx %tmp23, x86_mmx* %P
	ret void			ret void
	▲ Show 20 Lines • Show All 133 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_insert-7.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-apple-darwin9 -mattr=+mmx,+sse4.2 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-apple-darwin9 -mattr=+mmx,+sse4.2 \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-apple-darwin9 -mattr=+mmx,+sse4.2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-apple-darwin9 -mattr=+mmx,+sse4.2 \| FileCheck %s --check-prefix=X64

	; MMX insertelement is not available; these are promoted to xmm.			; MMX insertelement is not available; these are promoted to xmm.
	; (Without SSE they are split to two ints, and the code is much better.)			; (Without SSE they are split to two ints, and the code is much better.)

	define x86_mmx @mmx_movzl(x86_mmx %x) nounwind {			define x86_mmx @mmx_movzl(x86_mmx %x) nounwind {
	; X32-LABEL: mmx_movzl:			; X32-LABEL: mmx_movzl:
	; X32: ## %bb.0:			; X32: ## %bb.0:
	; X32-NEXT: subl $20, %esp			; X32-NEXT: subl $44, %esp
				; X32-NEXT: movq %mm0, {{[0-9]+}}(%esp)
				; X32-NEXT: movdqa {{[0-9]+}}(%esp), %xmm0
	; X32-NEXT: movl $32, %eax			; X32-NEXT: movl $32, %eax
	; X32-NEXT: movd %eax, %xmm0			; X32-NEXT: pinsrd $0, %eax, %xmm0
	; X32-NEXT: movq %xmm0, (%esp)			; X32-NEXT: pxor %xmm1, %xmm1
				; X32-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]
				; X32-NEXT: movdqa %xmm1, (%esp)
	; X32-NEXT: movq (%esp), %mm0			; X32-NEXT: movq (%esp), %mm0
	; X32-NEXT: addl $20, %esp			; X32-NEXT: addl $44, %esp
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: mmx_movzl:			; X64-LABEL: mmx_movzl:
	; X64: ## %bb.0:			; X64: ## %bb.0:
	; X64-NEXT: movl $32, %eax			; X64-NEXT: movl $32, %eax
	; X64-NEXT: movq %rax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp = bitcast x86_mmx %x to <2 x i32>			%tmp = bitcast x86_mmx %x to <2 x i32>
	%tmp3 = insertelement <2 x i32> %tmp, i32 32, i32 0			%tmp3 = insertelement <2 x i32> %tmp, i32 32, i32 0
	%tmp8 = insertelement <2 x i32> %tmp3, i32 0, i32 1			%tmp8 = insertelement <2 x i32> %tmp3, i32 0, i32 1
	%tmp9 = bitcast <2 x i32> %tmp8 to x86_mmx			%tmp9 = bitcast <2 x i32> %tmp8 to x86_mmx
	ret x86_mmx %tmp9			ret x86_mmx %tmp9
	}			}

test/CodeGen/X86/vec_insert-mmx.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-darwin -mattr=+mmx,+sse2 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-darwin -mattr=+mmx,+sse2 \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-darwin -mattr=+mmx,+sse4.1 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-darwin -mattr=+mmx,+sse4.1 \| FileCheck %s --check-prefix=X64

	; This is not an MMX operation; promoted to xmm.			; This is not an MMX operation; promoted to xmm.
	define x86_mmx @t0(i32 %A) nounwind {			define x86_mmx @t0(i32 %A) nounwind {
	; X32-LABEL: t0:			; X32-LABEL: t0:
	; X32: ## %bb.0:			; X32: ## %bb.0:
	; X32-NEXT: movd {{[0-9]+}}(%esp), %mm1			; X32-NEXT: movd {{[0-9]+}}(%esp), %mm1
	; X32-NEXT: pxor %mm0, %mm0			; X32-NEXT: pxor %mm0, %mm0
	; X32-NEXT: punpckldq %mm1, %mm0 ## mm0 = mm0[0],mm1[0]			; X32-NEXT: punpckldq %mm1, %mm0 ## mm0 = mm0[0],mm1[0]
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: t0:			; X64-LABEL: t0:
	; X64: ## %bb.0:			; X64: ## %bb.0:
	; X64-NEXT: ## kill: def $edi killed $edi def $rdi			; X64-NEXT: movd %edi, %xmm0
	; X64-NEXT: movq %rdi, %xmm0			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,0,1,1]
	; X64-NEXT: pslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4,5,6,7]
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp3 = insertelement <2 x i32> < i32 0, i32 undef >, i32 %A, i32 1			%tmp3 = insertelement <2 x i32> < i32 0, i32 undef >, i32 %A, i32 1
	%tmp4 = bitcast <2 x i32> %tmp3 to x86_mmx			%tmp4 = bitcast <2 x i32> %tmp3 to x86_mmx
	ret x86_mmx %tmp4			ret x86_mmx %tmp4
	}			}

	define <8 x i8> @t1(i8 zeroext %x) nounwind {			define <8 x i8> @t1(i8 zeroext %x) nounwind {
	; X32-LABEL: t1:			; X32-LABEL: t1:
	▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_int_to_fp.ll

	Show First 20 Lines • Show All 3,186 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,1,4,5,6,7]
	; SSE2-NEXT: psrad $16, %xmm0			; SSE2-NEXT: psrad $16, %xmm0
	; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0			; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: sitofp_load_2i16_to_2f64:			; SSE41-LABEL: sitofp_load_2i16_to_2f64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovsxwq (%rdi), %xmm0			; SSE41-NEXT: movswl 2(%rdi), %eax
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE41-NEXT: movswl (%rdi), %ecx
				; SSE41-NEXT: movd %ecx, %xmm0
				; SSE41-NEXT: pinsrd $1, %eax, %xmm0
	; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0			; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: sitofp_load_2i16_to_2f64:			; AVX-LABEL: sitofp_load_2i16_to_2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpmovsxwq (%rdi), %xmm0			; AVX-NEXT: movswl 2(%rdi), %eax
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX-NEXT: movswl (%rdi), %ecx
				; AVX-NEXT: vmovd %ecx, %xmm0
				; AVX-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
	; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0			; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%ld = load <2 x i16>, <2 x i16> *%a			%ld = load <2 x i16>, <2 x i16> *%a
	%cvt = sitofp <2 x i16> %ld to <2 x double>			%cvt = sitofp <2 x i16> %ld to <2 x double>
	ret <2 x double> %cvt			ret <2 x double> %cvt
	}			}

	define <2 x double> @sitofp_load_2i8_to_2f64(<2 x i8> *%a) {			define <2 x double> @sitofp_load_2i8_to_2f64(<2 x i8> *%a) {
	; SSE2-LABEL: sitofp_load_2i8_to_2f64:			; SSE2-LABEL: sitofp_load_2i8_to_2f64:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movzwl (%rdi), %eax			; SSE2-NEXT: movzwl (%rdi), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; SSE2-NEXT: psrad $24, %xmm0			; SSE2-NEXT: psrad $24, %xmm0
	; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0			; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: sitofp_load_2i8_to_2f64:			; SSE41-LABEL: sitofp_load_2i8_to_2f64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovsxbq (%rdi), %xmm0			; SSE41-NEXT: movsbl 1(%rdi), %eax
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE41-NEXT: movsbl (%rdi), %ecx
				; SSE41-NEXT: movd %ecx, %xmm0
				; SSE41-NEXT: pinsrd $1, %eax, %xmm0
	; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0			; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: sitofp_load_2i8_to_2f64:			; AVX-LABEL: sitofp_load_2i8_to_2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpmovsxbq (%rdi), %xmm0			; AVX-NEXT: movsbl 1(%rdi), %eax
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX-NEXT: movsbl (%rdi), %ecx
				; AVX-NEXT: vmovd %ecx, %xmm0
				; AVX-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
	; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0			; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%ld = load <2 x i8>, <2 x i8> *%a			%ld = load <2 x i8>, <2 x i8> *%a
	%cvt = sitofp <2 x i8> %ld to <2 x double>			%cvt = sitofp <2 x i8> %ld to <2 x double>
	ret <2 x double> %cvt			ret <2 x double> %cvt
	}			}

	define <4 x double> @sitofp_load_4i64_to_4f64(<4 x i64> *%a) {			define <4 x double> @sitofp_load_4i64_to_4f64(<4 x i64> *%a) {
	▲ Show 20 Lines • Show All 387 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pxor %xmm1, %xmm1			; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0			; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: uitofp_load_2i8_to_2f64:			; SSE41-LABEL: uitofp_load_2i8_to_2f64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; SSE41-NEXT: movzbl 1(%rdi), %eax
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE41-NEXT: movzbl (%rdi), %ecx
				; SSE41-NEXT: movd %ecx, %xmm0
				; SSE41-NEXT: pinsrd $1, %eax, %xmm0
	; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0			; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: uitofp_load_2i8_to_2f64:			; AVX-LABEL: uitofp_load_2i8_to_2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; AVX-NEXT: movzbl 1(%rdi), %eax
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX-NEXT: movzbl (%rdi), %ecx
				; AVX-NEXT: vmovd %ecx, %xmm0
				; AVX-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
	; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0			; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%ld = load <2 x i8>, <2 x i8> *%a			%ld = load <2 x i8>, <2 x i8> *%a
	%cvt = uitofp <2 x i8> %ld to <2 x double>			%cvt = uitofp <2 x i8> %ld to <2 x double>
	ret <2 x double> %cvt			ret <2 x double> %cvt
	}			}

	define <4 x double> @uitofp_load_4i64_to_4f64(<4 x i64> *%a) {			define <4 x double> @uitofp_load_4i64_to_4f64(<4 x i64> *%a) {
	▲ Show 20 Lines • Show All 2,192 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_zero_cse.ll

	Show All 16 Lines
	; X32-NEXT: movl $0, M1			; X32-NEXT: movl $0, M1
	; X32-NEXT: xorps %xmm0, %xmm0			; X32-NEXT: xorps %xmm0, %xmm0
	; X32-NEXT: movlps %xmm0, M2			; X32-NEXT: movlps %xmm0, M2
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test1:			; X64-LABEL: test1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq $0, {{.*}}(%rip)			; X64-NEXT: movq $0, {{.*}}(%rip)
	; X64-NEXT: movq $0, {{.*}}(%rip)			; X64-NEXT: xorps %xmm0, %xmm0
				; X64-NEXT: movlps %xmm0, {{.*}}(%rip)
	; X64-NEXT: retq			; X64-NEXT: retq
	store <1 x i64> zeroinitializer, <1 x i64>* @M1			store <1 x i64> zeroinitializer, <1 x i64>* @M1
	store <2 x i32> zeroinitializer, <2 x i32>* @M2			store <2 x i32> zeroinitializer, <2 x i32>* @M2
	ret void			ret void
	}			}

	define void @test2() {			define void @test2() {
	; X32-LABEL: test2:			; X32-LABEL: test2:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movl $-1, M1+4			; X32-NEXT: movl $-1, M1+4
	; X32-NEXT: movl $-1, M1			; X32-NEXT: movl $-1, M1
	; X32-NEXT: pcmpeqd %xmm0, %xmm0			; X32-NEXT: pcmpeqd %xmm0, %xmm0
	; X32-NEXT: movq %xmm0, M2			; X32-NEXT: movq %xmm0, M2
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test2:			; X64-LABEL: test2:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq $-1, {{.*}}(%rip)			; X64-NEXT: movq $-1, {{.*}}(%rip)
	; X64-NEXT: movq {{.*}}(%rip), %rax			; X64-NEXT: pcmpeqd %xmm0, %xmm0
	; X64-NEXT: movq %rax, {{.*}}(%rip)			; X64-NEXT: movq %xmm0, {{.*}}(%rip)
	; X64-NEXT: retq			; X64-NEXT: retq
	store <1 x i64> < i64 -1 >, <1 x i64>* @M1			store <1 x i64> < i64 -1 >, <1 x i64>* @M1
	store <2 x i32> < i32 -1, i32 -1 >, <2 x i32>* @M2			store <2 x i32> < i32 -1, i32 -1 >, <2 x i32>* @M2
	ret void			ret void
	}			}

	define void @test3() {			define void @test3() {
	; X32-LABEL: test3:			; X32-LABEL: test3:
	Show All 35 Lines

test/CodeGen/X86/vector-idiv-v2i32.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64
	; RUN: llc < %s -mtriple=i386-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i386-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 -x86-experimental-vector-widening-legalization \| FileCheck %s --check-prefix=X64_WIDEN			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 -x86-experimental-vector-widening-legalization \| FileCheck %s --check-prefix=X64_WIDEN
	; RUN: llc < %s -mtriple=i386-unknown-unknown -mattr=+sse2 -x86-experimental-vector-widening-legalization \| FileCheck %s --check-prefix=X86_WIDEN			; RUN: llc < %s -mtriple=i386-unknown-unknown -mattr=+sse2 -x86-experimental-vector-widening-legalization \| FileCheck %s --check-prefix=X86_WIDEN

	define void @test_udiv7_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {			define void @test_udiv7_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {
	; X64-LABEL: test_udiv7_v2i32:			; X64-LABEL: test_udiv7_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,0,1]			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm1, %eax
	; X64-NEXT: imulq $613566757, %rax, %rcx # imm = 0x24924925			; X64-NEXT: imulq $613566757, %rax, %rcx # imm = 0x24924925
	; X64-NEXT: shrq $32, %rcx			; X64-NEXT: shrq $32, %rcx
	; X64-NEXT: subl %ecx, %eax			; X64-NEXT: subl %ecx, %eax
	; X64-NEXT: shrl %eax			; X64-NEXT: shrl %eax
	; X64-NEXT: addl %ecx, %eax			; X64-NEXT: addl %ecx, %eax
	; X64-NEXT: shrl $2, %eax			; X64-NEXT: shrl $2, %eax
	; X64-NEXT: movd %xmm0, %ecx
	; X64-NEXT: imulq $613566757, %rcx, %rdx # imm = 0x24924925
	; X64-NEXT: shrq $32, %rdx
	; X64-NEXT: subl %edx, %ecx
	; X64-NEXT: shrl %ecx
	; X64-NEXT: addl %edx, %ecx
	; X64-NEXT: shrl $2, %ecx
	; X64-NEXT: movd %ecx, %xmm0
	; X64-NEXT: movd %eax, %xmm1			; X64-NEXT: movd %eax, %xmm1
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X64-NEXT: movq %xmm0, (%rsi)			; X64-NEXT: movd %xmm0, %eax
				; X64-NEXT: imulq $613566757, %rax, %rcx # imm = 0x24924925
				; X64-NEXT: shrq $32, %rcx
				; X64-NEXT: subl %ecx, %eax
				; X64-NEXT: shrl %eax
				; X64-NEXT: addl %ecx, %eax
				; X64-NEXT: shrl $2, %eax
				; X64-NEXT: movd %eax, %xmm0
				; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; X64-NEXT: movq %xmm1, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_udiv7_v2i32:			; X86-LABEL: test_udiv7_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebx
	; X86-NEXT: pushl %edi			; X86-NEXT: pushl %edi
	; X86-NEXT: pushl %esi			; X86-NEXT: pushl %esi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edi			; X86-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: movd %xmm0, %ecx			; X86-NEXT: movd %xmm0, %ecx
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,0,1]			; X86-NEXT: movl $613566757, %edi # imm = 0x24924925
	; X86-NEXT: movd %xmm0, %esi			; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: movl $613566757, %ebx # imm = 0x24924925			; X86-NEXT: mull %edi
	; X86-NEXT: movl %esi, %eax			; X86-NEXT: subl %edx, %ecx
	; X86-NEXT: mull %ebx			; X86-NEXT: shrl %ecx
	; X86-NEXT: subl %edx, %esi			; X86-NEXT: addl %edx, %ecx
	; X86-NEXT: shrl %esi			; X86-NEXT: shrl $2, %ecx
	; X86-NEXT: addl %edx, %esi			; X86-NEXT: movd %ecx, %xmm1
	; X86-NEXT: shrl $2, %esi			; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
				; X86-NEXT: movd %xmm0, %ecx
	; X86-NEXT: movl %ecx, %eax			; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: mull %ebx			; X86-NEXT: mull %edi
	; X86-NEXT: subl %edx, %ecx			; X86-NEXT: subl %edx, %ecx
	; X86-NEXT: shrl %ecx			; X86-NEXT: shrl %ecx
	; X86-NEXT: addl %edx, %ecx			; X86-NEXT: addl %edx, %ecx
	; X86-NEXT: shrl $2, %ecx			; X86-NEXT: shrl $2, %ecx
	; X86-NEXT: movd %ecx, %xmm0			; X86-NEXT: movd %ecx, %xmm0
	; X86-NEXT: movd %esi, %xmm1			; X86-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X86-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X86-NEXT: movq %xmm1, (%esi)
	; X86-NEXT: movq %xmm0, (%edi)
	; X86-NEXT: popl %esi			; X86-NEXT: popl %esi
	; X86-NEXT: popl %edi			; X86-NEXT: popl %edi
	; X86-NEXT: popl %ebx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_udiv7_v2i32:			; X64_WIDEN-LABEL: test_udiv7_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64_WIDEN-NEXT: movd %xmm0, %eax			; X64_WIDEN-NEXT: movd %xmm0, %eax
	; X64_WIDEN-NEXT: imulq $613566757, %rax, %rcx # imm = 0x24924925			; X64_WIDEN-NEXT: imulq $613566757, %rax, %rcx # imm = 0x24924925
	; X64_WIDEN-NEXT: shrq $32, %rcx			; X64_WIDEN-NEXT: shrq $32, %rcx
	Show All 12 Lines
	; X64_WIDEN-NEXT: shrl $2, %eax			; X64_WIDEN-NEXT: shrl $2, %eax
	; X64_WIDEN-NEXT: movd %eax, %xmm0			; X64_WIDEN-NEXT: movd %eax, %xmm0
	; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64_WIDEN-NEXT: movq %xmm1, (%rsi)			; X64_WIDEN-NEXT: movq %xmm1, (%rsi)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_udiv7_v2i32:			; X86_WIDEN-LABEL: test_udiv7_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: pushl %ebx
	; X86_WIDEN-NEXT: pushl %edi			; X86_WIDEN-NEXT: pushl %edi
	; X86_WIDEN-NEXT: pushl %esi			; X86_WIDEN-NEXT: pushl %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %edi			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl (%eax), %ecx			; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86_WIDEN-NEXT: movl 4(%eax), %esi			; X86_WIDEN-NEXT: movd %xmm0, %ecx
	; X86_WIDEN-NEXT: movl $613566757, %ebx # imm = 0x24924925			; X86_WIDEN-NEXT: movl $613566757, %edi # imm = 0x24924925
	; X86_WIDEN-NEXT: movl %ecx, %eax			; X86_WIDEN-NEXT: movl %ecx, %eax
	; X86_WIDEN-NEXT: mull %ebx			; X86_WIDEN-NEXT: mull %edi
	; X86_WIDEN-NEXT: subl %edx, %ecx			; X86_WIDEN-NEXT: subl %edx, %ecx
	; X86_WIDEN-NEXT: shrl %ecx			; X86_WIDEN-NEXT: shrl %ecx
	; X86_WIDEN-NEXT: addl %edx, %ecx			; X86_WIDEN-NEXT: addl %edx, %ecx
	; X86_WIDEN-NEXT: shrl $2, %ecx			; X86_WIDEN-NEXT: shrl $2, %ecx
	; X86_WIDEN-NEXT: movl %esi, %eax			; X86_WIDEN-NEXT: movd %ecx, %xmm1
	; X86_WIDEN-NEXT: mull %ebx			; X86_WIDEN-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X86_WIDEN-NEXT: subl %edx, %esi			; X86_WIDEN-NEXT: movd %xmm0, %ecx
	; X86_WIDEN-NEXT: shrl %esi			; X86_WIDEN-NEXT: movl %ecx, %eax
	; X86_WIDEN-NEXT: addl %edx, %esi			; X86_WIDEN-NEXT: mull %edi
	; X86_WIDEN-NEXT: shrl $2, %esi			; X86_WIDEN-NEXT: subl %edx, %ecx
	; X86_WIDEN-NEXT: movl %esi, 4(%edi)			; X86_WIDEN-NEXT: shrl %ecx
	; X86_WIDEN-NEXT: movl %ecx, (%edi)			; X86_WIDEN-NEXT: addl %edx, %ecx
				; X86_WIDEN-NEXT: shrl $2, %ecx
				; X86_WIDEN-NEXT: movd %ecx, %xmm0
				; X86_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; X86_WIDEN-NEXT: movq %xmm1, (%esi)
	; X86_WIDEN-NEXT: popl %esi			; X86_WIDEN-NEXT: popl %esi
	; X86_WIDEN-NEXT: popl %edi			; X86_WIDEN-NEXT: popl %edi
	; X86_WIDEN-NEXT: popl %ebx
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = udiv <2 x i32> %a, <i32 7, i32 7>			%b = udiv <2 x i32> %a, <i32 7, i32 7>
	store <2 x i32> %b, <2 x i32>* %y			store <2 x i32> %b, <2 x i32>* %y
	ret void			ret void
	}			}

	define void @test_urem7_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {			define void @test_urem7_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {
	; X64-LABEL: test_urem7_v2i32:			; X64-LABEL: test_urem7_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,0,1]			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm1, %ecx			; X64-NEXT: imulq $613566757, %rax, %rcx # imm = 0x24924925
	; X64-NEXT: imulq $613566757, %rcx, %rdx # imm = 0x24924925			; X64-NEXT: shrq $32, %rcx
	; X64-NEXT: shrq $32, %rdx			; X64-NEXT: movl %eax, %edx
	; X64-NEXT: movl %ecx, %eax			; X64-NEXT: subl %ecx, %edx
	; X64-NEXT: subl %edx, %eax			; X64-NEXT: shrl %edx
	; X64-NEXT: shrl %eax			; X64-NEXT: addl %ecx, %edx
	; X64-NEXT: addl %edx, %eax			; X64-NEXT: shrl $2, %edx
	; X64-NEXT: shrl $2, %eax			; X64-NEXT: leal (,%rdx,8), %ecx
	; X64-NEXT: leal (,%rax,8), %edx			; X64-NEXT: subl %ecx, %edx
	; X64-NEXT: subl %edx, %eax			; X64-NEXT: addl %eax, %edx
	; X64-NEXT: addl %ecx, %eax			; X64-NEXT: movd %edx, %xmm1
	; X64-NEXT: movd %xmm0, %ecx			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X64-NEXT: imulq $613566757, %rcx, %rdx # imm = 0x24924925			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: shrq $32, %rdx			; X64-NEXT: imulq $613566757, %rax, %rcx # imm = 0x24924925
	; X64-NEXT: movl %ecx, %edi			; X64-NEXT: shrq $32, %rcx
	; X64-NEXT: subl %edx, %edi			; X64-NEXT: movl %eax, %edx
	; X64-NEXT: shrl %edi			; X64-NEXT: subl %ecx, %edx
	; X64-NEXT: addl %edx, %edi			; X64-NEXT: shrl %edx
	; X64-NEXT: shrl $2, %edi			; X64-NEXT: addl %ecx, %edx
	; X64-NEXT: leal (,%rdi,8), %edx			; X64-NEXT: shrl $2, %edx
	; X64-NEXT: subl %edx, %edi			; X64-NEXT: leal (,%rdx,8), %ecx
	; X64-NEXT: addl %ecx, %edi			; X64-NEXT: subl %ecx, %edx
	; X64-NEXT: movd %edi, %xmm0			; X64-NEXT: addl %eax, %edx
	; X64-NEXT: movd %eax, %xmm1			; X64-NEXT: movd %edx, %xmm0
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-NEXT: movq %xmm0, (%rsi)			; X64-NEXT: movq %xmm1, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_urem7_v2i32:			; X86-LABEL: test_urem7_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebp
	; X86-NEXT: pushl %ebx
	; X86-NEXT: pushl %edi			; X86-NEXT: pushl %edi
	; X86-NEXT: pushl %esi			; X86-NEXT: pushl %esi
				; X86-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: movd %xmm0, %ecx			; X86-NEXT: movd %xmm0, %ecx
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,0,1]
	; X86-NEXT: movd %xmm0, %esi
	; X86-NEXT: movl $613566757, %edi # imm = 0x24924925			; X86-NEXT: movl $613566757, %edi # imm = 0x24924925
	; X86-NEXT: movl %esi, %eax			; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: mull %edi			; X86-NEXT: mull %edi
	; X86-NEXT: movl %esi, %ebx			; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: subl %edx, %ebx			; X86-NEXT: subl %edx, %eax
	; X86-NEXT: shrl %ebx			; X86-NEXT: shrl %eax
	; X86-NEXT: addl %edx, %ebx			; X86-NEXT: addl %edx, %eax
	; X86-NEXT: shrl $2, %ebx			; X86-NEXT: shrl $2, %eax
	; X86-NEXT: leal (,%ebx,8), %eax			; X86-NEXT: leal (,%eax,8), %edx
	; X86-NEXT: subl %eax, %ebx			; X86-NEXT: subl %edx, %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ebp			; X86-NEXT: addl %ecx, %eax
	; X86-NEXT: addl %esi, %ebx			; X86-NEXT: movd %eax, %xmm1
				; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
				; X86-NEXT: movd %xmm0, %ecx
	; X86-NEXT: movl %ecx, %eax			; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: mull %edi			; X86-NEXT: mull %edi
	; X86-NEXT: movl %ecx, %eax			; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: subl %edx, %eax			; X86-NEXT: subl %edx, %eax
	; X86-NEXT: shrl %eax			; X86-NEXT: shrl %eax
	; X86-NEXT: addl %edx, %eax			; X86-NEXT: addl %edx, %eax
	; X86-NEXT: shrl $2, %eax			; X86-NEXT: shrl $2, %eax
	; X86-NEXT: leal (,%eax,8), %edx			; X86-NEXT: leal (,%eax,8), %edx
	; X86-NEXT: subl %edx, %eax			; X86-NEXT: subl %edx, %eax
	; X86-NEXT: addl %ecx, %eax			; X86-NEXT: addl %ecx, %eax
	; X86-NEXT: movd %eax, %xmm0			; X86-NEXT: movd %eax, %xmm0
	; X86-NEXT: movd %ebx, %xmm1			; X86-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X86-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X86-NEXT: movq %xmm1, (%esi)
	; X86-NEXT: movq %xmm0, (%ebp)
	; X86-NEXT: popl %esi			; X86-NEXT: popl %esi
	; X86-NEXT: popl %edi			; X86-NEXT: popl %edi
	; X86-NEXT: popl %ebx
	; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_urem7_v2i32:			; X64_WIDEN-LABEL: test_urem7_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64_WIDEN-NEXT: movd %xmm0, %eax			; X64_WIDEN-NEXT: movd %xmm0, %eax
	; X64_WIDEN-NEXT: imulq $613566757, %rax, %rcx # imm = 0x24924925			; X64_WIDEN-NEXT: imulq $613566757, %rax, %rcx # imm = 0x24924925
	; X64_WIDEN-NEXT: shrq $32, %rcx			; X64_WIDEN-NEXT: shrq $32, %rcx
	Show All 20 Lines
	; X64_WIDEN-NEXT: addl %eax, %edx			; X64_WIDEN-NEXT: addl %eax, %edx
	; X64_WIDEN-NEXT: movd %edx, %xmm0			; X64_WIDEN-NEXT: movd %edx, %xmm0
	; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64_WIDEN-NEXT: movq %xmm1, (%rsi)			; X64_WIDEN-NEXT: movq %xmm1, (%rsi)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_urem7_v2i32:			; X86_WIDEN-LABEL: test_urem7_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: pushl %ebp
	; X86_WIDEN-NEXT: pushl %ebx
	; X86_WIDEN-NEXT: pushl %edi			; X86_WIDEN-NEXT: pushl %edi
	; X86_WIDEN-NEXT: pushl %esi			; X86_WIDEN-NEXT: pushl %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %edi			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl (%eax), %esi			; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86_WIDEN-NEXT: movl 4(%eax), %ecx			; X86_WIDEN-NEXT: movd %xmm0, %ecx
	; X86_WIDEN-NEXT: movl $613566757, %ebx # imm = 0x24924925			; X86_WIDEN-NEXT: movl $613566757, %edi # imm = 0x24924925
	; X86_WIDEN-NEXT: movl %esi, %eax
	; X86_WIDEN-NEXT: mull %ebx
	; X86_WIDEN-NEXT: movl %esi, %ebp
	; X86_WIDEN-NEXT: subl %edx, %ebp
	; X86_WIDEN-NEXT: shrl %ebp
	; X86_WIDEN-NEXT: addl %edx, %ebp
	; X86_WIDEN-NEXT: shrl $2, %ebp
	; X86_WIDEN-NEXT: leal (,%ebp,8), %eax
	; X86_WIDEN-NEXT: subl %eax, %ebp
	; X86_WIDEN-NEXT: addl %esi, %ebp
	; X86_WIDEN-NEXT: movl %ecx, %eax			; X86_WIDEN-NEXT: movl %ecx, %eax
	; X86_WIDEN-NEXT: mull %ebx			; X86_WIDEN-NEXT: mull %edi
	; X86_WIDEN-NEXT: movl %ecx, %eax			; X86_WIDEN-NEXT: movl %ecx, %eax
	; X86_WIDEN-NEXT: subl %edx, %eax			; X86_WIDEN-NEXT: subl %edx, %eax
	; X86_WIDEN-NEXT: shrl %eax			; X86_WIDEN-NEXT: shrl %eax
	; X86_WIDEN-NEXT: addl %edx, %eax			; X86_WIDEN-NEXT: addl %edx, %eax
	; X86_WIDEN-NEXT: shrl $2, %eax			; X86_WIDEN-NEXT: shrl $2, %eax
	; X86_WIDEN-NEXT: leal (,%eax,8), %edx			; X86_WIDEN-NEXT: leal (,%eax,8), %edx
	; X86_WIDEN-NEXT: subl %edx, %eax			; X86_WIDEN-NEXT: subl %edx, %eax
	; X86_WIDEN-NEXT: addl %ecx, %eax			; X86_WIDEN-NEXT: addl %ecx, %eax
	; X86_WIDEN-NEXT: movl %eax, 4(%edi)			; X86_WIDEN-NEXT: movd %eax, %xmm1
	; X86_WIDEN-NEXT: movl %ebp, (%edi)			; X86_WIDEN-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
				; X86_WIDEN-NEXT: movd %xmm0, %ecx
				; X86_WIDEN-NEXT: movl %ecx, %eax
				; X86_WIDEN-NEXT: mull %edi
				; X86_WIDEN-NEXT: movl %ecx, %eax
				; X86_WIDEN-NEXT: subl %edx, %eax
				; X86_WIDEN-NEXT: shrl %eax
				; X86_WIDEN-NEXT: addl %edx, %eax
				; X86_WIDEN-NEXT: shrl $2, %eax
				; X86_WIDEN-NEXT: leal (,%eax,8), %edx
				; X86_WIDEN-NEXT: subl %edx, %eax
				; X86_WIDEN-NEXT: addl %ecx, %eax
				; X86_WIDEN-NEXT: movd %eax, %xmm0
				; X86_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; X86_WIDEN-NEXT: movq %xmm1, (%esi)
	; X86_WIDEN-NEXT: popl %esi			; X86_WIDEN-NEXT: popl %esi
	; X86_WIDEN-NEXT: popl %edi			; X86_WIDEN-NEXT: popl %edi
	; X86_WIDEN-NEXT: popl %ebx
	; X86_WIDEN-NEXT: popl %ebp
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = urem <2 x i32> %a, <i32 7, i32 7>			%b = urem <2 x i32> %a, <i32 7, i32 7>
	store <2 x i32> %b, <2 x i32>* %y			store <2 x i32> %b, <2 x i32>* %y
	ret void			ret void
	}			}

	define void @test_sdiv7_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {			define void @test_sdiv7_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {
	; X64-LABEL: test_sdiv7_v2i32:			; X64-LABEL: test_sdiv7_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,0,1]			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm1, %eax
	; X64-NEXT: cltq			; X64-NEXT: cltq
	; X64-NEXT: imulq $-1840700269, %rax, %rcx # imm = 0x92492493			; X64-NEXT: imulq $-1840700269, %rax, %rcx # imm = 0x92492493
	; X64-NEXT: shrq $32, %rcx			; X64-NEXT: shrq $32, %rcx
	; X64-NEXT: addl %ecx, %eax			; X64-NEXT: addl %ecx, %eax
	; X64-NEXT: movl %eax, %ecx			; X64-NEXT: movl %eax, %ecx
	; X64-NEXT: shrl $31, %ecx			; X64-NEXT: shrl $31, %ecx
	; X64-NEXT: sarl $2, %eax			; X64-NEXT: sarl $2, %eax
	; X64-NEXT: addl %ecx, %eax			; X64-NEXT: addl %ecx, %eax
	; X64-NEXT: movd %xmm0, %ecx
	; X64-NEXT: movslq %ecx, %rcx
	; X64-NEXT: imulq $-1840700269, %rcx, %rdx # imm = 0x92492493
	; X64-NEXT: shrq $32, %rdx
	; X64-NEXT: addl %edx, %ecx
	; X64-NEXT: movl %ecx, %edx
	; X64-NEXT: shrl $31, %edx
	; X64-NEXT: sarl $2, %ecx
	; X64-NEXT: addl %edx, %ecx
	; X64-NEXT: movd %ecx, %xmm0
	; X64-NEXT: movd %eax, %xmm1			; X64-NEXT: movd %eax, %xmm1
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X64-NEXT: movq %xmm0, (%rsi)			; X64-NEXT: movd %xmm0, %eax
				; X64-NEXT: cltq
				; X64-NEXT: imulq $-1840700269, %rax, %rcx # imm = 0x92492493
				; X64-NEXT: shrq $32, %rcx
				; X64-NEXT: addl %ecx, %eax
				; X64-NEXT: movl %eax, %ecx
				; X64-NEXT: shrl $31, %ecx
				; X64-NEXT: sarl $2, %eax
				; X64-NEXT: addl %ecx, %eax
				; X64-NEXT: movd %eax, %xmm0
				; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; X64-NEXT: movq %xmm1, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_sdiv7_v2i32:			; X86-LABEL: test_sdiv7_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebp
	; X86-NEXT: pushl %ebx			; X86-NEXT: pushl %ebx
	; X86-NEXT: pushl %edi			; X86-NEXT: pushl %edi
	; X86-NEXT: pushl %esi			; X86-NEXT: pushl %esi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ebx			; X86-NEXT: movl {{[0-9]+}}(%esp), %edi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: movd %xmm0, %ecx			; X86-NEXT: movd %xmm0, %ecx
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,0,1]			; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X86-NEXT: movd %xmm0, %esi			; X86-NEXT: movd %xmm0, %esi
	; X86-NEXT: movl $-1840700269, %ebp # imm = 0x92492493			; X86-NEXT: movl $-1840700269, %ebx # imm = 0x92492493
	; X86-NEXT: movl %esi, %eax			; X86-NEXT: movl %esi, %eax
	; X86-NEXT: imull %ebp			; X86-NEXT: imull %ebx
	; X86-NEXT: movl %edx, %edi			; X86-NEXT: addl %esi, %edx
	; X86-NEXT: addl %esi, %edi			; X86-NEXT: movl %edx, %eax
	; X86-NEXT: movl %edi, %eax
	; X86-NEXT: shrl $31, %eax			; X86-NEXT: shrl $31, %eax
	; X86-NEXT: sarl $2, %edi			; X86-NEXT: sarl $2, %edx
	; X86-NEXT: addl %eax, %edi			; X86-NEXT: addl %eax, %edx
				; X86-NEXT: movd %edx, %xmm0
	; X86-NEXT: movl %ecx, %eax			; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: imull %ebp			; X86-NEXT: imull %ebx
	; X86-NEXT: addl %ecx, %edx			; X86-NEXT: addl %ecx, %edx
	; X86-NEXT: movl %edx, %eax			; X86-NEXT: movl %edx, %eax
	; X86-NEXT: shrl $31, %eax			; X86-NEXT: shrl $31, %eax
	; X86-NEXT: sarl $2, %edx			; X86-NEXT: sarl $2, %edx
	; X86-NEXT: addl %eax, %edx			; X86-NEXT: addl %eax, %edx
	; X86-NEXT: movd %edx, %xmm0			; X86-NEXT: movd %edx, %xmm1
	; X86-NEXT: movd %edi, %xmm1			; X86-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X86-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X86-NEXT: movq %xmm1, (%edi)
	; X86-NEXT: movq %xmm0, (%ebx)
	; X86-NEXT: popl %esi			; X86-NEXT: popl %esi
	; X86-NEXT: popl %edi			; X86-NEXT: popl %edi
	; X86-NEXT: popl %ebx			; X86-NEXT: popl %ebx
	; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_sdiv7_v2i32:			; X64_WIDEN-LABEL: test_sdiv7_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64_WIDEN-NEXT: movd %xmm0, %eax			; X64_WIDEN-NEXT: movd %xmm0, %eax
	; X64_WIDEN-NEXT: cltq			; X64_WIDEN-NEXT: cltq
	; X64_WIDEN-NEXT: imulq $-1840700269, %rax, %rcx # imm = 0x92492493			; X64_WIDEN-NEXT: imulq $-1840700269, %rax, %rcx # imm = 0x92492493
	Show All 16 Lines
	; X64_WIDEN-NEXT: addl %ecx, %eax			; X64_WIDEN-NEXT: addl %ecx, %eax
	; X64_WIDEN-NEXT: movd %eax, %xmm0			; X64_WIDEN-NEXT: movd %eax, %xmm0
	; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64_WIDEN-NEXT: movq %xmm1, (%rsi)			; X64_WIDEN-NEXT: movq %xmm1, (%rsi)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_sdiv7_v2i32:			; X86_WIDEN-LABEL: test_sdiv7_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: pushl %ebp
	; X86_WIDEN-NEXT: pushl %ebx			; X86_WIDEN-NEXT: pushl %ebx
	; X86_WIDEN-NEXT: pushl %edi			; X86_WIDEN-NEXT: pushl %edi
	; X86_WIDEN-NEXT: pushl %esi			; X86_WIDEN-NEXT: pushl %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ebx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %edi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl (%eax), %ecx			; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86_WIDEN-NEXT: movl 4(%eax), %esi			; X86_WIDEN-NEXT: movd %xmm0, %ecx
	; X86_WIDEN-NEXT: movl $-1840700269, %ebp # imm = 0x92492493			; X86_WIDEN-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X86_WIDEN-NEXT: movl %ecx, %eax			; X86_WIDEN-NEXT: movd %xmm0, %esi
	; X86_WIDEN-NEXT: imull %ebp			; X86_WIDEN-NEXT: movl $-1840700269, %ebx # imm = 0x92492493
	; X86_WIDEN-NEXT: movl %edx, %edi
	; X86_WIDEN-NEXT: addl %ecx, %edi
	; X86_WIDEN-NEXT: movl %edi, %eax
	; X86_WIDEN-NEXT: shrl $31, %eax
	; X86_WIDEN-NEXT: sarl $2, %edi
	; X86_WIDEN-NEXT: addl %eax, %edi
	; X86_WIDEN-NEXT: movl %esi, %eax			; X86_WIDEN-NEXT: movl %esi, %eax
	; X86_WIDEN-NEXT: imull %ebp			; X86_WIDEN-NEXT: imull %ebx
	; X86_WIDEN-NEXT: addl %esi, %edx			; X86_WIDEN-NEXT: addl %esi, %edx
	; X86_WIDEN-NEXT: movl %edx, %eax			; X86_WIDEN-NEXT: movl %edx, %eax
	; X86_WIDEN-NEXT: shrl $31, %eax			; X86_WIDEN-NEXT: shrl $31, %eax
	; X86_WIDEN-NEXT: sarl $2, %edx			; X86_WIDEN-NEXT: sarl $2, %edx
	; X86_WIDEN-NEXT: addl %eax, %edx			; X86_WIDEN-NEXT: addl %eax, %edx
	; X86_WIDEN-NEXT: movl %edx, 4(%ebx)			; X86_WIDEN-NEXT: movd %edx, %xmm0
	; X86_WIDEN-NEXT: movl %edi, (%ebx)			; X86_WIDEN-NEXT: movl %ecx, %eax
				; X86_WIDEN-NEXT: imull %ebx
				; X86_WIDEN-NEXT: addl %ecx, %edx
				; X86_WIDEN-NEXT: movl %edx, %eax
				; X86_WIDEN-NEXT: shrl $31, %eax
				; X86_WIDEN-NEXT: sarl $2, %edx
				; X86_WIDEN-NEXT: addl %eax, %edx
				; X86_WIDEN-NEXT: movd %edx, %xmm1
				; X86_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; X86_WIDEN-NEXT: movq %xmm1, (%edi)
	; X86_WIDEN-NEXT: popl %esi			; X86_WIDEN-NEXT: popl %esi
	; X86_WIDEN-NEXT: popl %edi			; X86_WIDEN-NEXT: popl %edi
	; X86_WIDEN-NEXT: popl %ebx			; X86_WIDEN-NEXT: popl %ebx
	; X86_WIDEN-NEXT: popl %ebp
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = sdiv <2 x i32> %a, <i32 7, i32 7>			%b = sdiv <2 x i32> %a, <i32 7, i32 7>
	store <2 x i32> %b, <2 x i32>* %y			store <2 x i32> %b, <2 x i32>* %y
	ret void			ret void
	}			}

	define void @test_srem7_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {			define void @test_srem7_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {
	; X64-LABEL: test_srem7_v2i32:			; X64-LABEL: test_srem7_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,0,1]			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm1, %eax			; X64-NEXT: cltq
	; X64-NEXT: movslq %eax, %rcx			; X64-NEXT: imulq $-1840700269, %rax, %rcx # imm = 0x92492493
	; X64-NEXT: imulq $-1840700269, %rcx, %rax # imm = 0x92492493			; X64-NEXT: shrq $32, %rcx
	; X64-NEXT: shrq $32, %rax			; X64-NEXT: addl %eax, %ecx
	; X64-NEXT: addl %ecx, %eax			; X64-NEXT: movl %ecx, %edx
	; X64-NEXT: movl %eax, %edx
	; X64-NEXT: shrl $31, %edx			; X64-NEXT: shrl $31, %edx
	; X64-NEXT: sarl $2, %eax			; X64-NEXT: sarl $2, %ecx
	; X64-NEXT: addl %edx, %eax			; X64-NEXT: addl %edx, %ecx
	; X64-NEXT: leal (,%rax,8), %edx			; X64-NEXT: leal (,%rcx,8), %edx
	; X64-NEXT: subl %edx, %eax			; X64-NEXT: subl %edx, %ecx
	; X64-NEXT: addl %ecx, %eax			; X64-NEXT: addl %eax, %ecx
	; X64-NEXT: movd %xmm0, %ecx			; X64-NEXT: movd %ecx, %xmm1
	; X64-NEXT: movslq %ecx, %rcx			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X64-NEXT: imulq $-1840700269, %rcx, %rdx # imm = 0x92492493			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: shrq $32, %rdx			; X64-NEXT: cltq
	; X64-NEXT: addl %ecx, %edx			; X64-NEXT: imulq $-1840700269, %rax, %rcx # imm = 0x92492493
	; X64-NEXT: movl %edx, %edi			; X64-NEXT: shrq $32, %rcx
	; X64-NEXT: shrl $31, %edi			; X64-NEXT: addl %eax, %ecx
	; X64-NEXT: sarl $2, %edx			; X64-NEXT: movl %ecx, %edx
	; X64-NEXT: addl %edi, %edx			; X64-NEXT: shrl $31, %edx
	; X64-NEXT: leal (,%rdx,8), %edi			; X64-NEXT: sarl $2, %ecx
	; X64-NEXT: subl %edi, %edx			; X64-NEXT: addl %edx, %ecx
	; X64-NEXT: addl %ecx, %edx			; X64-NEXT: leal (,%rcx,8), %edx
	; X64-NEXT: movd %edx, %xmm0			; X64-NEXT: subl %edx, %ecx
	; X64-NEXT: movd %eax, %xmm1			; X64-NEXT: addl %eax, %ecx
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: movd %ecx, %xmm0
	; X64-NEXT: movq %xmm0, (%rsi)			; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; X64-NEXT: movq %xmm1, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_srem7_v2i32:			; X86-LABEL: test_srem7_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebp
	; X86-NEXT: pushl %ebx			; X86-NEXT: pushl %ebx
	; X86-NEXT: pushl %edi			; X86-NEXT: pushl %edi
	; X86-NEXT: pushl %esi			; X86-NEXT: pushl %esi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: movd %xmm0, %ecx			; X86-NEXT: movd %xmm0, %ecx
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,0,1]			; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X86-NEXT: movd %xmm0, %esi			; X86-NEXT: movd %xmm0, %esi
	; X86-NEXT: movl $-1840700269, %ebx # imm = 0x92492493			; X86-NEXT: movl $-1840700269, %edi # imm = 0x92492493
	; X86-NEXT: movl %esi, %eax			; X86-NEXT: movl %esi, %eax
	; X86-NEXT: imull %ebx			; X86-NEXT: imull %edi
	; X86-NEXT: movl %edx, %edi			; X86-NEXT: addl %esi, %edx
	; X86-NEXT: addl %esi, %edi			; X86-NEXT: movl %edx, %eax
	; X86-NEXT: movl %edi, %eax
	; X86-NEXT: shrl $31, %eax			; X86-NEXT: shrl $31, %eax
	; X86-NEXT: sarl $2, %edi			; X86-NEXT: sarl $2, %edx
	; X86-NEXT: addl %eax, %edi			; X86-NEXT: addl %eax, %edx
	; X86-NEXT: leal (,%edi,8), %eax			; X86-NEXT: leal (,%edx,8), %eax
	; X86-NEXT: subl %eax, %edi			; X86-NEXT: subl %eax, %edx
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ebp			; X86-NEXT: movl {{[0-9]+}}(%esp), %ebx
	; X86-NEXT: addl %esi, %edi			; X86-NEXT: addl %esi, %edx
				; X86-NEXT: movd %edx, %xmm0
	; X86-NEXT: movl %ecx, %eax			; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: imull %ebx			; X86-NEXT: imull %edi
	; X86-NEXT: addl %ecx, %edx			; X86-NEXT: addl %ecx, %edx
	; X86-NEXT: movl %edx, %eax			; X86-NEXT: movl %edx, %eax
	; X86-NEXT: shrl $31, %eax			; X86-NEXT: shrl $31, %eax
	; X86-NEXT: sarl $2, %edx			; X86-NEXT: sarl $2, %edx
	; X86-NEXT: addl %eax, %edx			; X86-NEXT: addl %eax, %edx
	; X86-NEXT: leal (,%edx,8), %eax			; X86-NEXT: leal (,%edx,8), %eax
	; X86-NEXT: subl %eax, %edx			; X86-NEXT: subl %eax, %edx
	; X86-NEXT: addl %ecx, %edx			; X86-NEXT: addl %ecx, %edx
	; X86-NEXT: movd %edx, %xmm0			; X86-NEXT: movd %edx, %xmm1
	; X86-NEXT: movd %edi, %xmm1			; X86-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X86-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X86-NEXT: movq %xmm1, (%ebx)
	; X86-NEXT: movq %xmm0, (%ebp)
	; X86-NEXT: popl %esi			; X86-NEXT: popl %esi
	; X86-NEXT: popl %edi			; X86-NEXT: popl %edi
	; X86-NEXT: popl %ebx			; X86-NEXT: popl %ebx
	; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_srem7_v2i32:			; X64_WIDEN-LABEL: test_srem7_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64_WIDEN-NEXT: movd %xmm0, %eax			; X64_WIDEN-NEXT: movd %xmm0, %eax
	; X64_WIDEN-NEXT: cltq			; X64_WIDEN-NEXT: cltq
	; X64_WIDEN-NEXT: imulq $-1840700269, %rax, %rcx # imm = 0x92492493			; X64_WIDEN-NEXT: imulq $-1840700269, %rax, %rcx # imm = 0x92492493
	Show All 22 Lines
	; X64_WIDEN-NEXT: addl %eax, %ecx			; X64_WIDEN-NEXT: addl %eax, %ecx
	; X64_WIDEN-NEXT: movd %ecx, %xmm0			; X64_WIDEN-NEXT: movd %ecx, %xmm0
	; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64_WIDEN-NEXT: movq %xmm1, (%rsi)			; X64_WIDEN-NEXT: movq %xmm1, (%rsi)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_srem7_v2i32:			; X86_WIDEN-LABEL: test_srem7_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: pushl %ebp
	; X86_WIDEN-NEXT: pushl %ebx			; X86_WIDEN-NEXT: pushl %ebx
	; X86_WIDEN-NEXT: pushl %edi			; X86_WIDEN-NEXT: pushl %edi
	; X86_WIDEN-NEXT: pushl %esi			; X86_WIDEN-NEXT: pushl %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ebx
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl (%eax), %edi			; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86_WIDEN-NEXT: movl 4(%eax), %ecx			; X86_WIDEN-NEXT: movd %xmm0, %ecx
	; X86_WIDEN-NEXT: movl $-1840700269, %ebp # imm = 0x92492493			; X86_WIDEN-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X86_WIDEN-NEXT: movl %edi, %eax			; X86_WIDEN-NEXT: movd %xmm0, %esi
	; X86_WIDEN-NEXT: imull %ebp			; X86_WIDEN-NEXT: movl $-1840700269, %edi # imm = 0x92492493
	; X86_WIDEN-NEXT: movl %edx, %esi
	; X86_WIDEN-NEXT: addl %edi, %esi
	; X86_WIDEN-NEXT: movl %esi, %eax			; X86_WIDEN-NEXT: movl %esi, %eax
				; X86_WIDEN-NEXT: imull %edi
				; X86_WIDEN-NEXT: addl %esi, %edx
				; X86_WIDEN-NEXT: movl %edx, %eax
	; X86_WIDEN-NEXT: shrl $31, %eax			; X86_WIDEN-NEXT: shrl $31, %eax
	; X86_WIDEN-NEXT: sarl $2, %esi			; X86_WIDEN-NEXT: sarl $2, %edx
	; X86_WIDEN-NEXT: addl %eax, %esi			; X86_WIDEN-NEXT: addl %eax, %edx
	; X86_WIDEN-NEXT: leal (,%esi,8), %eax			; X86_WIDEN-NEXT: leal (,%edx,8), %eax
	; X86_WIDEN-NEXT: subl %eax, %esi			; X86_WIDEN-NEXT: subl %eax, %edx
	; X86_WIDEN-NEXT: addl %edi, %esi			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ebx
				; X86_WIDEN-NEXT: addl %esi, %edx
				; X86_WIDEN-NEXT: movd %edx, %xmm0
	; X86_WIDEN-NEXT: movl %ecx, %eax			; X86_WIDEN-NEXT: movl %ecx, %eax
	; X86_WIDEN-NEXT: imull %ebp			; X86_WIDEN-NEXT: imull %edi
	; X86_WIDEN-NEXT: addl %ecx, %edx			; X86_WIDEN-NEXT: addl %ecx, %edx
	; X86_WIDEN-NEXT: movl %edx, %eax			; X86_WIDEN-NEXT: movl %edx, %eax
	; X86_WIDEN-NEXT: shrl $31, %eax			; X86_WIDEN-NEXT: shrl $31, %eax
	; X86_WIDEN-NEXT: sarl $2, %edx			; X86_WIDEN-NEXT: sarl $2, %edx
	; X86_WIDEN-NEXT: addl %eax, %edx			; X86_WIDEN-NEXT: addl %eax, %edx
	; X86_WIDEN-NEXT: leal (,%edx,8), %eax			; X86_WIDEN-NEXT: leal (,%edx,8), %eax
	; X86_WIDEN-NEXT: subl %eax, %edx			; X86_WIDEN-NEXT: subl %eax, %edx
	; X86_WIDEN-NEXT: addl %ecx, %edx			; X86_WIDEN-NEXT: addl %ecx, %edx
	; X86_WIDEN-NEXT: movl %edx, 4(%ebx)			; X86_WIDEN-NEXT: movd %edx, %xmm1
	; X86_WIDEN-NEXT: movl %esi, (%ebx)			; X86_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; X86_WIDEN-NEXT: movq %xmm1, (%ebx)
	; X86_WIDEN-NEXT: popl %esi			; X86_WIDEN-NEXT: popl %esi
	; X86_WIDEN-NEXT: popl %edi			; X86_WIDEN-NEXT: popl %edi
	; X86_WIDEN-NEXT: popl %ebx			; X86_WIDEN-NEXT: popl %ebx
	; X86_WIDEN-NEXT: popl %ebp
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = srem <2 x i32> %a, <i32 7, i32 7>			%b = srem <2 x i32> %a, <i32 7, i32 7>
	store <2 x i32> %b, <2 x i32>* %y			store <2 x i32> %b, <2 x i32>* %y
	ret void			ret void
	}			}

	define void @test_udiv_pow2_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {			define void @test_udiv_pow2_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {
	; X64-LABEL: test_udiv_pow2_v2i32:			; X64-LABEL: test_udiv_pow2_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: pxor %xmm1, %xmm1			; X64-NEXT: psrld $3, %xmm0
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X64-NEXT: psrlq $3, %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-NEXT: movq %xmm0, (%rsi)			; X64-NEXT: movq %xmm0, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_udiv_pow2_v2i32:			; X86-LABEL: test_udiv_pow2_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: pxor %xmm1, %xmm1			; X86-NEXT: psrld $3, %xmm0
	; X86-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X86-NEXT: psrlq $3, %xmm0
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-NEXT: movq %xmm0, (%eax)			; X86-NEXT: movq %xmm0, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_udiv_pow2_v2i32:			; X64_WIDEN-LABEL: test_udiv_pow2_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64_WIDEN-NEXT: psrld $3, %xmm0			; X64_WIDEN-NEXT: psrld $3, %xmm0
	; X64_WIDEN-NEXT: movq %xmm0, (%rsi)			; X64_WIDEN-NEXT: movq %xmm0, (%rsi)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_udiv_pow2_v2i32:			; X86_WIDEN-LABEL: test_udiv_pow2_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86_WIDEN-NEXT: psrld $3, %xmm0			; X86_WIDEN-NEXT: psrld $3, %xmm0
	; X86_WIDEN-NEXT: movd %xmm0, (%eax)			; X86_WIDEN-NEXT: movq %xmm0, (%eax)
	; X86_WIDEN-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X86_WIDEN-NEXT: movd %xmm0, 4(%eax)
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = udiv <2 x i32> %a, <i32 8, i32 8>			%b = udiv <2 x i32> %a, <i32 8, i32 8>
	store <2 x i32> %b, <2 x i32>* %y			store <2 x i32> %b, <2 x i32>* %y
	ret void			ret void
	}			}

	define void @test_urem_pow2_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {			define void @test_urem_pow2_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {
	; X64-LABEL: test_urem_pow2_v2i32:			; X64-LABEL: test_urem_pow2_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movl (%rdi), %eax			; X64-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: movl 4(%rdi), %ecx			; X64-NEXT: andps {{.*}}(%rip), %xmm0
	; X64-NEXT: movq %rcx, %xmm0			; X64-NEXT: movlps %xmm0, (%rsi)
	; X64-NEXT: movq %rax, %xmm1
	; X64-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; X64-NEXT: pand {{.*}}(%rip), %xmm1
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; X64-NEXT: movq %xmm0, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_urem_pow2_v2i32:			; X86-LABEL: test_urem_pow2_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X86-NEXT: andps {{\.LCPI.*}}, %xmm0			; X86-NEXT: andps {{\.LCPI.*}}, %xmm0
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X86-NEXT: movlps %xmm0, (%eax)
	; X86-NEXT: movq %xmm0, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_urem_pow2_v2i32:			; X64_WIDEN-LABEL: test_urem_pow2_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; X64_WIDEN-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; X64_WIDEN-NEXT: andps {{.*}}(%rip), %xmm0			; X64_WIDEN-NEXT: andps {{.*}}(%rip), %xmm0
	; X64_WIDEN-NEXT: movlps %xmm0, (%rsi)			; X64_WIDEN-NEXT: movlps %xmm0, (%rsi)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_urem_pow2_v2i32:			; X86_WIDEN-LABEL: test_urem_pow2_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86_WIDEN-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; X86_WIDEN-NEXT: pand {{\.LCPI.*}}, %xmm0			; X86_WIDEN-NEXT: andps {{\.LCPI.*}}, %xmm0
	; X86_WIDEN-NEXT: movd %xmm0, (%eax)			; X86_WIDEN-NEXT: movlps %xmm0, (%eax)
	; X86_WIDEN-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X86_WIDEN-NEXT: movd %xmm0, 4(%eax)
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = urem <2 x i32> %a, <i32 8, i32 8>			%b = urem <2 x i32> %a, <i32 8, i32 8>
	store <2 x i32> %b, <2 x i32>* %y			store <2 x i32> %b, <2 x i32>* %y
	ret void			ret void
	}			}

	define void @test_sdiv_pow2_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {			define void @test_sdiv_pow2_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {
	; X64-LABEL: test_sdiv_pow2_v2i32:			; X64-LABEL: test_sdiv_pow2_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: pxor %xmm1, %xmm1			; X64-NEXT: movdqa %xmm0, %xmm1
	; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-NEXT: psrad $31, %xmm1			; X64-NEXT: psrad $31, %xmm1
	; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]			; X64-NEXT: psrld $29, %xmm1
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,1,1,3]			; X64-NEXT: paddd %xmm0, %xmm1
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: psrad $3, %xmm1
	; X64-NEXT: psrlq $31, %xmm0			; X64-NEXT: movq %xmm1, (%rsi)
	; X64-NEXT: pand {{.*}}(%rip), %xmm0
	; X64-NEXT: psrlq $29, %xmm0
	; X64-NEXT: paddq %xmm2, %xmm0
	; X64-NEXT: psllq $32, %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,2,3]
	; X64-NEXT: psrad $31, %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; X64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X64-NEXT: psrlq $3, %xmm1
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; X64-NEXT: movq %xmm0, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_sdiv_pow2_v2i32:			; X86-LABEL: test_sdiv_pow2_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: pxor %xmm1, %xmm1
	; X86-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; X86-NEXT: psrad $31, %xmm1
	; X86-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,2,3]
	; X86-NEXT: movdqa %xmm0, %xmm1			; X86-NEXT: movdqa %xmm0, %xmm1
	; X86-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; X86-NEXT: movdqa {{.*#+}} xmm2 = [0,2147483648,0,2147483648]
	; X86-NEXT: movdqa {{.*#+}} xmm3 = [31,0,31,0]
	; X86-NEXT: movdqa %xmm2, %xmm4
	; X86-NEXT: psrlq %xmm3, %xmm4
	; X86-NEXT: movl $31, %ecx
	; X86-NEXT: movd %ecx, %xmm5
	; X86-NEXT: psrlq %xmm5, %xmm2
	; X86-NEXT: movsd {{.*#+}} xmm2 = xmm4[0],xmm2[1]
	; X86-NEXT: movdqa %xmm1, %xmm4
	; X86-NEXT: psrlq %xmm3, %xmm4
	; X86-NEXT: psrlq %xmm5, %xmm1
	; X86-NEXT: movsd {{.*#+}} xmm1 = xmm4[0],xmm1[1]
	; X86-NEXT: xorpd %xmm2, %xmm1
	; X86-NEXT: psubq %xmm2, %xmm1
	; X86-NEXT: pand {{\.LCPI.*}}, %xmm1
	; X86-NEXT: psrlq $29, %xmm1
	; X86-NEXT: paddq %xmm0, %xmm1
	; X86-NEXT: psllq $32, %xmm1
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,3,2,3]
	; X86-NEXT: psrad $31, %xmm1			; X86-NEXT: psrad $31, %xmm1
	; X86-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]			; X86-NEXT: psrld $29, %xmm1
	; X86-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X86-NEXT: paddd %xmm0, %xmm1
	; X86-NEXT: psrlq $3, %xmm0			; X86-NEXT: psrad $3, %xmm1
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X86-NEXT: movq %xmm1, (%eax)
	; X86-NEXT: movq %xmm0, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_sdiv_pow2_v2i32:			; X64_WIDEN-LABEL: test_sdiv_pow2_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64_WIDEN-NEXT: movdqa %xmm0, %xmm1			; X64_WIDEN-NEXT: movdqa %xmm0, %xmm1
	; X64_WIDEN-NEXT: psrad $31, %xmm1			; X64_WIDEN-NEXT: psrad $31, %xmm1
	; X64_WIDEN-NEXT: psrld $29, %xmm1			; X64_WIDEN-NEXT: psrld $29, %xmm1
	; X64_WIDEN-NEXT: paddd %xmm0, %xmm1			; X64_WIDEN-NEXT: paddd %xmm0, %xmm1
	; X64_WIDEN-NEXT: psrad $3, %xmm1			; X64_WIDEN-NEXT: psrad $3, %xmm1
	; X64_WIDEN-NEXT: movq %xmm1, (%rsi)			; X64_WIDEN-NEXT: movq %xmm1, (%rsi)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_sdiv_pow2_v2i32:			; X86_WIDEN-LABEL: test_sdiv_pow2_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86_WIDEN-NEXT: movdqa %xmm0, %xmm1			; X86_WIDEN-NEXT: movdqa %xmm0, %xmm1
	; X86_WIDEN-NEXT: psrad $31, %xmm1			; X86_WIDEN-NEXT: psrad $31, %xmm1
	; X86_WIDEN-NEXT: psrld $29, %xmm1			; X86_WIDEN-NEXT: psrld $29, %xmm1
	; X86_WIDEN-NEXT: paddd %xmm0, %xmm1			; X86_WIDEN-NEXT: paddd %xmm0, %xmm1
	; X86_WIDEN-NEXT: psrad $3, %xmm1			; X86_WIDEN-NEXT: psrad $3, %xmm1
	; X86_WIDEN-NEXT: movd %xmm1, (%eax)			; X86_WIDEN-NEXT: movq %xmm1, (%eax)
	; X86_WIDEN-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; X86_WIDEN-NEXT: movd %xmm0, 4(%eax)
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = sdiv <2 x i32> %a, <i32 8, i32 8>			%b = sdiv <2 x i32> %a, <i32 8, i32 8>
	store <2 x i32> %b, <2 x i32>* %y			store <2 x i32> %b, <2 x i32>* %y
	ret void			ret void
	}			}

	define void @test_srem_pow2_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {			define void @test_srem_pow2_v2i32(<2 x i32>* %x, <2 x i32>* %y) nounwind {
	; X64-LABEL: test_srem_pow2_v2i32:			; X64-LABEL: test_srem_pow2_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: pxor %xmm1, %xmm1			; X64-NEXT: psrld $3, %xmm0
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X64-NEXT: psrlq $3, %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-NEXT: movq %xmm0, (%rsi)			; X64-NEXT: movq %xmm0, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_srem_pow2_v2i32:			; X86-LABEL: test_srem_pow2_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: pxor %xmm1, %xmm1			; X86-NEXT: psrld $3, %xmm0
	; X86-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X86-NEXT: psrlq $3, %xmm0
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-NEXT: movq %xmm0, (%eax)			; X86-NEXT: movq %xmm0, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_srem_pow2_v2i32:			; X64_WIDEN-LABEL: test_srem_pow2_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64_WIDEN-NEXT: psrld $3, %xmm0			; X64_WIDEN-NEXT: psrld $3, %xmm0
	; X64_WIDEN-NEXT: movq %xmm0, (%rsi)			; X64_WIDEN-NEXT: movq %xmm0, (%rsi)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_srem_pow2_v2i32:			; X86_WIDEN-LABEL: test_srem_pow2_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86_WIDEN-NEXT: psrld $3, %xmm0			; X86_WIDEN-NEXT: psrld $3, %xmm0
	; X86_WIDEN-NEXT: movd %xmm0, (%eax)			; X86_WIDEN-NEXT: movq %xmm0, (%eax)
	; X86_WIDEN-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X86_WIDEN-NEXT: movd %xmm0, 4(%eax)
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = udiv <2 x i32> %a, <i32 8, i32 8>			%b = udiv <2 x i32> %a, <i32 8, i32 8>
	store <2 x i32> %b, <2 x i32>* %y			store <2 x i32> %b, <2 x i32>* %y
	ret void			ret void
	}			}

	define void @test_udiv_v2i32(<2 x i32>* %x, <2 x i32>* %y, <2 x i32>* %z) nounwind {			define void @test_udiv_v2i32(<2 x i32>* %x, <2 x i32>* %y, <2 x i32>* %z) nounwind {
	; X64-LABEL: test_udiv_v2i32:			; X64-LABEL: test_udiv_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdx, %rcx			; X64-NEXT: movq %rdx, %rcx
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,3,0,1]			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm2, %eax			; X64-NEXT: movd %xmm1, %esi
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,0,1]
	; X64-NEXT: movd %xmm2, %esi
	; X64-NEXT: xorl %edx, %edx			; X64-NEXT: xorl %edx, %edx
	; X64-NEXT: divl %esi			; X64-NEXT: divl %esi
	; X64-NEXT: movl %eax, %esi			; X64-NEXT: movd %eax, %xmm2
				; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X64-NEXT: movd %xmm0, %eax			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm1, %edi			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
				; X64-NEXT: movd %xmm0, %esi
	; X64-NEXT: xorl %edx, %edx			; X64-NEXT: xorl %edx, %edx
	; X64-NEXT: divl %edi			; X64-NEXT: divl %esi
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movd %esi, %xmm1			; X64-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: movq %xmm2, (%rcx)
	; X64-NEXT: movq %xmm0, (%rcx)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_udiv_v2i32:			; X86-LABEL: test_udiv_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebx
	; X86-NEXT: pushl %edi
	; X86-NEXT: pushl %esi			; X86-NEXT: pushl %esi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
				; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X86-NEXT: movd %xmm0, %ecx
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,0,1]
	; X86-NEXT: movd %xmm0, %eax			; X86-NEXT: movd %xmm0, %eax
	; X86-NEXT: movd %xmm1, %ebx
	; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1,0,1]
	; X86-NEXT: movd %xmm1, %esi			; X86-NEXT: movd %xmm1, %esi
	; X86-NEXT: xorl %edx, %edx			; X86-NEXT: xorl %edx, %edx
	; X86-NEXT: divl %esi			; X86-NEXT: divl %esi
	; X86-NEXT: movl %eax, %esi			; X86-NEXT: movd %eax, %xmm2
				; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
				; X86-NEXT: movd %xmm0, %eax
				; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
				; X86-NEXT: movd %xmm1, %esi
	; X86-NEXT: xorl %edx, %edx			; X86-NEXT: xorl %edx, %edx
	; X86-NEXT: movl %ecx, %eax			; X86-NEXT: divl %esi
	; X86-NEXT: divl %ebx
	; X86-NEXT: movd %eax, %xmm0			; X86-NEXT: movd %eax, %xmm0
	; X86-NEXT: movd %esi, %xmm1			; X86-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; X86-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X86-NEXT: movq %xmm2, (%ecx)
	; X86-NEXT: movq %xmm0, (%edi)
	; X86-NEXT: popl %esi			; X86-NEXT: popl %esi
	; X86-NEXT: popl %edi
	; X86-NEXT: popl %ebx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_udiv_v2i32:			; X64_WIDEN-LABEL: test_udiv_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movq %rdx, %rcx			; X64_WIDEN-NEXT: movq %rdx, %rcx
	; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64_WIDEN-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X64_WIDEN-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X64_WIDEN-NEXT: movd %xmm0, %eax			; X64_WIDEN-NEXT: movd %xmm0, %eax
	Show All 9 Lines
	; X64_WIDEN-NEXT: divl %esi			; X64_WIDEN-NEXT: divl %esi
	; X64_WIDEN-NEXT: movd %eax, %xmm0			; X64_WIDEN-NEXT: movd %eax, %xmm0
	; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; X64_WIDEN-NEXT: movq %xmm2, (%rcx)			; X64_WIDEN-NEXT: movq %xmm2, (%rcx)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_udiv_v2i32:			; X86_WIDEN-LABEL: test_udiv_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: pushl %ebx
	; X86_WIDEN-NEXT: pushl %edi
	; X86_WIDEN-NEXT: pushl %esi			; X86_WIDEN-NEXT: pushl %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %edi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ebx
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86_WIDEN-NEXT: movl (%ecx), %eax			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl 4(%ecx), %ecx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %edx
				; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
				; X86_WIDEN-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
				; X86_WIDEN-NEXT: movd %xmm0, %eax
				; X86_WIDEN-NEXT: movd %xmm1, %esi
	; X86_WIDEN-NEXT: xorl %edx, %edx			; X86_WIDEN-NEXT: xorl %edx, %edx
	; X86_WIDEN-NEXT: divl (%ebx)			; X86_WIDEN-NEXT: divl %esi
	; X86_WIDEN-NEXT: movl %eax, %esi			; X86_WIDEN-NEXT: movd %eax, %xmm2
				; X86_WIDEN-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
				; X86_WIDEN-NEXT: movd %xmm0, %eax
				; X86_WIDEN-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
				; X86_WIDEN-NEXT: movd %xmm1, %esi
	; X86_WIDEN-NEXT: xorl %edx, %edx			; X86_WIDEN-NEXT: xorl %edx, %edx
	; X86_WIDEN-NEXT: movl %ecx, %eax			; X86_WIDEN-NEXT: divl %esi
	; X86_WIDEN-NEXT: divl 4(%ebx)			; X86_WIDEN-NEXT: movd %eax, %xmm0
	; X86_WIDEN-NEXT: movl %eax, 4(%edi)			; X86_WIDEN-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; X86_WIDEN-NEXT: movl %esi, (%edi)			; X86_WIDEN-NEXT: movq %xmm2, (%ecx)
	; X86_WIDEN-NEXT: popl %esi			; X86_WIDEN-NEXT: popl %esi
	; X86_WIDEN-NEXT: popl %edi
	; X86_WIDEN-NEXT: popl %ebx
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = load <2 x i32>, <2 x i32>* %y			%b = load <2 x i32>, <2 x i32>* %y
	%c = udiv <2 x i32> %a, %b			%c = udiv <2 x i32> %a, %b
	store <2 x i32> %c, <2 x i32>* %z			store <2 x i32> %c, <2 x i32>* %z
	ret void			ret void
	}			}

	define void @test_urem_v2i32(<2 x i32>* %x, <2 x i32>* %y, <2 x i32>* %z) nounwind {			define void @test_urem_v2i32(<2 x i32>* %x, <2 x i32>* %y, <2 x i32>* %z) nounwind {
	; X64-LABEL: test_urem_v2i32:			; X64-LABEL: test_urem_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdx, %rcx			; X64-NEXT: movq %rdx, %rcx
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,3,0,1]			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm2, %eax			; X64-NEXT: movd %xmm1, %esi
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,0,1]
	; X64-NEXT: movd %xmm2, %esi
	; X64-NEXT: xorl %edx, %edx			; X64-NEXT: xorl %edx, %edx
	; X64-NEXT: divl %esi			; X64-NEXT: divl %esi
	; X64-NEXT: movl %edx, %esi			; X64-NEXT: movd %edx, %xmm2
				; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X64-NEXT: movd %xmm0, %eax			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm1, %edi			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
				; X64-NEXT: movd %xmm0, %esi
	; X64-NEXT: xorl %edx, %edx			; X64-NEXT: xorl %edx, %edx
	; X64-NEXT: divl %edi			; X64-NEXT: divl %esi
	; X64-NEXT: movd %edx, %xmm0			; X64-NEXT: movd %edx, %xmm0
	; X64-NEXT: movd %esi, %xmm1			; X64-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: movq %xmm2, (%rcx)
	; X64-NEXT: movq %xmm0, (%rcx)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_urem_v2i32:			; X86-LABEL: test_urem_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebx
	; X86-NEXT: pushl %edi
	; X86-NEXT: pushl %esi			; X86-NEXT: pushl %esi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
				; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X86-NEXT: movd %xmm0, %ecx
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,0,1]
	; X86-NEXT: movd %xmm0, %eax			; X86-NEXT: movd %xmm0, %eax
	; X86-NEXT: movd %xmm1, %ebx
	; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1,0,1]
	; X86-NEXT: movd %xmm1, %esi			; X86-NEXT: movd %xmm1, %esi
	; X86-NEXT: xorl %edx, %edx			; X86-NEXT: xorl %edx, %edx
	; X86-NEXT: divl %esi			; X86-NEXT: divl %esi
	; X86-NEXT: movl %edx, %esi			; X86-NEXT: movd %edx, %xmm2
				; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
				; X86-NEXT: movd %xmm0, %eax
				; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
				; X86-NEXT: movd %xmm1, %esi
	; X86-NEXT: xorl %edx, %edx			; X86-NEXT: xorl %edx, %edx
	; X86-NEXT: movl %ecx, %eax			; X86-NEXT: divl %esi
	; X86-NEXT: divl %ebx
	; X86-NEXT: movd %edx, %xmm0			; X86-NEXT: movd %edx, %xmm0
	; X86-NEXT: movd %esi, %xmm1			; X86-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; X86-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X86-NEXT: movq %xmm2, (%ecx)
	; X86-NEXT: movq %xmm0, (%edi)
	; X86-NEXT: popl %esi			; X86-NEXT: popl %esi
	; X86-NEXT: popl %edi
	; X86-NEXT: popl %ebx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_urem_v2i32:			; X64_WIDEN-LABEL: test_urem_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movq %rdx, %rcx			; X64_WIDEN-NEXT: movq %rdx, %rcx
	; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64_WIDEN-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X64_WIDEN-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X64_WIDEN-NEXT: movd %xmm0, %eax			; X64_WIDEN-NEXT: movd %xmm0, %eax
	Show All 9 Lines
	; X64_WIDEN-NEXT: divl %esi			; X64_WIDEN-NEXT: divl %esi
	; X64_WIDEN-NEXT: movd %edx, %xmm0			; X64_WIDEN-NEXT: movd %edx, %xmm0
	; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; X64_WIDEN-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; X64_WIDEN-NEXT: movq %xmm2, (%rcx)			; X64_WIDEN-NEXT: movq %xmm2, (%rcx)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_urem_v2i32:			; X86_WIDEN-LABEL: test_urem_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: pushl %ebx
	; X86_WIDEN-NEXT: pushl %edi
	; X86_WIDEN-NEXT: pushl %esi			; X86_WIDEN-NEXT: pushl %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %edi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ebx
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86_WIDEN-NEXT: movl (%ecx), %eax			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl 4(%ecx), %ecx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %edx
				; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
				; X86_WIDEN-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
				; X86_WIDEN-NEXT: movd %xmm0, %eax
				; X86_WIDEN-NEXT: movd %xmm1, %esi
	; X86_WIDEN-NEXT: xorl %edx, %edx			; X86_WIDEN-NEXT: xorl %edx, %edx
	; X86_WIDEN-NEXT: divl (%ebx)			; X86_WIDEN-NEXT: divl %esi
	; X86_WIDEN-NEXT: movl %edx, %esi			; X86_WIDEN-NEXT: movd %edx, %xmm2
				; X86_WIDEN-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
				; X86_WIDEN-NEXT: movd %xmm0, %eax
				; X86_WIDEN-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
				; X86_WIDEN-NEXT: movd %xmm1, %esi
	; X86_WIDEN-NEXT: xorl %edx, %edx			; X86_WIDEN-NEXT: xorl %edx, %edx
	; X86_WIDEN-NEXT: movl %ecx, %eax			; X86_WIDEN-NEXT: divl %esi
	; X86_WIDEN-NEXT: divl 4(%ebx)			; X86_WIDEN-NEXT: movd %edx, %xmm0
	; X86_WIDEN-NEXT: movl %edx, 4(%edi)			; X86_WIDEN-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; X86_WIDEN-NEXT: movl %esi, (%edi)			; X86_WIDEN-NEXT: movq %xmm2, (%ecx)
	; X86_WIDEN-NEXT: popl %esi			; X86_WIDEN-NEXT: popl %esi
	; X86_WIDEN-NEXT: popl %edi
	; X86_WIDEN-NEXT: popl %ebx
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = load <2 x i32>, <2 x i32>* %y			%b = load <2 x i32>, <2 x i32>* %y
	%c = urem <2 x i32> %a, %b			%c = urem <2 x i32> %a, %b
	store <2 x i32> %c, <2 x i32>* %z			store <2 x i32> %c, <2 x i32>* %z
	ret void			ret void
	}			}

	define void @test_sdiv_v2i32(<2 x i32>* %x, <2 x i32>* %y, <2 x i32>* %z) nounwind {			define void @test_sdiv_v2i32(<2 x i32>* %x, <2 x i32>* %y, <2 x i32>* %z) nounwind {
	; X64-LABEL: test_sdiv_v2i32:			; X64-LABEL: test_sdiv_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdx, %rcx			; X64-NEXT: movq %rdx, %rcx
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,3,0,1]			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm2, %eax			; X64-NEXT: movd %xmm1, %esi
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,0,1]
	; X64-NEXT: movd %xmm2, %esi
	; X64-NEXT: cltd			; X64-NEXT: cltd
	; X64-NEXT: idivl %esi			; X64-NEXT: idivl %esi
	; X64-NEXT: movl %eax, %esi			; X64-NEXT: movd %eax, %xmm2
				; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X64-NEXT: movd %xmm0, %eax			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm1, %edi			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
				; X64-NEXT: movd %xmm0, %esi
	; X64-NEXT: cltd			; X64-NEXT: cltd
	; X64-NEXT: idivl %edi			; X64-NEXT: idivl %esi
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movd %esi, %xmm1			; X64-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: movq %xmm2, (%rcx)
	; X64-NEXT: movq %xmm0, (%rcx)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_sdiv_v2i32:			; X86-LABEL: test_sdiv_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebx			; X86-NEXT: pushl %ebx
	; X86-NEXT: pushl %edi			; X86-NEXT: pushl %edi
	; X86-NEXT: pushl %esi			; X86-NEXT: pushl %esi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edi			; X86-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X86-NEXT: movd %xmm0, %ecx			; X86-NEXT: movd %xmm0, %ecx
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,0,1]			; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X86-NEXT: movd %xmm0, %eax			; X86-NEXT: movd %xmm0, %eax
				; X86-NEXT: movd %xmm1, %edi
				; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	; X86-NEXT: movd %xmm1, %ebx			; X86-NEXT: movd %xmm1, %ebx
	; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1,0,1]
	; X86-NEXT: movd %xmm1, %esi
	; X86-NEXT: cltd
	; X86-NEXT: idivl %esi
	; X86-NEXT: movl %eax, %esi
	; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: cltd			; X86-NEXT: cltd
	; X86-NEXT: idivl %ebx			; X86-NEXT: idivl %ebx
	; X86-NEXT: movd %eax, %xmm0			; X86-NEXT: movd %eax, %xmm0
	; X86-NEXT: movd %esi, %xmm1			; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X86-NEXT: cltd
	; X86-NEXT: movq %xmm0, (%edi)			; X86-NEXT: idivl %edi
				; X86-NEXT: movd %eax, %xmm1
				; X86-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; X86-NEXT: movq %xmm1, (%esi)
	; X86-NEXT: popl %esi			; X86-NEXT: popl %esi
	; X86-NEXT: popl %edi			; X86-NEXT: popl %edi
	; X86-NEXT: popl %ebx			; X86-NEXT: popl %ebx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_sdiv_v2i32:			; X64_WIDEN-LABEL: test_sdiv_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movq %rdx, %rcx			; X64_WIDEN-NEXT: movq %rdx, %rcx
	Show All 15 Lines
	; X64_WIDEN-NEXT: movq %xmm2, (%rcx)			; X64_WIDEN-NEXT: movq %xmm2, (%rcx)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_sdiv_v2i32:			; X86_WIDEN-LABEL: test_sdiv_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: pushl %ebx			; X86_WIDEN-NEXT: pushl %ebx
	; X86_WIDEN-NEXT: pushl %edi			; X86_WIDEN-NEXT: pushl %edi
	; X86_WIDEN-NEXT: pushl %esi			; X86_WIDEN-NEXT: pushl %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %edi			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ebx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86_WIDEN-NEXT: movl (%ecx), %eax			; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86_WIDEN-NEXT: movl 4(%ecx), %ecx			; X86_WIDEN-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
				; X86_WIDEN-NEXT: movd %xmm0, %ecx
				; X86_WIDEN-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
				; X86_WIDEN-NEXT: movd %xmm0, %eax
				; X86_WIDEN-NEXT: movd %xmm1, %edi
				; X86_WIDEN-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
				; X86_WIDEN-NEXT: movd %xmm1, %ebx
	; X86_WIDEN-NEXT: cltd			; X86_WIDEN-NEXT: cltd
	; X86_WIDEN-NEXT: idivl (%ebx)			; X86_WIDEN-NEXT: idivl %ebx
	; X86_WIDEN-NEXT: movl %eax, %esi			; X86_WIDEN-NEXT: movd %eax, %xmm0
	; X86_WIDEN-NEXT: movl %ecx, %eax			; X86_WIDEN-NEXT: movl %ecx, %eax
	; X86_WIDEN-NEXT: cltd			; X86_WIDEN-NEXT: cltd
	; X86_WIDEN-NEXT: idivl 4(%ebx)			; X86_WIDEN-NEXT: idivl %edi
	; X86_WIDEN-NEXT: movl %eax, 4(%edi)			; X86_WIDEN-NEXT: movd %eax, %xmm1
	; X86_WIDEN-NEXT: movl %esi, (%edi)			; X86_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; X86_WIDEN-NEXT: movq %xmm1, (%esi)
	; X86_WIDEN-NEXT: popl %esi			; X86_WIDEN-NEXT: popl %esi
	; X86_WIDEN-NEXT: popl %edi			; X86_WIDEN-NEXT: popl %edi
	; X86_WIDEN-NEXT: popl %ebx			; X86_WIDEN-NEXT: popl %ebx
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = load <2 x i32>, <2 x i32>* %y			%b = load <2 x i32>, <2 x i32>* %y
	%c = sdiv <2 x i32> %a, %b			%c = sdiv <2 x i32> %a, %b
	store <2 x i32> %c, <2 x i32>* %z			store <2 x i32> %c, <2 x i32>* %z
	ret void			ret void
	}			}

	define void @test_srem_v2i32(<2 x i32>* %x, <2 x i32>* %y, <2 x i32>* %z) nounwind {			define void @test_srem_v2i32(<2 x i32>* %x, <2 x i32>* %y, <2 x i32>* %z) nounwind {
	; X64-LABEL: test_srem_v2i32:			; X64-LABEL: test_srem_v2i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdx, %rcx			; X64-NEXT: movq %rdx, %rcx
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,3,0,1]			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm2, %eax			; X64-NEXT: movd %xmm1, %esi
	; X64-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,0,1]
	; X64-NEXT: movd %xmm2, %esi
	; X64-NEXT: cltd			; X64-NEXT: cltd
	; X64-NEXT: idivl %esi			; X64-NEXT: idivl %esi
	; X64-NEXT: movl %eax, %esi			; X64-NEXT: movd %eax, %xmm2
				; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X64-NEXT: movd %xmm0, %eax			; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: movd %xmm1, %edi			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
				; X64-NEXT: movd %xmm0, %esi
	; X64-NEXT: cltd			; X64-NEXT: cltd
	; X64-NEXT: idivl %edi			; X64-NEXT: idivl %esi
	; X64-NEXT: movd %eax, %xmm0			; X64-NEXT: movd %eax, %xmm0
	; X64-NEXT: movd %esi, %xmm1			; X64-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; X64-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X64-NEXT: movq %xmm2, (%rcx)
	; X64-NEXT: movq %xmm0, (%rcx)
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X86-LABEL: test_srem_v2i32:			; X86-LABEL: test_srem_v2i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebx			; X86-NEXT: pushl %ebx
	; X86-NEXT: pushl %edi			; X86-NEXT: pushl %edi
	; X86-NEXT: pushl %esi			; X86-NEXT: pushl %esi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edi			; X86-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X86-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X86-NEXT: movd %xmm0, %ecx			; X86-NEXT: movd %xmm0, %ecx
	; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,0,1]			; X86-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; X86-NEXT: movd %xmm0, %eax			; X86-NEXT: movd %xmm0, %eax
				; X86-NEXT: movd %xmm1, %edi
				; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	; X86-NEXT: movd %xmm1, %ebx			; X86-NEXT: movd %xmm1, %ebx
	; X86-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1,0,1]
	; X86-NEXT: movd %xmm1, %esi
	; X86-NEXT: cltd
	; X86-NEXT: idivl %esi
	; X86-NEXT: movl %eax, %esi
	; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: cltd			; X86-NEXT: cltd
	; X86-NEXT: idivl %ebx			; X86-NEXT: idivl %ebx
	; X86-NEXT: movd %eax, %xmm0			; X86-NEXT: movd %eax, %xmm0
	; X86-NEXT: movd %esi, %xmm1			; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X86-NEXT: cltd
	; X86-NEXT: movq %xmm0, (%edi)			; X86-NEXT: idivl %edi
				; X86-NEXT: movd %eax, %xmm1
				; X86-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; X86-NEXT: movq %xmm1, (%esi)
	; X86-NEXT: popl %esi			; X86-NEXT: popl %esi
	; X86-NEXT: popl %edi			; X86-NEXT: popl %edi
	; X86-NEXT: popl %ebx			; X86-NEXT: popl %ebx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64_WIDEN-LABEL: test_srem_v2i32:			; X64_WIDEN-LABEL: test_srem_v2i32:
	; X64_WIDEN: # %bb.0:			; X64_WIDEN: # %bb.0:
	; X64_WIDEN-NEXT: movq %rdx, %rcx			; X64_WIDEN-NEXT: movq %rdx, %rcx
	Show All 15 Lines
	; X64_WIDEN-NEXT: movq %xmm2, (%rcx)			; X64_WIDEN-NEXT: movq %xmm2, (%rcx)
	; X64_WIDEN-NEXT: retq			; X64_WIDEN-NEXT: retq
	;			;
	; X86_WIDEN-LABEL: test_srem_v2i32:			; X86_WIDEN-LABEL: test_srem_v2i32:
	; X86_WIDEN: # %bb.0:			; X86_WIDEN: # %bb.0:
	; X86_WIDEN-NEXT: pushl %ebx			; X86_WIDEN-NEXT: pushl %ebx
	; X86_WIDEN-NEXT: pushl %edi			; X86_WIDEN-NEXT: pushl %edi
	; X86_WIDEN-NEXT: pushl %esi			; X86_WIDEN-NEXT: pushl %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %edi			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ebx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86_WIDEN-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86_WIDEN-NEXT: movl (%ecx), %eax			; X86_WIDEN-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86_WIDEN-NEXT: movl 4(%ecx), %ecx			; X86_WIDEN-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
				; X86_WIDEN-NEXT: movd %xmm0, %ecx
				; X86_WIDEN-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,2,3]
				; X86_WIDEN-NEXT: movd %xmm0, %eax
				; X86_WIDEN-NEXT: movd %xmm1, %edi
				; X86_WIDEN-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
				; X86_WIDEN-NEXT: movd %xmm1, %ebx
	; X86_WIDEN-NEXT: cltd			; X86_WIDEN-NEXT: cltd
	; X86_WIDEN-NEXT: idivl (%ebx)			; X86_WIDEN-NEXT: idivl %ebx
	; X86_WIDEN-NEXT: movl %eax, %esi			; X86_WIDEN-NEXT: movd %eax, %xmm0
	; X86_WIDEN-NEXT: movl %ecx, %eax			; X86_WIDEN-NEXT: movl %ecx, %eax
	; X86_WIDEN-NEXT: cltd			; X86_WIDEN-NEXT: cltd
	; X86_WIDEN-NEXT: idivl 4(%ebx)			; X86_WIDEN-NEXT: idivl %edi
	; X86_WIDEN-NEXT: movl %eax, 4(%edi)			; X86_WIDEN-NEXT: movd %eax, %xmm1
	; X86_WIDEN-NEXT: movl %esi, (%edi)			; X86_WIDEN-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; X86_WIDEN-NEXT: movq %xmm1, (%esi)
	; X86_WIDEN-NEXT: popl %esi			; X86_WIDEN-NEXT: popl %esi
	; X86_WIDEN-NEXT: popl %edi			; X86_WIDEN-NEXT: popl %edi
	; X86_WIDEN-NEXT: popl %ebx			; X86_WIDEN-NEXT: popl %ebx
	; X86_WIDEN-NEXT: retl			; X86_WIDEN-NEXT: retl
	%a = load <2 x i32>, <2 x i32>* %x			%a = load <2 x i32>, <2 x i32>* %x
	%b = load <2 x i32>, <2 x i32>* %y			%b = load <2 x i32>, <2 x i32>* %y
	%c = sdiv <2 x i32> %a, %b			%c = sdiv <2 x i32> %a, %b
	store <2 x i32> %c, <2 x i32>* %z			store <2 x i32> %c, <2 x i32>* %z
	ret void			ret void
	}			}

test/CodeGen/X86/vector-sext.ll

	Show First 20 Lines • Show All 5,050 Lines • ▼ Show 20 Lines
	define <2 x i32> @sext_2i8_to_2i32(<2 x i8>* %addr) {			define <2 x i32> @sext_2i8_to_2i32(<2 x i8>* %addr) {
	; SSE2-LABEL: sext_2i8_to_2i32:			; SSE2-LABEL: sext_2i8_to_2i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movzwl (%rdi), %eax			; SSE2-NEXT: movzwl (%rdi), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]
	; SSE2-NEXT: psrad $24, %xmm0			; SSE2-NEXT: psrad $24, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; SSE2-NEXT: paddd %xmm0, %xmm0
	; SSE2-NEXT: paddq %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: sext_2i8_to_2i32:			; SSSE3-LABEL: sext_2i8_to_2i32:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: movzwl (%rdi), %eax			; SSSE3-NEXT: movzwl (%rdi), %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[u,u,u,0,u,u,u,1,u,u,u,u,u,u,u,u]			; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[u,u,u,0,u,u,u,1,u,u,u,u,u,u,u,u]
	; SSSE3-NEXT: psrad $24, %xmm0			; SSSE3-NEXT: psrad $24, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; SSSE3-NEXT: paddd %xmm0, %xmm0
	; SSSE3-NEXT: paddq %xmm0, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: sext_2i8_to_2i32:			; SSE41-LABEL: sext_2i8_to_2i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovsxbq (%rdi), %xmm0			; SSE41-NEXT: movsbl 1(%rdi), %eax
	; SSE41-NEXT: paddq %xmm0, %xmm0			; SSE41-NEXT: movsbl (%rdi), %ecx
				; SSE41-NEXT: movd %ecx, %xmm0
				; SSE41-NEXT: pinsrd $1, %eax, %xmm0
				; SSE41-NEXT: paddd %xmm0, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: sext_2i8_to_2i32:			; AVX-LABEL: sext_2i8_to_2i32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpmovsxbq (%rdi), %xmm0			; AVX-NEXT: movsbl 1(%rdi), %eax
	; AVX-NEXT: vpaddq %xmm0, %xmm0, %xmm0			; AVX-NEXT: movsbl (%rdi), %ecx
				; AVX-NEXT: vmovd %ecx, %xmm0
				; AVX-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
				; AVX-NEXT: vpaddd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; X32-SSE41-LABEL: sext_2i8_to_2i32:			; X32-SSE41-LABEL: sext_2i8_to_2i32:
	; X32-SSE41: # %bb.0:			; X32-SSE41: # %bb.0:
	; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-SSE41-NEXT: pmovsxbq (%eax), %xmm0			; X32-SSE41-NEXT: movsbl 1(%eax), %ecx
	; X32-SSE41-NEXT: paddq %xmm0, %xmm0			; X32-SSE41-NEXT: movsbl (%eax), %eax
				; X32-SSE41-NEXT: movd %eax, %xmm0
				; X32-SSE41-NEXT: pinsrd $1, %ecx, %xmm0
				; X32-SSE41-NEXT: paddd %xmm0, %xmm0
	; X32-SSE41-NEXT: retl			; X32-SSE41-NEXT: retl
	%x = load <2 x i8>, <2 x i8>* %addr, align 1			%x = load <2 x i8>, <2 x i8>* %addr, align 1
	%y = sext <2 x i8> %x to <2 x i32>			%y = sext <2 x i8> %x to <2 x i32>
	%z = add <2 x i32>%y, %y			%z = add <2 x i32>%y, %y
	ret <2 x i32>%z			ret <2 x i32>%z
	}			}

test/CodeGen/X86/vector-trunc.ll

	Show First 20 Lines • Show All 1,611 Lines • ▼ Show 20 Lines
	}			}

	define <4 x i32> @trunc2x2i64_4i32(<2 x i64> %a, <2 x i64> %b) {			define <4 x i32> @trunc2x2i64_4i32(<2 x i64> %a, <2 x i64> %b) {
	; SSE-LABEL: trunc2x2i64_4i32:			; SSE-LABEL: trunc2x2i64_4i32:
	; SSE: # %bb.0: # %entry			; SSE: # %bb.0: # %entry
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: trunc2x2i64_4i32:			; AVX1-LABEL: trunc2x2i64_4i32:
	; AVX: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512-LABEL: trunc2x2i64_4i32:			; AVX2-SLOW-LABEL: trunc2x2i64_4i32:
	; AVX512: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX2-SLOW-NEXT: # kill: def $xmm1 killed $xmm1 def $ymm1
	; AVX512-NEXT: retq			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
				; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
				; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]
				; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
				; AVX2-SLOW-NEXT: vzeroupper
				; AVX2-SLOW-NEXT: retq
				;
				; AVX2-FAST-LABEL: trunc2x2i64_4i32:
				; AVX2-FAST: # %bb.0: # %entry
				; AVX2-FAST-NEXT: # kill: def $xmm1 killed $xmm1 def $ymm1
				; AVX2-FAST-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
				; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
				; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0
				; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1
				; AVX2-FAST-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
				; AVX2-FAST-NEXT: vzeroupper
				; AVX2-FAST-NEXT: retq
				;
				; AVX512F-LABEL: trunc2x2i64_4i32:
				; AVX512F: # %bb.0: # %entry
				; AVX512F-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
				; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
				; AVX512F-NEXT: vpmovqd %zmm0, %ymm0
				; AVX512F-NEXT: vpmovqd %zmm1, %ymm1
				; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
				; AVX512F-NEXT: vzeroupper
				; AVX512F-NEXT: retq
				;
				; AVX512VL-LABEL: trunc2x2i64_4i32:
				; AVX512VL: # %bb.0: # %entry
				; AVX512VL-NEXT: # kill: def $xmm1 killed $xmm1 def $ymm1
				; AVX512VL-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
				; AVX512VL-NEXT: vpmovqd %ymm0, %xmm0
				; AVX512VL-NEXT: vpmovqd %ymm1, %xmm1
				; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
				; AVX512VL-NEXT: vzeroupper
				; AVX512VL-NEXT: retq
				;
				; AVX512BW-LABEL: trunc2x2i64_4i32:
				; AVX512BW: # %bb.0: # %entry
				; AVX512BW-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
				; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
				; AVX512BW-NEXT: vpmovqd %zmm0, %ymm0
				; AVX512BW-NEXT: vpmovqd %zmm1, %ymm1
				; AVX512BW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
				; AVX512BW-NEXT: vzeroupper
				; AVX512BW-NEXT: retq
				;
				; AVX512BWVL-LABEL: trunc2x2i64_4i32:
				; AVX512BWVL: # %bb.0: # %entry
				; AVX512BWVL-NEXT: # kill: def $xmm1 killed $xmm1 def $ymm1
				; AVX512BWVL-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
				; AVX512BWVL-NEXT: vpmovqd %ymm0, %xmm0
				; AVX512BWVL-NEXT: vpmovqd %ymm1, %xmm1
				; AVX512BWVL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
				; AVX512BWVL-NEXT: vzeroupper
				; AVX512BWVL-NEXT: retq
	entry:			entry:
	%0 = trunc <2 x i64> %a to <2 x i32>			%0 = trunc <2 x i64> %a to <2 x i32>
	%1 = trunc <2 x i64> %b to <2 x i32>			%1 = trunc <2 x i64> %b to <2 x i32>
	%2 = shufflevector <2 x i32> %0, <2 x i32> %1, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%2 = shufflevector <2 x i32> %0, <2 x i32> %1, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	ret <4 x i32> %2			ret <4 x i32> %2
	}			}

	define i64 @trunc2i64_i64(<2 x i64> %inval) {			define i64 @trunc2i64_i64(<2 x i64> %inval) {
	; SSE-LABEL: trunc2i64_i64:			; SSE-LABEL: trunc2i64_i64:
	; SSE: # %bb.0: # %entry			; SSE: # %bb.0: # %entry
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: trunc2i64_i64:			; AVX1-LABEL: trunc2i64_i64:
	; AVX: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-SLOW-LABEL: trunc2i64_i64:
				; AVX2-SLOW: # %bb.0: # %entry
				; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
				; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]
				; AVX2-SLOW-NEXT: vmovq %xmm0, %rax
				; AVX2-SLOW-NEXT: vzeroupper
				; AVX2-SLOW-NEXT: retq
				;
				; AVX2-FAST-LABEL: trunc2i64_i64:
				; AVX2-FAST: # %bb.0: # %entry
				; AVX2-FAST-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
				; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
				; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
				; AVX2-FAST-NEXT: vmovq %xmm0, %rax
				; AVX2-FAST-NEXT: vzeroupper
				; AVX2-FAST-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc2i64_i64:			; AVX512F-LABEL: trunc2i64_i64:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
				; AVX512F-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
				; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: trunc2i64_i64:			; AVX512VL-LABEL: trunc2i64_i64:
	; AVX512VL: # %bb.0: # %entry			; AVX512VL: # %bb.0: # %entry
	; AVX512VL-NEXT: vpmovqd %xmm0, -{{[0-9]+}}(%rsp)			; AVX512VL-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
	; AVX512VL-NEXT: movq -{{[0-9]+}}(%rsp), %rax			; AVX512VL-NEXT: vpmovqd %ymm0, %xmm0
				; AVX512VL-NEXT: vmovq %xmm0, %rax
				; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc2i64_i64:			; AVX512BW-LABEL: trunc2i64_i64:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
				; AVX512BW-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
				; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: trunc2i64_i64:			; AVX512BWVL-LABEL: trunc2i64_i64:
	; AVX512BWVL: # %bb.0: # %entry			; AVX512BWVL: # %bb.0: # %entry
	; AVX512BWVL-NEXT: vpmovqd %xmm0, -{{[0-9]+}}(%rsp)			; AVX512BWVL-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
	; AVX512BWVL-NEXT: movq -{{[0-9]+}}(%rsp), %rax			; AVX512BWVL-NEXT: vpmovqd %ymm0, %xmm0
				; AVX512BWVL-NEXT: vmovq %xmm0, %rax
				; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	entry:			entry:
	%0 = trunc <2 x i64> %inval to <2 x i32>			%0 = trunc <2 x i64> %inval to <2 x i32>
	%1 = bitcast <2 x i32> %0 to i64			%1 = bitcast <2 x i32> %0 to i64
	ret i64 %1			ret i64 %1
	}			}

	define <8 x i16> @trunc2x4i32_8i16(<4 x i32> %a, <4 x i32> %b) {			define <8 x i16> @trunc2x4i32_8i16(<4 x i32> %a, <4 x i32> %b) {
	▲ Show 20 Lines • Show All 404 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-zext.ll

	Show First 20 Lines • Show All 2,261 Lines • ▼ Show 20 Lines
	define <2 x i32> @zext_2i8_to_2i32(<2 x i8>* %addr) {			define <2 x i32> @zext_2i8_to_2i32(<2 x i8>* %addr) {
	; SSE2-LABEL: zext_2i8_to_2i32:			; SSE2-LABEL: zext_2i8_to_2i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movzwl (%rdi), %eax			; SSE2-NEXT: movzwl (%rdi), %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: pxor %xmm1, %xmm1			; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]			; SSE2-NEXT: paddd %xmm0, %xmm0
	; SSE2-NEXT: paddq %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: zext_2i8_to_2i32:			; SSSE3-LABEL: zext_2i8_to_2i32:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: movzwl (%rdi), %eax			; SSSE3-NEXT: movzwl (%rdi), %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[3],zero,zero,zero			; SSSE3-NEXT: pxor %xmm1, %xmm1
	; SSSE3-NEXT: paddq %xmm0, %xmm0			; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
				; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
				; SSSE3-NEXT: paddd %xmm0, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: zext_2i8_to_2i32:			; SSE41-LABEL: zext_2i8_to_2i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; SSE41-NEXT: movzbl 1(%rdi), %eax
	; SSE41-NEXT: paddq %xmm0, %xmm0			; SSE41-NEXT: movzbl (%rdi), %ecx
				; SSE41-NEXT: movd %ecx, %xmm0
				; SSE41-NEXT: pinsrd $1, %eax, %xmm0
				; SSE41-NEXT: paddd %xmm0, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: zext_2i8_to_2i32:			; AVX-LABEL: zext_2i8_to_2i32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpmovzxbq {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero			; AVX-NEXT: movzbl 1(%rdi), %eax
	; AVX-NEXT: vpaddq %xmm0, %xmm0, %xmm0			; AVX-NEXT: movzbl (%rdi), %ecx
				; AVX-NEXT: vmovd %ecx, %xmm0
				; AVX-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
				; AVX-NEXT: vpaddd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%x = load <2 x i8>, <2 x i8>* %addr, align 1			%x = load <2 x i8>, <2 x i8>* %addr, align 1
	%y = zext <2 x i8> %x to <2 x i32>			%y = zext <2 x i8> %x to <2 x i32>
	%z = add <2 x i32>%y, %y			%z = add <2 x i32>%y, %y
	ret <2 x i32>%z			ret <2 x i32>%z
	}			}

test/CodeGen/X86/vshift-4.ll

Show First 20 Lines • Show All 52 Lines • ▼ Show 20 Lines	entry:
store <2 x i64> %shl, <2 x i64>* %dst		store <2 x i64> %shl, <2 x i64>* %dst
ret void		ret void
}		}

define void @shift2a(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {		define void @shift2a(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {
; X32-LABEL: shift2a:		; X32-LABEL: shift2a:
; X32: # %bb.0: # %entry		; X32: # %bb.0: # %entry
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,2,3]
; X32-NEXT: xorps %xmm2, %xmm2		; X32-NEXT: xorps %xmm2, %xmm2
; X32-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]		; X32-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X32-NEXT: pslld %xmm2, %xmm0		; X32-NEXT: pslld %xmm2, %xmm0
; X32-NEXT: movdqa %xmm0, (%eax)		; X32-NEXT: movdqa %xmm0, (%eax)
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: shift2a:		; X64-LABEL: shift2a:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,2,3]
; X64-NEXT: xorps %xmm2, %xmm2		; X64-NEXT: xorps %xmm2, %xmm2
; X64-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]		; X64-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X64-NEXT: pslld %xmm2, %xmm0		; X64-NEXT: pslld %xmm2, %xmm0
; X64-NEXT: movdqa %xmm0, (%rdi)		; X64-NEXT: movdqa %xmm0, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 1, i32 1, i32 1>		%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
%shl = shl <4 x i32> %val, %shamt		%shl = shl <4 x i32> %val, %shamt
store <4 x i32> %shl, <4 x i32>* %dst		store <4 x i32> %shl, <4 x i32>* %dst
ret void		ret void
}		}

define void @shift2b(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {		define void @shift2b(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {
; X32-LABEL: shift2b:		; X32-LABEL: shift2b:
; X32: # %bb.0: # %entry		; X32: # %bb.0: # %entry
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,2,3]
; X32-NEXT: xorps %xmm2, %xmm2		; X32-NEXT: xorps %xmm2, %xmm2
; X32-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]		; X32-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X32-NEXT: pslld %xmm2, %xmm0		; X32-NEXT: pslld %xmm2, %xmm0
; X32-NEXT: movdqa %xmm0, (%eax)		; X32-NEXT: movdqa %xmm0, (%eax)
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: shift2b:		; X64-LABEL: shift2b:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,2,3]
; X64-NEXT: xorps %xmm2, %xmm2		; X64-NEXT: xorps %xmm2, %xmm2
; X64-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]		; X64-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X64-NEXT: pslld %xmm2, %xmm0		; X64-NEXT: pslld %xmm2, %xmm0
; X64-NEXT: movdqa %xmm0, (%rdi)		; X64-NEXT: movdqa %xmm0, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 undef, i32 1, i32 1>		%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 undef, i32 1, i32 1>
%shl = shl <4 x i32> %val, %shamt		%shl = shl <4 x i32> %val, %shamt
store <4 x i32> %shl, <4 x i32>* %dst		store <4 x i32> %shl, <4 x i32>* %dst
ret void		ret void
}		}

define void @shift2c(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {		define void @shift2c(<4 x i32> %val, <4 x i32>* %dst, <2 x i32> %amt) nounwind {
; X32-LABEL: shift2c:		; X32-LABEL: shift2c:
; X32: # %bb.0: # %entry		; X32: # %bb.0: # %entry
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,2,3]
; X32-NEXT: xorps %xmm2, %xmm2		; X32-NEXT: xorps %xmm2, %xmm2
; X32-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]		; X32-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X32-NEXT: pslld %xmm2, %xmm0		; X32-NEXT: pslld %xmm2, %xmm0
; X32-NEXT: movdqa %xmm0, (%eax)		; X32-NEXT: movdqa %xmm0, (%eax)
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: shift2c:		; X64-LABEL: shift2c:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; X64-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,2,3]
; X64-NEXT: xorps %xmm2, %xmm2		; X64-NEXT: xorps %xmm2, %xmm2
; X64-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]		; X64-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
; X64-NEXT: pslld %xmm2, %xmm0		; X64-NEXT: pslld %xmm2, %xmm0
; X64-NEXT: movdqa %xmm0, (%rdi)		; X64-NEXT: movdqa %xmm0, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 1, i32 1, i32 1>		%shamt = shufflevector <2 x i32> %amt, <2 x i32> undef, <4 x i32> <i32 1, i32 1, i32 1, i32 1>
%shl = shl <4 x i32> %val, %shamt		%shl = shl <4 x i32> %val, %shamt
▲ Show 20 Lines • Show All 61 Lines • Show Last 20 Lines

test/CodeGen/X86/widen_arith-3.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse4.2 -post-RA-scheduler=true \| FileCheck %s			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse4.2 -post-RA-scheduler=true \| FileCheck %s

	; Widen a v3i16 to v8i16 to do a vector add			; Widen a v3i16 to v8i16 to do a vector add

	@.str = internal constant [4 x i8] c"%d \00"			@.str = internal constant [4 x i8] c"%d \00"
	@.str1 = internal constant [2 x i8] c"\0A\00"			@.str1 = internal constant [2 x i8] c"\0A\00"

	define void @update(<3 x i16>* %dst, <3 x i16>* %src, i32 %n) nounwind {			define void @update(<3 x i16>* %dst, <3 x i16>* %src, i32 %n) nounwind {
	; CHECK-LABEL: update:			; CHECK-LABEL: update:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: pushl %ebp			; CHECK-NEXT: pushl %ebp
	; CHECK-NEXT: movl %esp, %ebp			; CHECK-NEXT: movl %esp, %ebp
	; CHECK-NEXT: andl $-8, %esp			; CHECK-NEXT: andl $-8, %esp
	; CHECK-NEXT: subl $40, %esp			; CHECK-NEXT: subl $24, %esp
	; CHECK-NEXT: movl {{\.LCPI.*}}, %eax			; CHECK-NEXT: movl {{\.LCPI.*}}, %eax
	; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; CHECK-NEXT: pcmpeqd %xmm0, %xmm0			; CHECK-NEXT: pcmpeqd %xmm0, %xmm0
	; CHECK-NEXT: movw $1, {{[0-9]+}}(%esp)			; CHECK-NEXT: movw $1, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movl $0, {{[0-9]+}}(%esp)			; CHECK-NEXT: movl $0, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movl %eax, {{[0-9]+}}(%esp)			; CHECK-NEXT: movl %eax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: jmp .LBB0_1			; CHECK-NEXT: jmp .LBB0_1
	; CHECK-NEXT: .p2align 4, 0x90			; CHECK-NEXT: .p2align 4, 0x90
	; CHECK-NEXT: .LBB0_2: # %forbody			; CHECK-NEXT: .LBB0_2: # %forbody
	; CHECK-NEXT: # in Loop: Header=BB0_1 Depth=1			; CHECK-NEXT: # in Loop: Header=BB0_1 Depth=1
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax
	; CHECK-NEXT: movl 12(%ebp), %edx			; CHECK-NEXT: movl 12(%ebp), %edx
	; CHECK-NEXT: movl 8(%ebp), %ecx			; CHECK-NEXT: movl 8(%ebp), %ecx
	; CHECK-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; CHECK-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; CHECK-NEXT: pmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; CHECK-NEXT: pmovzxwd {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; CHECK-NEXT: pinsrd $2, 4(%edx,%eax,8), %xmm2			; CHECK-NEXT: pinsrd $2, 4(%edx,%eax,8), %xmm1
	; CHECK-NEXT: psubd %xmm0, %xmm2			; CHECK-NEXT: psubd %xmm0, %xmm1
	; CHECK-NEXT: pextrw $4, %xmm2, 4(%ecx,%eax,8)			; CHECK-NEXT: pextrw $4, %xmm1, 4(%ecx,%eax,8)
	; CHECK-NEXT: pshufb %xmm1, %xmm2			; CHECK-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
	; CHECK-NEXT: movd %xmm2, (%ecx,%eax,8)			; CHECK-NEXT: movd %xmm1, (%ecx,%eax,8)
	; CHECK-NEXT: incl {{[0-9]+}}(%esp)			; CHECK-NEXT: incl {{[0-9]+}}(%esp)
	; CHECK-NEXT: .LBB0_1: # %forcond			; CHECK-NEXT: .LBB0_1: # %forcond
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax
	; CHECK-NEXT: cmpl 16(%ebp), %eax			; CHECK-NEXT: cmpl 16(%ebp), %eax
	; CHECK-NEXT: jl .LBB0_2			; CHECK-NEXT: jl .LBB0_2
	; CHECK-NEXT: # %bb.3: # %afterfor			; CHECK-NEXT: # %bb.3: # %afterfor
	; CHECK-NEXT: movl %ebp, %esp			; CHECK-NEXT: movl %ebp, %esp
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

test/CodeGen/X86/widen_cast-5.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=+sse4.2 \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=+sse4.2 \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse4.2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse4.2 \| FileCheck %s --check-prefix=X64

	; bitcast a i64 to v2i32			; bitcast a i64 to v2i32

	define void @convert(<2 x i32>* %dst.addr, i64 %src) nounwind {			define void @convert(<2 x i32>* %dst.addr, i64 %src) nounwind {
	; X86-LABEL: convert:			; X86-LABEL: convert:
	; X86: ## %bb.0: ## %entry			; X86: ## %bb.0: ## %entry
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: pmovzxdq {{.*#+}} xmm0 = mem[0],zero,mem[1],zero			; X86-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: pxor LCPI0_0, %xmm0			; X86-NEXT: xorps LCPI0_0, %xmm0
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X86-NEXT: movlps %xmm0, (%eax)
	; X86-NEXT: movq %xmm0, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: convert:			; X64-LABEL: convert:
	; X64: ## %bb.0: ## %entry			; X64: ## %bb.0: ## %entry
	; X64-NEXT: movq %rsi, %xmm0			; X64-NEXT: movq %rsi, %xmm0
	; X64-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; X64-NEXT: pxor {{.*}}(%rip), %xmm0			; X64-NEXT: pxor {{.*}}(%rip), %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X64-NEXT: movq %xmm0, (%rdi)			; X64-NEXT: movq %xmm0, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%conv = bitcast i64 %src to <2 x i32>			%conv = bitcast i64 %src to <2 x i32>
	%xor = xor <2 x i32> %conv, < i32 255, i32 32767 >			%xor = xor <2 x i32> %conv, < i32 255, i32 32767 >
	store <2 x i32> %xor, <2 x i32>* %dst.addr			store <2 x i32> %xor, <2 x i32>* %dst.addr
	ret void			ret void
	}			}

test/CodeGen/X86/widen_conv-1.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X86		; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X86
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X64		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X64

; truncate v2i64 to v2i32		; truncate v2i64 to v2i32

define void @convert_v2i64_to_v2i32(<2 x i32>* %dst.addr, <2 x i64> %src) nounwind {		define void @convert_v2i64_to_v2i32(<2 x i32>* %dst.addr, <2 x i64> %src) nounwind {
; X86-LABEL: convert_v2i64_to_v2i32:		; X86-LABEL: convert_v2i64_to_v2i32:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
		; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X86-NEXT: pcmpeqd %xmm1, %xmm1		; X86-NEXT: pcmpeqd %xmm1, %xmm1
; X86-NEXT: psubd %xmm1, %xmm0		; X86-NEXT: psubd %xmm1, %xmm0
; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X86-NEXT: movq %xmm0, (%eax)		; X86-NEXT: movq %xmm0, (%eax)
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: convert_v2i64_to_v2i32:		; X64-LABEL: convert_v2i64_to_v2i32:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: paddd {{.*}}(%rip), %xmm0
; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; X64-NEXT: pcmpeqd %xmm1, %xmm1
		; X64-NEXT: psubd %xmm1, %xmm0
; X64-NEXT: movq %xmm0, (%rdi)		; X64-NEXT: movq %xmm0, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%val = trunc <2 x i64> %src to <2 x i32>		%val = trunc <2 x i64> %src to <2 x i32>
%add = add <2 x i32> %val, < i32 1, i32 1 >		%add = add <2 x i32> %val, < i32 1, i32 1 >
store <2 x i32> %add, <2 x i32>* %dst.addr		store <2 x i32> %add, <2 x i32>* %dst.addr
ret void		ret void
}		}
Show All 32 Lines	entry:
ret void		ret void
}		}

; truncate v5i16 to v5i8		; truncate v5i16 to v5i8

define void @convert_v5i16_to_v5i8(<5 x i8>* %dst.addr, <5 x i16>* %src.addr) nounwind {		define void @convert_v5i16_to_v5i8(<5 x i8>* %dst.addr, <5 x i16>* %src.addr) nounwind {
; X86-LABEL: convert_v5i16_to_v5i8:		; X86-LABEL: convert_v5i16_to_v5i8:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: pushl %ebp		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp
; X86-NEXT: movl 8(%ebp), %eax
; X86-NEXT: movl 12(%ebp), %ecx
; X86-NEXT: movdqa (%ecx), %xmm0		; X86-NEXT: movdqa (%ecx), %xmm0
; X86-NEXT: pcmpeqd %xmm1, %xmm1		; X86-NEXT: pcmpeqd %xmm1, %xmm1
; X86-NEXT: psubw %xmm1, %xmm0		; X86-NEXT: psubw %xmm1, %xmm0
; X86-NEXT: pextrb $8, %xmm0, 4(%eax)		; X86-NEXT: pextrb $8, %xmm0, 4(%eax)
; X86-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]		; X86-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,u,u,u,u,u,u,u,u,u,u,u,u]
; X86-NEXT: movd %xmm0, (%eax)		; X86-NEXT: movd %xmm0, (%eax)
; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: convert_v5i16_to_v5i8:		; X64-LABEL: convert_v5i16_to_v5i8:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: movdqa (%rsi), %xmm0		; X64-NEXT: movdqa (%rsi), %xmm0
; X64-NEXT: pcmpeqd %xmm1, %xmm1		; X64-NEXT: pcmpeqd %xmm1, %xmm1
; X64-NEXT: psubw %xmm1, %xmm0		; X64-NEXT: psubw %xmm1, %xmm0
; X64-NEXT: pextrb $8, %xmm0, 4(%rdi)		; X64-NEXT: pextrb $8, %xmm0, 4(%rdi)
; X64-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]		; X64-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,u,u,u,u,u,u,u,u,u,u,u,u]
; X64-NEXT: movd %xmm0, (%rdi)		; X64-NEXT: movd %xmm0, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%load = load <5 x i16>, <5 x i16>* %src.addr		%load = load <5 x i16>, <5 x i16>* %src.addr
%val = trunc <5 x i16> %load to <5 x i8>		%val = trunc <5 x i16> %load to <5 x i8>
%add = add <5 x i8> %val, < i8 1, i8 1, i8 1, i8 1, i8 1 >		%add = add <5 x i8> %val, < i8 1, i8 1, i8 1, i8 1, i8 1 >
store <5 x i8> %add, <5 x i8>* %dst.addr		store <5 x i8> %add, <5 x i8>* %dst.addr
ret void		ret void
}		}

test/CodeGen/X86/widen_conv-2.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X64

	; sign extension v2i16 to v2i32			; sign extension v2i16 to v2i32

	define void @convert_v2i16_v2i32(<2 x i32>* %dst.addr, <2 x i16> %src) nounwind {			define void @convert_v2i16_v2i32(<2 x i32>* %dst.addr, <2 x i16> %src) nounwind {
	; X86-LABEL: convert_v2i16_v2i32:			; X86-LABEL: convert_v2i16_v2i32:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
				; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: psllq $48, %xmm0			; X86-NEXT: pslld $16, %xmm0
	; X86-NEXT: psrad $16, %xmm0			; X86-NEXT: psrad $16, %xmm0
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; X86-NEXT: movq %xmm0, (%eax)			; X86-NEXT: movq %xmm0, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: convert_v2i16_v2i32:			; X64-LABEL: convert_v2i16_v2i32:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: psllq $48, %xmm0			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
				; X64-NEXT: pslld $16, %xmm0
	; X64-NEXT: psrad $16, %xmm0			; X64-NEXT: psrad $16, %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; X64-NEXT: movq %xmm0, (%rdi)			; X64-NEXT: movq %xmm0, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%signext = sext <2 x i16> %src to <2 x i32> ; <<12 x i8>> [#uses=1]			%signext = sext <2 x i16> %src to <2 x i32> ; <<12 x i8>> [#uses=1]
	store <2 x i32> %signext, <2 x i32>* %dst.addr			store <2 x i32> %signext, <2 x i32>* %dst.addr
	ret void			ret void
	}			}

test/CodeGen/X86/widen_conv-3.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X86 --check-prefix=X86-SSE2			; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X86 --check-prefix=X86-SSE2
	; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X86 --check-prefix=X86-SSE42			; RUN: llc < %s -mtriple=i686-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X86 --check-prefix=X86-SSE42
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64 --check-prefix=X64-SSE2			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64 --check-prefix=X64-SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X64 --check-prefix=X64-SSE42			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X64 --check-prefix=X64-SSE42

	; sign to float v2i16 to v2f32			; sign to float v2i16 to v2f32

	define void @convert_v2i16_to_v2f32(<2 x float>* %dst.addr, <2 x i16> %src) nounwind {			define void @convert_v2i16_to_v2f32(<2 x float>* %dst.addr, <2 x i16> %src) nounwind {
	; X86-LABEL: convert_v2i16_to_v2f32:			; X86-LABEL: convert_v2i16_to_v2f32:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
				; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: psllq $48, %xmm0			; X86-NEXT: pslld $16, %xmm0
	; X86-NEXT: psrad $16, %xmm0			; X86-NEXT: psrad $16, %xmm0
	; X86-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; X86-NEXT: cvtdq2ps %xmm0, %xmm0			; X86-NEXT: cvtdq2ps %xmm0, %xmm0
	; X86-NEXT: movlps %xmm0, (%eax)			; X86-NEXT: movlps %xmm0, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: convert_v2i16_to_v2f32:			; X64-LABEL: convert_v2i16_to_v2f32:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: psllq $48, %xmm0			; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
				; X64-NEXT: pslld $16, %xmm0
	; X64-NEXT: psrad $16, %xmm0			; X64-NEXT: psrad $16, %xmm0
	; X64-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; X64-NEXT: cvtdq2ps %xmm0, %xmm0			; X64-NEXT: cvtdq2ps %xmm0, %xmm0
	; X64-NEXT: movlps %xmm0, (%rdi)			; X64-NEXT: movlps %xmm0, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%val = sitofp <2 x i16> %src to <2 x float>			%val = sitofp <2 x i16> %src to <2 x float>
	store <2 x float> %val, <2 x float>* %dst.addr, align 4			store <2 x float> %val, <2 x float>* %dst.addr, align 4
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 101 Lines • Show Last 20 Lines

test/CodeGen/X86/widen_load-2.ll

	Show First 20 Lines • Show All 145 Lines • ▼ Show 20 Lines

	%i16vec3 = type <3 x i16>			%i16vec3 = type <3 x i16>
	define void @add3i16(%i16vec3* nocapture sret %ret, %i16vec3* %ap, %i16vec3* %bp) nounwind {			define void @add3i16(%i16vec3* nocapture sret %ret, %i16vec3* %ap, %i16vec3* %bp) nounwind {
	; X86-LABEL: add3i16:			; X86-LABEL: add3i16:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebp			; X86-NEXT: pushl %ebp
	; X86-NEXT: movl %esp, %ebp			; X86-NEXT: movl %esp, %ebp
	; X86-NEXT: andl $-8, %esp			; X86-NEXT: andl $-8, %esp
	; X86-NEXT: subl $24, %esp			; X86-NEXT: subl $16, %esp
	; X86-NEXT: movl 8(%ebp), %eax			; X86-NEXT: movl 8(%ebp), %eax
	; X86-NEXT: movl 16(%ebp), %ecx			; X86-NEXT: movl 16(%ebp), %ecx
	; X86-NEXT: movl 12(%ebp), %edx			; X86-NEXT: movl 12(%ebp), %edx
	; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; X86-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; X86-NEXT: pinsrd $2, 4(%edx), %xmm0			; X86-NEXT: pinsrd $2, 4(%edx), %xmm0
	; X86-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X86-NEXT: pmovzxwd {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero			; X86-NEXT: pmovzxwd {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; X86-NEXT: pinsrd $2, 4(%ecx), %xmm1			; X86-NEXT: pinsrd $2, 4(%ecx), %xmm1
	; X86-NEXT: paddd %xmm0, %xmm1			; X86-NEXT: paddd %xmm0, %xmm1
	; X86-NEXT: pextrw $4, %xmm1, 4(%eax)			; X86-NEXT: pextrw $4, %xmm1, 4(%eax)
	; X86-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; X86-NEXT: pshuflw {{.*#+}} xmm0 = xmm1[0,2,2,3,4,5,6,7]
	; X86-NEXT: movd %xmm1, (%eax)			; X86-NEXT: movd %xmm0, (%eax)
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: retl $4			; X86-NEXT: retl $4
	;			;
	; X64-LABEL: add3i16:			; X64-LABEL: add3i16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdi, %rax			; X64-NEXT: movq %rdi, %rax
	; X64-NEXT: pmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-NEXT: pmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-NEXT: pmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero			; X64-NEXT: pmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X64-NEXT: paddd %xmm0, %xmm1			; X64-NEXT: paddd %xmm0, %xmm1
	; X64-NEXT: pextrw $4, %xmm1, 4(%rdi)			; X64-NEXT: pextrw $4, %xmm1, 4(%rdi)
	; X64-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; X64-NEXT: pshuflw {{.*#+}} xmm0 = xmm1[0,2,2,3,4,5,6,7]
	; X64-NEXT: movd %xmm1, (%rdi)			; X64-NEXT: movd %xmm0, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%a = load %i16vec3, %i16vec3* %ap, align 16			%a = load %i16vec3, %i16vec3* %ap, align 16
	%b = load %i16vec3, %i16vec3* %bp, align 16			%b = load %i16vec3, %i16vec3* %bp, align 16
	%x = add %i16vec3 %a, %b			%x = add %i16vec3 %a, %b
	store %i16vec3 %x, %i16vec3* %ret, align 16			store %i16vec3 %x, %i16vec3* %ret, align 16
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 226 Lines • Show Last 20 Lines

test/CodeGen/X86/widened-broadcast.ll

	Show First 20 Lines • Show All 591 Lines • ▼ Show 20 Lines
	define <8 x i32> @load_splat_8i32_2i32_0101(<2 x i32>* %vp) {			define <8 x i32> @load_splat_8i32_2i32_0101(<2 x i32>* %vp) {
	; SSE-LABEL: load_splat_8i32_2i32_0101:			; SSE-LABEL: load_splat_8i32_2i32_0101:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: load_splat_8i32_2i32_0101:			; AVX-LABEL: load_splat_8i32_2i32_0101:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX-NEXT: vbroadcastsd (%rdi), %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]			; AVX-NEXT: retq
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq
	;
	; AVX2-LABEL: load_splat_8i32_2i32_0101:
	; AVX2: # %bb.0:
	; AVX2-NEXT: vbroadcastsd (%rdi), %ymm0
	; AVX2-NEXT: retq
	;
	; AVX512-LABEL: load_splat_8i32_2i32_0101:
	; AVX512: # %bb.0:
	; AVX512-NEXT: vbroadcastsd (%rdi), %ymm0
	; AVX512-NEXT: retq
	%vec = load <2 x i32>, <2 x i32>* %vp			%vec = load <2 x i32>, <2 x i32>* %vp
	%res = shufflevector <2 x i32> %vec, <2 x i32> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>			%res = shufflevector <2 x i32> %vec, <2 x i32> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
	ret <8 x i32> %res			ret <8 x i32> %res
	}			}

	define <16 x i32> @load_splat_16i32_2i32_0101(<2 x i32>* %vp) {			define <16 x i32> @load_splat_16i32_2i32_0101(<2 x i32>* %vp) {
	; SSE-LABEL: load_splat_16i32_2i32_0101:			; SSE-LABEL: load_splat_16i32_2i32_0101:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; SSE-NEXT: movdqa %xmm0, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: movdqa %xmm0, %xmm3			; SSE-NEXT: movdqa %xmm0, %xmm3
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: load_splat_16i32_2i32_0101:			; AVX1-LABEL: load_splat_16i32_2i32_0101:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX1-NEXT: vbroadcastsd (%rdi), %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vmovaps %ymm0, %ymm1			; AVX1-NEXT: vmovaps %ymm0, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: load_splat_16i32_2i32_0101:			; AVX2-LABEL: load_splat_16i32_2i32_0101:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vbroadcastsd (%rdi), %ymm0			; AVX2-NEXT: vbroadcastsd (%rdi), %ymm0
	; AVX2-NEXT: vmovaps %ymm0, %ymm1			; AVX2-NEXT: vmovaps %ymm0, %ymm1
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: load_splat_16i32_2i32_0101:			; AVX512-LABEL: load_splat_16i32_2i32_0101:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovzxdq {{.*#+}} xmm0 = mem[0],zero,mem[1],zero			; AVX512-NEXT: vbroadcastsd (%rdi), %zmm0
	; AVX512-NEXT: vmovdqa64 {{.*#+}} zmm1 = [0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2]
	; AVX512-NEXT: vpermd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%vec = load <2 x i32>, <2 x i32>* %vp			%vec = load <2 x i32>, <2 x i32>* %vp
	%res = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>			%res = shufflevector <2 x i32> %vec, <2 x i32> undef, <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
	ret <16 x i32> %res			ret <16 x i32> %res
	}			}

test/CodeGen/X86/x86-shifts.ll

	Show First 20 Lines • Show All 248 Lines • ▼ Show 20 Lines


	; Other shifts			; Other shifts

	define <2 x i32> @shl2_other(<2 x i32> %A) nounwind {			define <2 x i32> @shl2_other(<2 x i32> %A) nounwind {
	; X32-LABEL: shl2_other:			; X32-LABEL: shl2_other:
	; X32: # %bb.0: # %entry			; X32: # %bb.0: # %entry
	; X32-NEXT: movdqa %xmm0, %xmm1			; X32-NEXT: movdqa %xmm0, %xmm1
	; X32-NEXT: psllq $2, %xmm1			; X32-NEXT: pslld $2, %xmm1
	; X32-NEXT: psllq $9, %xmm0			; X32-NEXT: pslld $9, %xmm0
	; X32-NEXT: pxor %xmm1, %xmm0			; X32-NEXT: pxor %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: shl2_other:			; X64-LABEL: shl2_other:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: movdqa %xmm0, %xmm1			; X64-NEXT: movdqa %xmm0, %xmm1
	; X64-NEXT: psllq $2, %xmm1			; X64-NEXT: pslld $2, %xmm1
	; X64-NEXT: psllq $9, %xmm0			; X64-NEXT: pslld $9, %xmm0
	; X64-NEXT: pxor %xmm1, %xmm0			; X64-NEXT: pxor %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%B = shl <2 x i32> %A, < i32 2, i32 2>			%B = shl <2 x i32> %A, < i32 2, i32 2>
	%C = shl <2 x i32> %A, < i32 9, i32 9>			%C = shl <2 x i32> %A, < i32 9, i32 9>
	%K = xor <2 x i32> %B, %C			%K = xor <2 x i32> %B, %C
	ret <2 x i32> %K			ret <2 x i32> %K
	}			}

	define <2 x i32> @shr2_other(<2 x i32> %A) nounwind {			define <2 x i32> @shr2_other(<2 x i32> %A) nounwind {
	; X32-LABEL: shr2_other:			; X32-LABEL: shr2_other:
	; X32: # %bb.0: # %entry			; X32: # %bb.0: # %entry
	; X32-NEXT: pand {{\.LCPI.*}}, %xmm0
	; X32-NEXT: movdqa %xmm0, %xmm1			; X32-NEXT: movdqa %xmm0, %xmm1
	; X32-NEXT: psrlq $8, %xmm1			; X32-NEXT: psrld $8, %xmm1
	; X32-NEXT: psrlq $1, %xmm0			; X32-NEXT: psrld $1, %xmm0
	; X32-NEXT: pxor %xmm1, %xmm0			; X32-NEXT: pxor %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: shr2_other:			; X64-LABEL: shr2_other:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: pand {{.*}}(%rip), %xmm0
	; X64-NEXT: movdqa %xmm0, %xmm1			; X64-NEXT: movdqa %xmm0, %xmm1
	; X64-NEXT: psrlq $8, %xmm1			; X64-NEXT: psrld $8, %xmm1
	; X64-NEXT: psrlq $1, %xmm0			; X64-NEXT: psrld $1, %xmm0
	; X64-NEXT: pxor %xmm1, %xmm0			; X64-NEXT: pxor %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%B = lshr <2 x i32> %A, < i32 8, i32 8>			%B = lshr <2 x i32> %A, < i32 8, i32 8>
	%C = lshr <2 x i32> %A, < i32 1, i32 1>			%C = lshr <2 x i32> %A, < i32 1, i32 1>
	%K = xor <2 x i32> %B, %C			%K = xor <2 x i32> %B, %C
	ret <2 x i32> %K			ret <2 x i32> %K
	}			}
	▲ Show 20 Lines • Show All 72 Lines • Show Last 20 Lines

test/Transforms/SLPVectorizer/X86/insert-element-build-vector.ll

	Show First 20 Lines • Show All 336 Lines • ▼ Show 20 Lines
	; ZEROTHRESH-NEXT: [[A0:%.]] = extractelement <4 x float> [[A:%.]], i32 0			; ZEROTHRESH-NEXT: [[A0:%.]] = extractelement <4 x float> [[A:%.]], i32 0
	; ZEROTHRESH-NEXT: [[A1:%.*]] = extractelement <4 x float> [[A]], i32 1			; ZEROTHRESH-NEXT: [[A1:%.*]] = extractelement <4 x float> [[A]], i32 1
	; ZEROTHRESH-NEXT: [[A2:%.*]] = extractelement <4 x float> [[A]], i32 2			; ZEROTHRESH-NEXT: [[A2:%.*]] = extractelement <4 x float> [[A]], i32 2
	; ZEROTHRESH-NEXT: [[A3:%.*]] = extractelement <4 x float> [[A]], i32 3			; ZEROTHRESH-NEXT: [[A3:%.*]] = extractelement <4 x float> [[A]], i32 3
	; ZEROTHRESH-NEXT: [[B0:%.]] = extractelement <4 x float> [[B:%.]], i32 0			; ZEROTHRESH-NEXT: [[B0:%.]] = extractelement <4 x float> [[B:%.]], i32 0
	; ZEROTHRESH-NEXT: [[B1:%.*]] = extractelement <4 x float> [[B]], i32 1			; ZEROTHRESH-NEXT: [[B1:%.*]] = extractelement <4 x float> [[B]], i32 1
	; ZEROTHRESH-NEXT: [[B2:%.*]] = extractelement <4 x float> [[B]], i32 2			; ZEROTHRESH-NEXT: [[B2:%.*]] = extractelement <4 x float> [[B]], i32 2
	; ZEROTHRESH-NEXT: [[B3:%.*]] = extractelement <4 x float> [[B]], i32 3			; ZEROTHRESH-NEXT: [[B3:%.*]] = extractelement <4 x float> [[B]], i32 3
	; ZEROTHRESH-NEXT: [[CMP0:%.*]] = icmp ne i32 [[C0]], 0			; ZEROTHRESH-NEXT: [[TMP1:%.*]] = insertelement <2 x i32> undef, i32 [[C0]], i32 0
	; ZEROTHRESH-NEXT: [[CMP1:%.*]] = icmp ne i32 [[C1]], 0			; ZEROTHRESH-NEXT: [[TMP2:%.*]] = insertelement <2 x i32> [[TMP1]], i32 [[C1]], i32 1
	; ZEROTHRESH-NEXT: [[CMP2:%.*]] = icmp ne i32 [[C2]], 0			; ZEROTHRESH-NEXT: [[TMP3:%.*]] = icmp ne <2 x i32> [[TMP2]], zeroinitializer
	; ZEROTHRESH-NEXT: [[CMP3:%.*]] = icmp ne i32 [[C3]], 0			; ZEROTHRESH-NEXT: [[TMP4:%.*]] = insertelement <2 x i32> undef, i32 [[C2]], i32 0
	; ZEROTHRESH-NEXT: [[S0:%.*]] = select i1 [[CMP0]], float [[A0]], float [[B0]]			; ZEROTHRESH-NEXT: [[TMP5:%.*]] = insertelement <2 x i32> [[TMP4]], i32 [[C3]], i32 1
	; ZEROTHRESH-NEXT: [[S1:%.*]] = select i1 [[CMP1]], float [[A1]], float [[B1]]			; ZEROTHRESH-NEXT: [[TMP6:%.*]] = icmp ne <2 x i32> [[TMP5]], zeroinitializer
	; ZEROTHRESH-NEXT: [[S2:%.*]] = select i1 [[CMP2]], float [[A2]], float [[B2]]			; ZEROTHRESH-NEXT: [[TMP7:%.*]] = insertelement <2 x float> undef, float [[A0]], i32 0
	; ZEROTHRESH-NEXT: [[S3:%.*]] = select i1 [[CMP3]], float [[A3]], float [[B3]]			; ZEROTHRESH-NEXT: [[TMP8:%.*]] = insertelement <2 x float> [[TMP7]], float [[A1]], i32 1
	; ZEROTHRESH-NEXT: [[RA:%.*]] = insertelement <4 x float> undef, float [[S0]], i32 0			; ZEROTHRESH-NEXT: [[TMP9:%.*]] = insertelement <2 x float> undef, float [[B0]], i32 0
	; ZEROTHRESH-NEXT: [[RB:%.*]] = insertelement <4 x float> [[RA]], float [[S1]], i32 1			; ZEROTHRESH-NEXT: [[TMP10:%.*]] = insertelement <2 x float> [[TMP9]], float [[B1]], i32 1
	; ZEROTHRESH-NEXT: [[RC:%.*]] = insertelement <4 x float> undef, float [[S2]], i32 2			; ZEROTHRESH-NEXT: [[TMP11:%.*]] = select <2 x i1> [[TMP3]], <2 x float> [[TMP8]], <2 x float> [[TMP10]]
	; ZEROTHRESH-NEXT: [[RD:%.*]] = insertelement <4 x float> [[RC]], float [[S3]], i32 3			; ZEROTHRESH-NEXT: [[TMP12:%.*]] = insertelement <2 x float> undef, float [[A2]], i32 0
				; ZEROTHRESH-NEXT: [[TMP13:%.*]] = insertelement <2 x float> [[TMP12]], float [[A3]], i32 1
				; ZEROTHRESH-NEXT: [[TMP14:%.*]] = insertelement <2 x float> undef, float [[B2]], i32 0
				; ZEROTHRESH-NEXT: [[TMP15:%.*]] = insertelement <2 x float> [[TMP14]], float [[B3]], i32 1
				; ZEROTHRESH-NEXT: [[TMP16:%.*]] = select <2 x i1> [[TMP6]], <2 x float> [[TMP13]], <2 x float> [[TMP15]]
				; ZEROTHRESH-NEXT: [[TMP17:%.*]] = extractelement <2 x float> [[TMP11]], i32 0
				; ZEROTHRESH-NEXT: [[RA:%.*]] = insertelement <4 x float> undef, float [[TMP17]], i32 0
				; ZEROTHRESH-NEXT: [[TMP18:%.*]] = extractelement <2 x float> [[TMP11]], i32 1
				; ZEROTHRESH-NEXT: [[RB:%.*]] = insertelement <4 x float> [[RA]], float [[TMP18]], i32 1
				; ZEROTHRESH-NEXT: [[TMP19:%.*]] = extractelement <2 x float> [[TMP16]], i32 0
				; ZEROTHRESH-NEXT: [[RC:%.*]] = insertelement <4 x float> undef, float [[TMP19]], i32 2
				; ZEROTHRESH-NEXT: [[TMP20:%.*]] = extractelement <2 x float> [[TMP16]], i32 1
				; ZEROTHRESH-NEXT: [[RD:%.*]] = insertelement <4 x float> [[RC]], float [[TMP20]], i32 3
	; ZEROTHRESH-NEXT: ret <4 x float> [[RD]]			; ZEROTHRESH-NEXT: ret <4 x float> [[RD]]
	;			;
	%c0 = extractelement <4 x i32> %c, i32 0			%c0 = extractelement <4 x i32> %c, i32 0
	%c1 = extractelement <4 x i32> %c, i32 1			%c1 = extractelement <4 x i32> %c, i32 1
	%c2 = extractelement <4 x i32> %c, i32 2			%c2 = extractelement <4 x i32> %c, i32 2
	%c3 = extractelement <4 x i32> %c, i32 3			%c3 = extractelement <4 x i32> %c, i32 3
	%a0 = extractelement <4 x float> %a, i32 0			%a0 = extractelement <4 x float> %a, i32 0
	%a1 = extractelement <4 x float> %a, i32 1			%a1 = extractelement <4 x float> %a, i32 1
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP2:%.]] = select <2 x i1> [[TMP1]], <2 x float> [[A:%.]], <2 x float> [[B:%.*]]			; CHECK-NEXT: [[TMP2:%.]] = select <2 x i1> [[TMP1]], <2 x float> [[A:%.]], <2 x float> [[B:%.*]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <2 x float> [[TMP2]], i32 0			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <2 x float> [[TMP2]], i32 0
	; CHECK-NEXT: [[RA:%.*]] = insertelement <2 x float> undef, float [[TMP3]], i32 0			; CHECK-NEXT: [[RA:%.*]] = insertelement <2 x float> undef, float [[TMP3]], i32 0
	; CHECK-NEXT: [[TMP4:%.*]] = extractelement <2 x float> [[TMP2]], i32 1			; CHECK-NEXT: [[TMP4:%.*]] = extractelement <2 x float> [[TMP2]], i32 1
	; CHECK-NEXT: [[RB:%.*]] = insertelement <2 x float> [[RA]], float [[TMP4]], i32 1			; CHECK-NEXT: [[RB:%.*]] = insertelement <2 x float> [[RA]], float [[TMP4]], i32 1
	; CHECK-NEXT: ret <2 x float> [[RB]]			; CHECK-NEXT: ret <2 x float> [[RB]]
	;			;
	; ZEROTHRESH-LABEL: @simple_select_v2(			; ZEROTHRESH-LABEL: @simple_select_v2(
	; ZEROTHRESH-NEXT: [[C0:%.]] = extractelement <2 x i32> [[C:%.]], i32 0			; ZEROTHRESH-NEXT: [[TMP1:%.]] = icmp ne <2 x i32> [[C:%.]], zeroinitializer
	; ZEROTHRESH-NEXT: [[C1:%.*]] = extractelement <2 x i32> [[C]], i32 1			; ZEROTHRESH-NEXT: [[TMP2:%.]] = select <2 x i1> [[TMP1]], <2 x float> [[A:%.]], <2 x float> [[B:%.*]]
	; ZEROTHRESH-NEXT: [[A0:%.]] = extractelement <2 x float> [[A:%.]], i32 0			; ZEROTHRESH-NEXT: [[TMP3:%.*]] = extractelement <2 x float> [[TMP2]], i32 0
	; ZEROTHRESH-NEXT: [[A1:%.*]] = extractelement <2 x float> [[A]], i32 1			; ZEROTHRESH-NEXT: [[RA:%.*]] = insertelement <2 x float> undef, float [[TMP3]], i32 0
	; ZEROTHRESH-NEXT: [[B0:%.]] = extractelement <2 x float> [[B:%.]], i32 0			; ZEROTHRESH-NEXT: [[TMP4:%.*]] = extractelement <2 x float> [[TMP2]], i32 1
	; ZEROTHRESH-NEXT: [[B1:%.*]] = extractelement <2 x float> [[B]], i32 1			; ZEROTHRESH-NEXT: [[RB:%.*]] = insertelement <2 x float> [[RA]], float [[TMP4]], i32 1
	; ZEROTHRESH-NEXT: [[CMP0:%.*]] = icmp ne i32 [[C0]], 0
	; ZEROTHRESH-NEXT: [[CMP1:%.*]] = icmp ne i32 [[C1]], 0
	; ZEROTHRESH-NEXT: [[S0:%.*]] = select i1 [[CMP0]], float [[A0]], float [[B0]]
	; ZEROTHRESH-NEXT: [[S1:%.*]] = select i1 [[CMP1]], float [[A1]], float [[B1]]
	; ZEROTHRESH-NEXT: [[RA:%.*]] = insertelement <2 x float> undef, float [[S0]], i32 0
	; ZEROTHRESH-NEXT: [[RB:%.*]] = insertelement <2 x float> [[RA]], float [[S1]], i32 1
	; ZEROTHRESH-NEXT: ret <2 x float> [[RB]]			; ZEROTHRESH-NEXT: ret <2 x float> [[RB]]
	;			;
	%c0 = extractelement <2 x i32> %c, i32 0			%c0 = extractelement <2 x i32> %c, i32 0
	%c1 = extractelement <2 x i32> %c, i32 1			%c1 = extractelement <2 x i32> %c, i32 1
	%a0 = extractelement <2 x float> %a, i32 0			%a0 = extractelement <2 x float> %a, i32 0
	%a1 = extractelement <2 x float> %a, i32 1			%a1 = extractelement <2 x float> %a, i32 1
	%b0 = extractelement <2 x float> %b, i32 0			%b0 = extractelement <2 x float> %b, i32 0
	%b1 = extractelement <2 x float> %b, i32 1			%b1 = extractelement <2 x float> %b, i32 1
	▲ Show 20 Lines • Show All 302 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Legalize v2i32 via widening rather than promotingAbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 169586

lib/Target/X86/X86ISelLowering.cpp

lib/Target/X86/X86TargetTransformInfo.cpp

test/Analysis/CostModel/X86/alternate-shuffle-cost.ll

test/Analysis/CostModel/X86/arith.ll

test/Analysis/CostModel/X86/fptoui.ll

test/Analysis/CostModel/X86/masked-intrinsic-cost.ll

test/Analysis/CostModel/X86/sitofp.ll

test/Analysis/CostModel/X86/slm-arith-costs.ll

test/Analysis/CostModel/X86/testshiftashr.ll

test/Analysis/CostModel/X86/testshiftlshr.ll

test/Analysis/CostModel/X86/testshiftshl.ll

test/Analysis/CostModel/X86/uitofp.ll

test/CodeGen/X86/2008-09-05-sinttofp-2xi32.ll

test/CodeGen/X86/2012-01-18-vbitcast.ll

test/CodeGen/X86/2012-07-10-extload64.ll

test/CodeGen/X86/3dnow-intrinsics.ll

test/CodeGen/X86/avx2-masked-gather.ll

test/CodeGen/X86/avx512-cvt.ll

test/CodeGen/X86/avx512-schedule.ll

test/CodeGen/X86/avx512-shuffles/broadcast-vector-int.ll

test/CodeGen/X86/avx512-trunc.ll

test/CodeGen/X86/avx512vl-intrinsics-fast-isel.ll

test/CodeGen/X86/bitcast-and-setcc-128.ll

test/CodeGen/X86/bitcast-setcc-128.ll

test/CodeGen/X86/compress_expand.ll

test/CodeGen/X86/cvtv2f32.ll

test/CodeGen/X86/i64-to-float.ll

test/CodeGen/X86/insertelement-shuffle.ll

test/CodeGen/X86/known-signbits-vector.ll

test/CodeGen/X86/lower-bitcast.ll

test/CodeGen/X86/masked_gather_scatter.ll

test/CodeGen/X86/masked_gather_scatter_widen.ll

test/CodeGen/X86/masked_memop.ll

test/CodeGen/X86/mmx-arith.ll

test/CodeGen/X86/mmx-cvt.ll

test/CodeGen/X86/mulvi32.ll

test/CodeGen/X86/oddshuffles.ll

test/CodeGen/X86/pointer-vector.ll

test/CodeGen/X86/ret-mmx.ll

test/CodeGen/X86/sad.ll

test/CodeGen/X86/shrink_vmul.ll

test/CodeGen/X86/shuffle-strided-with-offset-128.ll

test/CodeGen/X86/shuffle-vs-trunc-128.ll

test/CodeGen/X86/sse-fsignum.ll

test/CodeGen/X86/trunc-ext-ld-st.ll

test/CodeGen/X86/trunc-subvector.ll

test/CodeGen/X86/unfold-masked-merge-vector-variablemask.ll

test/CodeGen/X86/vec_cast3.ll

test/CodeGen/X86/vec_ctbits.ll

test/CodeGen/X86/vec_extract-mmx.ll

test/CodeGen/X86/vec_fp_to_int.ll

test/CodeGen/X86/vec_insert-5.ll

test/CodeGen/X86/vec_insert-7.ll

test/CodeGen/X86/vec_insert-mmx.ll

test/CodeGen/X86/vec_int_to_fp.ll

test/CodeGen/X86/vec_zero_cse.ll

test/CodeGen/X86/vector-idiv-v2i32.ll

test/CodeGen/X86/vector-sext.ll

test/CodeGen/X86/vector-trunc.ll

test/CodeGen/X86/vector-zext.ll

test/CodeGen/X86/vshift-4.ll

test/CodeGen/X86/widen_arith-3.ll

test/CodeGen/X86/widen_cast-5.ll

test/CodeGen/X86/widen_conv-1.ll

test/CodeGen/X86/widen_conv-2.ll

test/CodeGen/X86/widen_conv-3.ll

test/CodeGen/X86/widen_load-2.ll

test/CodeGen/X86/widened-broadcast.ll

test/CodeGen/X86/x86-shifts.ll

test/Transforms/SLPVectorizer/X86/insert-element-build-vector.ll

[X86] Legalize v2i32 via widening rather than promoting
AbandonedPublic