This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Support v4i32 rotations (PR37426)
ClosedPublic

Authored by RKSimon on May 16 2018, 8:34 AM.

Download Raw Diff

Details

Reviewers

spatel
craig.topper
andreadb

Commits

rG5aa7cdfd7094: [X86][SSE] Support v4i32 rotations (PR37426)
rL332832: [X86][SSE] Support v4i32 rotations (PR37426)

Summary

As suggested by Fabian on PR37426, we can use PMULUDQ to perform v4i32 vector rotations as the upper 32bits of the multiply will contain the 'wrapped' bits of the rotation.

v8i16/v16i8 rotations would be straightforward to add to lowerRotate in the future - ideally we'd mostly share code with the vector shifts lowering.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.May 16 2018, 8:34 AM

RKSimon added inline comments.May 16 2018, 8:36 AM

test/CodeGen/X86/vector-rotate-128.ll
1599	It might be better to take the cost of 2 loads to remove the 2xPSHUFD and fold directly into the PMULUDQs? There is a small increase in codesize.

xbolva00 added a subscriber: xbolva00.May 16 2018, 8:39 AM

xbolva00 added inline comments.

test/CodeGen/X86/vector-rotate-128.ll
1599	+1 for PMULUDQ

craig.topper added inline comments.May 16 2018, 5:19 PM

lib/Target/X86/X86ISelLowering.cpp
23739	Combine these two ifs into one condition?

xbolva00 added inline comments.May 16 2018, 5:21 PM

lib/Target/X86/X86ISelLowering.cpp
23739	Yes

Merged ifs()

LGTM

This revision is now accepted and ready to land.May 20 2018, 6:24 PM

Closed by commit rL332832: [X86][SSE] Support v4i32 rotations (PR37426) (authored by RKSimon). · Explain WhyMay 21 2018, 2:49 AM

This revision was automatically updated to reflect the committed changes.

RKSimon mentioned this in D47822: [X86][SSE] Support v8i16/v16i16 rotations.Jun 6 2018, 6:08 AM

RKSimon mentioned this in rL334309: [X86][SSE] Support v8i16/v16i16 rotations.Jun 8 2018, 11:03 AM

Revision Contents

Path

Size

lib/

Target/

X86/

	X86ISelLowering.cpp
	X86ISelLowering.cpp (revision 332481)

172 lines

test/

CodeGen/

X86/

	vector-rotate-128.ll
	vector-rotate-128.ll (revision 332481)

419 lines

	vector-rotate-256.ll
	vector-rotate-256.ll (revision 332481)

218 lines

	vector-shift-shl-128.ll
	vector-shift-shl-128.ll (revision 332481)

28 lines

	vector-shift-shl-256.ll
	vector-shift-shl-256.ll (revision 332481)

8 lines

Diff 147101

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 893 Lines • ▼ Show 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasSSE2()) {

// In the customized shift lowering, the legal v4i32/v2i64 cases		// In the customized shift lowering, the legal v4i32/v2i64 cases
// in AVX2 will be recognized.		// in AVX2 will be recognized.
for (auto VT : { MVT::v16i8, MVT::v8i16, MVT::v4i32, MVT::v2i64 }) {		for (auto VT : { MVT::v16i8, MVT::v8i16, MVT::v4i32, MVT::v2i64 }) {
setOperationAction(ISD::SRL, VT, Custom);		setOperationAction(ISD::SRL, VT, Custom);
setOperationAction(ISD::SHL, VT, Custom);		setOperationAction(ISD::SHL, VT, Custom);
setOperationAction(ISD::SRA, VT, Custom);		setOperationAction(ISD::SRA, VT, Custom);
}		}

		setOperationAction(ISD::ROTL, MVT::v4i32, Custom);
}		}

if (!Subtarget.useSoftFloat() && Subtarget.hasSSSE3()) {		if (!Subtarget.useSoftFloat() && Subtarget.hasSSSE3()) {
setOperationAction(ISD::ABS, MVT::v16i8, Legal);		setOperationAction(ISD::ABS, MVT::v16i8, Legal);
setOperationAction(ISD::ABS, MVT::v8i16, Legal);		setOperationAction(ISD::ABS, MVT::v8i16, Legal);
setOperationAction(ISD::ABS, MVT::v4i32, Legal);		setOperationAction(ISD::ABS, MVT::v4i32, Legal);
setOperationAction(ISD::BITREVERSE, MVT::v16i8, Custom);		setOperationAction(ISD::BITREVERSE, MVT::v16i8, Custom);
setOperationAction(ISD::CTLZ, MVT::v16i8, Custom);		setOperationAction(ISD::CTLZ, MVT::v16i8, Custom);
▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasAVX()) {
// In the customized shift lowering, the legal v8i32/v4i64 cases		// In the customized shift lowering, the legal v8i32/v4i64 cases
// in AVX2 will be recognized.		// in AVX2 will be recognized.
for (auto VT : { MVT::v32i8, MVT::v16i16, MVT::v8i32, MVT::v4i64 }) {		for (auto VT : { MVT::v32i8, MVT::v16i16, MVT::v8i32, MVT::v4i64 }) {
setOperationAction(ISD::SRL, VT, Custom);		setOperationAction(ISD::SRL, VT, Custom);
setOperationAction(ISD::SHL, VT, Custom);		setOperationAction(ISD::SHL, VT, Custom);
setOperationAction(ISD::SRA, VT, Custom);		setOperationAction(ISD::SRA, VT, Custom);
}		}

		setOperationAction(ISD::ROTL, MVT::v8i32, Custom);

setOperationAction(ISD::SELECT, MVT::v4f64, Custom);		setOperationAction(ISD::SELECT, MVT::v4f64, Custom);
setOperationAction(ISD::SELECT, MVT::v4i64, Custom);		setOperationAction(ISD::SELECT, MVT::v4i64, Custom);
setOperationAction(ISD::SELECT, MVT::v8f32, Custom);		setOperationAction(ISD::SELECT, MVT::v8f32, Custom);

for (auto VT : { MVT::v16i16, MVT::v8i32, MVT::v4i64 }) {		for (auto VT : { MVT::v16i16, MVT::v8i32, MVT::v4i64 }) {
setOperationAction(ISD::SIGN_EXTEND, VT, Custom);		setOperationAction(ISD::SIGN_EXTEND, VT, Custom);
setOperationAction(ISD::ZERO_EXTEND, VT, Custom);		setOperationAction(ISD::ZERO_EXTEND, VT, Custom);
setOperationAction(ISD::ANY_EXTEND, VT, Custom);		setOperationAction(ISD::ANY_EXTEND, VT, Custom);
▲ Show 20 Lines • Show All 22,173 Lines • ▼ Show 20 Lines	if (VT == MVT::v2i64 && Amt.getOpcode() == ISD::BITCAST &&
}		}

if (SupportedVectorShiftWithBaseAmnt(VT, Subtarget, Op.getOpcode()))		if (SupportedVectorShiftWithBaseAmnt(VT, Subtarget, Op.getOpcode()))
return DAG.getNode(X86OpcV, dl, VT, R, Op.getOperand(1));		return DAG.getNode(X86OpcV, dl, VT, R, Op.getOperand(1));
}		}
return SDValue();		return SDValue();
}		}

		// Convert a shift/rotate left amount to a multiplication scale factor.
		static SDValue convertShiftLeftToScale(SDValue Amt, const SDLoc &dl,
		const X86Subtarget &Subtarget,
		SelectionDAG &DAG) {
		MVT VT = Amt.getSimpleValueType();
		bool ConstantAmt = ISD::isBuildVectorOfConstantSDNodes(Amt.getNode());

		if (ConstantAmt && (VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\|
		(Subtarget.hasInt256() && VT == MVT::v16i16))) {
		SmallVector<SDValue, 8> Elts;
		MVT SVT = VT.getVectorElementType();
		unsigned SVTBits = SVT.getSizeInBits();
		APInt One(SVTBits, 1);
		unsigned NumElems = VT.getVectorNumElements();

		for (unsigned i = 0; i != NumElems; ++i) {
		SDValue Op = Amt->getOperand(i);
		if (Op->isUndef()) {
		Elts.push_back(Op);
		continue;
		}

		ConstantSDNode *ND = cast<ConstantSDNode>(Op);
		APInt C(SVTBits, ND->getAPIntValue().getZExtValue());
		uint64_t ShAmt = C.getZExtValue();
		if (ShAmt >= SVTBits) {
		Elts.push_back(DAG.getUNDEF(SVT));
		continue;
		}
		Elts.push_back(DAG.getConstant(One.shl(ShAmt), dl, SVT));
		}
		return DAG.getBuildVector(VT, dl, Elts);
		}

		if (VT == MVT::v4i32) {
		Amt = DAG.getNode(ISD::SHL, dl, VT, Amt, DAG.getConstant(23, dl, VT));
		Amt = DAG.getNode(ISD::ADD, dl, VT, Amt,
		DAG.getConstant(0x3f800000U, dl, VT));
		Amt = DAG.getBitcast(MVT::v4f32, Amt);
		return DAG.getNode(ISD::FP_TO_SINT, dl, VT, Amt);
		}

		return SDValue();
		}

static SDValue LowerShift(SDValue Op, const X86Subtarget &Subtarget,		static SDValue LowerShift(SDValue Op, const X86Subtarget &Subtarget,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
SDLoc dl(Op);		SDLoc dl(Op);
SDValue R = Op.getOperand(0);		SDValue R = Op.getOperand(0);
SDValue Amt = Op.getOperand(1);		SDValue Amt = Op.getOperand(1);
bool ConstantAmt = ISD::isBuildVectorOfConstantSDNodes(Amt.getNode());		bool ConstantAmt = ISD::isBuildVectorOfConstantSDNodes(Amt.getNode());

▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	if ((VT == MVT::v2i64 \|\| (VT == MVT::v4i64 && Subtarget.hasInt256())) &&
R = DAG.getNode(ISD::SRL, dl, VT, R, Amt);		R = DAG.getNode(ISD::SRL, dl, VT, R, Amt);
R = DAG.getNode(ISD::XOR, dl, VT, R, M);		R = DAG.getNode(ISD::XOR, dl, VT, R, M);
R = DAG.getNode(ISD::SUB, dl, VT, R, M);		R = DAG.getNode(ISD::SUB, dl, VT, R, M);
return R;		return R;
}		}

// If possible, lower this packed shift into a vector multiply instead of		// If possible, lower this packed shift into a vector multiply instead of
// expanding it into a sequence of scalar shifts.		// expanding it into a sequence of scalar shifts.
// Do this only if the vector shift count is a constant build_vector.		if (Op.getOpcode() == ISD::SHL)
if (ConstantAmt && Op.getOpcode() == ISD::SHL &&		if (SDValue Scale = convertShiftLeftToScale(Amt, dl, Subtarget, DAG))
(VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\|		return DAG.getNode(ISD::MUL, dl, VT, R, Scale);
(Subtarget.hasInt256() && VT == MVT::v16i16))) {
SmallVector<SDValue, 8> Elts;
MVT SVT = VT.getVectorElementType();
unsigned SVTBits = SVT.getSizeInBits();
APInt One(SVTBits, 1);
unsigned NumElems = VT.getVectorNumElements();

for (unsigned i=0; i !=NumElems; ++i) {
SDValue Op = Amt->getOperand(i);
if (Op->isUndef()) {
Elts.push_back(Op);
continue;
}

ConstantSDNode *ND = cast<ConstantSDNode>(Op);
APInt C(SVTBits, ND->getAPIntValue().getZExtValue());
uint64_t ShAmt = C.getZExtValue();
if (ShAmt >= SVTBits) {
Elts.push_back(DAG.getUNDEF(SVT));
continue;
}
Elts.push_back(DAG.getConstant(One.shl(ShAmt), dl, SVT));
}
SDValue BV = DAG.getBuildVector(VT, dl, Elts);
return DAG.getNode(ISD::MUL, dl, VT, R, BV);
}

// Lower SHL with variable shift amount.
if (VT == MVT::v4i32 && Op->getOpcode() == ISD::SHL) {
Op = DAG.getNode(ISD::SHL, dl, VT, Amt, DAG.getConstant(23, dl, VT));

Op = DAG.getNode(ISD::ADD, dl, VT, Op,
DAG.getConstant(0x3f800000U, dl, VT));
Op = DAG.getBitcast(MVT::v4f32, Op);
Op = DAG.getNode(ISD::FP_TO_SINT, dl, VT, Op);
return DAG.getNode(ISD::MUL, dl, VT, Op, R);
}

// If possible, lower this shift as a sequence of two shifts by		// If possible, lower this shift as a sequence of two shifts by
// constant plus a MOVSS/MOVSD/PBLEND instead of scalarizing it.		// constant plus a MOVSS/MOVSD/PBLEND instead of scalarizing it.
// Example:		// Example:
// (v4i32 (srl A, (build_vector < X, Y, Y, Y>)))		// (v4i32 (srl A, (build_vector < X, Y, Y, Y>)))
//		//
// Could be rewritten as:		// Could be rewritten as:
// (v4i32 (MOVSS (srl A, <Y,Y,Y,Y>), (srl A, <X,X,X,X>)))		// (v4i32 (MOVSS (srl A, <Y,Y,Y,Y>), (srl A, <X,X,X,X>)))
▲ Show 20 Lines • Show All 336 Lines • ▼ Show 20 Lines	if (VT.is256BitVector())
return Lower256IntArith(Op, DAG);		return Lower256IntArith(Op, DAG);

return SDValue();		return SDValue();
}		}

static SDValue LowerRotate(SDValue Op, const X86Subtarget &Subtarget,		static SDValue LowerRotate(SDValue Op, const X86Subtarget &Subtarget,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
		assert(VT.isVector() && "Custom lowering only for vector rotates!");

SDLoc DL(Op);		SDLoc DL(Op);
SDValue R = Op.getOperand(0);		SDValue R = Op.getOperand(0);
SDValue Amt = Op.getOperand(1);		SDValue Amt = Op.getOperand(1);
unsigned Opcode = Op.getOpcode();		unsigned Opcode = Op.getOpcode();
unsigned EltSizeInBits = VT.getScalarSizeInBits();		unsigned EltSizeInBits = VT.getScalarSizeInBits();

if (Subtarget.hasAVX512()) {		if (Subtarget.hasAVX512()) {
// Attempt to rotate by immediate.		// Attempt to rotate by immediate.
Show All 9 Lines	if (getTargetConstantBitsFromNode(Amt, EltSizeInBits, UndefElts, EltBits)) {
DAG.getConstant(RotateAmt, DL, MVT::i8));		DAG.getConstant(RotateAmt, DL, MVT::i8));
}		}
}		}

// Else, fall-back on VPROLV/VPRORV.		// Else, fall-back on VPROLV/VPRORV.
return Op;		return Op;
}		}

assert(VT.isVector() && "Custom lowering only for vector rotates!");
assert(Subtarget.hasXOP() && "XOP support required for vector rotates!");
assert((Opcode == ISD::ROTL) && "Only ROTL supported");		assert((Opcode == ISD::ROTL) && "Only ROTL supported");

// XOP has 128-bit vector variable + immediate rotates.		// XOP has 128-bit vector variable + immediate rotates.
// +ve/-ve Amt = rotate left/right - just need to handle ISD::ROTL.		// +ve/-ve Amt = rotate left/right - just need to handle ISD::ROTL.
		if (Subtarget.hasXOP()) {
// Split 256-bit integers.		// Split 256-bit integers.
if (VT.is256BitVector())		if (VT.is256BitVector())
return Lower256IntArith(Op, DAG);		return Lower256IntArith(Op, DAG);

assert(VT.is128BitVector() && "Only rotate 128-bit vectors!");		assert(VT.is128BitVector() && "Only rotate 128-bit vectors!");

// Attempt to rotate by immediate.		// Attempt to rotate by immediate.
if (auto *BVAmt = dyn_cast<BuildVectorSDNode>(Amt)) {		if (auto *BVAmt = dyn_cast<BuildVectorSDNode>(Amt)) {
if (auto *RotateConst = BVAmt->getConstantSplatNode()) {		if (auto *RotateConst = BVAmt->getConstantSplatNode()) {
uint64_t RotateAmt = RotateConst->getAPIntValue().getZExtValue();		uint64_t RotateAmt = RotateConst->getAPIntValue().getZExtValue();
assert(RotateAmt < EltSizeInBits && "Rotation out of range");		assert(RotateAmt < EltSizeInBits && "Rotation out of range");
return DAG.getNode(X86ISD::VROTLI, DL, VT, R,		return DAG.getNode(X86ISD::VROTLI, DL, VT, R,
DAG.getConstant(RotateAmt, DL, MVT::i8));		DAG.getConstant(RotateAmt, DL, MVT::i8));
}		}
}		}

// Use general rotate by variable (per-element).		// Use general rotate by variable (per-element).
return Op;		return Op;
}		}

		// Split 256-bit integers on pre-AVX2 targets.
		if (!Subtarget.hasAVX2())
		craig.topperUnsubmitted Not Done Reply Inline Actions Combine these two ifs into one condition? craig.topper: Combine these two ifs into one condition?
		xbolva00Unsubmitted Not Done Reply Inline Actions Yes xbolva00: Yes
		if (VT.is256BitVector())
		return Lower256IntArith(Op, DAG);

		assert((VT == MVT::v4i32 \|\| (VT == MVT::v8i32 && Subtarget.hasAVX2())) &&
		"Only v4i32/v8i32 vector rotates supported");

		// Rotate by an uniform constant - expand back to shifts.
		// TODO - legalizers should be able to handle this.
		if (auto *BVAmt = dyn_cast<BuildVectorSDNode>(Amt)) {
		if (auto *RotateConst = BVAmt->getConstantSplatNode()) {
		uint64_t RotateAmt = RotateConst->getAPIntValue().getZExtValue();
		assert(RotateAmt < EltSizeInBits && "Rotation out of range");
		if (RotateAmt == 0)
		return R;

		SDValue SHL = getTargetVShiftByConstNode(X86ISD::VSHLI, DL, VT, R,
		RotateAmt, DAG);
		SDValue SRL = getTargetVShiftByConstNode(X86ISD::VSRLI, DL, VT, R,
		EltSizeInBits - RotateAmt, DAG);
		return DAG.getNode(ISD::OR, DL, VT, SHL, SRL);
		}
		}

		// AVX2 - best to fallback to variable shifts.
		// TODO - legalizers should be able to handle this.
		if (Subtarget.hasAVX2()) {
		SDValue AmtR = DAG.getConstant(EltSizeInBits, DL, VT);
		AmtR = DAG.getNode(ISD::SUB, DL, VT, AmtR, Amt);
		SDValue SHL = DAG.getNode(ISD::SHL, DL, VT, R, Amt);
		SDValue SRL = DAG.getNode(ISD::SRL, DL, VT, R, AmtR);
		return DAG.getNode(ISD::OR, DL, VT, SHL, SRL);
		}

		// As with shifts, convert the rotation amount to a multiplication factor,
		// and make use of the PMULUDQ instruction to multiply 2 lanes of v4i32
		// to v2i64 results at a time. The upper 32-bits contain the wrapped bits
		// that can then be OR'd with the lower 32-bits.
		Amt = convertShiftLeftToScale(Amt, DL, Subtarget, DAG);

		static const int OddMask[] = {1, -1, 3, -1};
		SDValue R13 = DAG.getVectorShuffle(VT, DL, R, R, OddMask);
		SDValue Amt13 = DAG.getVectorShuffle(VT, DL, Amt, Amt, OddMask);

		SDValue Res02 = DAG.getNode(X86ISD::PMULUDQ, DL, MVT::v2i64,
		DAG.getBitcast(MVT::v2i64, R),
		DAG.getBitcast(MVT::v2i64, Amt));
		SDValue Res13 = DAG.getNode(X86ISD::PMULUDQ, DL, MVT::v2i64,
		DAG.getBitcast(MVT::v2i64, R13),
		DAG.getBitcast(MVT::v2i64, Amt13));
		Res02 = DAG.getBitcast(VT, Res02);
		Res13 = DAG.getBitcast(VT, Res13);

		return DAG.getNode(ISD::OR, DL, VT,
		DAG.getVectorShuffle(VT, DL, Res02, Res13, {0, 4, 2, 6}),
		DAG.getVectorShuffle(VT, DL, Res02, Res13, {1, 5, 3, 7}));
		}

static SDValue LowerXALUO(SDValue Op, SelectionDAG &DAG) {		static SDValue LowerXALUO(SDValue Op, SelectionDAG &DAG) {
// Lower the "add/sub/mul with overflow" instruction into a regular ins plus		// Lower the "add/sub/mul with overflow" instruction into a regular ins plus
// a "setcc" instruction that checks the overflow flag. The "brcond" lowering		// a "setcc" instruction that checks the overflow flag. The "brcond" lowering
// looks for this combo and may remove the "setcc" instruction if the "setcc"		// looks for this combo and may remove the "setcc" instruction if the "setcc"
// has only one use.		// has only one use.
SDNode *N = Op.getNode();		SDNode *N = Op.getNode();
SDValue LHS = N->getOperand(0);		SDValue LHS = N->getOperand(0);
SDValue RHS = N->getOperand(1);		SDValue RHS = N->getOperand(1);
▲ Show 20 Lines • Show All 16,089 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-rotate-128.ll

Show First 20 Lines • Show All 116 Lines • ▼ Show 20 Lines	; X32-SSE-NEXT: retl
%lshr = lshr <2 x i64> %a, %b64		%lshr = lshr <2 x i64> %a, %b64
%or = or <2 x i64> %shl, %lshr		%or = or <2 x i64> %shl, %lshr
ret <2 x i64> %or		ret <2 x i64> %or
}		}

define <4 x i32> @var_rotate_v4i32(<4 x i32> %a, <4 x i32> %b) nounwind {		define <4 x i32> @var_rotate_v4i32(<4 x i32> %a, <4 x i32> %b) nounwind {
; SSE2-LABEL: var_rotate_v4i32:		; SSE2-LABEL: var_rotate_v4i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32]
; SSE2-NEXT: psubd %xmm1, %xmm2
; SSE2-NEXT: pslld $23, %xmm1		; SSE2-NEXT: pslld $23, %xmm1
; SSE2-NEXT: paddd {{.*}}(%rip), %xmm1		; SSE2-NEXT: paddd {{.*}}(%rip), %xmm1
; SSE2-NEXT: cvttps2dq %xmm1, %xmm1		; SSE2-NEXT: cvttps2dq %xmm1, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; SSE2-NEXT: pmuludq %xmm0, %xmm1		; SSE2-NEXT: pmuludq %xmm1, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,3,2,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; SSE2-NEXT: pmuludq %xmm3, %xmm4		; SSE2-NEXT: pmuludq %xmm2, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: psrlq $32, %xmm3
; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: psrld %xmm3, %xmm4
; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: psrld %xmm3, %xmm5
; SSE2-NEXT: movsd {{.*#+}} xmm5 = xmm4[0],xmm5[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm5[1,3,2,3]
; SSE2-NEXT: pxor %xmm4, %xmm4
; SSE2-NEXT: movdqa %xmm2, %xmm5
; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
; SSE2-NEXT: movdqa %xmm0, %xmm6
; SSE2-NEXT: psrld %xmm5, %xmm6
; SSE2-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm4[2],xmm2[3],xmm4[3]
; SSE2-NEXT: psrld %xmm2, %xmm0
; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm6[0],xmm0[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SSE2-NEXT: por %xmm1, %xmm0		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
		; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: var_rotate_v4i32:		; SSE41-LABEL: var_rotate_v4i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32]		; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; SSE41-NEXT: psubd %xmm1, %xmm2
; SSE41-NEXT: pslld $23, %xmm1		; SSE41-NEXT: pslld $23, %xmm1
; SSE41-NEXT: paddd {{.*}}(%rip), %xmm1		; SSE41-NEXT: paddd {{.*}}(%rip), %xmm1
; SSE41-NEXT: cvttps2dq %xmm1, %xmm1		; SSE41-NEXT: cvttps2dq %xmm1, %xmm1
; SSE41-NEXT: pmulld %xmm0, %xmm1		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; SSE41-NEXT: movdqa %xmm2, %xmm3		; SSE41-NEXT: pmuludq %xmm2, %xmm3
; SSE41-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; SSE41-NEXT: pmuludq %xmm1, %xmm0
; SSE41-NEXT: movdqa %xmm0, %xmm4		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
; SSE41-NEXT: psrld %xmm3, %xmm4		; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
; SSE41-NEXT: movdqa %xmm2, %xmm3		; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,0,2,2]
; SSE41-NEXT: psrlq $32, %xmm3		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; SSE41-NEXT: movdqa %xmm0, %xmm5
; SSE41-NEXT: psrld %xmm3, %xmm5
; SSE41-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1,2,3],xmm4[4,5,6,7]
; SSE41-NEXT: pxor %xmm3, %xmm3
; SSE41-NEXT: pmovzxdq {{.*#+}} xmm4 = xmm2[0],zero,xmm2[1],zero
; SSE41-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm3[2],xmm2[3],xmm3[3]
; SSE41-NEXT: movdqa %xmm0, %xmm3
; SSE41-NEXT: psrld %xmm2, %xmm3
; SSE41-NEXT: psrld %xmm4, %xmm0
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm3[4,5,6,7]
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm5[2,3],xmm0[4,5],xmm5[6,7]
; SSE41-NEXT: por %xmm1, %xmm0		; SSE41-NEXT: por %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: var_rotate_v4i32:		; AVX1-LABEL: var_rotate_v4i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32]		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; AVX1-NEXT: vpsubd %xmm1, %xmm2, %xmm2
; AVX1-NEXT: vpslld $23, %xmm1, %xmm1		; AVX1-NEXT: vpslld $23, %xmm1, %xmm1
; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm1, %xmm1		; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm1, %xmm1
; AVX1-NEXT: vcvttps2dq %xmm1, %xmm1		; AVX1-NEXT: vcvttps2dq %xmm1, %xmm1
; AVX1-NEXT: vpmulld %xmm0, %xmm1, %xmm1		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpsrld %xmm3, %xmm0, %xmm3		; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm4		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
; AVX1-NEXT: vpsrld %xmm4, %xmm0, %xmm4		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,0,2,2]
; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm4 = xmm2[2],xmm4[2],xmm2[3],xmm4[3]		; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsrld %xmm4, %xmm0, %xmm4
; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero
; AVX1-NEXT: vpsrld %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
; AVX1-NEXT: vpor %xmm0, %xmm1, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_rotate_v4i32:		; AVX2-LABEL: var_rotate_v4i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [32,32,32,32]		; AVX2-NEXT: vpsllvd %xmm1, %xmm0, %xmm2
; AVX2-NEXT: vpsubd %xmm1, %xmm2, %xmm2		; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [32,32,32,32]
; AVX2-NEXT: vpsllvd %xmm1, %xmm0, %xmm1		; AVX2-NEXT: vpsubd %xmm1, %xmm3, %xmm1
; AVX2-NEXT: vpsrlvd %xmm2, %xmm0, %xmm0		; AVX2-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0		; AVX2-NEXT: vpor %xmm0, %xmm2, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512BW-LABEL: var_rotate_v4i32:		; AVX512BW-LABEL: var_rotate_v4i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1		; AVX512BW-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; AVX512BW-NEXT: vprolvd %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vprolvd %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512VL-LABEL: var_rotate_v4i32:		; AVX512VL-LABEL: var_rotate_v4i32:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vprolvd %xmm1, %xmm0, %xmm0		; AVX512VL-NEXT: vprolvd %xmm1, %xmm0, %xmm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; XOP-LABEL: var_rotate_v4i32:		; XOP-LABEL: var_rotate_v4i32:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vprotd %xmm1, %xmm0, %xmm0		; XOP-NEXT: vprotd %xmm1, %xmm0, %xmm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; X32-SSE-LABEL: var_rotate_v4i32:		; X32-SSE-LABEL: var_rotate_v4i32:
; X32-SSE: # %bb.0:		; X32-SSE: # %bb.0:
; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32]
; X32-SSE-NEXT: psubd %xmm1, %xmm2
; X32-SSE-NEXT: pslld $23, %xmm1		; X32-SSE-NEXT: pslld $23, %xmm1
; X32-SSE-NEXT: paddd {{\.LCPI.*}}, %xmm1		; X32-SSE-NEXT: paddd {{\.LCPI.*}}, %xmm1
; X32-SSE-NEXT: cvttps2dq %xmm1, %xmm1		; X32-SSE-NEXT: cvttps2dq %xmm1, %xmm1
; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; X32-SSE-NEXT: pmuludq %xmm0, %xmm1		; X32-SSE-NEXT: pmuludq %xmm1, %xmm0
; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,3,2,3]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; X32-SSE-NEXT: pmuludq %xmm3, %xmm4		; X32-SSE-NEXT: pmuludq %xmm2, %xmm1
; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,2,2,3]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,2,3]
; X32-SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]		; X32-SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
; X32-SSE-NEXT: movdqa %xmm2, %xmm3
; X32-SSE-NEXT: psrlq $32, %xmm3
; X32-SSE-NEXT: movdqa %xmm0, %xmm4
; X32-SSE-NEXT: psrld %xmm3, %xmm4
; X32-SSE-NEXT: movdqa %xmm2, %xmm3
; X32-SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; X32-SSE-NEXT: movdqa %xmm0, %xmm5
; X32-SSE-NEXT: psrld %xmm3, %xmm5
; X32-SSE-NEXT: movsd {{.*#+}} xmm5 = xmm4[0],xmm5[1]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm5[1,3,2,3]
; X32-SSE-NEXT: pxor %xmm4, %xmm4
; X32-SSE-NEXT: movdqa %xmm2, %xmm5
; X32-SSE-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
; X32-SSE-NEXT: movdqa %xmm0, %xmm6
; X32-SSE-NEXT: psrld %xmm5, %xmm6
; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm4[2],xmm2[3],xmm4[3]
; X32-SSE-NEXT: psrld %xmm2, %xmm0
; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm6[0],xmm0[1]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X32-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; X32-SSE-NEXT: por %xmm1, %xmm0		; X32-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
		; X32-SSE-NEXT: por %xmm3, %xmm0
; X32-SSE-NEXT: retl		; X32-SSE-NEXT: retl
%b32 = sub <4 x i32> <i32 32, i32 32, i32 32, i32 32>, %b		%b32 = sub <4 x i32> <i32 32, i32 32, i32 32, i32 32>, %b
%shl = shl <4 x i32> %a, %b		%shl = shl <4 x i32> %a, %b
%lshr = lshr <4 x i32> %a, %b32		%lshr = lshr <4 x i32> %a, %b32
%or = or <4 x i32> %shl, %lshr		%or = or <4 x i32> %shl, %lshr
ret <4 x i32> %or		ret <4 x i32> %or
}		}

▲ Show 20 Lines • Show All 623 Lines • ▼ Show 20 Lines	; X32-SSE-NEXT: retl
%lshr = lshr <2 x i64> %a, %splat64		%lshr = lshr <2 x i64> %a, %splat64
%or = or <2 x i64> %shl, %lshr		%or = or <2 x i64> %shl, %lshr
ret <2 x i64> %or		ret <2 x i64> %or
}		}

define <4 x i32> @splatvar_rotate_v4i32(<4 x i32> %a, <4 x i32> %b) nounwind {		define <4 x i32> @splatvar_rotate_v4i32(<4 x i32> %a, <4 x i32> %b) nounwind {
; SSE2-LABEL: splatvar_rotate_v4i32:		; SSE2-LABEL: splatvar_rotate_v4i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pxor %xmm2, %xmm2
; SSE2-NEXT: xorps %xmm3, %xmm3
; SSE2-NEXT: movss {{.*#+}} xmm3 = xmm1[0],xmm3[1,2,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [32,32,32,32]		; SSE2-NEXT: pslld $23, %xmm1
; SSE2-NEXT: psubd %xmm1, %xmm4		; SSE2-NEXT: paddd {{.*}}(%rip), %xmm1
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: cvttps2dq %xmm1, %xmm1
; SSE2-NEXT: pslld %xmm3, %xmm1		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; SSE2-NEXT: movdqa %xmm4, %xmm3		; SSE2-NEXT: pmuludq %xmm1, %xmm0
; SSE2-NEXT: psrlq $32, %xmm3		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,3,2,3]
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; SSE2-NEXT: psrld %xmm3, %xmm5		; SSE2-NEXT: pmuludq %xmm2, %xmm1
; SSE2-NEXT: movdqa %xmm4, %xmm3		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,2,3]
; SSE2-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
; SSE2-NEXT: movdqa %xmm0, %xmm6
; SSE2-NEXT: psrld %xmm3, %xmm6
; SSE2-NEXT: movsd {{.*#+}} xmm6 = xmm5[0],xmm6[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm6[1,3,2,3]
; SSE2-NEXT: movdqa %xmm4, %xmm5
; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm2[0],xmm5[1],xmm2[1]
; SSE2-NEXT: movdqa %xmm0, %xmm6
; SSE2-NEXT: psrld %xmm5, %xmm6
; SSE2-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm2[2],xmm4[3],xmm2[3]
; SSE2-NEXT: psrld %xmm4, %xmm0
; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm6[0],xmm0[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SSE2-NEXT: por %xmm0, %xmm1		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: movdqa %xmm1, %xmm0		; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: splatvar_rotate_v4i32:		; SSE41-LABEL: splatvar_rotate_v4i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pmovzxdq {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]
; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32]		; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; SSE41-NEXT: psubd %xmm1, %xmm3		; SSE41-NEXT: pslld $23, %xmm1
; SSE41-NEXT: movdqa %xmm0, %xmm1		; SSE41-NEXT: paddd {{.*}}(%rip), %xmm1
; SSE41-NEXT: pslld %xmm2, %xmm1		; SSE41-NEXT: cvttps2dq %xmm1, %xmm1
; SSE41-NEXT: movdqa %xmm3, %xmm2		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; SSE41-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; SSE41-NEXT: pmuludq %xmm2, %xmm3
; SSE41-NEXT: movdqa %xmm0, %xmm4		; SSE41-NEXT: pmuludq %xmm1, %xmm0
; SSE41-NEXT: psrld %xmm2, %xmm4		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
; SSE41-NEXT: movdqa %xmm3, %xmm2		; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
; SSE41-NEXT: psrlq $32, %xmm2		; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,0,2,2]
; SSE41-NEXT: movdqa %xmm0, %xmm5		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; SSE41-NEXT: psrld %xmm2, %xmm5
; SSE41-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1,2,3],xmm4[4,5,6,7]
; SSE41-NEXT: pxor %xmm2, %xmm2
; SSE41-NEXT: pmovzxdq {{.*#+}} xmm4 = xmm3[0],zero,xmm3[1],zero
; SSE41-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm2[2],xmm3[3],xmm2[3]
; SSE41-NEXT: movdqa %xmm0, %xmm2
; SSE41-NEXT: psrld %xmm3, %xmm2
; SSE41-NEXT: psrld %xmm4, %xmm0
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm5[2,3],xmm0[4,5],xmm5[6,7]
; SSE41-NEXT: por %xmm1, %xmm0		; SSE41-NEXT: por %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: splatvar_rotate_v4i32:		; AVX1-LABEL: splatvar_rotate_v4i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32]		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; AVX1-NEXT: vpsubd %xmm1, %xmm3, %xmm1		; AVX1-NEXT: vpslld $23, %xmm1, %xmm1
; AVX1-NEXT: vpslld %xmm2, %xmm0, %xmm2		; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm1, %xmm1
; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm1[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vcvttps2dq %xmm1, %xmm1
; AVX1-NEXT: vpsrld %xmm3, %xmm0, %xmm3		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4		; AVX1-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpsrld %xmm4, %xmm0, %xmm4		; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm4 = xmm1[2],xmm4[2],xmm1[3],xmm4[3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,0,2,2]
; AVX1-NEXT: vpsrld %xmm4, %xmm0, %xmm4		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero		; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsrld %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
; AVX1-NEXT: vpor %xmm0, %xmm2, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: splatvar_rotate_v4i32:		; AVX2-LABEL: splatvar_rotate_v4i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero		; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero
; AVX2-NEXT: vpbroadcastd %xmm1, %xmm1		; AVX2-NEXT: vpbroadcastd %xmm1, %xmm1
		; AVX2-NEXT: vpslld %xmm2, %xmm0, %xmm2
; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [32,32,32,32]		; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [32,32,32,32]
; AVX2-NEXT: vpsubd %xmm1, %xmm3, %xmm1		; AVX2-NEXT: vpsubd %xmm1, %xmm3, %xmm1
; AVX2-NEXT: vpslld %xmm2, %xmm0, %xmm2
; AVX2-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vpor %xmm0, %xmm2, %xmm0		; AVX2-NEXT: vpor %xmm0, %xmm2, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512BW-LABEL: splatvar_rotate_v4i32:		; AVX512BW-LABEL: splatvar_rotate_v4i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; AVX512BW-NEXT: vpbroadcastd %xmm1, %xmm1		; AVX512BW-NEXT: vpbroadcastd %xmm1, %xmm1
Show All 17 Lines
; XOPAVX2-LABEL: splatvar_rotate_v4i32:		; XOPAVX2-LABEL: splatvar_rotate_v4i32:
; XOPAVX2: # %bb.0:		; XOPAVX2: # %bb.0:
; XOPAVX2-NEXT: vpbroadcastd %xmm1, %xmm1		; XOPAVX2-NEXT: vpbroadcastd %xmm1, %xmm1
; XOPAVX2-NEXT: vprotd %xmm1, %xmm0, %xmm0		; XOPAVX2-NEXT: vprotd %xmm1, %xmm0, %xmm0
; XOPAVX2-NEXT: retq		; XOPAVX2-NEXT: retq
;		;
; X32-SSE-LABEL: splatvar_rotate_v4i32:		; X32-SSE-LABEL: splatvar_rotate_v4i32:
; X32-SSE: # %bb.0:		; X32-SSE: # %bb.0:
; X32-SSE-NEXT: pxor %xmm2, %xmm2
; X32-SSE-NEXT: xorps %xmm3, %xmm3
; X32-SSE-NEXT: movss {{.*#+}} xmm3 = xmm1[0],xmm3[1,2,3]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]
; X32-SSE-NEXT: movdqa {{.*#+}} xmm4 = [32,32,32,32]		; X32-SSE-NEXT: pslld $23, %xmm1
; X32-SSE-NEXT: psubd %xmm1, %xmm4		; X32-SSE-NEXT: paddd {{\.LCPI.*}}, %xmm1
; X32-SSE-NEXT: movdqa %xmm0, %xmm1		; X32-SSE-NEXT: cvttps2dq %xmm1, %xmm1
; X32-SSE-NEXT: pslld %xmm3, %xmm1		; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; X32-SSE-NEXT: movdqa %xmm4, %xmm3		; X32-SSE-NEXT: pmuludq %xmm1, %xmm0
; X32-SSE-NEXT: psrlq $32, %xmm3		; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,3,2,3]
; X32-SSE-NEXT: movdqa %xmm0, %xmm5		; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; X32-SSE-NEXT: psrld %xmm3, %xmm5		; X32-SSE-NEXT: pmuludq %xmm2, %xmm1
; X32-SSE-NEXT: movdqa %xmm4, %xmm3		; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,2,3]
; X32-SSE-NEXT: psrldq {{.*#+}} xmm3 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; X32-SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
; X32-SSE-NEXT: movdqa %xmm0, %xmm6
; X32-SSE-NEXT: psrld %xmm3, %xmm6
; X32-SSE-NEXT: movsd {{.*#+}} xmm6 = xmm5[0],xmm6[1]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm6[1,3,2,3]
; X32-SSE-NEXT: movdqa %xmm4, %xmm5
; X32-SSE-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm2[0],xmm5[1],xmm2[1]
; X32-SSE-NEXT: movdqa %xmm0, %xmm6
; X32-SSE-NEXT: psrld %xmm5, %xmm6
; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm2[2],xmm4[3],xmm2[3]
; X32-SSE-NEXT: psrld %xmm4, %xmm0
; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm6[0],xmm0[1]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X32-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; X32-SSE-NEXT: por %xmm0, %xmm1		; X32-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; X32-SSE-NEXT: movdqa %xmm1, %xmm0		; X32-SSE-NEXT: por %xmm3, %xmm0
; X32-SSE-NEXT: retl		; X32-SSE-NEXT: retl
%splat = shufflevector <4 x i32> %b, <4 x i32> undef, <4 x i32> zeroinitializer		%splat = shufflevector <4 x i32> %b, <4 x i32> undef, <4 x i32> zeroinitializer
%splat32 = sub <4 x i32> <i32 32, i32 32, i32 32, i32 32>, %splat		%splat32 = sub <4 x i32> <i32 32, i32 32, i32 32, i32 32>, %splat
%shl = shl <4 x i32> %a, %splat		%shl = shl <4 x i32> %a, %splat
%lshr = lshr <4 x i32> %a, %splat32		%lshr = lshr <4 x i32> %a, %splat32
%or = or <4 x i32> %shl, %lshr		%or = or <4 x i32> %shl, %lshr
ret <4 x i32> %or		ret <4 x i32> %or
}		}
▲ Show 20 Lines • Show All 588 Lines • ▼ Show 20 Lines	; X32-SSE-NEXT: retl
%or = or <2 x i64> %shl, %lshr		%or = or <2 x i64> %shl, %lshr
ret <2 x i64> %or		ret <2 x i64> %or
}		}

define <4 x i32> @constant_rotate_v4i32(<4 x i32> %a) nounwind {		define <4 x i32> @constant_rotate_v4i32(<4 x i32> %a) nounwind {
; SSE2-LABEL: constant_rotate_v4i32:		; SSE2-LABEL: constant_rotate_v4i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [16,32,64,128]		; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [16,32,64,128]
; SSE2-NEXT: movdqa %xmm0, %xmm2		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; SSE2-NEXT: pmuludq %xmm1, %xmm2		; SSE2-NEXT: pmuludq %xmm1, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,3,2,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]		; SSE2-NEXT: pmuludq %xmm2, %xmm1
; SSE2-NEXT: pmuludq %xmm1, %xmm3		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,2,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,2,2,3]		; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrld $27, %xmm1
; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: psrld $25, %xmm3
; SSE2-NEXT: movsd {{.*#+}} xmm3 = xmm1[0],xmm3[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: psrld $28, %xmm3
; SSE2-NEXT: psrld $26, %xmm0
; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: por %xmm2, %xmm0		; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: constant_rotate_v4i32:		; SSE41-LABEL: constant_rotate_v4i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [16,32,64,128]		; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [16,32,64,128]
; SSE41-NEXT: pmulld %xmm0, %xmm1		; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; SSE41-NEXT: movdqa %xmm0, %xmm2		; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; SSE41-NEXT: psrld $25, %xmm2		; SSE41-NEXT: pmuludq %xmm2, %xmm3
; SSE41-NEXT: movdqa %xmm0, %xmm3		; SSE41-NEXT: pmuludq %xmm1, %xmm0
; SSE41-NEXT: psrld $27, %xmm3		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm2[4,5,6,7]		; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
; SSE41-NEXT: movdqa %xmm0, %xmm2		; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,0,2,2]
; SSE41-NEXT: psrld $26, %xmm2		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; SSE41-NEXT: psrld $28, %xmm0
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
; SSE41-NEXT: por %xmm1, %xmm0		; SSE41-NEXT: por %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: constant_rotate_v4i32:		; AVX1-LABEL: constant_rotate_v4i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm1		; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [16,32,64,128]
; AVX1-NEXT: vpsrld $25, %xmm0, %xmm2		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; AVX1-NEXT: vpsrld $27, %xmm0, %xmm3		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]		; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpsrld $26, %xmm0, %xmm3		; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions It might be better to take the cost of 2 loads to remove the 2xPSHUFD and fold directly into the PMULUDQs? There is a small increase in codesize. RKSimon: It might be better to take the cost of 2 loads to remove the 2xPSHUFD and fold directly into…
		xbolva00Unsubmitted Not Done Reply Inline Actions +1 for PMULUDQ xbolva00: +1 for PMULUDQ
; AVX1-NEXT: vpsrld $28, %xmm0, %xmm0		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm3[4,5,6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,0,2,2]
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; AVX1-NEXT: vpor %xmm0, %xmm1, %xmm0		; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: constant_rotate_v4i32:		; AVX2-LABEL: constant_rotate_v4i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpsllvd {{.*}}(%rip), %xmm0, %xmm1		; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm0, %xmm1
; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm0, %xmm0		; AVX2-NEXT: vpsllvd {{.*}}(%rip), %xmm0, %xmm0
; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0		; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512BW-LABEL: constant_rotate_v4i32:		; AVX512BW-LABEL: constant_rotate_v4i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm1 = [4,5,6,7]		; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm1 = [4,5,6,7]
; AVX512BW-NEXT: vprolvd %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vprolvd %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512VL-LABEL: constant_rotate_v4i32:		; AVX512VL-LABEL: constant_rotate_v4i32:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vprolvd {{.*}}(%rip), %xmm0, %xmm0		; AVX512VL-NEXT: vprolvd {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; XOP-LABEL: constant_rotate_v4i32:		; XOP-LABEL: constant_rotate_v4i32:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vprotd {{.*}}(%rip), %xmm0, %xmm0		; XOP-NEXT: vprotd {{.*}}(%rip), %xmm0, %xmm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; X32-SSE-LABEL: constant_rotate_v4i32:		; X32-SSE-LABEL: constant_rotate_v4i32:
; X32-SSE: # %bb.0:		; X32-SSE: # %bb.0:
; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [16,32,64,128]		; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [16,32,64,128]
; X32-SSE-NEXT: movdqa %xmm0, %xmm2		; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; X32-SSE-NEXT: pmuludq %xmm1, %xmm2		; X32-SSE-NEXT: pmuludq %xmm1, %xmm0
; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,3,2,3]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]		; X32-SSE-NEXT: pmuludq %xmm2, %xmm1
; X32-SSE-NEXT: pmuludq %xmm1, %xmm3		; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,3,2,3]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,2,2,3]		; X32-SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
; X32-SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; X32-SSE-NEXT: movdqa %xmm0, %xmm1
; X32-SSE-NEXT: psrld $27, %xmm1
; X32-SSE-NEXT: movdqa %xmm0, %xmm3
; X32-SSE-NEXT: psrld $25, %xmm3
; X32-SSE-NEXT: movsd {{.*#+}} xmm3 = xmm1[0],xmm3[1]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
; X32-SSE-NEXT: movdqa %xmm0, %xmm3
; X32-SSE-NEXT: psrld $28, %xmm3
; X32-SSE-NEXT: psrld $26, %xmm0
; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]
; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; X32-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; X32-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; X32-SSE-NEXT: por %xmm2, %xmm0		; X32-SSE-NEXT: por %xmm3, %xmm0
; X32-SSE-NEXT: retl		; X32-SSE-NEXT: retl
%shl = shl <4 x i32> %a, <i32 4, i32 5, i32 6, i32 7>		%shl = shl <4 x i32> %a, <i32 4, i32 5, i32 6, i32 7>
%lshr = lshr <4 x i32> %a, <i32 28, i32 27, i32 26, i32 25>		%lshr = lshr <4 x i32> %a, <i32 28, i32 27, i32 26, i32 25>
%or = or <4 x i32> %shl, %lshr		%or = or <4 x i32> %shl, %lshr
ret <4 x i32> %or		ret <4 x i32> %or
}		}

define <8 x i16> @constant_rotate_v8i16(<8 x i16> %a) nounwind {		define <8 x i16> @constant_rotate_v8i16(<8 x i16> %a) nounwind {
▲ Show 20 Lines • Show All 399 Lines • ▼ Show 20 Lines	; X32-SSE-NEXT: retl
%or = or <2 x i64> %shl, %lshr		%or = or <2 x i64> %shl, %lshr
ret <2 x i64> %or		ret <2 x i64> %or
}		}

define <4 x i32> @splatconstant_rotate_v4i32(<4 x i32> %a) nounwind {		define <4 x i32> @splatconstant_rotate_v4i32(<4 x i32> %a) nounwind {
; SSE-LABEL: splatconstant_rotate_v4i32:		; SSE-LABEL: splatconstant_rotate_v4i32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movdqa %xmm0, %xmm1		; SSE-NEXT: movdqa %xmm0, %xmm1
; SSE-NEXT: pslld $4, %xmm1		; SSE-NEXT: psrld $28, %xmm1
; SSE-NEXT: psrld $28, %xmm0		; SSE-NEXT: pslld $4, %xmm0
; SSE-NEXT: por %xmm1, %xmm0		; SSE-NEXT: por %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: splatconstant_rotate_v4i32:		; AVX-LABEL: splatconstant_rotate_v4i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpslld $4, %xmm0, %xmm1		; AVX-NEXT: vpsrld $28, %xmm0, %xmm1
; AVX-NEXT: vpsrld $28, %xmm0, %xmm0		; AVX-NEXT: vpslld $4, %xmm0, %xmm0
; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0		; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512BW-LABEL: splatconstant_rotate_v4i32:		; AVX512BW-LABEL: splatconstant_rotate_v4i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; AVX512BW-NEXT: vprold $4, %zmm0, %zmm0		; AVX512BW-NEXT: vprold $4, %zmm0, %zmm0
; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512VL-LABEL: splatconstant_rotate_v4i32:		; AVX512VL-LABEL: splatconstant_rotate_v4i32:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vprold $4, %xmm0, %xmm0		; AVX512VL-NEXT: vprold $4, %xmm0, %xmm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; XOP-LABEL: splatconstant_rotate_v4i32:		; XOP-LABEL: splatconstant_rotate_v4i32:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vprotd $4, %xmm0, %xmm0		; XOP-NEXT: vprotd $4, %xmm0, %xmm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; X32-SSE-LABEL: splatconstant_rotate_v4i32:		; X32-SSE-LABEL: splatconstant_rotate_v4i32:
; X32-SSE: # %bb.0:		; X32-SSE: # %bb.0:
; X32-SSE-NEXT: movdqa %xmm0, %xmm1		; X32-SSE-NEXT: movdqa %xmm0, %xmm1
; X32-SSE-NEXT: pslld $4, %xmm1		; X32-SSE-NEXT: psrld $28, %xmm1
; X32-SSE-NEXT: psrld $28, %xmm0		; X32-SSE-NEXT: pslld $4, %xmm0
; X32-SSE-NEXT: por %xmm1, %xmm0		; X32-SSE-NEXT: por %xmm1, %xmm0
; X32-SSE-NEXT: retl		; X32-SSE-NEXT: retl
%shl = shl <4 x i32> %a, <i32 4, i32 4, i32 4, i32 4>		%shl = shl <4 x i32> %a, <i32 4, i32 4, i32 4, i32 4>
%lshr = lshr <4 x i32> %a, <i32 28, i32 28, i32 28, i32 28>		%lshr = lshr <4 x i32> %a, <i32 28, i32 28, i32 28, i32 28>
%or = or <4 x i32> %shl, %lshr		%or = or <4 x i32> %shl, %lshr
ret <4 x i32> %or		ret <4 x i32> %or
}		}

▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines	; X32-SSE-NEXT: retl
%or = or <2 x i64> %lmask, %rmask		%or = or <2 x i64> %lmask, %rmask
ret <2 x i64> %or		ret <2 x i64> %or
}		}

define <4 x i32> @splatconstant_rotate_mask_v4i32(<4 x i32> %a) nounwind {		define <4 x i32> @splatconstant_rotate_mask_v4i32(<4 x i32> %a) nounwind {
; SSE-LABEL: splatconstant_rotate_mask_v4i32:		; SSE-LABEL: splatconstant_rotate_mask_v4i32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movdqa %xmm0, %xmm1		; SSE-NEXT: movdqa %xmm0, %xmm1
; SSE-NEXT: pslld $4, %xmm1		; SSE-NEXT: psrld $28, %xmm1
; SSE-NEXT: psrld $28, %xmm0		; SSE-NEXT: pslld $4, %xmm0
; SSE-NEXT: pand {{.*}}(%rip), %xmm1		; SSE-NEXT: por %xmm1, %xmm0
; SSE-NEXT: por %xmm0, %xmm1		; SSE-NEXT: pand {{.*}}(%rip), %xmm0
; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: splatconstant_rotate_mask_v4i32:		; AVX-LABEL: splatconstant_rotate_mask_v4i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpslld $4, %xmm0, %xmm1		; AVX-NEXT: vpsrld $28, %xmm0, %xmm1
; AVX-NEXT: vpsrld $28, %xmm0, %xmm0		; AVX-NEXT: vpslld $4, %xmm0, %xmm0
; AVX-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1		; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0
; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0		; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512BW-LABEL: splatconstant_rotate_mask_v4i32:		; AVX512BW-LABEL: splatconstant_rotate_mask_v4i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; AVX512BW-NEXT: vprold $4, %zmm0, %zmm0		; AVX512BW-NEXT: vprold $4, %zmm0, %zmm0
; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
Show All 9 Lines
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vprotd $4, %xmm0, %xmm0		; XOP-NEXT: vprotd $4, %xmm0, %xmm0
; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; X32-SSE-LABEL: splatconstant_rotate_mask_v4i32:		; X32-SSE-LABEL: splatconstant_rotate_mask_v4i32:
; X32-SSE: # %bb.0:		; X32-SSE: # %bb.0:
; X32-SSE-NEXT: movdqa %xmm0, %xmm1		; X32-SSE-NEXT: movdqa %xmm0, %xmm1
; X32-SSE-NEXT: pslld $4, %xmm1		; X32-SSE-NEXT: psrld $28, %xmm1
; X32-SSE-NEXT: psrld $28, %xmm0		; X32-SSE-NEXT: pslld $4, %xmm0
; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm1		; X32-SSE-NEXT: por %xmm1, %xmm0
; X32-SSE-NEXT: por %xmm0, %xmm1		; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: movdqa %xmm1, %xmm0
; X32-SSE-NEXT: retl		; X32-SSE-NEXT: retl
%shl = shl <4 x i32> %a, <i32 4, i32 4, i32 4, i32 4>		%shl = shl <4 x i32> %a, <i32 4, i32 4, i32 4, i32 4>
%lshr = lshr <4 x i32> %a, <i32 28, i32 28, i32 28, i32 28>		%lshr = lshr <4 x i32> %a, <i32 28, i32 28, i32 28, i32 28>
%rmask = and <4 x i32> %lshr, <i32 127, i32 255, i32 511, i32 1023>		%rmask = and <4 x i32> %lshr, <i32 127, i32 255, i32 511, i32 1023>
%lmask = and <4 x i32> %shl, <i32 1023, i32 511, i32 255, i32 127>		%lmask = and <4 x i32> %shl, <i32 1023, i32 511, i32 255, i32 127>
%or = or <4 x i32> %lmask, %rmask		%or = or <4 x i32> %lmask, %rmask
ret <4 x i32> %or		ret <4 x i32> %or
}		}
▲ Show 20 Lines • Show All 116 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-rotate-256.ll

Show First 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	; XOPAVX2-NEXT: retq
%lshr = lshr <4 x i64> %a, %b64		%lshr = lshr <4 x i64> %a, %b64
%or = or <4 x i64> %shl, %lshr		%or = or <4 x i64> %shl, %lshr
ret <4 x i64> %or		ret <4 x i64> %or
}		}

define <8 x i32> @var_rotate_v8i32(<8 x i32> %a, <8 x i32> %b) nounwind {		define <8 x i32> @var_rotate_v8i32(<8 x i32> %a, <8 x i32> %b) nounwind {
; AVX1-LABEL: var_rotate_v8i32:		; AVX1-LABEL: var_rotate_v8i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32]		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vpsubd %xmm1, %xmm3, %xmm2		; AVX1-NEXT: vpslld $23, %xmm2, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1065353216,1065353216,1065353216,1065353216]
; AVX1-NEXT: vpsubd %xmm4, %xmm3, %xmm3		; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpslld $23, %xmm4, %xmm4		; AVX1-NEXT: vcvttps2dq %xmm2, %xmm2
; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [1065353216,1065353216,1065353216,1065353216]		; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm2[1,1,3,3]
; AVX1-NEXT: vpaddd %xmm5, %xmm4, %xmm4		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
; AVX1-NEXT: vcvttps2dq %xmm4, %xmm4		; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm5[1,1,3,3]
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm6		; AVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
; AVX1-NEXT: vpmulld %xmm6, %xmm4, %xmm4		; AVX1-NEXT: vpmuludq %xmm2, %xmm5, %xmm2
		; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm2[1,1,3,3]
		; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm5[0,1],xmm4[2,3],xmm5[4,5],xmm4[6,7]
		; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm4[0,0,2,2]
		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]
		; AVX1-NEXT: vpor %xmm5, %xmm2, %xmm2
; AVX1-NEXT: vpslld $23, %xmm1, %xmm1		; AVX1-NEXT: vpslld $23, %xmm1, %xmm1
; AVX1-NEXT: vpaddd %xmm5, %xmm1, %xmm1		; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vcvttps2dq %xmm1, %xmm1		; AVX1-NEXT: vcvttps2dq %xmm1, %xmm1
; AVX1-NEXT: vpmulld %xmm0, %xmm1, %xmm1		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1		; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
; AVX1-NEXT: vpsrldq {{.*#+}} xmm4 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vpmuludq %xmm3, %xmm4, %xmm3
; AVX1-NEXT: vpsrld %xmm4, %xmm6, %xmm4		; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm5		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
; AVX1-NEXT: vpsrld %xmm5, %xmm6, %xmm5		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[0,0,2,2]
; AVX1-NEXT: vpxor %xmm5, %xmm5, %xmm5		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm7 = xmm3[2],xmm5[2],xmm3[3],xmm5[3]		; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsrld %xmm7, %xmm6, %xmm7		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero
; AVX1-NEXT: vpsrld %xmm3, %xmm6, %xmm3
; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm7[4,5,6,7]
; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]
; AVX1-NEXT: vpsrldq {{.*#+}} xmm4 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX1-NEXT: vpsrld %xmm4, %xmm0, %xmm4
; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm6
; AVX1-NEXT: vpsrld %xmm6, %xmm0, %xmm6
; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm6[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm5 = xmm2[2],xmm5[2],xmm2[3],xmm5[3]
; AVX1-NEXT: vpsrld %xmm5, %xmm0, %xmm5
; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero
; AVX1-NEXT: vpsrld %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm5[4,5,6,7]
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm4[2,3],xmm0[4,5],xmm4[6,7]
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
; AVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_rotate_v8i32:		; AVX2-LABEL: var_rotate_v8i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [32,32,32,32,32,32,32,32]		; AVX2-NEXT: vpsllvd %ymm1, %ymm0, %ymm2
; AVX2-NEXT: vpsubd %ymm1, %ymm2, %ymm2		; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32]
; AVX2-NEXT: vpsllvd %ymm1, %ymm0, %ymm1		; AVX2-NEXT: vpsubd %ymm1, %ymm3, %ymm1
; AVX2-NEXT: vpsrlvd %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpsrlvd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0		; AVX2-NEXT: vpor %ymm0, %ymm2, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512BW-LABEL: var_rotate_v8i32:		; AVX512BW-LABEL: var_rotate_v8i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: # kill: def $ymm1 killed $ymm1 def $zmm1		; AVX512BW-NEXT: # kill: def $ymm1 killed $ymm1 def $zmm1
; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0		; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
; AVX512BW-NEXT: vprolvd %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vprolvd %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0		; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
▲ Show 20 Lines • Show All 370 Lines • ▼ Show 20 Lines	; XOPAVX2-NEXT: retq
%lshr = lshr <4 x i64> %a, %splat64		%lshr = lshr <4 x i64> %a, %splat64
%or = or <4 x i64> %shl, %lshr		%or = or <4 x i64> %shl, %lshr
ret <4 x i64> %or		ret <4 x i64> %or
}		}

define <8 x i32> @splatvar_rotate_v8i32(<8 x i32> %a, <8 x i32> %b) nounwind {		define <8 x i32> @splatvar_rotate_v8i32(<8 x i32> %a, <8 x i32> %b) nounwind {
; AVX1-LABEL: splatvar_rotate_v8i32:		; AVX1-LABEL: splatvar_rotate_v8i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[0,0,0,0]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32]		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpsubd %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3		; AVX1-NEXT: vpslld $23, %xmm1, %xmm1
; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero		; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm1, %xmm1
; AVX1-NEXT: vpslld %xmm1, %xmm3, %xmm4		; AVX1-NEXT: vcvttps2dq %xmm1, %xmm1
; AVX1-NEXT: vpslld %xmm1, %xmm0, %xmm1		; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]
; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm8		; AVX1-NEXT: vpmuludq %xmm4, %xmm3, %xmm3
; AVX1-NEXT: vpsrldq {{.*#+}} xmm4 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
; AVX1-NEXT: vpsrld %xmm4, %xmm3, %xmm5		; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm2[1,1,3,3]
; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm6		; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm5[0,1],xmm3[2,3],xmm5[4,5],xmm3[6,7]
; AVX1-NEXT: vpsrld %xmm6, %xmm3, %xmm7		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[0,0,2,2]
; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm7[0,1,2,3],xmm5[4,5,6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
; AVX1-NEXT: vpxor %xmm7, %xmm7, %xmm7		; AVX1-NEXT: vpor %xmm5, %xmm2, %xmm2
; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm7 = xmm2[2],xmm7[2],xmm2[3],xmm7[3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
; AVX1-NEXT: vpsrld %xmm7, %xmm3, %xmm1		; AVX1-NEXT: vpmuludq %xmm4, %xmm3, %xmm3
; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero		; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsrld %xmm2, %xmm3, %xmm3		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm3[0,1,2,3],xmm1[4,5,6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm5[2,3],xmm1[4,5],xmm5[6,7]		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[0,0,2,2]
; AVX1-NEXT: vpsrld %xmm4, %xmm0, %xmm3
; AVX1-NEXT: vpsrld %xmm6, %xmm0, %xmm4
; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
; AVX1-NEXT: vpsrld %xmm7, %xmm0, %xmm4
; AVX1-NEXT: vpsrld %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vorps %ymm0, %ymm8, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: splatvar_rotate_v8i32:		; AVX2-LABEL: splatvar_rotate_v8i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpbroadcastd %xmm1, %ymm2		; AVX2-NEXT: vpbroadcastd %xmm1, %ymm2
; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32]
; AVX2-NEXT: vpsubd %ymm2, %ymm3, %ymm2
; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero		; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
; AVX2-NEXT: vpslld %xmm1, %ymm0, %ymm1		; AVX2-NEXT: vpslld %xmm1, %ymm0, %ymm1
		; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32]
		; AVX2-NEXT: vpsubd %ymm2, %ymm3, %ymm2
; AVX2-NEXT: vpsrlvd %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpsrlvd %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0		; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512BW-LABEL: splatvar_rotate_v8i32:		; AVX512BW-LABEL: splatvar_rotate_v8i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0		; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
; AVX512BW-NEXT: vpbroadcastd %xmm1, %ymm1		; AVX512BW-NEXT: vpbroadcastd %xmm1, %ymm1
▲ Show 20 Lines • Show All 336 Lines • ▼ Show 20 Lines	; XOPAVX2-NEXT: retq
%lshr = lshr <4 x i64> %a, <i64 60, i64 50, i64 14, i64 4>		%lshr = lshr <4 x i64> %a, <i64 60, i64 50, i64 14, i64 4>
%or = or <4 x i64> %shl, %lshr		%or = or <4 x i64> %shl, %lshr
ret <4 x i64> %or		ret <4 x i64> %or
}		}

define <8 x i32> @constant_rotate_v8i32(<8 x i32> %a) nounwind {		define <8 x i32> @constant_rotate_v8i32(<8 x i32> %a) nounwind {
; AVX1-LABEL: constant_rotate_v8i32:		; AVX1-LABEL: constant_rotate_v8i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm1		; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [256,512,1024,2048]
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm2, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1		; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
; AVX1-NEXT: vpsrld $21, %xmm2, %xmm3		; AVX1-NEXT: vpmuludq %xmm2, %xmm4, %xmm2
; AVX1-NEXT: vpsrld $23, %xmm2, %xmm4		; AVX1-NEXT: vpmuludq %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; AVX1-NEXT: vpsrld $22, %xmm2, %xmm4		; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]
; AVX1-NEXT: vpsrld $24, %xmm2, %xmm2		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,0,2,2]
; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm4[4,5,6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
		; AVX1-NEXT: vpor %xmm3, %xmm1, %xmm1
		; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [16,32,64,128]
		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
		; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
		; AVX1-NEXT: vpmuludq %xmm3, %xmm4, %xmm3
		; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0
		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
; AVX1-NEXT: vpsrld $25, %xmm0, %xmm3		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[0,0,2,2]
; AVX1-NEXT: vpsrld $27, %xmm0, %xmm4
; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
; AVX1-NEXT: vpsrld $26, %xmm0, %xmm4
; AVX1-NEXT: vpsrld $28, %xmm0, %xmm0
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vorps %ymm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: constant_rotate_v8i32:		; AVX2-LABEL: constant_rotate_v8i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpsllvd {{.*}}(%rip), %ymm0, %ymm1		; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %ymm0, %ymm1
; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %ymm0, %ymm0		; AVX2-NEXT: vpsllvd {{.*}}(%rip), %ymm0, %ymm0
; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0		; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512BW-LABEL: constant_rotate_v8i32:		; AVX512BW-LABEL: constant_rotate_v8i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0		; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm1 = [4,5,6,7,8,9,10,11]		; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm1 = [4,5,6,7,8,9,10,11]
; AVX512BW-NEXT: vprolvd %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vprolvd %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0		; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
▲ Show 20 Lines • Show All 277 Lines • ▼ Show 20 Lines	; XOPAVX2-NEXT: retq
%lshr = lshr <4 x i64> %a, <i64 50, i64 50, i64 50, i64 50>		%lshr = lshr <4 x i64> %a, <i64 50, i64 50, i64 50, i64 50>
%or = or <4 x i64> %shl, %lshr		%or = or <4 x i64> %shl, %lshr
ret <4 x i64> %or		ret <4 x i64> %or
}		}

define <8 x i32> @splatconstant_rotate_v8i32(<8 x i32> %a) nounwind {		define <8 x i32> @splatconstant_rotate_v8i32(<8 x i32> %a) nounwind {
; AVX1-LABEL: splatconstant_rotate_v8i32:		; AVX1-LABEL: splatconstant_rotate_v8i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpslld $4, %xmm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vpsrld $28, %xmm1, %xmm2
; AVX1-NEXT: vpslld $4, %xmm2, %xmm3		; AVX1-NEXT: vpslld $4, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1		; AVX1-NEXT: vpor %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpsrld $28, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $28, %xmm0, %xmm2
; AVX1-NEXT: vpsrld $28, %xmm2, %xmm2		; AVX1-NEXT: vpslld $4, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vorps %ymm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: splatconstant_rotate_v8i32:		; AVX2-LABEL: splatconstant_rotate_v8i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpslld $4, %ymm0, %ymm1		; AVX2-NEXT: vpsrld $28, %ymm0, %ymm1
; AVX2-NEXT: vpsrld $28, %ymm0, %ymm0		; AVX2-NEXT: vpslld $4, %ymm0, %ymm0
; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0		; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512BW-LABEL: splatconstant_rotate_v8i32:		; AVX512BW-LABEL: splatconstant_rotate_v8i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0		; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
; AVX512BW-NEXT: vprold $4, %zmm0, %zmm0		; AVX512BW-NEXT: vprold $4, %zmm0, %zmm0
; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0		; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
▲ Show 20 Lines • Show All 186 Lines • ▼ Show 20 Lines	; XOPAVX2-NEXT: retq
%lmask = and <4 x i64> %shl, <i64 33, i64 65, i64 129, i64 257>		%lmask = and <4 x i64> %shl, <i64 33, i64 65, i64 129, i64 257>
%or = or <4 x i64> %lmask, %rmask		%or = or <4 x i64> %lmask, %rmask
ret <4 x i64> %or		ret <4 x i64> %or
}		}

define <8 x i32> @splatconstant_rotate_mask_v8i32(<8 x i32> %a) nounwind {		define <8 x i32> @splatconstant_rotate_mask_v8i32(<8 x i32> %a) nounwind {
; AVX1-LABEL: splatconstant_rotate_mask_v8i32:		; AVX1-LABEL: splatconstant_rotate_mask_v8i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpslld $4, %xmm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vpsrld $28, %xmm1, %xmm2
; AVX1-NEXT: vpslld $4, %xmm2, %xmm3		; AVX1-NEXT: vpslld $4, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1		; AVX1-NEXT: vpor %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpsrld $28, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $28, %xmm0, %xmm2
; AVX1-NEXT: vpsrld $28, %xmm2, %xmm2		; AVX1-NEXT: vpslld $4, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0		; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
; AVX1-NEXT: vandps {{.*}}(%rip), %ymm1, %ymm1
; AVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: splatconstant_rotate_mask_v8i32:		; AVX2-LABEL: splatconstant_rotate_mask_v8i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpslld $4, %ymm0, %ymm1		; AVX2-NEXT: vpsrld $28, %ymm0, %ymm1
; AVX2-NEXT: vpsrld $28, %ymm0, %ymm0		; AVX2-NEXT: vpslld $4, %ymm0, %ymm0
		; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0		; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
; AVX2-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512BW-LABEL: splatconstant_rotate_mask_v8i32:		; AVX512BW-LABEL: splatconstant_rotate_mask_v8i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0		; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
; AVX512BW-NEXT: vprold $4, %zmm0, %zmm0		; AVX512BW-NEXT: vprold $4, %zmm0, %zmm0
; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0		; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
▲ Show 20 Lines • Show All 157 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-shl-128.ll

	Show First 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	}			}

	define <4 x i32> @var_shift_v4i32(<4 x i32> %a, <4 x i32> %b) nounwind {			define <4 x i32> @var_shift_v4i32(<4 x i32> %a, <4 x i32> %b) nounwind {
	; SSE2-LABEL: var_shift_v4i32:			; SSE2-LABEL: var_shift_v4i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: pslld $23, %xmm1			; SSE2-NEXT: pslld $23, %xmm1
	; SSE2-NEXT: paddd {{.*}}(%rip), %xmm1			; SSE2-NEXT: paddd {{.*}}(%rip), %xmm1
	; SSE2-NEXT: cvttps2dq %xmm1, %xmm1			; SSE2-NEXT: cvttps2dq %xmm1, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm0, %xmm1			; SSE2-NEXT: pmuludq %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm2, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: pmuludq %xmm2, %xmm1
				; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
				; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: var_shift_v4i32:			; SSE41-LABEL: var_shift_v4i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pslld $23, %xmm1			; SSE41-NEXT: pslld $23, %xmm1
	; SSE41-NEXT: paddd {{.*}}(%rip), %xmm1			; SSE41-NEXT: paddd {{.*}}(%rip), %xmm1
	; SSE41-NEXT: cvttps2dq %xmm1, %xmm1			; SSE41-NEXT: cvttps2dq %xmm1, %xmm1
	; SSE41-NEXT: pmulld %xmm1, %xmm0			; SSE41-NEXT: pmulld %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: var_shift_v4i32:			; AVX1-LABEL: var_shift_v4i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpslld $23, %xmm1, %xmm1			; AVX1-NEXT: vpslld $23, %xmm1, %xmm1
	; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vcvttps2dq %xmm1, %xmm1			; AVX1-NEXT: vcvttps2dq %xmm1, %xmm1
	; AVX1-NEXT: vpmulld %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: var_shift_v4i32:			; AVX2-LABEL: var_shift_v4i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllvd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsllvd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: var_shift_v4i32:			; XOPAVX1-LABEL: var_shift_v4i32:
	Show All 16 Lines
	; AVX512VL-NEXT: vpsllvd %xmm1, %xmm0, %xmm0			; AVX512VL-NEXT: vpsllvd %xmm1, %xmm0, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-SSE-LABEL: var_shift_v4i32:			; X32-SSE-LABEL: var_shift_v4i32:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: pslld $23, %xmm1			; X32-SSE-NEXT: pslld $23, %xmm1
	; X32-SSE-NEXT: paddd {{\.LCPI.*}}, %xmm1			; X32-SSE-NEXT: paddd {{\.LCPI.*}}, %xmm1
	; X32-SSE-NEXT: cvttps2dq %xmm1, %xmm1			; X32-SSE-NEXT: cvttps2dq %xmm1, %xmm1
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; X32-SSE-NEXT: pmuludq %xmm0, %xmm1			; X32-SSE-NEXT: pmuludq %xmm1, %xmm0
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; X32-SSE-NEXT: pmuludq %xmm2, %xmm0
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; X32-SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; X32-SSE-NEXT: movdqa %xmm1, %xmm0			; X32-SSE-NEXT: pmuludq %xmm2, %xmm1
				; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
				; X32-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%shift = shl <4 x i32> %a, %b			%shift = shl <4 x i32> %a, %b
	ret <4 x i32> %shift			ret <4 x i32> %shift
	}			}

	define <8 x i16> @var_shift_v8i16(<8 x i16> %a, <8 x i16> %b) nounwind {			define <8 x i16> @var_shift_v8i16(<8 x i16> %a, <8 x i16> %b) nounwind {
	; SSE2-LABEL: var_shift_v8i16:			; SSE2-LABEL: var_shift_v8i16:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	▲ Show 20 Lines • Show All 1,090 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-shl-256.ll

	Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; AVX1-LABEL: var_shift_v8i32:			; AVX1-LABEL: var_shift_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vpslld $23, %xmm2, %xmm2			; AVX1-NEXT: vpslld $23, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1065353216,1065353216,1065353216,1065353216]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1065353216,1065353216,1065353216,1065353216]
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vcvttps2dq %xmm2, %xmm2			; AVX1-NEXT: vcvttps2dq %xmm2, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
	; AVX1-NEXT: vpmulld %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpslld $23, %xmm1, %xmm1			; AVX1-NEXT: vpslld $23, %xmm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vcvttps2dq %xmm1, %xmm1			; AVX1-NEXT: vcvttps2dq %xmm1, %xmm1
	; AVX1-NEXT: vpmulld %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: var_shift_v8i32:			; AVX2-LABEL: var_shift_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllvd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsllvd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	Show All 24 Lines
	; X32-AVX1-LABEL: var_shift_v8i32:			; X32-AVX1-LABEL: var_shift_v8i32:
	; X32-AVX1: # %bb.0:			; X32-AVX1: # %bb.0:
	; X32-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; X32-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; X32-AVX1-NEXT: vpslld $23, %xmm2, %xmm2			; X32-AVX1-NEXT: vpslld $23, %xmm2, %xmm2
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1065353216,1065353216,1065353216,1065353216]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1065353216,1065353216,1065353216,1065353216]
	; X32-AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; X32-AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; X32-AVX1-NEXT: vcvttps2dq %xmm2, %xmm2			; X32-AVX1-NEXT: vcvttps2dq %xmm2, %xmm2
	; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
	; X32-AVX1-NEXT: vpmulld %xmm4, %xmm2, %xmm2			; X32-AVX1-NEXT: vpmulld %xmm2, %xmm4, %xmm2
	; X32-AVX1-NEXT: vpslld $23, %xmm1, %xmm1			; X32-AVX1-NEXT: vpslld $23, %xmm1, %xmm1
	; X32-AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1			; X32-AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1
	; X32-AVX1-NEXT: vcvttps2dq %xmm1, %xmm1			; X32-AVX1-NEXT: vcvttps2dq %xmm1, %xmm1
	; X32-AVX1-NEXT: vpmulld %xmm0, %xmm1, %xmm0			; X32-AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; X32-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; X32-AVX1-NEXT: retl			; X32-AVX1-NEXT: retl
	;			;
	; X32-AVX2-LABEL: var_shift_v8i32:			; X32-AVX2-LABEL: var_shift_v8i32:
	; X32-AVX2: # %bb.0:			; X32-AVX2: # %bb.0:
	; X32-AVX2-NEXT: vpsllvd %ymm1, %ymm0, %ymm0			; X32-AVX2-NEXT: vpsllvd %ymm1, %ymm0, %ymm0
	; X32-AVX2-NEXT: retl			; X32-AVX2-NEXT: retl
	%shift = shl <8 x i32> %a, %b			%shift = shl <8 x i32> %a, %b
	▲ Show 20 Lines • Show All 1,224 Lines • Show Last 20 Lines