This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Vectorized v4i32 non-uniform shifts.
ClosedPublic

Authored by RKSimon on Jul 9 2015, 8:09 AM.

Download Raw Diff

Details

Reviewers

spatel
qcolombet
delena
andreadb

Commits

rG64cc4ad0a273: [X86][SSE] Vectorized v4i32 non-uniform shifts.
rL241989: [X86][SSE] Vectorized v4i32 non-uniform shifts.

Summary

While the v4i32 shl operation is already vectorized using a cvttps2dq/pmulld pattern, the lshr/ashr opeations are still scalarized.

This patch adds vectorization support for non-uniform v4i32 shift operations - it splats constant shift amounts to allow them to use the immediate sse shift instructions, or extracts/zero-extends non-constant shift amounts. The individual results are then blended together.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon updated this revision to Diff 29334.Jul 9 2015, 8:09 AM

RKSimon retitled this revision from to [X86][SSE] Vectorized v4i32 non-uniform shifts..

RKSimon updated this object.

RKSimon added reviewers: qcolombet, delena, spatel, andreadb.

RKSimon set the repository for this revision to rL LLVM.

RKSimon added a subscriber: llvm-commits.

Hi Simon,

LGTM with a few nitpicks to help coming back to the code.

Please commit directly your updated version.

Cheers,
-Quentin

lib/Target/X86/X86ISelLowering.cpp
17383	Period.
17384	The wording is strange.
17392	We could use UNDEF for the second operand, that should avoid the generic code to have to canonicalize it.
17395	Wouldn’t it make sense to leave more freedom to the next optimizer with more undef indexes: 0, -1, -1, -1 -1, 1, -1, -1 etc. It looks to me that we have a too good idea of what the lowering should look like and we over-specify the data.
17398	Maybe add a note saying that SHL v4i32 is handled earlier in this function.
17399	Is this case reachable? I thought we were handling SHL v4i32 earlier in this function (line 17300). Though I guess it does not hurt to have it here.
17407	I guess you use 0, 4, then 1, 5, etc. instead of 0, 4, then 1, 4 etc. because masks are legal for shuffles. If that is the case, then add a comment, if not, then maybe just use 4 for all the zero vector. Also a comment saying that X86 shifts: Use only the 64 first bit of the register for the value of the amount. Shift all the lanes by the first amount (i.e., the first 64-bit like previously said), unlike LLVM shifts where each lane is shift by the related index. would help reading the code. Part of the information is at the being of the block, but I think it is a cryptic unless you know the actual instructions. Right now, unless you have the intel documentation in front of you, this is not that easy to read.

This revision is now accepted and ready to land.Jul 9 2015, 4:15 PM

Thanks Quentin, I'll commit the patch with updates later today. Comments below.

lib/Target/X86/X86ISelLowering.cpp
17395	If we do this then the shuffle gets removed (so we don't remember that the other lanes are undef) meaning that we don't recognise it as a splat.
17399	The reason that SHL is there is that I've found that this looks like its faster for non-constants than the cvttps2dq/pmuludq approach on older (pre-SSE41) targets. I'm still testing this though (I don't have that wide a range of older hardware these days). so haven't made it the default yet. I'll add a comment.

Closed by commit rL241989: [X86][SSE] Vectorized v4i32 non-uniform shifts. (authored by RKSimon). · Explain WhyJul 12 2015, 4:15 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

X86/

	X86ISelLowering.cpp
	X86ISelLowering.cpp (revision 241797)

42 lines

	X86TargetTransformInfo.cpp
	X86TargetTransformInfo.cpp (revision 241797)

8 lines

test/

Analysis/

CostModel/

X86/

	testshiftashr.ll
	testshiftashr.ll (revision 241797)

20 lines

	testshiftlshr.ll
	testshiftlshr.ll (revision 241797)

20 lines

CodeGen/

X86/

	vector-shift-ashr-128.ll
	vector-shift-ashr-128.ll (revision 241797)

181 lines

	vector-shift-ashr-256.ll
	vector-shift-ashr-256.ll (revision 241797)

95 lines

	vector-shift-lshr-128.ll
	vector-shift-lshr-128.ll (revision 241797)

191 lines

	vector-shift-lshr-256.ll
	vector-shift-lshr-256.ll (revision 241797)

95 lines

	widen_load-2.ll
	widen_load-2.ll (revision 241797)

14 lines

Diff 29334

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 4,530 Lines • ▼ Show 20 Lines	static bool getTargetShuffleMask(SDNode *N, MVT VT,
case X86ISD::MOVSD:		case X86ISD::MOVSD:
DecodeScalarMoveMask(VT, /* IsLoad */ false, Mask);		DecodeScalarMoveMask(VT, /* IsLoad */ false, Mask);
break;		break;
case X86ISD::VPERM2X128:		case X86ISD::VPERM2X128:
ImmN = N->getOperand(N->getNumOperands()-1);		ImmN = N->getOperand(N->getNumOperands()-1);
DecodeVPERM2X128Mask(VT, cast<ConstantSDNode>(ImmN)->getZExtValue(), Mask);		DecodeVPERM2X128Mask(VT, cast<ConstantSDNode>(ImmN)->getZExtValue(), Mask);
if (Mask.empty()) return false;		if (Mask.empty()) return false;
// Mask only contains negative index if an element is zero.		// Mask only contains negative index if an element is zero.
if (std::any_of(Mask.begin(), Mask.end(),		if (std::any_of(Mask.begin(), Mask.end(),
[](int M){ return M == SM_SentinelZero; }))		[](int M){ return M == SM_SentinelZero; }))
return false;		return false;
break;		break;
case X86ISD::MOVSLDUP:		case X86ISD::MOVSLDUP:
DecodeMOVSLDUPMask(VT, Mask);		DecodeMOVSLDUPMask(VT, Mask);
IsUnary = true;		IsUnary = true;
break;		break;
case X86ISD::MOVSHDUP:		case X86ISD::MOVSHDUP:
▲ Show 20 Lines • Show All 10,844 Lines • ▼ Show 20 Lines	case INTR_TYPE_2OP_MASK_RM: {
SDValue PassThru = Op.getOperand(3);		SDValue PassThru = Op.getOperand(3);
SDValue Mask = Op.getOperand(4);		SDValue Mask = Op.getOperand(4);
// We specify 2 possible modes for intrinsics, with/without rounding modes.		// We specify 2 possible modes for intrinsics, with/without rounding modes.
// First, we check if the intrinsic have rounding mode (6 operands),		// First, we check if the intrinsic have rounding mode (6 operands),
// if not, we set rounding mode to "current".		// if not, we set rounding mode to "current".
SDValue Rnd;		SDValue Rnd;
if (Op.getNumOperands() == 6)		if (Op.getNumOperands() == 6)
Rnd = Op.getOperand(5);		Rnd = Op.getOperand(5);
else		else
Rnd = DAG.getConstant(X86::STATIC_ROUNDING::CUR_DIRECTION, dl, MVT::i32);		Rnd = DAG.getConstant(X86::STATIC_ROUNDING::CUR_DIRECTION, dl, MVT::i32);
return getVectorMaskingNode(DAG.getNode(IntrData->Opc0, dl, VT,		return getVectorMaskingNode(DAG.getNode(IntrData->Opc0, dl, VT,
Src1, Src2, Rnd),		Src1, Src2, Rnd),
Mask, PassThru, Subtarget, DAG);		Mask, PassThru, Subtarget, DAG);
}		}
case INTR_TYPE_3OP_MASK: {		case INTR_TYPE_3OP_MASK: {
SDValue Src1 = Op.getOperand(1);		SDValue Src1 = Op.getOperand(1);
SDValue Src2 = Op.getOperand(2);		SDValue Src2 = Op.getOperand(2);
Show All 13 Lines	case INTR_TYPE_3OP_MASK: {
Src1, Src2, Src3, Rnd),		Src1, Src2, Src3, Rnd),
Mask, PassThru, Subtarget, DAG);		Mask, PassThru, Subtarget, DAG);
}		}
}		}
return getVectorMaskingNode(DAG.getNode(IntrData->Opc0, dl, VT,		return getVectorMaskingNode(DAG.getNode(IntrData->Opc0, dl, VT,
Src1, Src2, Src3),		Src1, Src2, Src3),
Mask, PassThru, Subtarget, DAG);		Mask, PassThru, Subtarget, DAG);
}		}
case VPERM_3OP_MASKZ:		case VPERM_3OP_MASKZ:
case VPERM_3OP_MASK:		case VPERM_3OP_MASK:
case FMA_OP_MASK3:		case FMA_OP_MASK3:
case FMA_OP_MASKZ:		case FMA_OP_MASKZ:
case FMA_OP_MASK: {		case FMA_OP_MASK: {
SDValue Src1 = Op.getOperand(1);		SDValue Src1 = Op.getOperand(1);
SDValue Src2 = Op.getOperand(2);		SDValue Src2 = Op.getOperand(2);
SDValue Src3 = Op.getOperand(3);		SDValue Src3 = Op.getOperand(3);
SDValue Mask = Op.getOperand(4);		SDValue Mask = Op.getOperand(4);
▲ Show 20 Lines • Show All 1,936 Lines • ▼ Show 20 Lines	if (CanBeSimplified && isa<ConstantSDNode>(Amt1) &&
SDValue BitCast1 = DAG.getBitcast(CastVT, Shift1);		SDValue BitCast1 = DAG.getBitcast(CastVT, Shift1);
SDValue BitCast2 = DAG.getBitcast(CastVT, Shift2);		SDValue BitCast2 = DAG.getBitcast(CastVT, Shift2);
SDValue Result = getTargetShuffleNode(TargetOpcode, dl, CastVT, BitCast2,		SDValue Result = getTargetShuffleNode(TargetOpcode, dl, CastVT, BitCast2,
BitCast1, DAG);		BitCast1, DAG);
return DAG.getBitcast(VT, Result);		return DAG.getBitcast(VT, Result);
}		}
}		}

		// v4i32 Non Uniform Shifts
		qcolombetUnsubmitted Not Done Reply Inline Actions Period. qcolombet: Period.
		// If a constant shift amount we can shift each immediately,
		qcolombetUnsubmitted Not Done Reply Inline Actions The wording is strange. qcolombet: The wording is strange.
		// else we need to zero-extend each shift amount to the lower i64 and
		// shift using the SSE2 variable shifts directly.
		// The separate results can then be blended together.
		if (VT == MVT::v4i32) {
		unsigned Opc = Op.getOpcode();
		SDValue Amt0, Amt1, Amt2, Amt3;
		if (ISD::isBuildVectorOfConstantSDNodes(Amt.getNode())) {
		Amt0 = DAG.getVectorShuffle(VT, dl, Amt, Amt, { 0, 0, 0, 0 });
		qcolombetUnsubmitted Not Done Reply Inline Actions We could use UNDEF for the second operand, that should avoid the generic code to have to canonicalize it. qcolombet: We could use UNDEF for the second operand, that should avoid the generic code to have to…
		Amt1 = DAG.getVectorShuffle(VT, dl, Amt, Amt, { 1, 1, 1, 1 });
		Amt2 = DAG.getVectorShuffle(VT, dl, Amt, Amt, { 2, 2, 2, 2 });
		Amt3 = DAG.getVectorShuffle(VT, dl, Amt, Amt, { 3, 3, 3, 3 });
		qcolombetUnsubmitted Not Done Reply Inline Actions Wouldn’t it make sense to leave more freedom to the next optimizer with more undef indexes: 0, -1, -1, -1 -1, 1, -1, -1 etc. It looks to me that we have a too good idea of what the lowering should look like and we over-specify the data. qcolombet: Wouldn’t it make sense to leave more freedom to the next optimizer with more undef indexes: 0…
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions If we do this then the shuffle gets removed (so we don't remember that the other lanes are undef) meaning that we don't recognise it as a splat. RKSimon: If we do this then the shuffle gets removed (so we don't remember that the other lanes are…
		} else {
		switch (Opc) {
		default: llvm_unreachable("Unknown target vector shift node");
		qcolombetUnsubmitted Not Done Reply Inline Actions Maybe add a note saying that SHL v4i32 is handled earlier in this function. qcolombet: Maybe add a note saying that SHL v4i32 is handled earlier in this function.
		case ISD::SHL: Opc = X86ISD::VSHL; break;
		qcolombetUnsubmitted Not Done Reply Inline Actions Is this case reachable? I thought we were handling SHL v4i32 earlier in this function (line 17300). Though I guess it does not hurt to have it here. qcolombet: Is this case reachable? I thought we were handling SHL v4i32 earlier in this function (line…
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions The reason that SHL is there is that I've found that this looks like its faster for non-constants than the cvttps2dq/pmuludq approach on older (pre-SSE41) targets. I'm still testing this though (I don't have that wide a range of older hardware these days). so haven't made it the default yet. I'll add a comment. RKSimon: The reason that SHL is there is that I've found that this looks like its faster for non…
		case ISD::SRL: Opc = X86ISD::VSRL; break;
		case ISD::SRA: Opc = X86ISD::VSRA; break;
		}
		SDValue Z = getZeroVector(VT, Subtarget, DAG, dl);
		Amt0 = DAG.getVectorShuffle(VT, dl, Amt, Z, { 0, 4, -1, -1 });
		Amt1 = DAG.getVectorShuffle(VT, dl, Amt, Z, { 1, 5, -1, -1 });
		Amt2 = DAG.getVectorShuffle(VT, dl, Amt, Z, { 2, 6, -1, -1 });
		Amt3 = DAG.getVectorShuffle(VT, dl, Amt, Z, { 3, 7, -1, -1 });
		qcolombetUnsubmitted Not Done Reply Inline Actions I guess you use 0, 4, then 1, 5, etc. instead of 0, 4, then 1, 4 etc. because masks are legal for shuffles. If that is the case, then add a comment, if not, then maybe just use 4 for all the zero vector. Also a comment saying that X86 shifts: Use only the 64 first bit of the register for the value of the amount. Shift all the lanes by the first amount (i.e., the first 64-bit like previously said), unlike LLVM shifts where each lane is shift by the related index. would help reading the code. Part of the information is at the being of the block, but I think it is a cryptic unless you know the actual instructions. Right now, unless you have the intel documentation in front of you, this is not that easy to read. qcolombet: I guess you use 0, 4, then 1, 5, etc. instead of 0, 4, then 1, 4 etc. because masks are legal…
		}

		SDValue R0 = DAG.getNode(Opc, dl, VT, R, Amt0);
		SDValue R1 = DAG.getNode(Opc, dl, VT, R, Amt1);
		SDValue R2 = DAG.getNode(Opc, dl, VT, R, Amt2);
		SDValue R3 = DAG.getNode(Opc, dl, VT, R, Amt3);
		SDValue R02 = DAG.getVectorShuffle(VT, dl, R0, R2, { 0, -1, 6, -1 });
		SDValue R13 = DAG.getVectorShuffle(VT, dl, R1, R3, { -1, 1, -1, 7 });
		return DAG.getVectorShuffle(VT, dl, R02, R13, { 0, 5, 2, 7 });
		}

if (VT == MVT::v16i8 \|\| (VT == MVT::v32i8 && Subtarget->hasInt256())) {		if (VT == MVT::v16i8 \|\| (VT == MVT::v32i8 && Subtarget->hasInt256())) {
MVT ExtVT = MVT::getVectorVT(MVT::i16, VT.getVectorNumElements() / 2);		MVT ExtVT = MVT::getVectorVT(MVT::i16, VT.getVectorNumElements() / 2);
unsigned ShiftOpcode = Op->getOpcode();		unsigned ShiftOpcode = Op->getOpcode();

auto SignBitSelect = [&](MVT SelVT, SDValue Sel, SDValue V0, SDValue V1) {		auto SignBitSelect = [&](MVT SelVT, SDValue Sel, SDValue V0, SDValue V1) {
// On SSE41 targets we make use of the fact that VSELECT lowers		// On SSE41 targets we make use of the fact that VSELECT lowers
// to PBLENDVB which selects bytes based just on the sign bit.		// to PBLENDVB which selects bytes based just on the sign bit.
if (Subtarget->hasSSE41()) {		if (Subtarget->hasSSE41()) {
▲ Show 20 Lines • Show All 8,729 Lines • Show Last 20 Lines

lib/Target/X86/X86TargetTransformInfo.cpp

Show First 20 Lines • Show All 258 Lines • ▼ Show 20 Lines	static const CostTblEntry<MVT::SimpleValueType> SSE2CostTable[] = {
{ ISD::SHL, MVT::v16i8, 26 }, // cmpgtb sequence.		{ ISD::SHL, MVT::v16i8, 26 }, // cmpgtb sequence.
{ ISD::SHL, MVT::v8i16, 32 }, // cmpgtb sequence.		{ ISD::SHL, MVT::v8i16, 32 }, // cmpgtb sequence.
{ ISD::SHL, MVT::v4i32, 2*5 }, // We optimized this using mul.		{ ISD::SHL, MVT::v4i32, 2*5 }, // We optimized this using mul.
{ ISD::SHL, MVT::v2i64, 2*10 }, // Scalarized.		{ ISD::SHL, MVT::v2i64, 2*10 }, // Scalarized.
{ ISD::SHL, MVT::v4i64, 4*10 }, // Scalarized.		{ ISD::SHL, MVT::v4i64, 4*10 }, // Scalarized.

{ ISD::SRL, MVT::v16i8, 26 }, // cmpgtb sequence.		{ ISD::SRL, MVT::v16i8, 26 }, // cmpgtb sequence.
{ ISD::SRL, MVT::v8i16, 32 }, // cmpgtb sequence.		{ ISD::SRL, MVT::v8i16, 32 }, // cmpgtb sequence.
{ ISD::SRL, MVT::v4i32, 4*10 }, // Scalarized.		{ ISD::SRL, MVT::v4i32, 16 }, // Shift each lane + blend.
{ ISD::SRL, MVT::v2i64, 2*10 }, // Scalarized.		{ ISD::SRL, MVT::v2i64, 2*10 }, // Scalarized.

{ ISD::SRA, MVT::v16i8, 54 }, // unpacked cmpgtb sequence.		{ ISD::SRA, MVT::v16i8, 54 }, // unpacked cmpgtb sequence.
{ ISD::SRA, MVT::v8i16, 32 }, // cmpgtb sequence.		{ ISD::SRA, MVT::v8i16, 32 }, // cmpgtb sequence.
{ ISD::SRA, MVT::v4i32, 4*10 }, // Scalarized.		{ ISD::SRA, MVT::v4i32, 16 }, // Shift each lane + blend.
{ ISD::SRA, MVT::v2i64, 2*10 }, // Scalarized.		{ ISD::SRA, MVT::v2i64, 2*10 }, // Scalarized.

// It is not a good idea to vectorize division. We have to scalarize it and		// It is not a good idea to vectorize division. We have to scalarize it and
// in the process we will often end up having to spilling regular		// in the process we will often end up having to spilling regular
// registers. The overhead of division is going to dominate most kernels		// registers. The overhead of division is going to dominate most kernels
// anyways so try hard to prevent vectorization of division - it is		// anyways so try hard to prevent vectorization of division - it is
// generally a bad idea. Assume somewhat arbitrarily that we have to be able		// generally a bad idea. Assume somewhat arbitrarily that we have to be able
// to hide "20 cycles" for each lane.		// to hide "20 cycles" for each lane.
▲ Show 20 Lines • Show All 834 Lines • ▼ Show 20 Lines	if ((Idx < 4) \|\| (Imm.getBitWidth() <= 64 && isInt<64>(Imm.getSExtValue())))
return TTI::TCC_Free;		return TTI::TCC_Free;
break;		break;
}		}
return X86TTIImpl::getIntImmCost(Imm, Ty);		return X86TTIImpl::getIntImmCost(Imm, Ty);
}		}

bool X86TTIImpl::isLegalMaskedLoad(Type *DataTy, int Consecutive) {		bool X86TTIImpl::isLegalMaskedLoad(Type *DataTy, int Consecutive) {
int DataWidth = DataTy->getPrimitiveSizeInBits();		int DataWidth = DataTy->getPrimitiveSizeInBits();

// Todo: AVX512 allows gather/scatter, works with strided and random as well		// Todo: AVX512 allows gather/scatter, works with strided and random as well
if ((DataWidth < 32) \|\| (Consecutive == 0))		if ((DataWidth < 32) \|\| (Consecutive == 0))
return false;		return false;
if (ST->hasAVX512() \|\| ST->hasAVX2())		if (ST->hasAVX512() \|\| ST->hasAVX2())
return true;		return true;
return false;		return false;
}		}

bool X86TTIImpl::isLegalMaskedStore(Type *DataType, int Consecutive) {		bool X86TTIImpl::isLegalMaskedStore(Type *DataType, int Consecutive) {
return isLegalMaskedLoad(DataType, Consecutive);		return isLegalMaskedLoad(DataType, Consecutive);
}		}

Show All 15 Lines

test/Analysis/CostModel/X86/testshiftashr.ll

Show All 11 Lines	entry:
%0 = ashr %shifttype %a , %b		%0 = ashr %shifttype %a , %b
ret %shifttype %0		ret %shifttype %0
}		}

%shifttype4i16 = type <4 x i16>		%shifttype4i16 = type <4 x i16>
define %shifttype4i16 @shift4i16(%shifttype4i16 %a, %shifttype4i16 %b) {		define %shifttype4i16 @shift4i16(%shifttype4i16 %a, %shifttype4i16 %b) {
entry:		entry:
; SSE2: shift4i16		; SSE2: shift4i16
; SSE2: cost of 40 {{.*}} ashr		; SSE2: cost of 16 {{.*}} ashr
; SSE2-CODEGEN: shift4i16		; SSE2-CODEGEN: shift4i16
; SSE2-CODEGEN: sarl %cl		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype4i16 %a , %b		%0 = ashr %shifttype4i16 %a , %b
ret %shifttype4i16 %0		ret %shifttype4i16 %0
}		}

%shifttype8i16 = type <8 x i16>		%shifttype8i16 = type <8 x i16>
define %shifttype8i16 @shift8i16(%shifttype8i16 %a, %shifttype8i16 %b) {		define %shifttype8i16 @shift8i16(%shifttype8i16 %a, %shifttype8i16 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	entry:
%0 = ashr %shifttype2i32 %a , %b		%0 = ashr %shifttype2i32 %a , %b
ret %shifttype2i32 %0		ret %shifttype2i32 %0
}		}

%shifttype4i32 = type <4 x i32>		%shifttype4i32 = type <4 x i32>
define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {		define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {
entry:		entry:
; SSE2: shift4i32		; SSE2: shift4i32
; SSE2: cost of 40 {{.*}} ashr		; SSE2: cost of 16 {{.*}} ashr
; SSE2-CODEGEN: shift4i32		; SSE2-CODEGEN: shift4i32
; SSE2-CODEGEN: sarl %cl		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype4i32 %a , %b		%0 = ashr %shifttype4i32 %a , %b
ret %shifttype4i32 %0		ret %shifttype4i32 %0
}		}

%shifttype8i32 = type <8 x i32>		%shifttype8i32 = type <8 x i32>
define %shifttype8i32 @shift8i32(%shifttype8i32 %a, %shifttype8i32 %b) {		define %shifttype8i32 @shift8i32(%shifttype8i32 %a, %shifttype8i32 %b) {
entry:		entry:
; SSE2: shift8i32		; SSE2: shift8i32
; SSE2: cost of 80 {{.*}} ashr		; SSE2: cost of 32 {{.*}} ashr
; SSE2-CODEGEN: shift8i32		; SSE2-CODEGEN: shift8i32
; SSE2-CODEGEN: sarl %cl		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype8i32 %a , %b		%0 = ashr %shifttype8i32 %a , %b
ret %shifttype8i32 %0		ret %shifttype8i32 %0
}		}

%shifttype16i32 = type <16 x i32>		%shifttype16i32 = type <16 x i32>
define %shifttype16i32 @shift16i32(%shifttype16i32 %a, %shifttype16i32 %b) {		define %shifttype16i32 @shift16i32(%shifttype16i32 %a, %shifttype16i32 %b) {
entry:		entry:
; SSE2: shift16i32		; SSE2: shift16i32
; SSE2: cost of 160 {{.*}} ashr		; SSE2: cost of 64 {{.*}} ashr
; SSE2-CODEGEN: shift16i32		; SSE2-CODEGEN: shift16i32
; SSE2-CODEGEN: sarl %cl		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype16i32 %a , %b		%0 = ashr %shifttype16i32 %a , %b
ret %shifttype16i32 %0		ret %shifttype16i32 %0
}		}

%shifttype32i32 = type <32 x i32>		%shifttype32i32 = type <32 x i32>
define %shifttype32i32 @shift32i32(%shifttype32i32 %a, %shifttype32i32 %b) {		define %shifttype32i32 @shift32i32(%shifttype32i32 %a, %shifttype32i32 %b) {
entry:		entry:
; SSE2: shift32i32		; SSE2: shift32i32
; SSE2: cost of 320 {{.*}} ashr		; SSE2: cost of 128 {{.*}} ashr
; SSE2-CODEGEN: shift32i32		; SSE2-CODEGEN: shift32i32
; SSE2-CODEGEN: sarl %cl		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype32i32 %a , %b		%0 = ashr %shifttype32i32 %a , %b
ret %shifttype32i32 %0		ret %shifttype32i32 %0
}		}

%shifttype2i64 = type <2 x i64>		%shifttype2i64 = type <2 x i64>
define %shifttype2i64 @shift2i64(%shifttype2i64 %a, %shifttype2i64 %b) {		define %shifttype2i64 @shift2i64(%shifttype2i64 %a, %shifttype2i64 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 405 Lines • Show Last 20 Lines

test/Analysis/CostModel/X86/testshiftlshr.ll

Show All 11 Lines	entry:
%0 = lshr %shifttype %a , %b		%0 = lshr %shifttype %a , %b
ret %shifttype %0		ret %shifttype %0
}		}

%shifttype4i16 = type <4 x i16>		%shifttype4i16 = type <4 x i16>
define %shifttype4i16 @shift4i16(%shifttype4i16 %a, %shifttype4i16 %b) {		define %shifttype4i16 @shift4i16(%shifttype4i16 %a, %shifttype4i16 %b) {
entry:		entry:
; SSE2: shift4i16		; SSE2: shift4i16
; SSE2: cost of 40 {{.*}} lshr		; SSE2: cost of 16 {{.*}} lshr
; SSE2-CODEGEN: shift4i16		; SSE2-CODEGEN: shift4i16
; SSE2-CODEGEN: shrl %cl		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype4i16 %a , %b		%0 = lshr %shifttype4i16 %a , %b
ret %shifttype4i16 %0		ret %shifttype4i16 %0
}		}

%shifttype8i16 = type <8 x i16>		%shifttype8i16 = type <8 x i16>
define %shifttype8i16 @shift8i16(%shifttype8i16 %a, %shifttype8i16 %b) {		define %shifttype8i16 @shift8i16(%shifttype8i16 %a, %shifttype8i16 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	entry:
%0 = lshr %shifttype2i32 %a , %b		%0 = lshr %shifttype2i32 %a , %b
ret %shifttype2i32 %0		ret %shifttype2i32 %0
}		}

%shifttype4i32 = type <4 x i32>		%shifttype4i32 = type <4 x i32>
define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {		define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {
entry:		entry:
; SSE2: shift4i32		; SSE2: shift4i32
; SSE2: cost of 40 {{.*}} lshr		; SSE2: cost of 16 {{.*}} lshr
; SSE2-CODEGEN: shift4i32		; SSE2-CODEGEN: shift4i32
; SSE2-CODEGEN: shrl %cl		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype4i32 %a , %b		%0 = lshr %shifttype4i32 %a , %b
ret %shifttype4i32 %0		ret %shifttype4i32 %0
}		}

%shifttype8i32 = type <8 x i32>		%shifttype8i32 = type <8 x i32>
define %shifttype8i32 @shift8i32(%shifttype8i32 %a, %shifttype8i32 %b) {		define %shifttype8i32 @shift8i32(%shifttype8i32 %a, %shifttype8i32 %b) {
entry:		entry:
; SSE2: shift8i32		; SSE2: shift8i32
; SSE2: cost of 80 {{.*}} lshr		; SSE2: cost of 32 {{.*}} lshr
; SSE2-CODEGEN: shift8i32		; SSE2-CODEGEN: shift8i32
; SSE2-CODEGEN: shrl %cl		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype8i32 %a , %b		%0 = lshr %shifttype8i32 %a , %b
ret %shifttype8i32 %0		ret %shifttype8i32 %0
}		}

%shifttype16i32 = type <16 x i32>		%shifttype16i32 = type <16 x i32>
define %shifttype16i32 @shift16i32(%shifttype16i32 %a, %shifttype16i32 %b) {		define %shifttype16i32 @shift16i32(%shifttype16i32 %a, %shifttype16i32 %b) {
entry:		entry:
; SSE2: shift16i32		; SSE2: shift16i32
; SSE2: cost of 160 {{.*}} lshr		; SSE2: cost of 64 {{.*}} lshr
; SSE2-CODEGEN: shift16i32		; SSE2-CODEGEN: shift16i32
; SSE2-CODEGEN: shrl %cl		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype16i32 %a , %b		%0 = lshr %shifttype16i32 %a , %b
ret %shifttype16i32 %0		ret %shifttype16i32 %0
}		}

%shifttype32i32 = type <32 x i32>		%shifttype32i32 = type <32 x i32>
define %shifttype32i32 @shift32i32(%shifttype32i32 %a, %shifttype32i32 %b) {		define %shifttype32i32 @shift32i32(%shifttype32i32 %a, %shifttype32i32 %b) {
entry:		entry:
; SSE2: shift32i32		; SSE2: shift32i32
; SSE2: cost of 320 {{.*}} lshr		; SSE2: cost of 128 {{.*}} lshr
; SSE2-CODEGEN: shift32i32		; SSE2-CODEGEN: shift32i32
; SSE2-CODEGEN: shrl %cl		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype32i32 %a , %b		%0 = lshr %shifttype32i32 %a , %b
ret %shifttype32i32 %0		ret %shifttype32i32 %0
}		}

%shifttype2i64 = type <2 x i64>		%shifttype2i64 = type <2 x i64>
define %shifttype2i64 @shift2i64(%shifttype2i64 %a, %shifttype2i64 %b) {		define %shifttype2i64 @shift2i64(%shifttype2i64 %a, %shifttype2i64 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 403 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-ashr-128.ll

	Show First 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%shift = ashr <2 x i64> %a, %b			%shift = ashr <2 x i64> %a, %b
	ret <2 x i64> %shift			ret <2 x i64> %shift
	}			}

	define <4 x i32> @var_shift_v4i32(<4 x i32> %a, <4 x i32> %b) {			define <4 x i32> @var_shift_v4i32(<4 x i32> %a, <4 x i32> %b) {
	; SSE2-LABEL: var_shift_v4i32:			; SSE2-LABEL: var_shift_v4i32:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: movd %xmm2, %eax			; SSE2-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: movd %xmm2, %ecx			; SSE2-NEXT: psrad %xmm2, %xmm3
	; SSE2-NEXT: sarl %cl, %eax			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrlq $32, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm4
	; SSE2-NEXT: movd %xmm3, %eax			; SSE2-NEXT: psrad %xmm2, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,2,3]			; SSE2-NEXT: movsd {{.*#+}} xmm3 = xmm4[0],xmm3[1]
	; SSE2-NEXT: movd %xmm3, %ecx			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]
	; SSE2-NEXT: sarl %cl, %eax			; SSE2-NEXT: pxor %xmm3, %xmm3
	; SSE2-NEXT: movd %eax, %xmm3			; SSE2-NEXT: movdqa %xmm1, %xmm4
	; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; SSE2-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm3[2],xmm4[3],xmm3[3]
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm5
	; SSE2-NEXT: movd %xmm1, %ecx			; SSE2-NEXT: psrad %xmm4, %xmm5
	; SSE2-NEXT: sarl %cl, %eax			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrad %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSE2-NEXT: movsd {{.*#+}} xmm5 = xmm0[0],xmm5[1]
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: movd %xmm0, %ecx
	; SSE2-NEXT: sarl %cl, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: var_shift_v4i32:			; SSE41-LABEL: var_shift_v4i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrd $1, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: pextrd $1, %xmm1, %ecx			; SSE41-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE41-NEXT: sarl %cl, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm3
	; SSE41-NEXT: movd %xmm0, %edx			; SSE41-NEXT: psrad %xmm2, %xmm3
	; SSE41-NEXT: movd %xmm1, %ecx			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: sarl %cl, %edx			; SSE41-NEXT: psrlq $32, %xmm2
	; SSE41-NEXT: movd %edx, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pinsrd $1, %eax, %xmm2			; SSE41-NEXT: psrad %xmm2, %xmm4
	; SSE41-NEXT: pextrd $2, %xmm0, %eax			; SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm3[4,5,6,7]
	; SSE41-NEXT: pextrd $2, %xmm1, %ecx			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: sarl %cl, %eax			; SSE41-NEXT: pmovzxdq {{.*#+}} xmm3 = xmm1[0],zero,xmm1[1],zero
	; SSE41-NEXT: pinsrd $2, %eax, %xmm2			; SSE41-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; SSE41-NEXT: pextrd $3, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: pextrd $3, %xmm1, %ecx			; SSE41-NEXT: psrad %xmm1, %xmm2
	; SSE41-NEXT: sarl %cl, %eax			; SSE41-NEXT: psrad %xmm3, %xmm0
	; SSE41-NEXT: pinsrd $3, %eax, %xmm2			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm4[2,3],xmm0[4,5],xmm4[6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: var_shift_v4i32:			; AVX1-LABEL: var_shift_v4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpsrldq {{.*#+}} xmm2 = xmm1[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vpextrd $1, %xmm1, %ecx			; AVX1-NEXT: vpsrad %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: sarl %cl, %eax			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vmovd %xmm0, %edx			; AVX1-NEXT: vpsrad %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vmovd %xmm1, %ecx			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: sarl %cl, %edx			; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vmovd %edx, %xmm2			; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpsrad %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
	; AVX1-NEXT: vpextrd $2, %xmm1, %ecx			; AVX1-NEXT: vpsrad %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: sarl %cl, %eax			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpextrd $3, %xmm0, %eax
	; AVX1-NEXT: vpextrd $3, %xmm1, %ecx
	; AVX1-NEXT: sarl %cl, %eax
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: var_shift_v4i32:			; AVX2-LABEL: var_shift_v4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsravd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsravd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = ashr <4 x i32> %a, %b			%shift = ashr <4 x i32> %a, %b
	ret <4 x i32> %shift			ret <4 x i32> %shift
	▲ Show 20 Lines • Show All 548 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%shift = ashr <2 x i64> %a, <i64 1, i64 7>			%shift = ashr <2 x i64> %a, <i64 1, i64 7>
	ret <2 x i64> %shift			ret <2 x i64> %shift
	}			}

	define <4 x i32> @constant_shift_v4i32(<4 x i32> %a) {			define <4 x i32> @constant_shift_v4i32(<4 x i32> %a) {
	; SSE2-LABEL: constant_shift_v4i32:			; SSE2-LABEL: constant_shift_v4i32:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax			; SSE2-NEXT: psrad $7, %xmm1
	; SSE2-NEXT: sarl $7, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: psrad $5, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm2[0],xmm1[1]
	; SSE2-NEXT: movd %xmm2, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
	; SSE2-NEXT: sarl $5, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrad $6, %xmm2
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE2-NEXT: psrad $4, %xmm0
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm0[0],xmm2[1]
	; SSE2-NEXT: sarl $4, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; SSE2-NEXT: movd %xmm0, %eax
	; SSE2-NEXT: sarl $6, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: constant_shift_v4i32:			; SSE41-LABEL: constant_shift_v4i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrd $1, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: sarl $5, %eax			; SSE41-NEXT: psrad $7, %xmm1
	; SSE41-NEXT: movd %xmm0, %ecx			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: sarl $4, %ecx			; SSE41-NEXT: psrad $5, %xmm2
	; SSE41-NEXT: movd %ecx, %xmm1			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pinsrd $1, %eax, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pextrd $2, %xmm0, %eax			; SSE41-NEXT: psrad $6, %xmm1
	; SSE41-NEXT: sarl $6, %eax			; SSE41-NEXT: psrad $4, %xmm0
	; SSE41-NEXT: pinsrd $2, %eax, %xmm1			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pextrd $3, %xmm0, %eax			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE41-NEXT: sarl $7, %eax
	; SSE41-NEXT: pinsrd $3, %eax, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: constant_shift_v4i32:			; AVX1-LABEL: constant_shift_v4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpsrad $7, %xmm0, %xmm1
	; AVX1-NEXT: sarl $5, %eax			; AVX1-NEXT: vpsrad $5, %xmm0, %xmm2
	; AVX1-NEXT: vmovd %xmm0, %ecx			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: sarl $4, %ecx			; AVX1-NEXT: vpsrad $6, %xmm0, %xmm2
	; AVX1-NEXT: vmovd %ecx, %xmm1			; AVX1-NEXT: vpsrad $4, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm1, %xmm1			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; AVX1-NEXT: sarl $6, %eax
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm1, %xmm1
	; AVX1-NEXT: vpextrd $3, %xmm0, %eax
	; AVX1-NEXT: sarl $7, %eax
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm1, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_shift_v4i32:			; AVX2-LABEL: constant_shift_v4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = ashr <4 x i32> %a, <i32 4, i32 5, i32 6, i32 7>			%shift = ashr <4 x i32> %a, <i32 4, i32 5, i32 6, i32 7>
	ret <4 x i32> %shift			ret <4 x i32> %shift
	▲ Show 20 Lines • Show All 289 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-ashr-256.ll

Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
%shift = ashr <4 x i64> %a, %b		%shift = ashr <4 x i64> %a, %b
ret <4 x i64> %shift		ret <4 x i64> %shift
}		}

define <8 x i32> @var_shift_v8i32(<8 x i32> %a, <8 x i32> %b) {		define <8 x i32> @var_shift_v8i32(<8 x i32> %a, <8 x i32> %b) {
; AVX1-LABEL: var_shift_v8i32:		; AVX1-LABEL: var_shift_v8i32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpextrd $1, %xmm2, %eax
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX1-NEXT: vpextrd $1, %xmm3, %ecx		; AVX1-NEXT: vpsrldq {{.*#+}} xmm4 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX1-NEXT: sarl %cl, %eax		; AVX1-NEXT: vpsrad %xmm4, %xmm2, %xmm4
; AVX1-NEXT: vmovd %xmm2, %edx		; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm5
; AVX1-NEXT: vmovd %xmm3, %ecx		; AVX1-NEXT: vpsrad %xmm5, %xmm2, %xmm5
; AVX1-NEXT: sarl %cl, %edx		; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vmovd %edx, %xmm4		; AVX1-NEXT: vpxor %xmm5, %xmm5, %xmm5
; AVX1-NEXT: vpinsrd $1, %eax, %xmm4, %xmm4		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm6 = xmm3[2],xmm5[2],xmm3[3],xmm5[3]
; AVX1-NEXT: vpextrd $2, %xmm2, %eax		; AVX1-NEXT: vpsrad %xmm6, %xmm2, %xmm6
; AVX1-NEXT: vpextrd $2, %xmm3, %ecx		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero
; AVX1-NEXT: sarl %cl, %eax		; AVX1-NEXT: vpsrad %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpinsrd $2, %eax, %xmm4, %xmm4		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm6[4,5,6,7]
; AVX1-NEXT: vpextrd $3, %xmm2, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]
; AVX1-NEXT: vpextrd $3, %xmm3, %ecx		; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm1[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX1-NEXT: sarl %cl, %eax		; AVX1-NEXT: vpsrad %xmm3, %xmm0, %xmm3
; AVX1-NEXT: vpinsrd $3, %eax, %xmm4, %xmm2		; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4
; AVX1-NEXT: vpextrd $1, %xmm0, %eax		; AVX1-NEXT: vpsrad %xmm4, %xmm0, %xmm4
; AVX1-NEXT: vpextrd $1, %xmm1, %ecx		; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
; AVX1-NEXT: sarl %cl, %eax		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm4 = xmm1[2],xmm5[2],xmm1[3],xmm5[3]
; AVX1-NEXT: vmovd %xmm0, %edx		; AVX1-NEXT: vpsrad %xmm4, %xmm0, %xmm4
; AVX1-NEXT: vmovd %xmm1, %ecx		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
; AVX1-NEXT: sarl %cl, %edx		; AVX1-NEXT: vpsrad %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovd %edx, %xmm3		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vpinsrd $1, %eax, %xmm3, %xmm3		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
; AVX1-NEXT: vpextrd $2, %xmm0, %eax
; AVX1-NEXT: vpextrd $2, %xmm1, %ecx
; AVX1-NEXT: sarl %cl, %eax
; AVX1-NEXT: vpinsrd $2, %eax, %xmm3, %xmm3
; AVX1-NEXT: vpextrd $3, %xmm0, %eax
; AVX1-NEXT: vpextrd $3, %xmm1, %ecx
; AVX1-NEXT: sarl %cl, %eax
; AVX1-NEXT: vpinsrd $3, %eax, %xmm3, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shift_v8i32:		; AVX2-LABEL: var_shift_v8i32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpsravd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpsravd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = ashr <8 x i32> %a, %b		%shift = ashr <8 x i32> %a, %b
▲ Show 20 Lines • Show All 377 Lines • ▼ Show 20 Lines
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = ashr <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>		%shift = ashr <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>
ret <4 x i64> %shift		ret <4 x i64> %shift
}		}

define <8 x i32> @constant_shift_v8i32(<8 x i32> %a) {		define <8 x i32> @constant_shift_v8i32(<8 x i32> %a) {
; AVX1-LABEL: constant_shift_v8i32:		; AVX1-LABEL: constant_shift_v8i32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vpsrad $7, %xmm0, %xmm1
; AVX1-NEXT: vpextrd $1, %xmm1, %eax		; AVX1-NEXT: vpsrad $5, %xmm0, %xmm2
; AVX1-NEXT: sarl $9, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; AVX1-NEXT: vmovd %xmm1, %ecx		; AVX1-NEXT: vpsrad $6, %xmm0, %xmm2
; AVX1-NEXT: sarl $8, %ecx		; AVX1-NEXT: vpsrad $4, %xmm0, %xmm3
; AVX1-NEXT: vmovd %ecx, %xmm2		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
; AVX1-NEXT: vpextrd $2, %xmm1, %eax		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: sarl $8, %eax		; AVX1-NEXT: vpsrad $7, %xmm0, %xmm2
; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2		; AVX1-NEXT: vpsrad $9, %xmm0, %xmm3
; AVX1-NEXT: vpextrd $3, %xmm1, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; AVX1-NEXT: sarl $7, %eax		; AVX1-NEXT: vpsrad $8, %xmm0, %xmm0
; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm1		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; AVX1-NEXT: vpextrd $1, %xmm0, %eax		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: sarl $5, %eax
; AVX1-NEXT: vmovd %xmm0, %ecx
; AVX1-NEXT: sarl $4, %ecx
; AVX1-NEXT: vmovd %ecx, %xmm2
; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2
; AVX1-NEXT: vpextrd $2, %xmm0, %eax
; AVX1-NEXT: sarl $6, %eax
; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2
; AVX1-NEXT: vpextrd $3, %xmm0, %eax
; AVX1-NEXT: sarl $7, %eax
; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: constant_shift_v8i32:		; AVX2-LABEL: constant_shift_v8i32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0		; AVX2-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = ashr <8 x i32> %a, <i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 8, i32 7>		%shift = ashr <8 x i32> %a, <i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 8, i32 7>
ret <8 x i32> %shift		ret <8 x i32> %shift
▲ Show 20 Lines • Show All 221 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-lshr-128.ll

	Show All 40 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = lshr <2 x i64> %a, %b			%shift = lshr <2 x i64> %a, %b
	ret <2 x i64> %shift			ret <2 x i64> %shift
	}			}

	define <4 x i32> @var_shift_v4i32(<4 x i32> %a, <4 x i32> %b) {			define <4 x i32> @var_shift_v4i32(<4 x i32> %a, <4 x i32> %b) {
	; SSE2-LABEL: var_shift_v4i32:			; SSE2-LABEL: var_shift_v4i32:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: movd %xmm2, %eax			; SSE2-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: movd %xmm2, %ecx			; SSE2-NEXT: psrld %xmm2, %xmm3
	; SSE2-NEXT: shrl %cl, %eax			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrlq $32, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm4
	; SSE2-NEXT: movd %xmm3, %eax			; SSE2-NEXT: psrld %xmm2, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,2,3]			; SSE2-NEXT: movsd {{.*#+}} xmm3 = xmm4[0],xmm3[1]
	; SSE2-NEXT: movd %xmm3, %ecx			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]
	; SSE2-NEXT: shrl %cl, %eax			; SSE2-NEXT: pxor %xmm3, %xmm3
	; SSE2-NEXT: movd %eax, %xmm3			; SSE2-NEXT: movdqa %xmm1, %xmm4
	; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; SSE2-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm3[2],xmm4[3],xmm3[3]
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm5
	; SSE2-NEXT: movd %xmm1, %ecx			; SSE2-NEXT: psrld %xmm4, %xmm5
	; SSE2-NEXT: shrl %cl, %eax			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrld %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSE2-NEXT: movsd {{.*#+}} xmm5 = xmm0[0],xmm5[1]
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: movd %xmm0, %ecx
	; SSE2-NEXT: shrl %cl, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: var_shift_v4i32:			; SSE41-LABEL: var_shift_v4i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrd $1, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: pextrd $1, %xmm1, %ecx			; SSE41-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE41-NEXT: shrl %cl, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm3
	; SSE41-NEXT: movd %xmm0, %edx			; SSE41-NEXT: psrld %xmm2, %xmm3
	; SSE41-NEXT: movd %xmm1, %ecx			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: shrl %cl, %edx			; SSE41-NEXT: psrlq $32, %xmm2
	; SSE41-NEXT: movd %edx, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pinsrd $1, %eax, %xmm2			; SSE41-NEXT: psrld %xmm2, %xmm4
	; SSE41-NEXT: pextrd $2, %xmm0, %eax			; SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm3[4,5,6,7]
	; SSE41-NEXT: pextrd $2, %xmm1, %ecx			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: shrl %cl, %eax			; SSE41-NEXT: pmovzxdq {{.*#+}} xmm3 = xmm1[0],zero,xmm1[1],zero
	; SSE41-NEXT: pinsrd $2, %eax, %xmm2			; SSE41-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; SSE41-NEXT: pextrd $3, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: pextrd $3, %xmm1, %ecx			; SSE41-NEXT: psrld %xmm1, %xmm2
	; SSE41-NEXT: shrl %cl, %eax			; SSE41-NEXT: psrld %xmm3, %xmm0
	; SSE41-NEXT: pinsrd $3, %eax, %xmm2			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm4[2,3],xmm0[4,5],xmm4[6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: var_shift_v4i32:			; AVX1-LABEL: var_shift_v4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpsrldq {{.*#+}} xmm2 = xmm1[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vpextrd $1, %xmm1, %ecx			; AVX1-NEXT: vpsrld %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: shrl %cl, %eax			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vmovd %xmm0, %edx			; AVX1-NEXT: vpsrld %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vmovd %xmm1, %ecx			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: shrl %cl, %edx			; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vmovd %edx, %xmm2			; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpsrld %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
	; AVX1-NEXT: vpextrd $2, %xmm1, %ecx			; AVX1-NEXT: vpsrld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: shrl %cl, %eax			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpextrd $3, %xmm0, %eax
	; AVX1-NEXT: vpextrd $3, %xmm1, %ecx
	; AVX1-NEXT: shrl %cl, %eax
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: var_shift_v4i32:			; AVX2-LABEL: var_shift_v4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = lshr <4 x i32> %a, %b			%shift = lshr <4 x i32> %a, %b
	ret <4 x i32> %shift			ret <4 x i32> %shift
	▲ Show 20 Lines • Show All 380 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = lshr <2 x i64> %a, <i64 1, i64 7>			%shift = lshr <2 x i64> %a, <i64 1, i64 7>
	ret <2 x i64> %shift			ret <2 x i64> %shift
	}			}

	define <4 x i32> @constant_shift_v4i32(<4 x i32> %a) {			define <4 x i32> @constant_shift_v4i32(<4 x i32> %a) {
	; SSE2-LABEL: constant_shift_v4i32:			; SSE2-LABEL: constant_shift_v4i32:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax			; SSE2-NEXT: psrld $7, %xmm1
	; SSE2-NEXT: shrl $7, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: psrld $5, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm2[0],xmm1[1]
	; SSE2-NEXT: movd %xmm2, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
	; SSE2-NEXT: shrl $5, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrld $6, %xmm2
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE2-NEXT: psrld $4, %xmm0
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm0[0],xmm2[1]
	; SSE2-NEXT: shrl $4, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; SSE2-NEXT: movd %xmm0, %eax
	; SSE2-NEXT: shrl $6, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: constant_shift_v4i32:			; SSE41-LABEL: constant_shift_v4i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrd $1, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: shrl $5, %eax			; SSE41-NEXT: psrld $7, %xmm1
	; SSE41-NEXT: movd %xmm0, %ecx			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: shrl $4, %ecx			; SSE41-NEXT: psrld $5, %xmm2
	; SSE41-NEXT: movd %ecx, %xmm1			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pinsrd $1, %eax, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pextrd $2, %xmm0, %eax			; SSE41-NEXT: psrld $6, %xmm1
	; SSE41-NEXT: shrl $6, %eax			; SSE41-NEXT: psrld $4, %xmm0
	; SSE41-NEXT: pinsrd $2, %eax, %xmm1			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pextrd $3, %xmm0, %eax			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE41-NEXT: shrl $7, %eax
	; SSE41-NEXT: pinsrd $3, %eax, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: constant_shift_v4i32:			; AVX1-LABEL: constant_shift_v4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpsrld $7, %xmm0, %xmm1
	; AVX1-NEXT: shrl $5, %eax			; AVX1-NEXT: vpsrld $5, %xmm0, %xmm2
	; AVX1-NEXT: vmovd %xmm0, %ecx			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: shrl $4, %ecx			; AVX1-NEXT: vpsrld $6, %xmm0, %xmm2
	; AVX1-NEXT: vmovd %ecx, %xmm1			; AVX1-NEXT: vpsrld $4, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm1, %xmm1			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; AVX1-NEXT: shrl $6, %eax
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm1, %xmm1
	; AVX1-NEXT: vpextrd $3, %xmm0, %eax
	; AVX1-NEXT: shrl $7, %eax
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm1, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_shift_v4i32:			; AVX2-LABEL: constant_shift_v4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = lshr <4 x i32> %a, <i32 4, i32 5, i32 6, i32 7>			%shift = lshr <4 x i32> %a, <i32 4, i32 5, i32 6, i32 7>
	ret <4 x i32> %shift			ret <4 x i32> %shift
	}			}
	▲ Show 20 Lines • Show All 206 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-lshr-256.ll

Show All 27 Lines	; AVX2-NEXT: retq
%shift = lshr <4 x i64> %a, %b		%shift = lshr <4 x i64> %a, %b
ret <4 x i64> %shift		ret <4 x i64> %shift
}		}

define <8 x i32> @var_shift_v8i32(<8 x i32> %a, <8 x i32> %b) {		define <8 x i32> @var_shift_v8i32(<8 x i32> %a, <8 x i32> %b) {
; AVX1-LABEL: var_shift_v8i32:		; AVX1-LABEL: var_shift_v8i32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpextrd $1, %xmm2, %eax
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX1-NEXT: vpextrd $1, %xmm3, %ecx		; AVX1-NEXT: vpsrldq {{.*#+}} xmm4 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX1-NEXT: shrl %cl, %eax		; AVX1-NEXT: vpsrld %xmm4, %xmm2, %xmm4
; AVX1-NEXT: vmovd %xmm2, %edx		; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm5
; AVX1-NEXT: vmovd %xmm3, %ecx		; AVX1-NEXT: vpsrld %xmm5, %xmm2, %xmm5
; AVX1-NEXT: shrl %cl, %edx		; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vmovd %edx, %xmm4		; AVX1-NEXT: vpxor %xmm5, %xmm5, %xmm5
; AVX1-NEXT: vpinsrd $1, %eax, %xmm4, %xmm4		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm6 = xmm3[2],xmm5[2],xmm3[3],xmm5[3]
; AVX1-NEXT: vpextrd $2, %xmm2, %eax		; AVX1-NEXT: vpsrld %xmm6, %xmm2, %xmm6
; AVX1-NEXT: vpextrd $2, %xmm3, %ecx		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero
; AVX1-NEXT: shrl %cl, %eax		; AVX1-NEXT: vpsrld %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpinsrd $2, %eax, %xmm4, %xmm4		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm6[4,5,6,7]
; AVX1-NEXT: vpextrd $3, %xmm2, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]
; AVX1-NEXT: vpextrd $3, %xmm3, %ecx		; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm1[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX1-NEXT: shrl %cl, %eax		; AVX1-NEXT: vpsrld %xmm3, %xmm0, %xmm3
; AVX1-NEXT: vpinsrd $3, %eax, %xmm4, %xmm2		; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4
; AVX1-NEXT: vpextrd $1, %xmm0, %eax		; AVX1-NEXT: vpsrld %xmm4, %xmm0, %xmm4
; AVX1-NEXT: vpextrd $1, %xmm1, %ecx		; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
; AVX1-NEXT: shrl %cl, %eax		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm4 = xmm1[2],xmm5[2],xmm1[3],xmm5[3]
; AVX1-NEXT: vmovd %xmm0, %edx		; AVX1-NEXT: vpsrld %xmm4, %xmm0, %xmm4
; AVX1-NEXT: vmovd %xmm1, %ecx		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
; AVX1-NEXT: shrl %cl, %edx		; AVX1-NEXT: vpsrld %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovd %edx, %xmm3		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vpinsrd $1, %eax, %xmm3, %xmm3		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
; AVX1-NEXT: vpextrd $2, %xmm0, %eax
; AVX1-NEXT: vpextrd $2, %xmm1, %ecx
; AVX1-NEXT: shrl %cl, %eax
; AVX1-NEXT: vpinsrd $2, %eax, %xmm3, %xmm3
; AVX1-NEXT: vpextrd $3, %xmm0, %eax
; AVX1-NEXT: vpextrd $3, %xmm1, %ecx
; AVX1-NEXT: shrl %cl, %eax
; AVX1-NEXT: vpinsrd $3, %eax, %xmm3, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shift_v8i32:		; AVX2-LABEL: var_shift_v8i32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpsrlvd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpsrlvd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = lshr <8 x i32> %a, %b		%shift = lshr <8 x i32> %a, %b
▲ Show 20 Lines • Show All 252 Lines • ▼ Show 20 Lines
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = lshr <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>		%shift = lshr <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>
ret <4 x i64> %shift		ret <4 x i64> %shift
}		}

define <8 x i32> @constant_shift_v8i32(<8 x i32> %a) {		define <8 x i32> @constant_shift_v8i32(<8 x i32> %a) {
; AVX1-LABEL: constant_shift_v8i32:		; AVX1-LABEL: constant_shift_v8i32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vpsrld $7, %xmm0, %xmm1
; AVX1-NEXT: vpextrd $1, %xmm1, %eax		; AVX1-NEXT: vpsrld $5, %xmm0, %xmm2
; AVX1-NEXT: shrl $9, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; AVX1-NEXT: vmovd %xmm1, %ecx		; AVX1-NEXT: vpsrld $6, %xmm0, %xmm2
; AVX1-NEXT: shrl $8, %ecx		; AVX1-NEXT: vpsrld $4, %xmm0, %xmm3
; AVX1-NEXT: vmovd %ecx, %xmm2		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
; AVX1-NEXT: vpextrd $2, %xmm1, %eax		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: shrl $8, %eax		; AVX1-NEXT: vpsrld $7, %xmm0, %xmm2
; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2		; AVX1-NEXT: vpsrld $9, %xmm0, %xmm3
; AVX1-NEXT: vpextrd $3, %xmm1, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; AVX1-NEXT: shrl $7, %eax		; AVX1-NEXT: vpsrld $8, %xmm0, %xmm0
; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm1		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; AVX1-NEXT: vpextrd $1, %xmm0, %eax		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: shrl $5, %eax
; AVX1-NEXT: vmovd %xmm0, %ecx
; AVX1-NEXT: shrl $4, %ecx
; AVX1-NEXT: vmovd %ecx, %xmm2
; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2
; AVX1-NEXT: vpextrd $2, %xmm0, %eax
; AVX1-NEXT: shrl $6, %eax
; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2
; AVX1-NEXT: vpextrd $3, %xmm0, %eax
; AVX1-NEXT: shrl $7, %eax
; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: constant_shift_v8i32:		; AVX2-LABEL: constant_shift_v8i32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %ymm0, %ymm0		; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = lshr <8 x i32> %a, <i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 8, i32 7>		%shift = lshr <8 x i32> %a, <i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 8, i32 7>
ret <8 x i32> %shift		ret <8 x i32> %shift
▲ Show 20 Lines • Show All 178 Lines • Show Last 20 Lines

test/CodeGen/X86/widen_load-2.ll

	Show First 20 Lines • Show All 188 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: pshufb %[[SHUFFLE_MASK]], %[[CONSTANT1]]			; CHECK-NEXT: pshufb %[[SHUFFLE_MASK]], %[[CONSTANT1]]
	; CHECK-NEXT: pmovzxwq %[[CONSTANT1]], %[[CONSTANT1]]			; CHECK-NEXT: pmovzxwq %[[CONSTANT1]], %[[CONSTANT1]]
	; CHECK-NEXT: movd %[[CONSTANT1]], %e[[R1:[abcd]]]x			; CHECK-NEXT: movd %[[CONSTANT1]], %e[[R1:[abcd]]]x
	; CHECK-NEXT: movw %[[R1]]x, (%[[PTR1:.*]])			; CHECK-NEXT: movw %[[R1]]x, (%[[PTR1:.*]])
	; CHECK-NEXT: movb $1, 2(%[[PTR1]])			; CHECK-NEXT: movb $1, 2(%[[PTR1]])
	; CHECK-NEXT: movl (%[[PTR0]]), [[TMP1:%e[abcd]+x]]			; CHECK-NEXT: movl (%[[PTR0]]), [[TMP1:%e[abcd]+x]]
	; CHECK-NEXT: movl [[TMP1]], [[TMP2:.*]]			; CHECK-NEXT: movl [[TMP1]], [[TMP2:.*]]
	; CHECK-NEXT: pmovzxbd [[TMP2]], %[[X0:xmm[0-9]+]]			; CHECK-NEXT: pmovzxbd [[TMP2]], %[[X0:xmm[0-9]+]]
	; CHECK-NEXT: pextrd $1, %[[X0]], %e[[R0:[abcd]]]x			; CHECK-NEXT: movdqa %[[X0]], %[[X1:xmm[0-9]+]]
	; CHECK-NEXT: shrl %e[[R0]]x			; CHECK-NEXT: psrld $1, %[[X1]]
	; CHECK-NEXT: movd %[[X0]], %e[[R1:[abcd]]]x			; CHECK-NEXT: pblendw $192, %[[X0]], %[[X1]]
	; CHECK-NEXT: shrl %e[[R1]]x
	; CHECK-NEXT: movd %e[[R1]]x, %[[X1:xmm[0-9]+]]
	; CHECK-NEXT: pinsrd $1, %e[[R0]]x, %[[X1]]
	; CHECK-NEXT: pextrd $2, %[[X0]], %e[[R0:[abcd]]]x
	; CHECK-NEXT: shrl %e[[R0]]x
	; CHECK-NEXT: pinsrd $2, %e[[R0]]x, %[[X1]]
	; CHECK-NEXT: pextrd $3, %[[X0]], %e[[R0:[abcd]]]x
	; CHECK-NEXT: pinsrd $3, %e[[R0]]x, %[[X1]]
	; CHECK-NEXT: pextrb $8, %[[X1]], 2(%{{.*}})			; CHECK-NEXT: pextrb $8, %[[X1]], 2(%{{.*}})
	; CHECK-NEXT: pshufb %[[SHUFFLE_MASK]], %[[X1]]			; CHECK-NEXT: pshufb %[[SHUFFLE_MASK]], %[[X1]]
	; CHECK-NEXT: pmovzxwq %[[X1]], %[[X3:xmm[0-9]+]]			; CHECK-NEXT: pmovzxwq %[[X1]], %[[X3:xmm[0-9]+]]
	; CHECK-NEXT: movd %[[X3]], %e[[R0:[abcd]]]x			; CHECK-NEXT: movd %[[X3]], %e[[R0:[abcd]]]x
	; CHECK-NEXT: movw %[[R0]]x, (%{{.*}})			; CHECK-NEXT: movw %[[R0]]x, (%{{.*}})

	entry:			entry:
	%storetmp = bitcast %i8vec3pack* %X to <3 x i8>*			%storetmp = bitcast %i8vec3pack* %X to <3 x i8>*
	Show All 13 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Vectorized v4i32 non-uniform shifts.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 29334

lib/Target/X86/X86ISelLowering.cpp

lib/Target/X86/X86TargetTransformInfo.cpp

test/Analysis/CostModel/X86/testshiftashr.ll

test/Analysis/CostModel/X86/testshiftlshr.ll

test/CodeGen/X86/vector-shift-ashr-128.ll

test/CodeGen/X86/vector-shift-ashr-256.ll

test/CodeGen/X86/vector-shift-lshr-128.ll

test/CodeGen/X86/vector-shift-lshr-256.ll

test/CodeGen/X86/widen_load-2.ll

[X86][SSE] Vectorized v4i32 non-uniform shifts.
ClosedPublic