This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Vectorized v4i32 non-uniform shifts.
ClosedPublic

Authored by RKSimon on Jul 9 2015, 8:09 AM.

Download Raw Diff

Details

Reviewers

spatel
qcolombet
delena
andreadb

Commits

rG64cc4ad0a273: [X86][SSE] Vectorized v4i32 non-uniform shifts.
rL241989: [X86][SSE] Vectorized v4i32 non-uniform shifts.

Summary

While the v4i32 shl operation is already vectorized using a cvttps2dq/pmulld pattern, the lshr/ashr opeations are still scalarized.

This patch adds vectorization support for non-uniform v4i32 shift operations - it splats constant shift amounts to allow them to use the immediate sse shift instructions, or extracts/zero-extends non-constant shift amounts. The individual results are then blended together.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon updated this revision to Diff 29334.Jul 9 2015, 8:09 AM

RKSimon retitled this revision from to [X86][SSE] Vectorized v4i32 non-uniform shifts..

RKSimon updated this object.

RKSimon added reviewers: qcolombet, delena, spatel, andreadb.

RKSimon set the repository for this revision to rL LLVM.

RKSimon added a subscriber: llvm-commits.

Hi Simon,

LGTM with a few nitpicks to help coming back to the code.

Please commit directly your updated version.

Cheers,
-Quentin

lib/Target/X86/X86ISelLowering.cpp
17383 ↗	(On Diff #29334)	Period.
17384 ↗	(On Diff #29334)	The wording is strange.
17392 ↗	(On Diff #29334)	We could use UNDEF for the second operand, that should avoid the generic code to have to canonicalize it.
17395 ↗	(On Diff #29334)	Wouldn’t it make sense to leave more freedom to the next optimizer with more undef indexes: 0, -1, -1, -1 -1, 1, -1, -1 etc. It looks to me that we have a too good idea of what the lowering should look like and we over-specify the data.
17398 ↗	(On Diff #29334)	Maybe add a note saying that SHL v4i32 is handled earlier in this function.
17399 ↗	(On Diff #29334)	Is this case reachable? I thought we were handling SHL v4i32 earlier in this function (line 17300). Though I guess it does not hurt to have it here.
17407 ↗	(On Diff #29334)	I guess you use 0, 4, then 1, 5, etc. instead of 0, 4, then 1, 4 etc. because masks are legal for shuffles. If that is the case, then add a comment, if not, then maybe just use 4 for all the zero vector. Also a comment saying that X86 shifts: Use only the 64 first bit of the register for the value of the amount. Shift all the lanes by the first amount (i.e., the first 64-bit like previously said), unlike LLVM shifts where each lane is shift by the related index. would help reading the code. Part of the information is at the being of the block, but I think it is a cryptic unless you know the actual instructions. Right now, unless you have the intel documentation in front of you, this is not that easy to read.

This revision is now accepted and ready to land.Jul 9 2015, 4:15 PM

Thanks Quentin, I'll commit the patch with updates later today. Comments below.

lib/Target/X86/X86ISelLowering.cpp
17395 ↗	(On Diff #29334)	If we do this then the shuffle gets removed (so we don't remember that the other lanes are undef) meaning that we don't recognise it as a splat.
17399 ↗	(On Diff #29334)	The reason that SHL is there is that I've found that this looks like its faster for non-constants than the cvttps2dq/pmuludq approach on older (pre-SSE41) targets. I'm still testing this though (I don't have that wide a range of older hardware these days). so haven't made it the default yet. I'll add a comment.

Closed by commit rL241989: [X86][SSE] Vectorized v4i32 non-uniform shifts. (authored by RKSimon). · Explain WhyJul 12 2015, 4:15 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

47 lines

X86TargetTransformInfo.cpp

46 lines

test/

Analysis/

CostModel/

X86/

testshiftashr.ll

24 lines

testshiftlshr.ll

24 lines

CodeGen/

X86/

vector-shift-ashr-128.ll

181 lines

vector-shift-ashr-256.ll

95 lines

vector-shift-lshr-128.ll

191 lines

vector-shift-lshr-256.ll

95 lines

widen_load-2.ll

14 lines

Diff 29520

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 17,411 Lines • ▼ Show 20 Lines	if (CanBeSimplified && isa<ConstantSDNode>(Amt1) &&
SDValue BitCast1 = DAG.getBitcast(CastVT, Shift1);		SDValue BitCast1 = DAG.getBitcast(CastVT, Shift1);
SDValue BitCast2 = DAG.getBitcast(CastVT, Shift2);		SDValue BitCast2 = DAG.getBitcast(CastVT, Shift2);
SDValue Result = getTargetShuffleNode(TargetOpcode, dl, CastVT, BitCast2,		SDValue Result = getTargetShuffleNode(TargetOpcode, dl, CastVT, BitCast2,
BitCast1, DAG);		BitCast1, DAG);
return DAG.getBitcast(VT, Result);		return DAG.getBitcast(VT, Result);
}		}
}		}

		// v4i32 Non Uniform Shifts.
		// If the shift amount is constant we can shift each lane using the SSE2
		// immediate shifts, else we need to zero-extend each lane to the lower i64
		// and shift using the SSE2 variable shifts.
		// The separate results can then be blended together.
		if (VT == MVT::v4i32) {
		unsigned Opc = Op.getOpcode();
		SDValue Amt0, Amt1, Amt2, Amt3;
		if (ISD::isBuildVectorOfConstantSDNodes(Amt.getNode())) {
		Amt0 = DAG.getVectorShuffle(VT, dl, Amt, DAG.getUNDEF(VT), {0, 0, 0, 0});
		Amt1 = DAG.getVectorShuffle(VT, dl, Amt, DAG.getUNDEF(VT), {1, 1, 1, 1});
		Amt2 = DAG.getVectorShuffle(VT, dl, Amt, DAG.getUNDEF(VT), {2, 2, 2, 2});
		Amt3 = DAG.getVectorShuffle(VT, dl, Amt, DAG.getUNDEF(VT), {3, 3, 3, 3});
		} else {
		// ISD::SHL is handled above but we include it here for completeness.
		switch (Opc) {
		default:
		llvm_unreachable("Unknown target vector shift node");
		case ISD::SHL:
		Opc = X86ISD::VSHL;
		break;
		case ISD::SRL:
		Opc = X86ISD::VSRL;
		break;
		case ISD::SRA:
		Opc = X86ISD::VSRA;
		break;
		}
		// The SSE2 shifts use the lower i64 as the same shift amount for
		// all lanes and the upper i64 is ignored. These shuffle masks
		// optimally zero-extend each lanes on SSE2/SSE41/AVX targets.
		SDValue Z = getZeroVector(VT, Subtarget, DAG, dl);
		Amt0 = DAG.getVectorShuffle(VT, dl, Amt, Z, {0, 4, -1, -1});
		Amt1 = DAG.getVectorShuffle(VT, dl, Amt, Z, {1, 5, -1, -1});
		Amt2 = DAG.getVectorShuffle(VT, dl, Amt, Z, {2, 6, -1, -1});
		Amt3 = DAG.getVectorShuffle(VT, dl, Amt, Z, {3, 7, -1, -1});
		}

		SDValue R0 = DAG.getNode(Opc, dl, VT, R, Amt0);
		SDValue R1 = DAG.getNode(Opc, dl, VT, R, Amt1);
		SDValue R2 = DAG.getNode(Opc, dl, VT, R, Amt2);
		SDValue R3 = DAG.getNode(Opc, dl, VT, R, Amt3);
		SDValue R02 = DAG.getVectorShuffle(VT, dl, R0, R2, {0, -1, 6, -1});
		SDValue R13 = DAG.getVectorShuffle(VT, dl, R1, R3, {-1, 1, -1, 7});
		return DAG.getVectorShuffle(VT, dl, R02, R13, {0, 5, 2, 7});
		}

if (VT == MVT::v16i8 \|\| (VT == MVT::v32i8 && Subtarget->hasInt256())) {		if (VT == MVT::v16i8 \|\| (VT == MVT::v32i8 && Subtarget->hasInt256())) {
MVT ExtVT = MVT::getVectorVT(MVT::i16, VT.getVectorNumElements() / 2);		MVT ExtVT = MVT::getVectorVT(MVT::i16, VT.getVectorNumElements() / 2);
unsigned ShiftOpcode = Op->getOpcode();		unsigned ShiftOpcode = Op->getOpcode();

auto SignBitSelect = [&](MVT SelVT, SDValue Sel, SDValue V0, SDValue V1) {		auto SignBitSelect = [&](MVT SelVT, SDValue Sel, SDValue V0, SDValue V1) {
// On SSE41 targets we make use of the fact that VSELECT lowers		// On SSE41 targets we make use of the fact that VSELECT lowers
// to PBLENDVB which selects bytes based just on the sign bit.		// to PBLENDVB which selects bytes based just on the sign bit.
if (Subtarget->hasSSE41()) {		if (Subtarget->hasSSE41()) {
▲ Show 20 Lines • Show All 8,729 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86TargetTransformInfo.cpp

Show First 20 Lines • Show All 255 Lines • ▼ Show 20 Lines	static const CostTblEntry<MVT::SimpleValueType> SSE2CostTable[] = {
// to ISel. The cost model must return worst case assumptions because it is		// to ISel. The cost model must return worst case assumptions because it is
// used for vectorization and we don't want to make vectorized code worse		// used for vectorization and we don't want to make vectorized code worse
// than scalar code.		// than scalar code.
{ ISD::SHL, MVT::v16i8, 26 }, // cmpgtb sequence.		{ ISD::SHL, MVT::v16i8, 26 }, // cmpgtb sequence.
{ ISD::SHL, MVT::v8i16, 32 }, // cmpgtb sequence.		{ ISD::SHL, MVT::v8i16, 32 }, // cmpgtb sequence.
{ ISD::SHL, MVT::v4i32, 2*5 }, // We optimized this using mul.		{ ISD::SHL, MVT::v4i32, 2*5 }, // We optimized this using mul.
{ ISD::SHL, MVT::v2i64, 2*10 }, // Scalarized.		{ ISD::SHL, MVT::v2i64, 2*10 }, // Scalarized.
{ ISD::SHL, MVT::v4i64, 4*10 }, // Scalarized.		{ ISD::SHL, MVT::v4i64, 4*10 }, // Scalarized.

{ ISD::SRL, MVT::v16i8, 26 }, // cmpgtb sequence.		{ ISD::SRL, MVT::v16i8, 26 }, // cmpgtb sequence.
{ ISD::SRL, MVT::v8i16, 32 }, // cmpgtb sequence.		{ ISD::SRL, MVT::v8i16, 32 }, // cmpgtb sequence.
{ ISD::SRL, MVT::v4i32, 4*10 }, // Scalarized.		{ ISD::SRL, MVT::v4i32, 16 }, // Shift each lane + blend.
{ ISD::SRL, MVT::v2i64, 2*10 }, // Scalarized.		{ ISD::SRL, MVT::v2i64, 2*10 }, // Scalarized.

{ ISD::SRA, MVT::v16i8, 54 }, // unpacked cmpgtb sequence.		{ ISD::SRA, MVT::v16i8, 54 }, // unpacked cmpgtb sequence.
{ ISD::SRA, MVT::v8i16, 32 }, // cmpgtb sequence.		{ ISD::SRA, MVT::v8i16, 32 }, // cmpgtb sequence.
{ ISD::SRA, MVT::v4i32, 4*10 }, // Scalarized.		{ ISD::SRA, MVT::v4i32, 16 }, // Shift each lane + blend.
{ ISD::SRA, MVT::v2i64, 2*10 }, // Scalarized.		{ ISD::SRA, MVT::v2i64, 2*10 }, // Scalarized.

// It is not a good idea to vectorize division. We have to scalarize it and		// It is not a good idea to vectorize division. We have to scalarize it and
// in the process we will often end up having to spilling regular		// in the process we will often end up having to spilling regular
// registers. The overhead of division is going to dominate most kernels		// registers. The overhead of division is going to dominate most kernels
// anyways so try hard to prevent vectorization of division - it is		// anyways so try hard to prevent vectorization of division - it is
// generally a bad idea. Assume somewhat arbitrarily that we have to be able		// generally a bad idea. Assume somewhat arbitrarily that we have to be able
// to hide "20 cycles" for each lane.		// to hide "20 cycles" for each lane.
{ ISD::SDIV, MVT::v16i8, 16*20 },		{ ISD::SDIV, MVT::v16i8, 16*20 },
{ ISD::SDIV, MVT::v8i16, 8*20 },		{ ISD::SDIV, MVT::v8i16, 8*20 },
{ ISD::SDIV, MVT::v4i32, 4*20 },		{ ISD::SDIV, MVT::v4i32, 4*20 },
▲ Show 20 Lines • Show All 828 Lines • ▼ Show 20 Lines	unsigned X86TTIImpl::getIntImmCost(Intrinsic::ID IID, unsigned Idx,
case Intrinsic::experimental_patchpoint_void:		case Intrinsic::experimental_patchpoint_void:
case Intrinsic::experimental_patchpoint_i64:		case Intrinsic::experimental_patchpoint_i64:
if ((Idx < 4) \|\| (Imm.getBitWidth() <= 64 && isInt<64>(Imm.getSExtValue())))		if ((Idx < 4) \|\| (Imm.getBitWidth() <= 64 && isInt<64>(Imm.getSExtValue())))
return TTI::TCC_Free;		return TTI::TCC_Free;
break;		break;
}		}
return X86TTIImpl::getIntImmCost(Imm, Ty);		return X86TTIImpl::getIntImmCost(Imm, Ty);
}		}

bool X86TTIImpl::isLegalMaskedLoad(Type *DataTy, int Consecutive) {		bool X86TTIImpl::isLegalMaskedLoad(Type *DataTy, int Consecutive) {
int DataWidth = DataTy->getPrimitiveSizeInBits();		int DataWidth = DataTy->getPrimitiveSizeInBits();

// Todo: AVX512 allows gather/scatter, works with strided and random as well		// Todo: AVX512 allows gather/scatter, works with strided and random as well
if ((DataWidth < 32) \|\| (Consecutive == 0))		if ((DataWidth < 32) \|\| (Consecutive == 0))
return false;		return false;
if (ST->hasAVX512() \|\| ST->hasAVX2())		if (ST->hasAVX512() \|\| ST->hasAVX2())
return true;		return true;
return false;		return false;
}		}

bool X86TTIImpl::isLegalMaskedStore(Type *DataType, int Consecutive) {		bool X86TTIImpl::isLegalMaskedStore(Type *DataType, int Consecutive) {
return isLegalMaskedLoad(DataType, Consecutive);		return isLegalMaskedLoad(DataType, Consecutive);
}		}

bool X86TTIImpl::hasCompatibleFunctionAttributes(const Function *Caller,		bool X86TTIImpl::hasCompatibleFunctionAttributes(const Function *Caller,
const Function *Callee) const {		const Function *Callee) const {
const TargetMachine &TM = getTLI()->getTargetMachine();		const TargetMachine &TM = getTLI()->getTargetMachine();
Show All 12 Lines

llvm/trunk/test/Analysis/CostModel/X86/testshiftashr.ll

Show All 11 Lines	entry:
%0 = ashr %shifttype %a , %b		%0 = ashr %shifttype %a , %b
ret %shifttype %0		ret %shifttype %0
}		}

%shifttype4i16 = type <4 x i16>		%shifttype4i16 = type <4 x i16>
define %shifttype4i16 @shift4i16(%shifttype4i16 %a, %shifttype4i16 %b) {		define %shifttype4i16 @shift4i16(%shifttype4i16 %a, %shifttype4i16 %b) {
entry:		entry:
; SSE2: shift4i16		; SSE2: shift4i16
; SSE2: cost of 40 {{.*}} ashr		; SSE2: cost of 16 {{.*}} ashr
; SSE2-CODEGEN: shift4i16		; SSE2-CODEGEN: shift4i16
; SSE2-CODEGEN: sarl %cl		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype4i16 %a , %b		%0 = ashr %shifttype4i16 %a , %b
ret %shifttype4i16 %0		ret %shifttype4i16 %0
}		}

%shifttype8i16 = type <8 x i16>		%shifttype8i16 = type <8 x i16>
define %shifttype8i16 @shift8i16(%shifttype8i16 %a, %shifttype8i16 %b) {		define %shifttype8i16 @shift8i16(%shifttype8i16 %a, %shifttype8i16 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	entry:
%0 = ashr %shifttype2i32 %a , %b		%0 = ashr %shifttype2i32 %a , %b
ret %shifttype2i32 %0		ret %shifttype2i32 %0
}		}

%shifttype4i32 = type <4 x i32>		%shifttype4i32 = type <4 x i32>
define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {		define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {
entry:		entry:
; SSE2: shift4i32		; SSE2: shift4i32
; SSE2: cost of 40 {{.*}} ashr		; SSE2: cost of 16 {{.*}} ashr
; SSE2-CODEGEN: shift4i32		; SSE2-CODEGEN: shift4i32
; SSE2-CODEGEN: sarl %cl		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype4i32 %a , %b		%0 = ashr %shifttype4i32 %a , %b
ret %shifttype4i32 %0		ret %shifttype4i32 %0
}		}

%shifttype8i32 = type <8 x i32>		%shifttype8i32 = type <8 x i32>
define %shifttype8i32 @shift8i32(%shifttype8i32 %a, %shifttype8i32 %b) {		define %shifttype8i32 @shift8i32(%shifttype8i32 %a, %shifttype8i32 %b) {
entry:		entry:
; SSE2: shift8i32		; SSE2: shift8i32
; SSE2: cost of 80 {{.*}} ashr		; SSE2: cost of 32 {{.*}} ashr
; SSE2-CODEGEN: shift8i32		; SSE2-CODEGEN: shift8i32
; SSE2-CODEGEN: sarl %cl		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype8i32 %a , %b		%0 = ashr %shifttype8i32 %a , %b
ret %shifttype8i32 %0		ret %shifttype8i32 %0
}		}

%shifttype16i32 = type <16 x i32>		%shifttype16i32 = type <16 x i32>
define %shifttype16i32 @shift16i32(%shifttype16i32 %a, %shifttype16i32 %b) {		define %shifttype16i32 @shift16i32(%shifttype16i32 %a, %shifttype16i32 %b) {
entry:		entry:
; SSE2: shift16i32		; SSE2: shift16i32
; SSE2: cost of 160 {{.*}} ashr		; SSE2: cost of 64 {{.*}} ashr
; SSE2-CODEGEN: shift16i32		; SSE2-CODEGEN: shift16i32
; SSE2-CODEGEN: sarl %cl		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype16i32 %a , %b		%0 = ashr %shifttype16i32 %a , %b
ret %shifttype16i32 %0		ret %shifttype16i32 %0
}		}

%shifttype32i32 = type <32 x i32>		%shifttype32i32 = type <32 x i32>
define %shifttype32i32 @shift32i32(%shifttype32i32 %a, %shifttype32i32 %b) {		define %shifttype32i32 @shift32i32(%shifttype32i32 %a, %shifttype32i32 %b) {
entry:		entry:
; SSE2: shift32i32		; SSE2: shift32i32
; SSE2: cost of 320 {{.*}} ashr		; SSE2: cost of 128 {{.*}} ashr
; SSE2-CODEGEN: shift32i32		; SSE2-CODEGEN: shift32i32
; SSE2-CODEGEN: sarl %cl		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype32i32 %a , %b		%0 = ashr %shifttype32i32 %a , %b
ret %shifttype32i32 %0		ret %shifttype32i32 %0
}		}

%shifttype2i64 = type <2 x i64>		%shifttype2i64 = type <2 x i64>
define %shifttype2i64 @shift2i64(%shifttype2i64 %a, %shifttype2i64 %b) {		define %shifttype2i64 @shift2i64(%shifttype2i64 %a, %shifttype2i64 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines	entry:
%0 = ashr %shifttype2i8 %a , %b		%0 = ashr %shifttype2i8 %a , %b
ret %shifttype2i8 %0		ret %shifttype2i8 %0
}		}

%shifttype4i8 = type <4 x i8>		%shifttype4i8 = type <4 x i8>
define %shifttype4i8 @shift4i8(%shifttype4i8 %a, %shifttype4i8 %b) {		define %shifttype4i8 @shift4i8(%shifttype4i8 %a, %shifttype4i8 %b) {
entry:		entry:
; SSE2: shift4i8		; SSE2: shift4i8
; SSE2: cost of 40 {{.*}} ashr		; SSE2: cost of 16 {{.*}} ashr
; SSE2-CODEGEN: shift4i8		; SSE2-CODEGEN: shift4i8
; SSE2-CODEGEN: sarl %cl		; SSE2-CODEGEN: psrad

%0 = ashr %shifttype4i8 %a , %b		%0 = ashr %shifttype4i8 %a , %b
ret %shifttype4i8 %0		ret %shifttype4i8 %0
}		}

%shifttype8i8 = type <8 x i8>		%shifttype8i8 = type <8 x i8>
define %shifttype8i8 @shift8i8(%shifttype8i8 %a, %shifttype8i8 %b) {		define %shifttype8i8 @shift8i8(%shifttype8i8 %a, %shifttype8i8 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 321 Lines • Show Last 20 Lines

llvm/trunk/test/Analysis/CostModel/X86/testshiftlshr.ll

Show All 11 Lines	entry:
%0 = lshr %shifttype %a , %b		%0 = lshr %shifttype %a , %b
ret %shifttype %0		ret %shifttype %0
}		}

%shifttype4i16 = type <4 x i16>		%shifttype4i16 = type <4 x i16>
define %shifttype4i16 @shift4i16(%shifttype4i16 %a, %shifttype4i16 %b) {		define %shifttype4i16 @shift4i16(%shifttype4i16 %a, %shifttype4i16 %b) {
entry:		entry:
; SSE2: shift4i16		; SSE2: shift4i16
; SSE2: cost of 40 {{.*}} lshr		; SSE2: cost of 16 {{.*}} lshr
; SSE2-CODEGEN: shift4i16		; SSE2-CODEGEN: shift4i16
; SSE2-CODEGEN: shrl %cl		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype4i16 %a , %b		%0 = lshr %shifttype4i16 %a , %b
ret %shifttype4i16 %0		ret %shifttype4i16 %0
}		}

%shifttype8i16 = type <8 x i16>		%shifttype8i16 = type <8 x i16>
define %shifttype8i16 @shift8i16(%shifttype8i16 %a, %shifttype8i16 %b) {		define %shifttype8i16 @shift8i16(%shifttype8i16 %a, %shifttype8i16 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	entry:
%0 = lshr %shifttype2i32 %a , %b		%0 = lshr %shifttype2i32 %a , %b
ret %shifttype2i32 %0		ret %shifttype2i32 %0
}		}

%shifttype4i32 = type <4 x i32>		%shifttype4i32 = type <4 x i32>
define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {		define %shifttype4i32 @shift4i32(%shifttype4i32 %a, %shifttype4i32 %b) {
entry:		entry:
; SSE2: shift4i32		; SSE2: shift4i32
; SSE2: cost of 40 {{.*}} lshr		; SSE2: cost of 16 {{.*}} lshr
; SSE2-CODEGEN: shift4i32		; SSE2-CODEGEN: shift4i32
; SSE2-CODEGEN: shrl %cl		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype4i32 %a , %b		%0 = lshr %shifttype4i32 %a , %b
ret %shifttype4i32 %0		ret %shifttype4i32 %0
}		}

%shifttype8i32 = type <8 x i32>		%shifttype8i32 = type <8 x i32>
define %shifttype8i32 @shift8i32(%shifttype8i32 %a, %shifttype8i32 %b) {		define %shifttype8i32 @shift8i32(%shifttype8i32 %a, %shifttype8i32 %b) {
entry:		entry:
; SSE2: shift8i32		; SSE2: shift8i32
; SSE2: cost of 80 {{.*}} lshr		; SSE2: cost of 32 {{.*}} lshr
; SSE2-CODEGEN: shift8i32		; SSE2-CODEGEN: shift8i32
; SSE2-CODEGEN: shrl %cl		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype8i32 %a , %b		%0 = lshr %shifttype8i32 %a , %b
ret %shifttype8i32 %0		ret %shifttype8i32 %0
}		}

%shifttype16i32 = type <16 x i32>		%shifttype16i32 = type <16 x i32>
define %shifttype16i32 @shift16i32(%shifttype16i32 %a, %shifttype16i32 %b) {		define %shifttype16i32 @shift16i32(%shifttype16i32 %a, %shifttype16i32 %b) {
entry:		entry:
; SSE2: shift16i32		; SSE2: shift16i32
; SSE2: cost of 160 {{.*}} lshr		; SSE2: cost of 64 {{.*}} lshr
; SSE2-CODEGEN: shift16i32		; SSE2-CODEGEN: shift16i32
; SSE2-CODEGEN: shrl %cl		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype16i32 %a , %b		%0 = lshr %shifttype16i32 %a , %b
ret %shifttype16i32 %0		ret %shifttype16i32 %0
}		}

%shifttype32i32 = type <32 x i32>		%shifttype32i32 = type <32 x i32>
define %shifttype32i32 @shift32i32(%shifttype32i32 %a, %shifttype32i32 %b) {		define %shifttype32i32 @shift32i32(%shifttype32i32 %a, %shifttype32i32 %b) {
entry:		entry:
; SSE2: shift32i32		; SSE2: shift32i32
; SSE2: cost of 320 {{.*}} lshr		; SSE2: cost of 128 {{.*}} lshr
; SSE2-CODEGEN: shift32i32		; SSE2-CODEGEN: shift32i32
; SSE2-CODEGEN: shrl %cl		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype32i32 %a , %b		%0 = lshr %shifttype32i32 %a , %b
ret %shifttype32i32 %0		ret %shifttype32i32 %0
}		}

%shifttype2i64 = type <2 x i64>		%shifttype2i64 = type <2 x i64>
define %shifttype2i64 @shift2i64(%shifttype2i64 %a, %shifttype2i64 %b) {		define %shifttype2i64 @shift2i64(%shifttype2i64 %a, %shifttype2i64 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines	entry:
%0 = lshr %shifttype2i8 %a , %b		%0 = lshr %shifttype2i8 %a , %b
ret %shifttype2i8 %0		ret %shifttype2i8 %0
}		}

%shifttype4i8 = type <4 x i8>		%shifttype4i8 = type <4 x i8>
define %shifttype4i8 @shift4i8(%shifttype4i8 %a, %shifttype4i8 %b) {		define %shifttype4i8 @shift4i8(%shifttype4i8 %a, %shifttype4i8 %b) {
entry:		entry:
; SSE2: shift4i8		; SSE2: shift4i8
; SSE2: cost of 40 {{.*}} lshr		; SSE2: cost of 16 {{.*}} lshr
; SSE2-CODEGEN: shift4i8		; SSE2-CODEGEN: shift4i8
; SSE2-CODEGEN: shrl %cl		; SSE2-CODEGEN: psrld

%0 = lshr %shifttype4i8 %a , %b		%0 = lshr %shifttype4i8 %a , %b
ret %shifttype4i8 %0		ret %shifttype4i8 %0
}		}

%shifttype8i8 = type <8 x i8>		%shifttype8i8 = type <8 x i8>
define %shifttype8i8 @shift8i8(%shifttype8i8 %a, %shifttype8i8 %b) {		define %shifttype8i8 @shift8i8(%shifttype8i8 %a, %shifttype8i8 %b) {
entry:		entry:
▲ Show 20 Lines • Show All 319 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shift-ashr-128.ll

	Show First 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%shift = ashr <2 x i64> %a, %b			%shift = ashr <2 x i64> %a, %b
	ret <2 x i64> %shift			ret <2 x i64> %shift
	}			}

	define <4 x i32> @var_shift_v4i32(<4 x i32> %a, <4 x i32> %b) {			define <4 x i32> @var_shift_v4i32(<4 x i32> %a, <4 x i32> %b) {
	; SSE2-LABEL: var_shift_v4i32:			; SSE2-LABEL: var_shift_v4i32:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: movd %xmm2, %eax			; SSE2-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: movd %xmm2, %ecx			; SSE2-NEXT: psrad %xmm2, %xmm3
	; SSE2-NEXT: sarl %cl, %eax			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrlq $32, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm4
	; SSE2-NEXT: movd %xmm3, %eax			; SSE2-NEXT: psrad %xmm2, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,2,3]			; SSE2-NEXT: movsd {{.*#+}} xmm3 = xmm4[0],xmm3[1]
	; SSE2-NEXT: movd %xmm3, %ecx			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]
	; SSE2-NEXT: sarl %cl, %eax			; SSE2-NEXT: pxor %xmm3, %xmm3
	; SSE2-NEXT: movd %eax, %xmm3			; SSE2-NEXT: movdqa %xmm1, %xmm4
	; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; SSE2-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm3[2],xmm4[3],xmm3[3]
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm5
	; SSE2-NEXT: movd %xmm1, %ecx			; SSE2-NEXT: psrad %xmm4, %xmm5
	; SSE2-NEXT: sarl %cl, %eax			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrad %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSE2-NEXT: movsd {{.*#+}} xmm5 = xmm0[0],xmm5[1]
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: movd %xmm0, %ecx
	; SSE2-NEXT: sarl %cl, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: var_shift_v4i32:			; SSE41-LABEL: var_shift_v4i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrd $1, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: pextrd $1, %xmm1, %ecx			; SSE41-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE41-NEXT: sarl %cl, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm3
	; SSE41-NEXT: movd %xmm0, %edx			; SSE41-NEXT: psrad %xmm2, %xmm3
	; SSE41-NEXT: movd %xmm1, %ecx			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: sarl %cl, %edx			; SSE41-NEXT: psrlq $32, %xmm2
	; SSE41-NEXT: movd %edx, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pinsrd $1, %eax, %xmm2			; SSE41-NEXT: psrad %xmm2, %xmm4
	; SSE41-NEXT: pextrd $2, %xmm0, %eax			; SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm3[4,5,6,7]
	; SSE41-NEXT: pextrd $2, %xmm1, %ecx			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: sarl %cl, %eax			; SSE41-NEXT: pmovzxdq {{.*#+}} xmm3 = xmm1[0],zero,xmm1[1],zero
	; SSE41-NEXT: pinsrd $2, %eax, %xmm2			; SSE41-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; SSE41-NEXT: pextrd $3, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: pextrd $3, %xmm1, %ecx			; SSE41-NEXT: psrad %xmm1, %xmm2
	; SSE41-NEXT: sarl %cl, %eax			; SSE41-NEXT: psrad %xmm3, %xmm0
	; SSE41-NEXT: pinsrd $3, %eax, %xmm2			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm4[2,3],xmm0[4,5],xmm4[6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: var_shift_v4i32:			; AVX1-LABEL: var_shift_v4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpsrldq {{.*#+}} xmm2 = xmm1[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vpextrd $1, %xmm1, %ecx			; AVX1-NEXT: vpsrad %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: sarl %cl, %eax			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vmovd %xmm0, %edx			; AVX1-NEXT: vpsrad %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vmovd %xmm1, %ecx			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: sarl %cl, %edx			; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vmovd %edx, %xmm2			; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpsrad %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
	; AVX1-NEXT: vpextrd $2, %xmm1, %ecx			; AVX1-NEXT: vpsrad %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: sarl %cl, %eax			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpextrd $3, %xmm0, %eax
	; AVX1-NEXT: vpextrd $3, %xmm1, %ecx
	; AVX1-NEXT: sarl %cl, %eax
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: var_shift_v4i32:			; AVX2-LABEL: var_shift_v4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsravd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsravd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = ashr <4 x i32> %a, %b			%shift = ashr <4 x i32> %a, %b
	ret <4 x i32> %shift			ret <4 x i32> %shift
	▲ Show 20 Lines • Show All 548 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%shift = ashr <2 x i64> %a, <i64 1, i64 7>			%shift = ashr <2 x i64> %a, <i64 1, i64 7>
	ret <2 x i64> %shift			ret <2 x i64> %shift
	}			}

	define <4 x i32> @constant_shift_v4i32(<4 x i32> %a) {			define <4 x i32> @constant_shift_v4i32(<4 x i32> %a) {
	; SSE2-LABEL: constant_shift_v4i32:			; SSE2-LABEL: constant_shift_v4i32:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax			; SSE2-NEXT: psrad $7, %xmm1
	; SSE2-NEXT: sarl $7, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: psrad $5, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm2[0],xmm1[1]
	; SSE2-NEXT: movd %xmm2, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
	; SSE2-NEXT: sarl $5, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrad $6, %xmm2
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE2-NEXT: psrad $4, %xmm0
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm0[0],xmm2[1]
	; SSE2-NEXT: sarl $4, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; SSE2-NEXT: movd %xmm0, %eax
	; SSE2-NEXT: sarl $6, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: constant_shift_v4i32:			; SSE41-LABEL: constant_shift_v4i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrd $1, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: sarl $5, %eax			; SSE41-NEXT: psrad $7, %xmm1
	; SSE41-NEXT: movd %xmm0, %ecx			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: sarl $4, %ecx			; SSE41-NEXT: psrad $5, %xmm2
	; SSE41-NEXT: movd %ecx, %xmm1			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pinsrd $1, %eax, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pextrd $2, %xmm0, %eax			; SSE41-NEXT: psrad $6, %xmm1
	; SSE41-NEXT: sarl $6, %eax			; SSE41-NEXT: psrad $4, %xmm0
	; SSE41-NEXT: pinsrd $2, %eax, %xmm1			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pextrd $3, %xmm0, %eax			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE41-NEXT: sarl $7, %eax
	; SSE41-NEXT: pinsrd $3, %eax, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: constant_shift_v4i32:			; AVX1-LABEL: constant_shift_v4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpsrad $7, %xmm0, %xmm1
	; AVX1-NEXT: sarl $5, %eax			; AVX1-NEXT: vpsrad $5, %xmm0, %xmm2
	; AVX1-NEXT: vmovd %xmm0, %ecx			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: sarl $4, %ecx			; AVX1-NEXT: vpsrad $6, %xmm0, %xmm2
	; AVX1-NEXT: vmovd %ecx, %xmm1			; AVX1-NEXT: vpsrad $4, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm1, %xmm1			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; AVX1-NEXT: sarl $6, %eax
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm1, %xmm1
	; AVX1-NEXT: vpextrd $3, %xmm0, %eax
	; AVX1-NEXT: sarl $7, %eax
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm1, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_shift_v4i32:			; AVX2-LABEL: constant_shift_v4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = ashr <4 x i32> %a, <i32 4, i32 5, i32 6, i32 7>			%shift = ashr <4 x i32> %a, <i32 4, i32 5, i32 6, i32 7>
	ret <4 x i32> %shift			ret <4 x i32> %shift
	▲ Show 20 Lines • Show All 289 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shift-ashr-256.ll

Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
%shift = ashr <4 x i64> %a, %b		%shift = ashr <4 x i64> %a, %b
ret <4 x i64> %shift		ret <4 x i64> %shift
}		}

define <8 x i32> @var_shift_v8i32(<8 x i32> %a, <8 x i32> %b) {		define <8 x i32> @var_shift_v8i32(<8 x i32> %a, <8 x i32> %b) {
; AVX1-LABEL: var_shift_v8i32:		; AVX1-LABEL: var_shift_v8i32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpextrd $1, %xmm2, %eax
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX1-NEXT: vpextrd $1, %xmm3, %ecx		; AVX1-NEXT: vpsrldq {{.*#+}} xmm4 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX1-NEXT: sarl %cl, %eax		; AVX1-NEXT: vpsrad %xmm4, %xmm2, %xmm4
; AVX1-NEXT: vmovd %xmm2, %edx		; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm5
; AVX1-NEXT: vmovd %xmm3, %ecx		; AVX1-NEXT: vpsrad %xmm5, %xmm2, %xmm5
; AVX1-NEXT: sarl %cl, %edx		; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vmovd %edx, %xmm4		; AVX1-NEXT: vpxor %xmm5, %xmm5, %xmm5
; AVX1-NEXT: vpinsrd $1, %eax, %xmm4, %xmm4		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm6 = xmm3[2],xmm5[2],xmm3[3],xmm5[3]
; AVX1-NEXT: vpextrd $2, %xmm2, %eax		; AVX1-NEXT: vpsrad %xmm6, %xmm2, %xmm6
; AVX1-NEXT: vpextrd $2, %xmm3, %ecx		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero
; AVX1-NEXT: sarl %cl, %eax		; AVX1-NEXT: vpsrad %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpinsrd $2, %eax, %xmm4, %xmm4		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm6[4,5,6,7]
; AVX1-NEXT: vpextrd $3, %xmm2, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]
; AVX1-NEXT: vpextrd $3, %xmm3, %ecx		; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm1[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX1-NEXT: sarl %cl, %eax		; AVX1-NEXT: vpsrad %xmm3, %xmm0, %xmm3
; AVX1-NEXT: vpinsrd $3, %eax, %xmm4, %xmm2		; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4
; AVX1-NEXT: vpextrd $1, %xmm0, %eax		; AVX1-NEXT: vpsrad %xmm4, %xmm0, %xmm4
; AVX1-NEXT: vpextrd $1, %xmm1, %ecx		; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
; AVX1-NEXT: sarl %cl, %eax		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm4 = xmm1[2],xmm5[2],xmm1[3],xmm5[3]
; AVX1-NEXT: vmovd %xmm0, %edx		; AVX1-NEXT: vpsrad %xmm4, %xmm0, %xmm4
; AVX1-NEXT: vmovd %xmm1, %ecx		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
; AVX1-NEXT: sarl %cl, %edx		; AVX1-NEXT: vpsrad %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovd %edx, %xmm3		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vpinsrd $1, %eax, %xmm3, %xmm3		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
; AVX1-NEXT: vpextrd $2, %xmm0, %eax
; AVX1-NEXT: vpextrd $2, %xmm1, %ecx
; AVX1-NEXT: sarl %cl, %eax
; AVX1-NEXT: vpinsrd $2, %eax, %xmm3, %xmm3
; AVX1-NEXT: vpextrd $3, %xmm0, %eax
; AVX1-NEXT: vpextrd $3, %xmm1, %ecx
; AVX1-NEXT: sarl %cl, %eax
; AVX1-NEXT: vpinsrd $3, %eax, %xmm3, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shift_v8i32:		; AVX2-LABEL: var_shift_v8i32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpsravd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpsravd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = ashr <8 x i32> %a, %b		%shift = ashr <8 x i32> %a, %b
▲ Show 20 Lines • Show All 377 Lines • ▼ Show 20 Lines
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = ashr <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>		%shift = ashr <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>
ret <4 x i64> %shift		ret <4 x i64> %shift
}		}

define <8 x i32> @constant_shift_v8i32(<8 x i32> %a) {		define <8 x i32> @constant_shift_v8i32(<8 x i32> %a) {
; AVX1-LABEL: constant_shift_v8i32:		; AVX1-LABEL: constant_shift_v8i32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vpsrad $7, %xmm0, %xmm1
; AVX1-NEXT: vpextrd $1, %xmm1, %eax		; AVX1-NEXT: vpsrad $5, %xmm0, %xmm2
; AVX1-NEXT: sarl $9, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; AVX1-NEXT: vmovd %xmm1, %ecx		; AVX1-NEXT: vpsrad $6, %xmm0, %xmm2
; AVX1-NEXT: sarl $8, %ecx		; AVX1-NEXT: vpsrad $4, %xmm0, %xmm3
; AVX1-NEXT: vmovd %ecx, %xmm2		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
; AVX1-NEXT: vpextrd $2, %xmm1, %eax		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: sarl $8, %eax		; AVX1-NEXT: vpsrad $7, %xmm0, %xmm2
; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2		; AVX1-NEXT: vpsrad $9, %xmm0, %xmm3
; AVX1-NEXT: vpextrd $3, %xmm1, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; AVX1-NEXT: sarl $7, %eax		; AVX1-NEXT: vpsrad $8, %xmm0, %xmm0
; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm1		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; AVX1-NEXT: vpextrd $1, %xmm0, %eax		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: sarl $5, %eax
; AVX1-NEXT: vmovd %xmm0, %ecx
; AVX1-NEXT: sarl $4, %ecx
; AVX1-NEXT: vmovd %ecx, %xmm2
; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2
; AVX1-NEXT: vpextrd $2, %xmm0, %eax
; AVX1-NEXT: sarl $6, %eax
; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2
; AVX1-NEXT: vpextrd $3, %xmm0, %eax
; AVX1-NEXT: sarl $7, %eax
; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: constant_shift_v8i32:		; AVX2-LABEL: constant_shift_v8i32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0		; AVX2-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = ashr <8 x i32> %a, <i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 8, i32 7>		%shift = ashr <8 x i32> %a, <i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 8, i32 7>
ret <8 x i32> %shift		ret <8 x i32> %shift
▲ Show 20 Lines • Show All 221 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shift-lshr-128.ll

	Show All 40 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = lshr <2 x i64> %a, %b			%shift = lshr <2 x i64> %a, %b
	ret <2 x i64> %shift			ret <2 x i64> %shift
	}			}

	define <4 x i32> @var_shift_v4i32(<4 x i32> %a, <4 x i32> %b) {			define <4 x i32> @var_shift_v4i32(<4 x i32> %a, <4 x i32> %b) {
	; SSE2-LABEL: var_shift_v4i32:			; SSE2-LABEL: var_shift_v4i32:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: movd %xmm2, %eax			; SSE2-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: movd %xmm2, %ecx			; SSE2-NEXT: psrld %xmm2, %xmm3
	; SSE2-NEXT: shrl %cl, %eax			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrlq $32, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm4
	; SSE2-NEXT: movd %xmm3, %eax			; SSE2-NEXT: psrld %xmm2, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,2,3]			; SSE2-NEXT: movsd {{.*#+}} xmm3 = xmm4[0],xmm3[1]
	; SSE2-NEXT: movd %xmm3, %ecx			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,3,2,3]
	; SSE2-NEXT: shrl %cl, %eax			; SSE2-NEXT: pxor %xmm3, %xmm3
	; SSE2-NEXT: movd %eax, %xmm3			; SSE2-NEXT: movdqa %xmm1, %xmm4
	; SSE2-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; SSE2-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm3[2],xmm4[3],xmm3[3]
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm5
	; SSE2-NEXT: movd %xmm1, %ecx			; SSE2-NEXT: psrld %xmm4, %xmm5
	; SSE2-NEXT: shrl %cl, %eax			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrld %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSE2-NEXT: movsd {{.*#+}} xmm5 = xmm0[0],xmm5[1]
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,2,2,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE2-NEXT: movd %xmm0, %ecx
	; SSE2-NEXT: shrl %cl, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: var_shift_v4i32:			; SSE41-LABEL: var_shift_v4i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrd $1, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: pextrd $1, %xmm1, %ecx			; SSE41-NEXT: psrldq {{.*#+}} xmm2 = xmm2[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; SSE41-NEXT: shrl %cl, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm3
	; SSE41-NEXT: movd %xmm0, %edx			; SSE41-NEXT: psrld %xmm2, %xmm3
	; SSE41-NEXT: movd %xmm1, %ecx			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: shrl %cl, %edx			; SSE41-NEXT: psrlq $32, %xmm2
	; SSE41-NEXT: movd %edx, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pinsrd $1, %eax, %xmm2			; SSE41-NEXT: psrld %xmm2, %xmm4
	; SSE41-NEXT: pextrd $2, %xmm0, %eax			; SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm3[4,5,6,7]
	; SSE41-NEXT: pextrd $2, %xmm1, %ecx			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: shrl %cl, %eax			; SSE41-NEXT: pmovzxdq {{.*#+}} xmm3 = xmm1[0],zero,xmm1[1],zero
	; SSE41-NEXT: pinsrd $2, %eax, %xmm2			; SSE41-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; SSE41-NEXT: pextrd $3, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: pextrd $3, %xmm1, %ecx			; SSE41-NEXT: psrld %xmm1, %xmm2
	; SSE41-NEXT: shrl %cl, %eax			; SSE41-NEXT: psrld %xmm3, %xmm0
	; SSE41-NEXT: pinsrd $3, %eax, %xmm2			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm4[2,3],xmm0[4,5],xmm4[6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: var_shift_v4i32:			; AVX1-LABEL: var_shift_v4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpsrldq {{.*#+}} xmm2 = xmm1[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vpextrd $1, %xmm1, %ecx			; AVX1-NEXT: vpsrld %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: shrl %cl, %eax			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3
	; AVX1-NEXT: vmovd %xmm0, %edx			; AVX1-NEXT: vpsrld %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vmovd %xmm1, %ecx			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: shrl %cl, %edx			; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vmovd %edx, %xmm2			; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpsrld %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
	; AVX1-NEXT: vpextrd $2, %xmm1, %ecx			; AVX1-NEXT: vpsrld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: shrl %cl, %eax			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vpextrd $3, %xmm0, %eax
	; AVX1-NEXT: vpextrd $3, %xmm1, %ecx
	; AVX1-NEXT: shrl %cl, %eax
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: var_shift_v4i32:			; AVX2-LABEL: var_shift_v4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = lshr <4 x i32> %a, %b			%shift = lshr <4 x i32> %a, %b
	ret <4 x i32> %shift			ret <4 x i32> %shift
	▲ Show 20 Lines • Show All 380 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = lshr <2 x i64> %a, <i64 1, i64 7>			%shift = lshr <2 x i64> %a, <i64 1, i64 7>
	ret <2 x i64> %shift			ret <2 x i64> %shift
	}			}

	define <4 x i32> @constant_shift_v4i32(<4 x i32> %a) {			define <4 x i32> @constant_shift_v4i32(<4 x i32> %a) {
	; SSE2-LABEL: constant_shift_v4i32:			; SSE2-LABEL: constant_shift_v4i32:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax			; SSE2-NEXT: psrld $7, %xmm1
	; SSE2-NEXT: shrl $7, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: psrld $5, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm2[0],xmm1[1]
	; SSE2-NEXT: movd %xmm2, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
	; SSE2-NEXT: shrl $5, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrld $6, %xmm2
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE2-NEXT: psrld $4, %xmm0
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm0[0],xmm2[1]
	; SSE2-NEXT: shrl $4, %eax			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; SSE2-NEXT: movd %xmm0, %eax
	; SSE2-NEXT: shrl $6, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: constant_shift_v4i32:			; SSE41-LABEL: constant_shift_v4i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrd $1, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: shrl $5, %eax			; SSE41-NEXT: psrld $7, %xmm1
	; SSE41-NEXT: movd %xmm0, %ecx			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: shrl $4, %ecx			; SSE41-NEXT: psrld $5, %xmm2
	; SSE41-NEXT: movd %ecx, %xmm1			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pinsrd $1, %eax, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pextrd $2, %xmm0, %eax			; SSE41-NEXT: psrld $6, %xmm1
	; SSE41-NEXT: shrl $6, %eax			; SSE41-NEXT: psrld $4, %xmm0
	; SSE41-NEXT: pinsrd $2, %eax, %xmm1			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pextrd $3, %xmm0, %eax			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE41-NEXT: shrl $7, %eax
	; SSE41-NEXT: pinsrd $3, %eax, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: constant_shift_v4i32:			; AVX1-LABEL: constant_shift_v4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpsrld $7, %xmm0, %xmm1
	; AVX1-NEXT: shrl $5, %eax			; AVX1-NEXT: vpsrld $5, %xmm0, %xmm2
	; AVX1-NEXT: vmovd %xmm0, %ecx			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: shrl $4, %ecx			; AVX1-NEXT: vpsrld $6, %xmm0, %xmm2
	; AVX1-NEXT: vmovd %ecx, %xmm1			; AVX1-NEXT: vpsrld $4, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm1, %xmm1			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; AVX1-NEXT: shrl $6, %eax
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm1, %xmm1
	; AVX1-NEXT: vpextrd $3, %xmm0, %eax
	; AVX1-NEXT: shrl $7, %eax
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm1, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_shift_v4i32:			; AVX2-LABEL: constant_shift_v4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%shift = lshr <4 x i32> %a, <i32 4, i32 5, i32 6, i32 7>			%shift = lshr <4 x i32> %a, <i32 4, i32 5, i32 6, i32 7>
	ret <4 x i32> %shift			ret <4 x i32> %shift
	}			}
	▲ Show 20 Lines • Show All 206 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shift-lshr-256.ll

Show All 27 Lines	; AVX2-NEXT: retq
%shift = lshr <4 x i64> %a, %b		%shift = lshr <4 x i64> %a, %b
ret <4 x i64> %shift		ret <4 x i64> %shift
}		}

define <8 x i32> @var_shift_v8i32(<8 x i32> %a, <8 x i32> %b) {		define <8 x i32> @var_shift_v8i32(<8 x i32> %a, <8 x i32> %b) {
; AVX1-LABEL: var_shift_v8i32:		; AVX1-LABEL: var_shift_v8i32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vpextrd $1, %xmm2, %eax
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX1-NEXT: vpextrd $1, %xmm3, %ecx		; AVX1-NEXT: vpsrldq {{.*#+}} xmm4 = xmm3[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX1-NEXT: shrl %cl, %eax		; AVX1-NEXT: vpsrld %xmm4, %xmm2, %xmm4
; AVX1-NEXT: vmovd %xmm2, %edx		; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm5
; AVX1-NEXT: vmovd %xmm3, %ecx		; AVX1-NEXT: vpsrld %xmm5, %xmm2, %xmm5
; AVX1-NEXT: shrl %cl, %edx		; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vmovd %edx, %xmm4		; AVX1-NEXT: vpxor %xmm5, %xmm5, %xmm5
; AVX1-NEXT: vpinsrd $1, %eax, %xmm4, %xmm4		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm6 = xmm3[2],xmm5[2],xmm3[3],xmm5[3]
; AVX1-NEXT: vpextrd $2, %xmm2, %eax		; AVX1-NEXT: vpsrld %xmm6, %xmm2, %xmm6
; AVX1-NEXT: vpextrd $2, %xmm3, %ecx		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero
; AVX1-NEXT: shrl %cl, %eax		; AVX1-NEXT: vpsrld %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpinsrd $2, %eax, %xmm4, %xmm4		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm6[4,5,6,7]
; AVX1-NEXT: vpextrd $3, %xmm2, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]
; AVX1-NEXT: vpextrd $3, %xmm3, %ecx		; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm1[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX1-NEXT: shrl %cl, %eax		; AVX1-NEXT: vpsrld %xmm3, %xmm0, %xmm3
; AVX1-NEXT: vpinsrd $3, %eax, %xmm4, %xmm2		; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4
; AVX1-NEXT: vpextrd $1, %xmm0, %eax		; AVX1-NEXT: vpsrld %xmm4, %xmm0, %xmm4
; AVX1-NEXT: vpextrd $1, %xmm1, %ecx		; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
; AVX1-NEXT: shrl %cl, %eax		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm4 = xmm1[2],xmm5[2],xmm1[3],xmm5[3]
; AVX1-NEXT: vmovd %xmm0, %edx		; AVX1-NEXT: vpsrld %xmm4, %xmm0, %xmm4
; AVX1-NEXT: vmovd %xmm1, %ecx		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
; AVX1-NEXT: shrl %cl, %edx		; AVX1-NEXT: vpsrld %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovd %edx, %xmm3		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm4[4,5,6,7]
; AVX1-NEXT: vpinsrd $1, %eax, %xmm3, %xmm3		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,3],xmm0[4,5],xmm3[6,7]
; AVX1-NEXT: vpextrd $2, %xmm0, %eax
; AVX1-NEXT: vpextrd $2, %xmm1, %ecx
; AVX1-NEXT: shrl %cl, %eax
; AVX1-NEXT: vpinsrd $2, %eax, %xmm3, %xmm3
; AVX1-NEXT: vpextrd $3, %xmm0, %eax
; AVX1-NEXT: vpextrd $3, %xmm1, %ecx
; AVX1-NEXT: shrl %cl, %eax
; AVX1-NEXT: vpinsrd $3, %eax, %xmm3, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shift_v8i32:		; AVX2-LABEL: var_shift_v8i32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpsrlvd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpsrlvd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = lshr <8 x i32> %a, %b		%shift = lshr <8 x i32> %a, %b
▲ Show 20 Lines • Show All 252 Lines • ▼ Show 20 Lines
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = lshr <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>		%shift = lshr <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>
ret <4 x i64> %shift		ret <4 x i64> %shift
}		}

define <8 x i32> @constant_shift_v8i32(<8 x i32> %a) {		define <8 x i32> @constant_shift_v8i32(<8 x i32> %a) {
; AVX1-LABEL: constant_shift_v8i32:		; AVX1-LABEL: constant_shift_v8i32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vpsrld $7, %xmm0, %xmm1
; AVX1-NEXT: vpextrd $1, %xmm1, %eax		; AVX1-NEXT: vpsrld $5, %xmm0, %xmm2
; AVX1-NEXT: shrl $9, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
; AVX1-NEXT: vmovd %xmm1, %ecx		; AVX1-NEXT: vpsrld $6, %xmm0, %xmm2
; AVX1-NEXT: shrl $8, %ecx		; AVX1-NEXT: vpsrld $4, %xmm0, %xmm3
; AVX1-NEXT: vmovd %ecx, %xmm2		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
; AVX1-NEXT: vpextrd $2, %xmm1, %eax		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: shrl $8, %eax		; AVX1-NEXT: vpsrld $7, %xmm0, %xmm2
; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2		; AVX1-NEXT: vpsrld $9, %xmm0, %xmm3
; AVX1-NEXT: vpextrd $3, %xmm1, %eax		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
; AVX1-NEXT: shrl $7, %eax		; AVX1-NEXT: vpsrld $8, %xmm0, %xmm0
; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm1		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
; AVX1-NEXT: vpextrd $1, %xmm0, %eax		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: shrl $5, %eax
; AVX1-NEXT: vmovd %xmm0, %ecx
; AVX1-NEXT: shrl $4, %ecx
; AVX1-NEXT: vmovd %ecx, %xmm2
; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2
; AVX1-NEXT: vpextrd $2, %xmm0, %eax
; AVX1-NEXT: shrl $6, %eax
; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2
; AVX1-NEXT: vpextrd $3, %xmm0, %eax
; AVX1-NEXT: shrl $7, %eax
; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: constant_shift_v8i32:		; AVX2-LABEL: constant_shift_v8i32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %ymm0, %ymm0		; AVX2-NEXT: vpsrlvd {{.*}}(%rip), %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%shift = lshr <8 x i32> %a, <i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 8, i32 7>		%shift = lshr <8 x i32> %a, <i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 8, i32 7>
ret <8 x i32> %shift		ret <8 x i32> %shift
▲ Show 20 Lines • Show All 178 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/widen_load-2.ll

	Show First 20 Lines • Show All 188 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: pshufb %[[SHUFFLE_MASK]], %[[CONSTANT1]]			; CHECK-NEXT: pshufb %[[SHUFFLE_MASK]], %[[CONSTANT1]]
	; CHECK-NEXT: pmovzxwq %[[CONSTANT1]], %[[CONSTANT1]]			; CHECK-NEXT: pmovzxwq %[[CONSTANT1]], %[[CONSTANT1]]
	; CHECK-NEXT: movd %[[CONSTANT1]], %e[[R1:[abcd]]]x			; CHECK-NEXT: movd %[[CONSTANT1]], %e[[R1:[abcd]]]x
	; CHECK-NEXT: movw %[[R1]]x, (%[[PTR1:.*]])			; CHECK-NEXT: movw %[[R1]]x, (%[[PTR1:.*]])
	; CHECK-NEXT: movb $1, 2(%[[PTR1]])			; CHECK-NEXT: movb $1, 2(%[[PTR1]])
	; CHECK-NEXT: movl (%[[PTR0]]), [[TMP1:%e[abcd]+x]]			; CHECK-NEXT: movl (%[[PTR0]]), [[TMP1:%e[abcd]+x]]
	; CHECK-NEXT: movl [[TMP1]], [[TMP2:.*]]			; CHECK-NEXT: movl [[TMP1]], [[TMP2:.*]]
	; CHECK-NEXT: pmovzxbd [[TMP2]], %[[X0:xmm[0-9]+]]			; CHECK-NEXT: pmovzxbd [[TMP2]], %[[X0:xmm[0-9]+]]
	; CHECK-NEXT: pextrd $1, %[[X0]], %e[[R0:[abcd]]]x			; CHECK-NEXT: movdqa %[[X0]], %[[X1:xmm[0-9]+]]
	; CHECK-NEXT: shrl %e[[R0]]x			; CHECK-NEXT: psrld $1, %[[X1]]
	; CHECK-NEXT: movd %[[X0]], %e[[R1:[abcd]]]x			; CHECK-NEXT: pblendw $192, %[[X0]], %[[X1]]
	; CHECK-NEXT: shrl %e[[R1]]x
	; CHECK-NEXT: movd %e[[R1]]x, %[[X1:xmm[0-9]+]]
	; CHECK-NEXT: pinsrd $1, %e[[R0]]x, %[[X1]]
	; CHECK-NEXT: pextrd $2, %[[X0]], %e[[R0:[abcd]]]x
	; CHECK-NEXT: shrl %e[[R0]]x
	; CHECK-NEXT: pinsrd $2, %e[[R0]]x, %[[X1]]
	; CHECK-NEXT: pextrd $3, %[[X0]], %e[[R0:[abcd]]]x
	; CHECK-NEXT: pinsrd $3, %e[[R0]]x, %[[X1]]
	; CHECK-NEXT: pextrb $8, %[[X1]], 2(%{{.*}})			; CHECK-NEXT: pextrb $8, %[[X1]], 2(%{{.*}})
	; CHECK-NEXT: pshufb %[[SHUFFLE_MASK]], %[[X1]]			; CHECK-NEXT: pshufb %[[SHUFFLE_MASK]], %[[X1]]
	; CHECK-NEXT: pmovzxwq %[[X1]], %[[X3:xmm[0-9]+]]			; CHECK-NEXT: pmovzxwq %[[X1]], %[[X3:xmm[0-9]+]]
	; CHECK-NEXT: movd %[[X3]], %e[[R0:[abcd]]]x			; CHECK-NEXT: movd %[[X3]], %e[[R0:[abcd]]]x
	; CHECK-NEXT: movw %[[R0]]x, (%{{.*}})			; CHECK-NEXT: movw %[[R0]]x, (%{{.*}})

	entry:			entry:
	%storetmp = bitcast %i8vec3pack* %X to <3 x i8>*			%storetmp = bitcast %i8vec3pack* %X to <3 x i8>*
	Show All 13 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Vectorized v4i32 non-uniform shifts.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 29520

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

llvm/trunk/lib/Target/X86/X86TargetTransformInfo.cpp

llvm/trunk/test/Analysis/CostModel/X86/testshiftashr.ll

llvm/trunk/test/Analysis/CostModel/X86/testshiftlshr.ll

llvm/trunk/test/CodeGen/X86/vector-shift-ashr-128.ll

llvm/trunk/test/CodeGen/X86/vector-shift-ashr-256.ll

llvm/trunk/test/CodeGen/X86/vector-shift-lshr-128.ll

llvm/trunk/test/CodeGen/X86/vector-shift-lshr-256.ll

llvm/trunk/test/CodeGen/X86/widen_load-2.ll

[X86][SSE] Vectorized v4i32 non-uniform shifts.
ClosedPublic