This is an archive of the discontinued LLVM Phabricator instance.

[X86][XOP] Add support for lowering vector rotations
ClosedPublic

Authored by RKSimon on Oct 18 2015, 7:04 AM.

Download Raw Diff

Details

Reviewers

spatel
qcolombet
delena
andreadb

Commits

rG707cc06e1570: Sema: diagnose PMFs passed through registers to inline assembly
rGd5ef318b5baf: [X86][XOP] Add support for lowering vector rotations
rL251188: [X86][XOP] Add support for lowering vector rotations

Summary

This patch adds support for lowering to the XOP VPROT / VPROTI vector bit rotation instructions.

This has required changes to the DAGCombiner rotation pattern matching to support vector types - so far I've only changed it to support splat vectors, but generalising this further is feasible in the future. I can commit this separately if people require but there is no way to add tests to just this part - I was surprised to find that other targets (PPC ALTIVEC?) didn't already have vector rotate support.

Elena - I've tried to set up the X86 lowering to make it straightforward to add AVX512 rotations in the future.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon updated this revision to Diff 37708.Oct 18 2015, 7:04 AM

RKSimon retitled this revision from to [X86][XOP] Add support for lowering vector rotations.

RKSimon updated this object.

RKSimon added reviewers: qcolombet, delena, andreadb, spatel.

RKSimon set the repository for this revision to rL LLVM.

RKSimon added a subscriber: llvm-commits.

Hi Simon,

I'd write X86 specific combiner for vector rotation because

VPROT supports 8 bits immediates only
AVX-512 supports variable rotation

And getConstantSplatNode() does not allows "undef". Do you know this?

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
3906 ↗	(On Diff #37708)	Intel XOP set allows only 8 bit immediate even EltSizeInBits=64.
lib/Target/X86/X86ISelLowering.cpp
18845 ↗	(On Diff #37708)	I suppose you can put assert(Subtarget->hasXOP()).
18852 ↗	(On Diff #37708)	One "if" is enough here. if (auto *RotateConst = Amt->getConstantSplatNode())
18856 ↗	(On Diff #37708)	I think that the value should be positive here. You already know the rotate direction. And it should fit in 8 bits.

In D13851#269982, @delena wrote:

Hi Simon,

I'd write X86 specific combiner for vector rotation because

VPROT supports 8 bits immediates only

AVX-512 supports variable rotation

I'm not sure I agree - AMD XOP has both (128-bit) vector rotation by variable (per element not like SSE2 shifts) and by immediate (same immediate value for all elements) - similar enough to AVX512 but also pretty generic.

The changes to DAGCombiner are limited on purpose, they're just introducing basic vector type support to rotation pattern matching code that at the moment only works for scalars. All of the DAGCombiner changes will work fine for XOP / AVX512 on x86 targets, and could easily be used for other targets (I mentioned ALTIVEC but there may be others too).

And getConstantSplatNode() does not allows "undef". Do you know this?

Yes - I just didn't want to overload this patch with changes to the DAGCombiner as we don't yet have any targets that lower rotations of vector types (with which to test it), the changes were just enough to get it working for basic examples. With that in place I can then extend the DAGCombiner changes to be handle both all cases of scalar and vector types.

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
3906 ↗	(On Diff #37708)	This is referring to the size of the scalar element to check for a rotation pattern from 2 shifts - it has nothing to do with instruction sizes and isn't target specific.
lib/Target/X86/X86ISelLowering.cpp
18845 ↗	(On Diff #37708)	OK - as I said I was trying to setup for you guys to be able to easily add AVX512 support.
18856 ↗	(On Diff #37708)	Would you prefer I add an assert to prove this?

Could you, please, add a test with variable rotation-right that requires the "sub" ?
One test with negative immediate.
And one test for 256-bit vector, just to cover all lines that you added.

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
3906 ↗	(On Diff #37708)	Agree. thank you.
lib/Target/X86/X86ISelLowering.cpp
18856 ↗	(On Diff #37708)	Yes, I suppose you don't need zextOrTrunc() here. Just extract the integer and check the size with assert.

Updated with 256-bit tests. I've removed ROTR lowering from XOP for now - we don't have any combines that just create ROTR (all attempt to lower with either ROTL/ROTR depending on what is legal/custom), so we can avoid the extra cost of the subtract and always use ROTL on XOP.

RKSimon marked 2 inline comments as done.Oct 20 2015, 2:26 PM

RKSimon added inline comments.

lib/Target/X86/X86ISelLowering.cpp
18843 ↗	(On Diff #37920)	I need both if() as we need to try to cast to BuildVectorSDNode before we can extract the splat.

In D13851#271535, @RKSimon wrote:

Updated with 256-bit tests. I've removed ROTR lowering from XOP for now - we don't have any combines that just create ROTR (all attempt to lower with either ROTL/ROTR depending on what is legal/custom), so we can avoid the extra cost of the subtract and always use ROTL on XOP.

The rotation immediate can be negative. It will mean rotation right. I assume that the combiner catches this scenario and generates ROTL with negative value. Could you, please, add a test for this?

In D13851#271893, @delena wrote:

In D13851#271535, @RKSimon wrote:

Updated with 256-bit tests. I've removed ROTR lowering from XOP for now - we don't have any combines that just create ROTR (all attempt to lower with either ROTL/ROTR depending on what is legal/custom), so we can avoid the extra cost of the subtract and always use ROTL on XOP.

The rotation immediate can be negative. It will mean rotation right. I assume that the combiner catches this scenario and generates ROTL with negative value. Could you, please, add a test for this?

I've tried to create such a test but without success - similar to shifts, for the ISD rotate ops any value less than 0 or greater than/equal to bitsize is undefined so I consider this to be correct for the XOP lowering. I've already removed the unnecessary XOP lowering of ISD::ROTR.

Would updating the lowering assert to check that the (sign extended rotation) constants are in range be satisfactory instead? Failing that I would have to add a ((1 << bitsize) - 1) mask to force the rotation to be in range which I believe isn't necessary in the same way that we don't do this for AVX2/XOP shifts by variable.

The rotation immediate can be negative. It will mean rotation right. I assume that the combiner catches this scenario and generates ROTL with negative value. Could you, please, add a test for this?

I've tried to create such a test but without success - similar to shifts, for the ISD rotate ops any value less than 0 or greater than/equal to bitsize is undefined so I consider this to be correct for the XOP lowering. I've already removed the unnecessary XOP lowering of ISD::ROTR.

Would updating the lowering assert to check that the (sign extended rotation) constants are in range be satisfactory instead? Failing that I would have to add a ((1 << bitsize) - 1) mask to force the rotation to be in range which I believe isn't necessary in the same way that we don't do this for AVX2/XOP shifts by variable.

I ran a scalar test with debugger to see what happens. I modified the DAG combiner and set ISD::ROTR to illegal. So I worked only with ROTL. Now I see that immediate is always positive.
Because "rotr $25" and "rotl $7" for 32 bit elt are the same.
Now I tried this test case:

define i32 @rotate_right_32(i32 %a, i32 %b) {
entry:

%and = and i32 %b, 31
%shl = lshr i32 %a, %and
%0 = sub i32 0, %b
%and3 = and i32 %0, 31
%shr = shl i32 %a, %and3
%or = or i32 %shl, %shr
ret i32 %or

}
With disabled ROTR I received one instruction more:

negl    %esi
movb    %sil, %cl
roll    %cl, %edi
movl    %edi, %eax
retq

And this code when we have the both ROTR and ROTL

movb    %sil, %cl
rorl    %cl, %edi
movl    %edi, %eax
retq

I'm almost sure that your code is correct. Could you, please, check the vector version of the test above? You should see the "negl" operation, probably in "sub" form.
And if you see that the code is correct, you can commit.
Thank you.

Thanks Elena, I ran that code replacing i32 with <4 x i32> and got the following as you expected:

vpxor   %xmm2, %xmm2, %xmm2
vpsubd  %xmm1, %xmm2, %xmm1
vpand   .LCPI1_0(%rip), %xmm1, %xmm1
vprotd  %xmm1, %xmm0, %xmm0
retq

Thank you for checking this. LGTM.

Closed by commit rL251188: [X86][XOP] Add support for lowering vector rotations (authored by RKSimon). · Explain WhyOct 24 2015, 6:19 AM

This revision was automatically updated to reflect the committed changes.

RKSimon mentioned this in rL251197: [DAGCombiner] Generalize masking of constant rotates..Oct 24 2015, 11:47 AM

• chatur01 mentioned this in D14082: [ARM] Expand ROTL and ROTR of vector value types.Oct 26 2015, 10:03 AM

• chatur01 mentioned this in rL251401: [ARM] Expand ROTL and ROTR of vector value types.Oct 27 2015, 3:27 AM

compnerd added a commit: rG707cc06e1570: Sema: diagnose PMFs passed through registers to inline assembly.Dec 9 2022, 8:59 AM

Herald added projects: Restricted Project, Restricted Project. · View Herald TranscriptDec 9 2022, 8:59 AM

Herald added subscribers: steven.zhang, pengfei. · View Herald Transcript

Revision Contents

Path

Size

llvm/

trunk/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

110 lines

Target/

X86/

X86ISelLowering.cpp

47 lines

test/

CodeGen/

X86/

vector-rotate-128.ll

114 lines

vector-rotate-256.ll

314 lines

Diff 38302

llvm/trunk/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,790 Lines • ▼ Show 20 Lines	if (!VT.isVector() &&
return SDValue(N, 0);		return SDValue(N, 0);

return SDValue();		return SDValue();
}		}

/// Match "(X shl/srl V1) & V2" where V2 may not be present.		/// Match "(X shl/srl V1) & V2" where V2 may not be present.
static bool MatchRotateHalf(SDValue Op, SDValue &Shift, SDValue &Mask) {		static bool MatchRotateHalf(SDValue Op, SDValue &Shift, SDValue &Mask) {
if (Op.getOpcode() == ISD::AND) {		if (Op.getOpcode() == ISD::AND) {
if (isa<ConstantSDNode>(Op.getOperand(1))) {		if (isConstOrConstSplat(Op.getOperand(1))) {
Mask = Op.getOperand(1);		Mask = Op.getOperand(1);
Op = Op.getOperand(0);		Op = Op.getOperand(0);
} else {		} else {
return false;		return false;
}		}
}		}

if (Op.getOpcode() == ISD::SRL \|\| Op.getOpcode() == ISD::SHL) {		if (Op.getOpcode() == ISD::SRL \|\| Op.getOpcode() == ISD::SHL) {
Shift = Op;		Shift = Op;
return true;		return true;
}		}

return false;		return false;
}		}

// Return true if we can prove that, whenever Neg and Pos are both in the		// Return true if we can prove that, whenever Neg and Pos are both in the
// range [0, OpSize), Neg == (Pos == 0 ? 0 : OpSize - Pos). This means that		// range [0, EltSize), Neg == (Pos == 0 ? 0 : EltSize - Pos). This means that
// for two opposing shifts shift1 and shift2 and a value X with OpBits bits:		// for two opposing shifts shift1 and shift2 and a value X with OpBits bits:
//		//
// (or (shift1 X, Neg), (shift2 X, Pos))		// (or (shift1 X, Neg), (shift2 X, Pos))
//		//
// reduces to a rotate in direction shift2 by Pos or (equivalently) a rotate		// reduces to a rotate in direction shift2 by Pos or (equivalently) a rotate
// in direction shift1 by Neg. The range [0, OpSize) means that we only need		// in direction shift1 by Neg. The range [0, EltSize) means that we only need
// to consider shift amounts with defined behavior.		// to consider shift amounts with defined behavior.
static bool matchRotateSub(SDValue Pos, SDValue Neg, unsigned OpSize) {		static bool matchRotateSub(SDValue Pos, SDValue Neg, unsigned EltSize) {
// If OpSize is a power of 2 then:		// If EltSize is a power of 2 then:
//		//
// (a) (Pos == 0 ? 0 : OpSize - Pos) == (OpSize - Pos) & (OpSize - 1)		// (a) (Pos == 0 ? 0 : EltSize - Pos) == (EltSize - Pos) & (EltSize - 1)
// (b) Neg == Neg & (OpSize - 1) whenever Neg is in [0, OpSize).		// (b) Neg == Neg & (EltSize - 1) whenever Neg is in [0, EltSize).
//		//
// So if OpSize is a power of 2 and Neg is (and Neg', OpSize-1), we check		// So if EltSize is a power of 2 and Neg is (and Neg', EltSize-1), we check
// for the stronger condition:		// for the stronger condition:
//		//
// Neg & (OpSize - 1) == (OpSize - Pos) & (OpSize - 1) [A]		// Neg & (EltSize - 1) == (EltSize - Pos) & (EltSize - 1) [A]
//		//
// for all Neg and Pos. Since Neg & (OpSize - 1) == Neg' & (OpSize - 1)		// for all Neg and Pos. Since Neg & (EltSize - 1) == Neg' & (EltSize - 1)
// we can just replace Neg with Neg' for the rest of the function.		// we can just replace Neg with Neg' for the rest of the function.
//		//
// In other cases we check for the even stronger condition:		// In other cases we check for the even stronger condition:
//		//
// Neg == OpSize - Pos [B]		// Neg == EltSize - Pos [B]
//		//
// for all Neg and Pos. Note that the (or ...) then invokes undefined		// for all Neg and Pos. Note that the (or ...) then invokes undefined
// behavior if Pos == 0 (and consequently Neg == OpSize).		// behavior if Pos == 0 (and consequently Neg == EltSize).
//		//
// We could actually use [A] whenever OpSize is a power of 2, but the		// We could actually use [A] whenever EltSize is a power of 2, but the
// only extra cases that it would match are those uninteresting ones		// only extra cases that it would match are those uninteresting ones
// where Neg and Pos are never in range at the same time. E.g. for		// where Neg and Pos are never in range at the same time. E.g. for
// OpSize == 32, using [A] would allow a Neg of the form (sub 64, Pos)		// EltSize == 32, using [A] would allow a Neg of the form (sub 64, Pos)
// as well as (sub 32, Pos), but:		// as well as (sub 32, Pos), but:
//		//
// (or (shift1 X, (sub 64, Pos)), (shift2 X, Pos))		// (or (shift1 X, (sub 64, Pos)), (shift2 X, Pos))
//		//
// always invokes undefined behavior for 32-bit X.		// always invokes undefined behavior for 32-bit X.
//		//
// Below, Mask == OpSize - 1 when using [A] and is all-ones otherwise.		// Below, Mask == EltSize - 1 when using [A] and is all-ones otherwise.
unsigned MaskLoBits = 0;		unsigned MaskLoBits = 0;
if (Neg.getOpcode() == ISD::AND &&		if (Neg.getOpcode() == ISD::AND && isPowerOf2_64(EltSize)) {
isPowerOf2_64(OpSize) &&		if (ConstantSDNode *NegC = isConstOrConstSplat(Neg.getOperand(1))) {
Neg.getOperand(1).getOpcode() == ISD::Constant &&		if (NegC->getAPIntValue() == EltSize - 1) {
cast<ConstantSDNode>(Neg.getOperand(1))->getAPIntValue() == OpSize - 1) {
Neg = Neg.getOperand(0);		Neg = Neg.getOperand(0);
MaskLoBits = Log2_64(OpSize);		MaskLoBits = Log2_64(EltSize);
		}
		}
}		}

// Check whether Neg has the form (sub NegC, NegOp1) for some NegC and NegOp1.		// Check whether Neg has the form (sub NegC, NegOp1) for some NegC and NegOp1.
if (Neg.getOpcode() != ISD::SUB)		if (Neg.getOpcode() != ISD::SUB)
return 0;		return 0;
ConstantSDNode *NegC = dyn_cast<ConstantSDNode>(Neg.getOperand(0));		ConstantSDNode *NegC = isConstOrConstSplat(Neg.getOperand(0));
if (!NegC)		if (!NegC)
return 0;		return 0;
SDValue NegOp1 = Neg.getOperand(1);		SDValue NegOp1 = Neg.getOperand(1);

// On the RHS of [A], if Pos is Pos' & (OpSize - 1), just replace Pos with		// On the RHS of [A], if Pos is Pos' & (EltSize - 1), just replace Pos with
// Pos'. The truncation is redundant for the purpose of the equality.		// Pos'. The truncation is redundant for the purpose of the equality.
if (MaskLoBits &&		if (MaskLoBits && Pos.getOpcode() == ISD::AND)
Pos.getOpcode() == ISD::AND &&		if (ConstantSDNode *PosC = isConstOrConstSplat(Pos.getOperand(1)))
Pos.getOperand(1).getOpcode() == ISD::Constant &&		if (PosC->getAPIntValue() == EltSize - 1)
cast<ConstantSDNode>(Pos.getOperand(1))->getAPIntValue() == OpSize - 1)
Pos = Pos.getOperand(0);		Pos = Pos.getOperand(0);

// The condition we need is now:		// The condition we need is now:
//		//
// (NegC - NegOp1) & Mask == (OpSize - Pos) & Mask		// (NegC - NegOp1) & Mask == (EltSize - Pos) & Mask
//		//
// If NegOp1 == Pos then we need:		// If NegOp1 == Pos then we need:
//		//
// OpSize & Mask == NegC & Mask		// EltSize & Mask == NegC & Mask
//		//
// (because "x & Mask" is a truncation and distributes through subtraction).		// (because "x & Mask" is a truncation and distributes through subtraction).
APInt Width;		APInt Width;
if (Pos == NegOp1)		if (Pos == NegOp1)
Width = NegC->getAPIntValue();		Width = NegC->getAPIntValue();

// Check for cases where Pos has the form (add NegOp1, PosC) for some PosC.		// Check for cases where Pos has the form (add NegOp1, PosC) for some PosC.
// Then the condition we want to prove becomes:		// Then the condition we want to prove becomes:
//		//
// (NegC - NegOp1) & Mask == (OpSize - (NegOp1 + PosC)) & Mask		// (NegC - NegOp1) & Mask == (EltSize - (NegOp1 + PosC)) & Mask
//		//
// which, again because "x & Mask" is a truncation, becomes:		// which, again because "x & Mask" is a truncation, becomes:
//		//
// NegC & Mask == (OpSize - PosC) & Mask		// NegC & Mask == (EltSize - PosC) & Mask
// OpSize & Mask == (NegC + PosC) & Mask		// EltSize & Mask == (NegC + PosC) & Mask
else if (Pos.getOpcode() == ISD::ADD &&		else if (Pos.getOpcode() == ISD::ADD && Pos.getOperand(0) == NegOp1) {
Pos.getOperand(0) == NegOp1 &&		if (ConstantSDNode *PosC = isConstOrConstSplat(Pos.getOperand(1)))
Pos.getOperand(1).getOpcode() == ISD::Constant)		Width = PosC->getAPIntValue() + NegC->getAPIntValue();
Width = (cast<ConstantSDNode>(Pos.getOperand(1))->getAPIntValue() +
NegC->getAPIntValue());
else		else
return false;		return false;
		} else
		return false;

// Now we just need to check that OpSize & Mask == Width & Mask.		// Now we just need to check that EltSize & Mask == Width & Mask.
if (MaskLoBits)		if (MaskLoBits)
// Opsize & Mask is 0 since Mask is Opsize - 1.		// EltSize & Mask is 0 since Mask is EltSize - 1.
return Width.getLoBits(MaskLoBits) == 0;		return Width.getLoBits(MaskLoBits) == 0;
return Width == OpSize;		return Width == EltSize;
}		}

// A subroutine of MatchRotate used once we have found an OR of two opposite		// A subroutine of MatchRotate used once we have found an OR of two opposite
// shifts of Shifted. If Neg == <operand size> - Pos then the OR reduces		// shifts of Shifted. If Neg == <operand size> - Pos then the OR reduces
// to both (PosOpcode Shifted, Pos) and (NegOpcode Shifted, Neg), with the		// to both (PosOpcode Shifted, Pos) and (NegOpcode Shifted, Neg), with the
// former being preferred if supported. InnerPos and InnerNeg are Pos and		// former being preferred if supported. InnerPos and InnerNeg are Pos and
// Neg with outer conversions stripped away.		// Neg with outer conversions stripped away.
SDNode *DAGCombiner::MatchRotatePosNeg(SDValue Shifted, SDValue Pos,		SDNode *DAGCombiner::MatchRotatePosNeg(SDValue Shifted, SDValue Pos,
SDValue Neg, SDValue InnerPos,		SDValue Neg, SDValue InnerPos,
SDValue InnerNeg, unsigned PosOpcode,		SDValue InnerNeg, unsigned PosOpcode,
unsigned NegOpcode, SDLoc DL) {		unsigned NegOpcode, SDLoc DL) {
// fold (or (shl x, (*ext y)),		// fold (or (shl x, (*ext y)),
// (srl x, (*ext (sub 32, y)))) ->		// (srl x, (*ext (sub 32, y)))) ->
// (rotl x, y) or (rotr x, (sub 32, y))		// (rotl x, y) or (rotr x, (sub 32, y))
//		//
// fold (or (shl x, (*ext (sub 32, y))),		// fold (or (shl x, (*ext (sub 32, y))),
// (srl x, (*ext y))) ->		// (srl x, (*ext y))) ->
// (rotr x, y) or (rotl x, (sub 32, y))		// (rotr x, y) or (rotl x, (sub 32, y))
EVT VT = Shifted.getValueType();		EVT VT = Shifted.getValueType();
if (matchRotateSub(InnerPos, InnerNeg, VT.getSizeInBits())) {		if (matchRotateSub(InnerPos, InnerNeg, VT.getScalarSizeInBits())) {
bool HasPos = TLI.isOperationLegalOrCustom(PosOpcode, VT);		bool HasPos = TLI.isOperationLegalOrCustom(PosOpcode, VT);
return DAG.getNode(HasPos ? PosOpcode : NegOpcode, DL, VT, Shifted,		return DAG.getNode(HasPos ? PosOpcode : NegOpcode, DL, VT, Shifted,
HasPos ? Pos : Neg).getNode();		HasPos ? Pos : Neg).getNode();
}		}

return nullptr;		return nullptr;
}		}

Show All 26 Lines	SDNode *DAGCombiner::MatchRotate(SDValue LHS, SDValue RHS, SDLoc DL) {

if (LHSShift.getOpcode() == RHSShift.getOpcode())		if (LHSShift.getOpcode() == RHSShift.getOpcode())
return nullptr; // Shifts must disagree.		return nullptr; // Shifts must disagree.

// Canonicalize shl to left side in a shl/srl pair.		// Canonicalize shl to left side in a shl/srl pair.
if (RHSShift.getOpcode() == ISD::SHL) {		if (RHSShift.getOpcode() == ISD::SHL) {
std::swap(LHS, RHS);		std::swap(LHS, RHS);
std::swap(LHSShift, RHSShift);		std::swap(LHSShift, RHSShift);
std::swap(LHSMask , RHSMask );		std::swap(LHSMask, RHSMask);
}		}

unsigned OpSizeInBits = VT.getSizeInBits();		unsigned EltSizeInBits = VT.getScalarSizeInBits();
SDValue LHSShiftArg = LHSShift.getOperand(0);		SDValue LHSShiftArg = LHSShift.getOperand(0);
SDValue LHSShiftAmt = LHSShift.getOperand(1);		SDValue LHSShiftAmt = LHSShift.getOperand(1);
SDValue RHSShiftArg = RHSShift.getOperand(0);		SDValue RHSShiftArg = RHSShift.getOperand(0);
SDValue RHSShiftAmt = RHSShift.getOperand(1);		SDValue RHSShiftAmt = RHSShift.getOperand(1);

// fold (or (shl x, C1), (srl x, C2)) -> (rotl x, C1)		// fold (or (shl x, C1), (srl x, C2)) -> (rotl x, C1)
// fold (or (shl x, C1), (srl x, C2)) -> (rotr x, C2)		// fold (or (shl x, C1), (srl x, C2)) -> (rotr x, C2)
if (LHSShiftAmt.getOpcode() == ISD::Constant &&		if (isConstOrConstSplat(LHSShiftAmt) && isConstOrConstSplat(RHSShiftAmt)) {
RHSShiftAmt.getOpcode() == ISD::Constant) {		uint64_t LShVal = isConstOrConstSplat(LHSShiftAmt)->getZExtValue();
uint64_t LShVal = cast<ConstantSDNode>(LHSShiftAmt)->getZExtValue();		uint64_t RShVal = isConstOrConstSplat(RHSShiftAmt)->getZExtValue();
uint64_t RShVal = cast<ConstantSDNode>(RHSShiftAmt)->getZExtValue();		if ((LShVal + RShVal) != EltSizeInBits)
if ((LShVal + RShVal) != OpSizeInBits)
return nullptr;		return nullptr;

SDValue Rot = DAG.getNode(HasROTL ? ISD::ROTL : ISD::ROTR, DL, VT,		SDValue Rot = DAG.getNode(HasROTL ? ISD::ROTL : ISD::ROTR, DL, VT,
LHSShiftArg, HasROTL ? LHSShiftAmt : RHSShiftAmt);		LHSShiftArg, HasROTL ? LHSShiftAmt : RHSShiftAmt);

// If there is an AND of either shifted operand, apply it to the result.		// If there is an AND of either shifted operand, apply it to the result.
if (LHSMask.getNode() \|\| RHSMask.getNode()) {		if (LHSMask.getNode() \|\| RHSMask.getNode()) {
APInt Mask = APInt::getAllOnesValue(OpSizeInBits);		APInt Mask = APInt::getAllOnesValue(EltSizeInBits);

if (LHSMask.getNode()) {		if (LHSMask.getNode()) {
APInt RHSBits = APInt::getLowBitsSet(OpSizeInBits, LShVal);		APInt RHSBits = APInt::getLowBitsSet(EltSizeInBits, LShVal);
Mask &= cast<ConstantSDNode>(LHSMask)->getAPIntValue() \| RHSBits;		Mask &= isConstOrConstSplat(LHSMask)->getAPIntValue() \| RHSBits;
}		}
if (RHSMask.getNode()) {		if (RHSMask.getNode()) {
APInt LHSBits = APInt::getHighBitsSet(OpSizeInBits, RShVal);		APInt LHSBits = APInt::getHighBitsSet(EltSizeInBits, RShVal);
Mask &= cast<ConstantSDNode>(RHSMask)->getAPIntValue() \| LHSBits;		Mask &= isConstOrConstSplat(RHSMask)->getAPIntValue() \| LHSBits;
}		}

Rot = DAG.getNode(ISD::AND, DL, VT, Rot, DAG.getConstant(Mask, DL, VT));		Rot = DAG.getNode(ISD::AND, DL, VT, Rot, DAG.getConstant(Mask, DL, VT));
}		}

return Rot.getNode();		return Rot.getNode();
}		}

▲ Show 20 Lines • Show All 10,628 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,044 Lines • ▼ Show 20 Lines	if (Subtarget->hasSSE2()) {

setOperationAction(ISD::SHL, MVT::v2i64, Custom);		setOperationAction(ISD::SHL, MVT::v2i64, Custom);
setOperationAction(ISD::SHL, MVT::v4i32, Custom);		setOperationAction(ISD::SHL, MVT::v4i32, Custom);

setOperationAction(ISD::SRA, MVT::v2i64, Custom);		setOperationAction(ISD::SRA, MVT::v2i64, Custom);
setOperationAction(ISD::SRA, MVT::v4i32, Custom);		setOperationAction(ISD::SRA, MVT::v4i32, Custom);
}		}

		if (Subtarget->hasXOP()) {
		setOperationAction(ISD::ROTL, MVT::v16i8, Custom);
		setOperationAction(ISD::ROTL, MVT::v8i16, Custom);
		setOperationAction(ISD::ROTL, MVT::v4i32, Custom);
		setOperationAction(ISD::ROTL, MVT::v2i64, Custom);
		setOperationAction(ISD::ROTL, MVT::v32i8, Custom);
		setOperationAction(ISD::ROTL, MVT::v16i16, Custom);
		setOperationAction(ISD::ROTL, MVT::v8i32, Custom);
		setOperationAction(ISD::ROTL, MVT::v4i64, Custom);
		}

if (!Subtarget->useSoftFloat() && Subtarget->hasFp256()) {		if (!Subtarget->useSoftFloat() && Subtarget->hasFp256()) {
addRegisterClass(MVT::v32i8, &X86::VR256RegClass);		addRegisterClass(MVT::v32i8, &X86::VR256RegClass);
addRegisterClass(MVT::v16i16, &X86::VR256RegClass);		addRegisterClass(MVT::v16i16, &X86::VR256RegClass);
addRegisterClass(MVT::v8i32, &X86::VR256RegClass);		addRegisterClass(MVT::v8i32, &X86::VR256RegClass);
addRegisterClass(MVT::v8f32, &X86::VR256RegClass);		addRegisterClass(MVT::v8f32, &X86::VR256RegClass);
addRegisterClass(MVT::v4i64, &X86::VR256RegClass);		addRegisterClass(MVT::v4i64, &X86::VR256RegClass);
addRegisterClass(MVT::v4f64, &X86::VR256RegClass);		addRegisterClass(MVT::v4f64, &X86::VR256RegClass);

▲ Show 20 Lines • Show All 17,751 Lines • ▼ Show 20 Lines	if (VT.is256BitVector()) {

// Concatenate the result back		// Concatenate the result back
return DAG.getNode(ISD::CONCAT_VECTORS, dl, VT, V1, V2);		return DAG.getNode(ISD::CONCAT_VECTORS, dl, VT, V1, V2);
}		}

return SDValue();		return SDValue();
}		}

		static SDValue LowerRotate(SDValue Op, const X86Subtarget *Subtarget,
		SelectionDAG &DAG) {
		MVT VT = Op.getSimpleValueType();
		SDLoc DL(Op);
		SDValue R = Op.getOperand(0);
		SDValue Amt = Op.getOperand(1);
		unsigned Opc = Op.getOpcode();

		assert(VT.isVector() && "Custom lowering only for vector rotates!");
		assert(Subtarget->hasXOP() && "XOP support required for vector rotates!");
		assert((Opc == ISD::ROTL) && "Only ROTL supported");

		// XOP has 128-bit vector variable + immediate rotates.
		// +ve/-ve Amt = rotate left/right.

		// Split 256-bit integers.
		if (VT.getSizeInBits() == 256)
		return Lower256IntArith(Op, DAG);

		assert(VT.getSizeInBits() == 128 && "Only rotate 128-bit vectors!");

		// Attempt to rotate by immediate.
		if (auto *BVAmt = dyn_cast<BuildVectorSDNode>(Amt)) {
		if (auto *RotateConst = BVAmt->getConstantSplatNode()) {
		uint64_t RotateAmt = RotateConst->getAPIntValue().getZExtValue();
		assert(RotateAmt < VT.getScalarSizeInBits() && "Rotation out of range");
		return DAG.getNode(X86ISD::VPROTI, DL, VT, R,
		DAG.getConstant(RotateAmt, DL, MVT::i8));
		}
		}

		// Use general rotate by variable (per-element).
		return DAG.getNode(X86ISD::VPROT, DL, VT, R, Amt);
		}

static SDValue LowerXALUO(SDValue Op, SelectionDAG &DAG) {		static SDValue LowerXALUO(SDValue Op, SelectionDAG &DAG) {
// Lower the "add/sub/mul with overflow" instruction into a regular ins plus		// Lower the "add/sub/mul with overflow" instruction into a regular ins plus
// a "setcc" instruction that checks the overflow flag. The "brcond" lowering		// a "setcc" instruction that checks the overflow flag. The "brcond" lowering
// looks for this combo and may remove the "setcc" instruction if the "setcc"		// looks for this combo and may remove the "setcc" instruction if the "setcc"
// has only one use.		// has only one use.
SDNode *N = Op.getNode();		SDNode *N = Op.getNode();
SDValue LHS = N->getOperand(0);		SDValue LHS = N->getOperand(0);
SDValue RHS = N->getOperand(1);		SDValue RHS = N->getOperand(1);
▲ Show 20 Lines • Show All 842 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerOperation(SDValue Op, SelectionDAG &DAG) const {
case ISD::FLT_ROUNDS_: return LowerFLT_ROUNDS_(Op, DAG);		case ISD::FLT_ROUNDS_: return LowerFLT_ROUNDS_(Op, DAG);
case ISD::CTLZ: return LowerCTLZ(Op, Subtarget, DAG);		case ISD::CTLZ: return LowerCTLZ(Op, Subtarget, DAG);
case ISD::CTLZ_ZERO_UNDEF: return LowerCTLZ_ZERO_UNDEF(Op, Subtarget, DAG);		case ISD::CTLZ_ZERO_UNDEF: return LowerCTLZ_ZERO_UNDEF(Op, Subtarget, DAG);
case ISD::CTTZ:		case ISD::CTTZ:
case ISD::CTTZ_ZERO_UNDEF: return LowerCTTZ(Op, DAG);		case ISD::CTTZ_ZERO_UNDEF: return LowerCTTZ(Op, DAG);
case ISD::MUL: return LowerMUL(Op, Subtarget, DAG);		case ISD::MUL: return LowerMUL(Op, Subtarget, DAG);
case ISD::UMUL_LOHI:		case ISD::UMUL_LOHI:
case ISD::SMUL_LOHI: return LowerMUL_LOHI(Op, Subtarget, DAG);		case ISD::SMUL_LOHI: return LowerMUL_LOHI(Op, Subtarget, DAG);
		case ISD::ROTL: return LowerRotate(Op, Subtarget, DAG);
case ISD::SRA:		case ISD::SRA:
case ISD::SRL:		case ISD::SRL:
case ISD::SHL: return LowerShift(Op, Subtarget, DAG);		case ISD::SHL: return LowerShift(Op, Subtarget, DAG);
case ISD::SADDO:		case ISD::SADDO:
case ISD::UADDO:		case ISD::UADDO:
case ISD::SSUBO:		case ISD::SSUBO:
case ISD::USUBO:		case ISD::USUBO:
case ISD::SMULO:		case ISD::SMULO:
▲ Show 20 Lines • Show All 7,827 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-rotate-128.ll

	Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [64,64]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [64,64]
	; AVX2-NEXT: vpsubq %xmm1, %xmm2, %xmm2			; AVX2-NEXT: vpsubq %xmm1, %xmm2, %xmm2
	; AVX2-NEXT: vpsllvq %xmm1, %xmm0, %xmm1			; AVX2-NEXT: vpsllvq %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: vpsrlvq %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpsrlvq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: var_rotate_v2i64:			; XOP-LABEL: var_rotate_v2i64:
	; XOPAVX1: # BB#0:			; XOP: # BB#0:
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [64,64]			; XOP-NEXT: vprotq %xmm1, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpsubq %xmm1, %xmm2, %xmm2			; XOP-NEXT: retq
	; XOPAVX1-NEXT: vpshlq %xmm1, %xmm0, %xmm1
	; XOPAVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm2
	; XOPAVX1-NEXT: vpshlq %xmm2, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOPAVX1-NEXT: retq
	;
	; XOPAVX2-LABEL: var_rotate_v2i64:
	; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [64,64]
	; XOPAVX2-NEXT: vpsubq %xmm1, %xmm2, %xmm2
	; XOPAVX2-NEXT: vpsllvq %xmm1, %xmm0, %xmm1
	; XOPAVX2-NEXT: vpsrlvq %xmm2, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOPAVX2-NEXT: retq
	;			;
	; X32-SSE-LABEL: var_rotate_v2i64:			; X32-SSE-LABEL: var_rotate_v2i64:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [64,0,64,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [64,0,64,0]
	; X32-SSE-NEXT: psubq %xmm1, %xmm2			; X32-SSE-NEXT: psubq %xmm1, %xmm2
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]
	; X32-SSE-NEXT: movdqa %xmm0, %xmm4			; X32-SSE-NEXT: movdqa %xmm0, %xmm4
	; X32-SSE-NEXT: psllq %xmm3, %xmm4			; X32-SSE-NEXT: psllq %xmm3, %xmm4
	▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm2			; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm2
	; AVX2-NEXT: vpsubd %xmm1, %xmm2, %xmm2			; AVX2-NEXT: vpsubd %xmm1, %xmm2, %xmm2
	; AVX2-NEXT: vpsllvd %xmm1, %xmm0, %xmm1			; AVX2-NEXT: vpsllvd %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: vpsrlvd %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpsrlvd %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: var_rotate_v4i32:			; XOP-LABEL: var_rotate_v4i32:
	; XOPAVX1: # BB#0:			; XOP: # BB#0:
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32]			; XOP-NEXT: vprotd %xmm1, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpsubd %xmm1, %xmm2, %xmm2			; XOP-NEXT: retq
	; XOPAVX1-NEXT: vpshld %xmm1, %xmm0, %xmm1
	; XOPAVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpsubd %xmm2, %xmm3, %xmm2
	; XOPAVX1-NEXT: vpshld %xmm2, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOPAVX1-NEXT: retq
	;
	; XOPAVX2-LABEL: var_rotate_v4i32:
	; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm2
	; XOPAVX2-NEXT: vpsubd %xmm1, %xmm2, %xmm2
	; XOPAVX2-NEXT: vpsllvd %xmm1, %xmm0, %xmm1
	; XOPAVX2-NEXT: vpsrlvd %xmm2, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOPAVX2-NEXT: retq
	;			;
	; X32-SSE-LABEL: var_rotate_v4i32:			; X32-SSE-LABEL: var_rotate_v4i32:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32]
	; X32-SSE-NEXT: psubd %xmm1, %xmm2			; X32-SSE-NEXT: psubd %xmm1, %xmm2
	; X32-SSE-NEXT: pslld $23, %xmm1			; X32-SSE-NEXT: pslld $23, %xmm1
	; X32-SSE-NEXT: paddd .LCPI1_1, %xmm1			; X32-SSE-NEXT: paddd .LCPI1_1, %xmm1
	; X32-SSE-NEXT: cvttps2dq %xmm1, %xmm1			; X32-SSE-NEXT: cvttps2dq %xmm1, %xmm1
	▲ Show 20 Lines • Show All 211 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: var_rotate_v8i16:			; XOP-LABEL: var_rotate_v8i16:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [16,16,16,16,16,16,16,16]			; XOP-NEXT: vprotw %xmm1, %xmm0, %xmm0
	; XOP-NEXT: vpsubw %xmm1, %xmm2, %xmm2
	; XOP-NEXT: vpshlw %xmm1, %xmm0, %xmm1
	; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOP-NEXT: vpsubw %xmm2, %xmm3, %xmm2
	; XOP-NEXT: vpshlw %xmm2, %xmm0, %xmm0
	; XOP-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: var_rotate_v8i16:			; X32-SSE-LABEL: var_rotate_v8i16:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [16,16,16,16,16,16,16,16]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [16,16,16,16,16,16,16,16]
	; X32-SSE-NEXT: psubw %xmm1, %xmm2			; X32-SSE-NEXT: psubw %xmm1, %xmm2
	; X32-SSE-NEXT: psllw $12, %xmm1			; X32-SSE-NEXT: psllw $12, %xmm1
	; X32-SSE-NEXT: movdqa %xmm1, %xmm3			; X32-SSE-NEXT: movdqa %xmm1, %xmm3
	▲ Show 20 Lines • Show All 201 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX-NEXT: vpaddb %xmm3, %xmm3, %xmm3			; AVX-NEXT: vpaddb %xmm3, %xmm3, %xmm3
	; AVX-NEXT: vpblendvb %xmm3, %xmm2, %xmm0, %xmm0			; AVX-NEXT: vpblendvb %xmm3, %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: var_rotate_v16i8:			; XOP-LABEL: var_rotate_v16i8:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; XOP-NEXT: vprotb %xmm1, %xmm0, %xmm0
	; XOP-NEXT: vpsubb %xmm1, %xmm2, %xmm2
	; XOP-NEXT: vpshlb %xmm1, %xmm0, %xmm1
	; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOP-NEXT: vpsubb %xmm2, %xmm3, %xmm2
	; XOP-NEXT: vpshlb %xmm2, %xmm0, %xmm0
	; XOP-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: var_rotate_v16i8:			; X32-SSE-LABEL: var_rotate_v16i8:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm4 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm4 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; X32-SSE-NEXT: psubb %xmm1, %xmm4			; X32-SSE-NEXT: psubb %xmm1, %xmm4
	; X32-SSE-NEXT: psllw $5, %xmm1			; X32-SSE-NEXT: psllw $5, %xmm1
	; X32-SSE-NEXT: pxor %xmm3, %xmm3			; X32-SSE-NEXT: pxor %xmm3, %xmm3
	▲ Show 20 Lines • Show All 609 Lines • ▼ Show 20 Lines
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpsllq $14, %xmm0, %xmm1			; AVX-NEXT: vpsllq $14, %xmm0, %xmm1
	; AVX-NEXT: vpsrlq $50, %xmm0, %xmm0			; AVX-NEXT: vpsrlq $50, %xmm0, %xmm0
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: splatconstant_rotate_v2i64:			; XOP-LABEL: splatconstant_rotate_v2i64:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vpsllq $14, %xmm0, %xmm1			; XOP-NEXT: vprotq $14, %xmm0, %xmm0
	; XOP-NEXT: vpsrlq $50, %xmm0, %xmm0
	; XOP-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_rotate_v2i64:			; X32-SSE-LABEL: splatconstant_rotate_v2i64:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psllq $14, %xmm1			; X32-SSE-NEXT: psllq $14, %xmm1
	; X32-SSE-NEXT: psrlq $50, %xmm0			; X32-SSE-NEXT: psrlq $50, %xmm0
	; X32-SSE-NEXT: por %xmm1, %xmm0			; X32-SSE-NEXT: por %xmm1, %xmm0
	Show All 17 Lines
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpslld $4, %xmm0, %xmm1			; AVX-NEXT: vpslld $4, %xmm0, %xmm1
	; AVX-NEXT: vpsrld $28, %xmm0, %xmm0			; AVX-NEXT: vpsrld $28, %xmm0, %xmm0
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: splatconstant_rotate_v4i32:			; XOP-LABEL: splatconstant_rotate_v4i32:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vpslld $4, %xmm0, %xmm1			; XOP-NEXT: vprotd $4, %xmm0, %xmm0
	; XOP-NEXT: vpsrld $28, %xmm0, %xmm0
	; XOP-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_rotate_v4i32:			; X32-SSE-LABEL: splatconstant_rotate_v4i32:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: pslld $4, %xmm1			; X32-SSE-NEXT: pslld $4, %xmm1
	; X32-SSE-NEXT: psrld $28, %xmm0			; X32-SSE-NEXT: psrld $28, %xmm0
	; X32-SSE-NEXT: por %xmm1, %xmm0			; X32-SSE-NEXT: por %xmm1, %xmm0
	Show All 17 Lines
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpsllw $7, %xmm0, %xmm1			; AVX-NEXT: vpsllw $7, %xmm0, %xmm1
	; AVX-NEXT: vpsrlw $9, %xmm0, %xmm0			; AVX-NEXT: vpsrlw $9, %xmm0, %xmm0
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: splatconstant_rotate_v8i16:			; XOP-LABEL: splatconstant_rotate_v8i16:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vpsllw $7, %xmm0, %xmm1			; XOP-NEXT: vprotw $7, %xmm0, %xmm0
	; XOP-NEXT: vpsrlw $9, %xmm0, %xmm0
	; XOP-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_rotate_v8i16:			; X32-SSE-LABEL: splatconstant_rotate_v8i16:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psllw $7, %xmm1			; X32-SSE-NEXT: psllw $7, %xmm1
	; X32-SSE-NEXT: psrlw $9, %xmm0			; X32-SSE-NEXT: psrlw $9, %xmm0
	; X32-SSE-NEXT: por %xmm1, %xmm0			; X32-SSE-NEXT: por %xmm1, %xmm0
	Show All 21 Lines
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpsrlw $4, %xmm0, %xmm0			; AVX-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: splatconstant_rotate_v16i8:			; XOP-LABEL: splatconstant_rotate_v16i8:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vmovdqa {{.*#+}} xmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]			; XOP-NEXT: vprotb $4, %xmm0, %xmm0
	; XOP-NEXT: vpshlb %xmm1, %xmm0, %xmm2
	; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOP-NEXT: vpsubb %xmm1, %xmm3, %xmm1
	; XOP-NEXT: vpshlb %xmm1, %xmm0, %xmm0
	; XOP-NEXT: vpor %xmm0, %xmm2, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_rotate_v16i8:			; X32-SSE-LABEL: splatconstant_rotate_v16i8:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psllw $4, %xmm1			; X32-SSE-NEXT: psllw $4, %xmm1
	; X32-SSE-NEXT: pand .LCPI11_0, %xmm1			; X32-SSE-NEXT: pand .LCPI11_0, %xmm1
	; X32-SSE-NEXT: psrlw $4, %xmm0			; X32-SSE-NEXT: psrlw $4, %xmm0
	Show All 28 Lines
	; AVX-NEXT: vpsrlq $49, %xmm0, %xmm0			; AVX-NEXT: vpsrlq $49, %xmm0, %xmm0
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: splatconstant_rotate_mask_v2i64:			; XOP-LABEL: splatconstant_rotate_mask_v2i64:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vpsllq $15, %xmm0, %xmm1			; XOP-NEXT: vprotq $15, %xmm0, %xmm0
	; XOP-NEXT: vpsrlq $49, %xmm0, %xmm0
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; XOP-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_rotate_mask_v2i64:			; X32-SSE-LABEL: splatconstant_rotate_mask_v2i64:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psllq $15, %xmm1			; X32-SSE-NEXT: psllq $15, %xmm1
	; X32-SSE-NEXT: psrlq $49, %xmm0			; X32-SSE-NEXT: psrlq $49, %xmm0
	; X32-SSE-NEXT: pand .LCPI12_0, %xmm0			; X32-SSE-NEXT: pand .LCPI12_0, %xmm0
	Show All 38 Lines
	; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm2			; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm2
	; AVX2-NEXT: vpand %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpand %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatconstant_rotate_mask_v4i32:			; XOPAVX1-LABEL: splatconstant_rotate_mask_v4i32:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vpslld $4, %xmm0, %xmm1			; XOPAVX1-NEXT: vprotd $4, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpsrld $28, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; XOPAVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; XOPAVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; XOPAVX1-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: splatconstant_rotate_mask_v4i32:			; XOPAVX2-LABEL: splatconstant_rotate_mask_v4i32:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpslld $4, %xmm0, %xmm1			; XOPAVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm1
	; XOPAVX2-NEXT: vpsrld $28, %xmm0, %xmm0			; XOPAVX2-NEXT: vprotd $4, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm2			; XOPAVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpand %xmm2, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm2
	; XOPAVX2-NEXT: vpand %xmm2, %xmm1, %xmm1
	; XOPAVX2-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_rotate_mask_v4i32:			; X32-SSE-LABEL: splatconstant_rotate_mask_v4i32:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: pslld $4, %xmm1			; X32-SSE-NEXT: pslld $4, %xmm1
	; X32-SSE-NEXT: psrld $28, %xmm0			; X32-SSE-NEXT: psrld $28, %xmm0
	; X32-SSE-NEXT: pand .LCPI13_0, %xmm0			; X32-SSE-NEXT: pand .LCPI13_0, %xmm0
	Show All 27 Lines
	; AVX-NEXT: vpsrlw $11, %xmm0, %xmm0			; AVX-NEXT: vpsrlw $11, %xmm0, %xmm0
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: splatconstant_rotate_mask_v8i16:			; XOP-LABEL: splatconstant_rotate_mask_v8i16:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vpsllw $5, %xmm0, %xmm1			; XOP-NEXT: vprotw $5, %xmm0, %xmm0
	; XOP-NEXT: vpsrlw $11, %xmm0, %xmm0
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; XOP-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_rotate_mask_v8i16:			; X32-SSE-LABEL: splatconstant_rotate_mask_v8i16:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psllw $5, %xmm1			; X32-SSE-NEXT: psllw $5, %xmm1
	; X32-SSE-NEXT: psrlw $11, %xmm0			; X32-SSE-NEXT: psrlw $11, %xmm0
	; X32-SSE-NEXT: pand .LCPI14_0, %xmm0			; X32-SSE-NEXT: pand .LCPI14_0, %xmm0
	Show All 31 Lines
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: splatconstant_rotate_mask_v16i8:			; XOP-LABEL: splatconstant_rotate_mask_v16i8:
	; XOP: # BB#0:			; XOP: # BB#0:
	; XOP-NEXT: vmovdqa {{.*#+}} xmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]			; XOP-NEXT: vprotb $4, %xmm0, %xmm0
	; XOP-NEXT: vpshlb %xmm1, %xmm0, %xmm2
	; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOP-NEXT: vpsubb %xmm1, %xmm3, %xmm1
	; XOP-NEXT: vpshlb %xmm1, %xmm0, %xmm0
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm1
	; XOP-NEXT: vpor %xmm0, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_rotate_mask_v16i8:			; X32-SSE-LABEL: splatconstant_rotate_mask_v16i8:
	; X32-SSE: # BB#0:			; X32-SSE: # BB#0:
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psllw $4, %xmm1			; X32-SSE-NEXT: psllw $4, %xmm1
	; X32-SSE-NEXT: pand .LCPI15_0, %xmm1			; X32-SSE-NEXT: pand .LCPI15_0, %xmm1
	; X32-SSE-NEXT: psrlw $4, %xmm0			; X32-SSE-NEXT: psrlw $4, %xmm0
	Show All 13 Lines

llvm/trunk/test/CodeGen/X86/vector-rotate-256.ll

	Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpsubq %ymm1, %ymm2, %ymm2			; AVX2-NEXT: vpsubq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsllvq %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpsllvq %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpsrlvq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpsrlvq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: var_rotate_v4i64:			; XOPAVX1-LABEL: var_rotate_v4i64:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [64,64]			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; XOPAVX1-NEXT: vpsubq %xmm1, %xmm2, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; XOPAVX1-NEXT: vprotq %xmm2, %xmm3, %xmm2
	; XOPAVX1-NEXT: vpsubq %xmm4, %xmm2, %xmm2			; XOPAVX1-NEXT: vprotq %xmm1, %xmm0, %xmm0
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
	; XOPAVX1-NEXT: vpshlq %xmm4, %xmm5, %xmm4
	; XOPAVX1-NEXT: vpshlq %xmm1, %xmm0, %xmm1
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; XOPAVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; XOPAVX1-NEXT: vpsubq %xmm2, %xmm4, %xmm2
	; XOPAVX1-NEXT: vpshlq %xmm2, %xmm5, %xmm2
	; XOPAVX1-NEXT: vpsubq %xmm3, %xmm4, %xmm3
	; XOPAVX1-NEXT: vpshlq %xmm3, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: var_rotate_v4i64:			; XOPAVX2-LABEL: var_rotate_v4i64:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpbroadcastq {{.*}}(%rip), %ymm2			; XOPAVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; XOPAVX2-NEXT: vpsubq %ymm1, %ymm2, %ymm2			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm3
	; XOPAVX2-NEXT: vpsllvq %ymm1, %ymm0, %ymm1			; XOPAVX2-NEXT: vprotq %xmm2, %xmm3, %xmm2
	; XOPAVX2-NEXT: vpsrlvq %ymm2, %ymm0, %ymm0			; XOPAVX2-NEXT: vprotq %xmm1, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; XOPAVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%b64 = sub <4 x i64> <i64 64, i64 64, i64 64, i64 64>, %b			%b64 = sub <4 x i64> <i64 64, i64 64, i64 64, i64 64>, %b
	%shl = shl <4 x i64> %a, %b			%shl = shl <4 x i64> %a, %b
	%lshr = lshr <4 x i64> %a, %b64			%lshr = lshr <4 x i64> %a, %b64
	%or = or <4 x i64> %shl, %lshr			%or = or <4 x i64> %shl, %lshr
	ret <4 x i64> %or			ret <4 x i64> %or
	}			}

	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpsubd %ymm1, %ymm2, %ymm2			; AVX2-NEXT: vpsubd %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsllvd %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpsllvd %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpsrlvd %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpsrlvd %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: var_rotate_v8i32:			; XOPAVX1-LABEL: var_rotate_v8i32:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32]			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; XOPAVX1-NEXT: vpsubd %xmm1, %xmm2, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; XOPAVX1-NEXT: vprotd %xmm2, %xmm3, %xmm2
	; XOPAVX1-NEXT: vpsubd %xmm4, %xmm2, %xmm2			; XOPAVX1-NEXT: vprotd %xmm1, %xmm0, %xmm0
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
	; XOPAVX1-NEXT: vpshld %xmm4, %xmm5, %xmm4
	; XOPAVX1-NEXT: vpshld %xmm1, %xmm0, %xmm1
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; XOPAVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; XOPAVX1-NEXT: vpsubd %xmm2, %xmm4, %xmm2
	; XOPAVX1-NEXT: vpshld %xmm2, %xmm5, %xmm2
	; XOPAVX1-NEXT: vpsubd %xmm3, %xmm4, %xmm3
	; XOPAVX1-NEXT: vpshld %xmm3, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: var_rotate_v8i32:			; XOPAVX2-LABEL: var_rotate_v8i32:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm2			; XOPAVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; XOPAVX2-NEXT: vpsubd %ymm1, %ymm2, %ymm2			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm3
	; XOPAVX2-NEXT: vpsllvd %ymm1, %ymm0, %ymm1			; XOPAVX2-NEXT: vprotd %xmm2, %xmm3, %xmm2
	; XOPAVX2-NEXT: vpsrlvd %ymm2, %ymm0, %ymm0			; XOPAVX2-NEXT: vprotd %xmm1, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; XOPAVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%b32 = sub <8 x i32> <i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32>, %b			%b32 = sub <8 x i32> <i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32>, %b
	%shl = shl <8 x i32> %a, %b			%shl = shl <8 x i32> %a, %b
	%lshr = lshr <8 x i32> %a, %b32			%lshr = lshr <8 x i32> %a, %b32
	%or = or <8 x i32> %shl, %lshr			%or = or <8 x i32> %shl, %lshr
	ret <8 x i32> %or			ret <8 x i32> %or
	}			}

	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpsrlvd %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpsrlvd %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0			; AVX2-NEXT: vpsrld $16, %ymm0, %ymm0
	; AVX2-NEXT: vpackusdw %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: var_rotate_v16i16:			; XOPAVX1-LABEL: var_rotate_v16i16:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [16,16,16,16,16,16,16,16]			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; XOPAVX1-NEXT: vpsubw %xmm1, %xmm2, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; XOPAVX1-NEXT: vprotw %xmm2, %xmm3, %xmm2
	; XOPAVX1-NEXT: vpsubw %xmm4, %xmm2, %xmm2			; XOPAVX1-NEXT: vprotw %xmm1, %xmm0, %xmm0
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
	; XOPAVX1-NEXT: vpshlw %xmm4, %xmm5, %xmm4
	; XOPAVX1-NEXT: vpshlw %xmm1, %xmm0, %xmm1
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; XOPAVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; XOPAVX1-NEXT: vpsubw %xmm2, %xmm4, %xmm2
	; XOPAVX1-NEXT: vpshlw %xmm2, %xmm5, %xmm2
	; XOPAVX1-NEXT: vpsubw %xmm3, %xmm4, %xmm3
	; XOPAVX1-NEXT: vpshlw %xmm3, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: var_rotate_v16i16:			; XOPAVX2-LABEL: var_rotate_v16i16:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; XOPAVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; XOPAVX2-NEXT: vpsubw %ymm1, %ymm2, %ymm2			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm3
	; XOPAVX2-NEXT: vextracti128 $1, %ymm1, %xmm3			; XOPAVX2-NEXT: vprotw %xmm2, %xmm3, %xmm2
	; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm4			; XOPAVX2-NEXT: vprotw %xmm1, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpshlw %xmm3, %xmm4, %xmm3			; XOPAVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX2-NEXT: vpshlw %xmm1, %xmm0, %xmm1
	; XOPAVX2-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm1
	; XOPAVX2-NEXT: vextracti128 $1, %ymm2, %xmm3
	; XOPAVX2-NEXT: vpxor %xmm5, %xmm5, %xmm5
	; XOPAVX2-NEXT: vpsubw %xmm3, %xmm5, %xmm3
	; XOPAVX2-NEXT: vpshlw %xmm3, %xmm4, %xmm3
	; XOPAVX2-NEXT: vpsubw %xmm2, %xmm5, %xmm2
	; XOPAVX2-NEXT: vpshlw %xmm2, %xmm0, %xmm0
	; XOPAVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%b16 = sub <16 x i16> <i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16>, %b			%b16 = sub <16 x i16> <i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16, i16 16>, %b
	%shl = shl <16 x i16> %a, %b			%shl = shl <16 x i16> %a, %b
	%lshr = lshr <16 x i16> %a, %b16			%lshr = lshr <16 x i16> %a, %b16
	%or = or <16 x i16> %shl, %lshr			%or = or <16 x i16> %shl, %lshr
	ret <16 x i16> %or			ret <16 x i16> %or
	}			}

	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX2-NEXT: vpaddb %ymm3, %ymm3, %ymm3			; AVX2-NEXT: vpaddb %ymm3, %ymm3, %ymm3
	; AVX2-NEXT: vpblendvb %ymm3, %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpblendvb %ymm3, %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: var_rotate_v32i8:			; XOPAVX1-LABEL: var_rotate_v32i8:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; XOPAVX1-NEXT: vpsubb %xmm1, %xmm2, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; XOPAVX1-NEXT: vprotb %xmm2, %xmm3, %xmm2
	; XOPAVX1-NEXT: vpsubb %xmm4, %xmm2, %xmm2			; XOPAVX1-NEXT: vprotb %xmm1, %xmm0, %xmm0
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
	; XOPAVX1-NEXT: vpshlb %xmm4, %xmm5, %xmm4
	; XOPAVX1-NEXT: vpshlb %xmm1, %xmm0, %xmm1
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; XOPAVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; XOPAVX1-NEXT: vpsubb %xmm2, %xmm4, %xmm2
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm5, %xmm2
	; XOPAVX1-NEXT: vpsubb %xmm3, %xmm4, %xmm3
	; XOPAVX1-NEXT: vpshlb %xmm3, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: var_rotate_v32i8:			; XOPAVX2-LABEL: var_rotate_v32i8:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; XOPAVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; XOPAVX2-NEXT: vpsubb %ymm1, %ymm2, %ymm2			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm3
	; XOPAVX2-NEXT: vextracti128 $1, %ymm1, %xmm3			; XOPAVX2-NEXT: vprotb %xmm2, %xmm3, %xmm2
	; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm4			; XOPAVX2-NEXT: vprotb %xmm1, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpshlb %xmm3, %xmm4, %xmm3			; XOPAVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX2-NEXT: vpshlb %xmm1, %xmm0, %xmm1
	; XOPAVX2-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm1
	; XOPAVX2-NEXT: vextracti128 $1, %ymm2, %xmm3
	; XOPAVX2-NEXT: vpxor %xmm5, %xmm5, %xmm5
	; XOPAVX2-NEXT: vpsubb %xmm3, %xmm5, %xmm3
	; XOPAVX2-NEXT: vpshlb %xmm3, %xmm4, %xmm3
	; XOPAVX2-NEXT: vpsubb %xmm2, %xmm5, %xmm2
	; XOPAVX2-NEXT: vpshlb %xmm2, %xmm0, %xmm0
	; XOPAVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%b8 = sub <32 x i8> <i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8>, %b			%b8 = sub <32 x i8> <i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8, i8 8>, %b
	%shl = shl <32 x i8> %a, %b			%shl = shl <32 x i8> %a, %b
	%lshr = lshr <32 x i8> %a, %b8			%lshr = lshr <32 x i8> %a, %b8
	%or = or <32 x i8> %shl, %lshr			%or = or <32 x i8> %shl, %lshr
	ret <32 x i8> %or			ret <32 x i8> %or
	}			}

	▲ Show 20 Lines • Show All 339 Lines • ▼ Show 20 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsllq $14, %ymm0, %ymm1			; AVX2-NEXT: vpsllq $14, %ymm0, %ymm1
	; AVX2-NEXT: vpsrlq $50, %ymm0, %ymm0			; AVX2-NEXT: vpsrlq $50, %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatconstant_rotate_v4i64:			; XOPAVX1-LABEL: splatconstant_rotate_v4i64:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vpsllq $14, %xmm0, %xmm1			; XOPAVX1-NEXT: vprotq $14, %xmm0, %xmm1
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOPAVX1-NEXT: vpsllq $14, %xmm2, %xmm3			; XOPAVX1-NEXT: vprotq $14, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: vpsrlq $50, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpsrlq $50, %xmm2, %xmm2
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: splatconstant_rotate_v4i64:			; XOPAVX2-LABEL: splatconstant_rotate_v4i64:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpsllq $14, %ymm0, %ymm1			; XOPAVX2-NEXT: vprotq $14, %xmm0, %xmm1
	; XOPAVX2-NEXT: vpsrlq $50, %ymm0, %ymm0			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; XOPAVX2-NEXT: vprotq $14, %xmm0, %xmm0
				; XOPAVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shl = shl <4 x i64> %a, <i64 14, i64 14, i64 14, i64 14>			%shl = shl <4 x i64> %a, <i64 14, i64 14, i64 14, i64 14>
	%lshr = lshr <4 x i64> %a, <i64 50, i64 50, i64 50, i64 50>			%lshr = lshr <4 x i64> %a, <i64 50, i64 50, i64 50, i64 50>
	%or = or <4 x i64> %shl, %lshr			%or = or <4 x i64> %shl, %lshr
	ret <4 x i64> %or			ret <4 x i64> %or
	}			}

	define <8 x i32> @splatconstant_rotate_v8i32(<8 x i32> %a) nounwind {			define <8 x i32> @splatconstant_rotate_v8i32(<8 x i32> %a) nounwind {
	Show All 13 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpslld $4, %ymm0, %ymm1			; AVX2-NEXT: vpslld $4, %ymm0, %ymm1
	; AVX2-NEXT: vpsrld $28, %ymm0, %ymm0			; AVX2-NEXT: vpsrld $28, %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatconstant_rotate_v8i32:			; XOPAVX1-LABEL: splatconstant_rotate_v8i32:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vpslld $4, %xmm0, %xmm1			; XOPAVX1-NEXT: vprotd $4, %xmm0, %xmm1
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOPAVX1-NEXT: vpslld $4, %xmm2, %xmm3			; XOPAVX1-NEXT: vprotd $4, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: vpsrld $28, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpsrld $28, %xmm2, %xmm2
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: splatconstant_rotate_v8i32:			; XOPAVX2-LABEL: splatconstant_rotate_v8i32:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpslld $4, %ymm0, %ymm1			; XOPAVX2-NEXT: vprotd $4, %xmm0, %xmm1
	; XOPAVX2-NEXT: vpsrld $28, %ymm0, %ymm0			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; XOPAVX2-NEXT: vprotd $4, %xmm0, %xmm0
				; XOPAVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shl = shl <8 x i32> %a, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>			%shl = shl <8 x i32> %a, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
	%lshr = lshr <8 x i32> %a, <i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28>			%lshr = lshr <8 x i32> %a, <i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28>
	%or = or <8 x i32> %shl, %lshr			%or = or <8 x i32> %shl, %lshr
	ret <8 x i32> %or			ret <8 x i32> %or
	}			}

	define <16 x i16> @splatconstant_rotate_v16i16(<16 x i16> %a) nounwind {			define <16 x i16> @splatconstant_rotate_v16i16(<16 x i16> %a) nounwind {
	Show All 13 Lines
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpsllw $7, %ymm0, %ymm1			; AVX2-NEXT: vpsllw $7, %ymm0, %ymm1
	; AVX2-NEXT: vpsrlw $9, %ymm0, %ymm0			; AVX2-NEXT: vpsrlw $9, %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatconstant_rotate_v16i16:			; XOPAVX1-LABEL: splatconstant_rotate_v16i16:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vpsllw $7, %xmm0, %xmm1			; XOPAVX1-NEXT: vprotw $7, %xmm0, %xmm1
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOPAVX1-NEXT: vpsllw $7, %xmm2, %xmm3			; XOPAVX1-NEXT: vprotw $7, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: vpsrlw $9, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpsrlw $9, %xmm2, %xmm2
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: splatconstant_rotate_v16i16:			; XOPAVX2-LABEL: splatconstant_rotate_v16i16:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpsllw $7, %ymm0, %ymm1			; XOPAVX2-NEXT: vprotw $7, %xmm0, %xmm1
	; XOPAVX2-NEXT: vpsrlw $9, %ymm0, %ymm0			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; XOPAVX2-NEXT: vprotw $7, %xmm0, %xmm0
				; XOPAVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shl = shl <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%shl = shl <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	%lshr = lshr <16 x i16> %a, <i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9>			%lshr = lshr <16 x i16> %a, <i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9, i16 9>
	%or = or <16 x i16> %shl, %lshr			%or = or <16 x i16> %shl, %lshr
	ret <16 x i16> %or			ret <16 x i16> %or
	}			}

	define <32 x i8> @splatconstant_rotate_v32i8(<32 x i8> %a) nounwind {			define <32 x i8> @splatconstant_rotate_v32i8(<32 x i8> %a) nounwind {
	Show All 21 Lines
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX2-NEXT: vpsrlw $4, %ymm0, %ymm0			; AVX2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatconstant_rotate_v32i8:			; XOPAVX1-LABEL: splatconstant_rotate_v32i8:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; XOPAVX1-NEXT: vprotb $4, %xmm0, %xmm1
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm1, %xmm3			; XOPAVX1-NEXT: vprotb $4, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm0, %xmm4			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3
	; XOPAVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; XOPAVX1-NEXT: vpsubb %xmm2, %xmm4, %xmm2
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm1, %xmm1
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; XOPAVX1-NEXT: vorps %ymm0, %ymm3, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: splatconstant_rotate_v32i8:			; XOPAVX2-LABEL: splatconstant_rotate_v32i8:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpsllw $4, %ymm0, %ymm1			; XOPAVX2-NEXT: vprotb $4, %xmm0, %xmm1
	; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; XOPAVX2-NEXT: vpsrlw $4, %ymm0, %ymm0			; XOPAVX2-NEXT: vprotb $4, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; XOPAVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shl = shl <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%shl = shl <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	%lshr = lshr <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%lshr = lshr <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	%or = or <32 x i8> %shl, %lshr			%or = or <32 x i8> %shl, %lshr
	ret <32 x i8> %or			ret <32 x i8> %or
	}			}

	;			;
	Show All 24 Lines
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpbroadcastq {{.*}}(%rip), %ymm2			; AVX2-NEXT: vpbroadcastq {{.*}}(%rip), %ymm2
	; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatconstant_rotate_mask_v4i64:			; XOPAVX1-LABEL: splatconstant_rotate_mask_v4i64:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vpsllq $15, %xmm0, %xmm1			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vprotq $15, %xmm1, %xmm1
	; XOPAVX1-NEXT: vpsllq $15, %xmm2, %xmm3			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; XOPAVX1-NEXT: vpand %xmm2, %xmm1, %xmm1
	; XOPAVX1-NEXT: vpsrlq $49, %xmm0, %xmm0			; XOPAVX1-NEXT: vprotq $15, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpsrlq $49, %xmm2, %xmm2			; XOPAVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]			; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; XOPAVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; XOPAVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm1, %ymm1
	; XOPAVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: splatconstant_rotate_mask_v4i64:			; XOPAVX2-LABEL: splatconstant_rotate_mask_v4i64:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpsllq $15, %ymm0, %ymm1			; XOPAVX2-NEXT: vprotq $15, %xmm0, %xmm1
	; XOPAVX2-NEXT: vpsrlq $49, %ymm0, %ymm0			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
				; XOPAVX2-NEXT: vprotq $15, %xmm0, %xmm0
				; XOPAVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX2-NEXT: vpbroadcastq {{.*}}(%rip), %ymm2
	; XOPAVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shl = shl <4 x i64> %a, <i64 15, i64 15, i64 15, i64 15>			%shl = shl <4 x i64> %a, <i64 15, i64 15, i64 15, i64 15>
	%lshr = lshr <4 x i64> %a, <i64 49, i64 49, i64 49, i64 49>			%lshr = lshr <4 x i64> %a, <i64 49, i64 49, i64 49, i64 49>
	%rmask = and <4 x i64> %lshr, <i64 255, i64 255, i64 255, i64 255>			%rmask = and <4 x i64> %lshr, <i64 255, i64 255, i64 255, i64 255>
	%lmask = and <4 x i64> %shl, <i64 33, i64 33, i64 33, i64 33>			%lmask = and <4 x i64> %shl, <i64 33, i64 33, i64 33, i64 33>
	%or = or <4 x i64> %lmask, %rmask			%or = or <4 x i64> %lmask, %rmask
	ret <4 x i64> %or			ret <4 x i64> %or
	}			}
	Show All 21 Lines
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm2			; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm2
	; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatconstant_rotate_mask_v8i32:			; XOPAVX1-LABEL: splatconstant_rotate_mask_v8i32:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vpslld $4, %xmm0, %xmm1			; XOPAVX1-NEXT: vprotd $4, %xmm0, %xmm1
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOPAVX1-NEXT: vpslld $4, %xmm2, %xmm3			; XOPAVX1-NEXT: vprotd $4, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: vpsrld $28, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpsrld $28, %xmm2, %xmm2
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm1, %ymm1
	; XOPAVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: splatconstant_rotate_mask_v8i32:			; XOPAVX2-LABEL: splatconstant_rotate_mask_v8i32:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpslld $4, %ymm0, %ymm1			; XOPAVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm1
	; XOPAVX2-NEXT: vpsrld $28, %ymm0, %ymm0			; XOPAVX2-NEXT: vprotd $4, %xmm0, %xmm2
	; XOPAVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm2			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; XOPAVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; XOPAVX2-NEXT: vprotd $4, %xmm0, %xmm0
	; XOPAVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm2			; XOPAVX2-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm0
	; XOPAVX2-NEXT: vpand %ymm2, %ymm1, %ymm1			; XOPAVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shl = shl <8 x i32> %a, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>			%shl = shl <8 x i32> %a, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
	%lshr = lshr <8 x i32> %a, <i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28>			%lshr = lshr <8 x i32> %a, <i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28>
	%rmask = and <8 x i32> %lshr, <i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32>			%rmask = and <8 x i32> %lshr, <i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32>
	%lmask = and <8 x i32> %shl, <i32 33, i32 33, i32 33, i32 33, i32 33, i32 33, i32 33, i32 33>			%lmask = and <8 x i32> %shl, <i32 33, i32 33, i32 33, i32 33, i32 33, i32 33, i32 33, i32 33>
	%or = or <8 x i32> %lmask, %rmask			%or = or <8 x i32> %lmask, %rmask
	ret <8 x i32> %or			ret <8 x i32> %or
	}			}
	Show All 19 Lines
	; AVX2-NEXT: vpsrlw $11, %ymm0, %ymm0			; AVX2-NEXT: vpsrlw $11, %ymm0, %ymm0
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatconstant_rotate_mask_v16i16:			; XOPAVX1-LABEL: splatconstant_rotate_mask_v16i16:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vpsllw $5, %xmm0, %xmm1			; XOPAVX1-NEXT: vprotw $5, %xmm0, %xmm1
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOPAVX1-NEXT: vpsllw $5, %xmm2, %xmm3			; XOPAVX1-NEXT: vprotw $5, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: vpsrlw $11, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpsrlw $11, %xmm2, %xmm2
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm1, %ymm1
	; XOPAVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: splatconstant_rotate_mask_v16i16:			; XOPAVX2-LABEL: splatconstant_rotate_mask_v16i16:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpsllw $5, %ymm0, %ymm1			; XOPAVX2-NEXT: vprotw $5, %xmm0, %xmm1
	; XOPAVX2-NEXT: vpsrlw $11, %ymm0, %ymm0			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
				; XOPAVX2-NEXT: vprotw $5, %xmm0, %xmm0
				; XOPAVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shl = shl <16 x i16> %a, <i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5>			%shl = shl <16 x i16> %a, <i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5, i16 5>
	%lshr = lshr <16 x i16> %a, <i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11>			%lshr = lshr <16 x i16> %a, <i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11>
	%rmask = and <16 x i16> %lshr, <i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55>			%rmask = and <16 x i16> %lshr, <i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55, i16 55>
	%lmask = and <16 x i16> %shl, <i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33>			%lmask = and <16 x i16> %shl, <i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33, i16 33>
	%or = or <16 x i16> %lmask, %rmask			%or = or <16 x i16> %lmask, %rmask
	ret <16 x i16> %or			ret <16 x i16> %or
	}			}
	Show All 27 Lines
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatconstant_rotate_mask_v32i8:			; XOPAVX1-LABEL: splatconstant_rotate_mask_v32i8:
	; XOPAVX1: # BB#0:			; XOPAVX1: # BB#0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; XOPAVX1-NEXT: vprotb $4, %xmm0, %xmm1
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm1, %xmm3			; XOPAVX1-NEXT: vprotb $4, %xmm0, %xmm0
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm0, %xmm4			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3
	; XOPAVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; XOPAVX1-NEXT: vpsubb %xmm2, %xmm4, %xmm2
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm1, %xmm1
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm3, %ymm1
	; XOPAVX1-NEXT: vorps %ymm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: splatconstant_rotate_mask_v32i8:			; XOPAVX2-LABEL: splatconstant_rotate_mask_v32i8:
	; XOPAVX2: # BB#0:			; XOPAVX2: # BB#0:
	; XOPAVX2-NEXT: vpsllw $4, %ymm0, %ymm1			; XOPAVX2-NEXT: vprotb $4, %xmm0, %xmm1
	; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; XOPAVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; XOPAVX2-NEXT: vpsrlw $4, %ymm0, %ymm0			; XOPAVX2-NEXT: vprotb $4, %xmm0, %xmm0
				; XOPAVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; XOPAVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	%shl = shl <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%shl = shl <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	%lshr = lshr <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%lshr = lshr <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	%rmask = and <32 x i8> %lshr, <i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55>			%rmask = and <32 x i8> %lshr, <i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55>
	%lmask = and <32 x i8> %shl, <i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33>			%lmask = and <32 x i8> %shl, <i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33>
	%or = or <32 x i8> %lmask, %rmask			%or = or <32 x i8> %lmask, %rmask
	ret <32 x i8> %or			ret <32 x i8> %or
	}			}