Diff 422888

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 21,908 Lines • ▼ Show 20 Lines	static SDValue combineShuffleOfSplatVal(ShuffleVectorSDNode *Shuf,
for (int Idx : ShufMask)		for (int Idx : ShufMask)
NewMask.push_back(Idx == -1 ? -1 : SplatMask[Idx]);		NewMask.push_back(Idx == -1 ? -1 : SplatMask[Idx]);

return DAG.getVectorShuffle(Splat->getValueType(0), SDLoc(Splat),		return DAG.getVectorShuffle(Splat->getValueType(0), SDLoc(Splat),
Splat->getOperand(0), Splat->getOperand(1),		Splat->getOperand(0), Splat->getOperand(1),
NewMask);		NewMask);
}		}

		// Combine shuffles of bitcasts into a shuffle of the bitcast type, providing
		// the mask can be treated as a larger type.
		static SDValue combineShuffleOfBitcast(ShuffleVectorSDNode *SVN,
		SelectionDAG &DAG,
		const TargetLowering &TLI,
		bool LegalOperations) {
		// For now, we only support little endian
		if (!DAG.getDataLayout().isLittleEndian())
		return SDValue();
		RKSimonUnsubmitted Not Done Reply Inline Actions Can this can be dropped now? RKSimon: Can this can be dropped now?
		SDValue Op0 = SVN->getOperand(0);
		SDValue Op1 = SVN->getOperand(1);
		EVT VT = SVN->getValueType(0);
		if (Op0.getOpcode() != ISD::BITCAST)
		return SDValue();
		EVT InVT = Op0.getOperand(0).getValueType();
		if (!InVT.isVector() \|\|
		(!Op1.isUndef() && (Op1.getOpcode() != ISD::BITCAST \|\|
		Op1.getOperand(0).getValueType() != InVT)))
		return SDValue();

		int VTLanes = VT.getVectorNumElements();
		int InLanes = InVT.getVectorNumElements();
		if (VTLanes <= InLanes \|\| VTLanes % InLanes != 0 \|\|
		(LegalOperations &&
		!TLI.isOperationLegalOrCustom(ISD::VECTOR_SHUFFLE, InVT)))
		return SDValue();
		int Factor = VTLanes / InLanes;

		// Check that each group of lanes in the mask are either undef or make a valid
		// mask for the wider lane type.
		ArrayRef<int> Mask = SVN->getMask();
		SmallVector<int> NewMask;
		for (int E = 0; E < InLanes; E++) {
		int Base = UndefMaskElem;
		bool AnyUndef = false, AllUndef = true;
		for (int I = 0; I < Factor; I++) {
		int M = Mask[E * Factor + I];
		if (M == UndefMaskElem) {
		AnyUndef = true;
		continue;
		}
		AllUndef = false;
		if (Base == UndefMaskElem)
		Base = M / Factor;
		if (Base != M / Factor \|\| M % Factor != I)
		return SDValue();
		}
		if (AnyUndef && !AllUndef)
		return SDValue();
		NewMask.push_back(Base);
		}
		RKSimonUnsubmitted Not Done Reply Inline Actions If we moved scaleShuffleElements from X86ISelLowering.cpp inside ShuffleVectorSDNode as a static helper (like commuteMask) - could we reuse it here? RKSimon: If we moved scaleShuffleElements from X86ISelLowering.cpp inside ShuffleVectorSDNode as a…
		dmgreenAuthorUnsubmitted Done Reply Inline Actions Long story short... yes I think it would work, but it handles the X86 specific SM_SentinelZero and the way undef is propagated is different. It could take extra args to specify those behaviours. But then I found that llvm::widenShuffleMaskElts already does what we want here, so I've used that instead of this loop. dmgreen: Long story short... yes I think it would work, but it handles the X86 specific SM_SentinelZero…

		RKSimonUnsubmitted Not Done Reply Inline Actions We need a TLI.isShuffleMaskLegal check? RKSimon: We need a TLI.isShuffleMaskLegal check?
		dmgreenAuthorUnsubmitted Done Reply Inline Actions I can add one. I'm pretty sure that isShuffleMaskLegal really means "is this shuffle cheap", with the way it is used at the moment. We can always convert a shuffle back (providing we haven't made anything less undef), so it might not really need to be cheap. dmgreen: I can add one. I'm pretty sure that isShuffleMaskLegal really means "is this shuffle cheap"…
		// Create the new shuffle with the new mask and bitcast it bask to the
		ktkachovUnsubmitted Not Done Reply Inline Actions typo "back" ktkachov: typo "back"
		// original type.
		SDLoc DL(SVN);
		Op0 = Op0.getOperand(0);
		Op1 = Op1.isUndef() ? DAG.getUNDEF(InVT) : Op1.getOperand(0);
		SDValue NewShuf = DAG.getVectorShuffle(InVT, DL, Op0, Op1, NewMask);
		return DAG.getBitcast(VT, NewShuf);
		}

/// Combine shuffle of shuffle of the form:		/// Combine shuffle of shuffle of the form:
/// shuf (shuf X, undef, InnerMask), undef, OuterMask --> splat X		/// shuf (shuf X, undef, InnerMask), undef, OuterMask --> splat X
static SDValue formSplatFromShuffles(ShuffleVectorSDNode *OuterShuf,		static SDValue formSplatFromShuffles(ShuffleVectorSDNode *OuterShuf,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
if (!OuterShuf->getOperand(1).isUndef())		if (!OuterShuf->getOperand(1).isUndef())
return SDValue();		return SDValue();
auto *InnerShuf = dyn_cast<ShuffleVectorSDNode>(OuterShuf->getOperand(0));		auto *InnerShuf = dyn_cast<ShuffleVectorSDNode>(OuterShuf->getOperand(0));
if (!InnerShuf \|\| !InnerShuf->getOperand(1).isUndef())		if (!InnerShuf \|\| !InnerShuf->getOperand(1).isUndef())
▲ Show 20 Lines • Show All 272 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitVECTOR_SHUFFLE(SDNode *N) {
// it could eliminate knowledge of undef elements created by this shuffle.		// it could eliminate knowledge of undef elements created by this shuffle.
if (SDValue ShufOp = simplifyShuffleOfShuffle(SVN))		if (SDValue ShufOp = simplifyShuffleOfShuffle(SVN))
return ShufOp;		return ShufOp;

// Match shuffles that can be converted to any_vector_extend_in_reg.		// Match shuffles that can be converted to any_vector_extend_in_reg.
if (SDValue V = combineShuffleToVectorExtend(SVN, DAG, TLI, LegalOperations))		if (SDValue V = combineShuffleToVectorExtend(SVN, DAG, TLI, LegalOperations))
return V;		return V;

		// Match shuffles of bitcasts, so long as the mask can be treated as the
		// larger type.
		if (SDValue V = combineShuffleOfBitcast(SVN, DAG, TLI, LegalOperations))
		return V;

// Combine "truncate_vector_in_reg" style shuffles.		// Combine "truncate_vector_in_reg" style shuffles.
if (SDValue V = combineTruncationShuffle(SVN, DAG))		if (SDValue V = combineTruncationShuffle(SVN, DAG))
return V;		return V;

if (N0.getOpcode() == ISD::CONCAT_VECTORS &&		if (N0.getOpcode() == ISD::CONCAT_VECTORS &&
Level < AfterLegalizeVectorOps &&		Level < AfterLegalizeVectorOps &&
(N1.isUndef() \|\|		(N1.isUndef() \|\|
(N1.getOpcode() == ISD::CONCAT_VECTORS &&		(N1.getOpcode() == ISD::CONCAT_VECTORS &&
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitVECTOR_SHUFFLE(SDNode *N) {
// BUILD_VECTOR or SCALAR_TO_VECTOR into a single BUILD_VECTOR.		// BUILD_VECTOR or SCALAR_TO_VECTOR into a single BUILD_VECTOR.
if (Level < AfterLegalizeDAG && TLI.isTypeLegal(VT))		if (Level < AfterLegalizeDAG && TLI.isTypeLegal(VT))
if (SDValue Res = combineShuffleOfScalars(SVN, DAG, TLI))		if (SDValue Res = combineShuffleOfScalars(SVN, DAG, TLI))
return Res;		return Res;

// If this shuffle only has a single input that is a bitcasted shuffle,		// If this shuffle only has a single input that is a bitcasted shuffle,
// attempt to merge the 2 shuffles and suitably bitcast the inputs/output		// attempt to merge the 2 shuffles and suitably bitcast the inputs/output
// back to their original types.		// back to their original types.
if (N0.getOpcode() == ISD::BITCAST && N0.hasOneUse() &&		if (N0.getOpcode() == ISD::BITCAST && N0.hasOneUse() &&
		RKSimonUnsubmitted Not Done Reply Inline Actions We already have this - maybe we'd be better off adding support for binary bitcasted shuffles here? RKSimon: We already have this - maybe we'd be better off adding support for binary bitcasted shuffles…
		dmgreenAuthorUnsubmitted Done Reply Inline Actions Do you mean move the combineShuffleOfBitcast call here? I can do that. This looks like it's performing a `shuffle(bitcast(shuffle(..` combine. dmgreen: Do you mean move the combineShuffleOfBitcast call here? I can do that. This looks like it's…
N1.isUndef() && Level < AfterLegalizeVectorOps &&		N1.isUndef() && Level < AfterLegalizeVectorOps &&
TLI.isTypeLegal(VT)) {		TLI.isTypeLegal(VT)) {

SDValue BC0 = peekThroughOneUseBitcasts(N0);		SDValue BC0 = peekThroughOneUseBitcasts(N0);
if (BC0.getOpcode() == ISD::VECTOR_SHUFFLE && BC0.hasOneUse()) {		if (BC0.getOpcode() == ISD::VECTOR_SHUFFLE && BC0.hasOneUse()) {
EVT SVT = VT.getScalarType();		EVT SVT = VT.getScalarType();
EVT InnerVT = BC0->getValueType(0);		EVT InnerVT = BC0->getValueType(0);
EVT InnerSVT = InnerVT.getScalarType();		EVT InnerSVT = InnerVT.getScalarType();
▲ Show 20 Lines • Show All 2,192 Lines • Show Last 20 Lines

llvm/lib/Target/PowerPC/PPCISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,020 Lines • ▼ Show 20 Lines	if (Subtarget.hasVSX()) {
setCondCodeAction(ISD::SETUO, MVT::v2f64, Expand);		setCondCodeAction(ISD::SETUO, MVT::v2f64, Expand);
setCondCodeAction(ISD::SETUEQ, MVT::v2f64, Expand);		setCondCodeAction(ISD::SETUEQ, MVT::v2f64, Expand);
setCondCodeAction(ISD::SETO, MVT::v2f64, Expand);		setCondCodeAction(ISD::SETO, MVT::v2f64, Expand);
setCondCodeAction(ISD::SETONE, MVT::v2f64, Expand);		setCondCodeAction(ISD::SETONE, MVT::v2f64, Expand);

setOperationAction(ISD::LOAD, MVT::v2f64, Legal);		setOperationAction(ISD::LOAD, MVT::v2f64, Legal);
setOperationAction(ISD::STORE, MVT::v2f64, Legal);		setOperationAction(ISD::STORE, MVT::v2f64, Legal);

setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v2f64, Legal);		setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v2f64, Custom);

if (Subtarget.hasP8Vector())		if (Subtarget.hasP8Vector())
addRegisterClass(MVT::f32, &PPC::VSSRCRegClass);		addRegisterClass(MVT::f32, &PPC::VSSRCRegClass);

addRegisterClass(MVT::f64, &PPC::VSFRCRegClass);		addRegisterClass(MVT::f64, &PPC::VSFRCRegClass);

addRegisterClass(MVT::v4i32, &PPC::VSRCRegClass);		addRegisterClass(MVT::v4i32, &PPC::VSRCRegClass);
addRegisterClass(MVT::v4f32, &PPC::VSRCRegClass);		addRegisterClass(MVT::v4f32, &PPC::VSRCRegClass);
Show All 31 Lines	if (Subtarget.hasVSX()) {
else		else
setOperationAction(ISD::SETCC, MVT::v1i128, Expand);		setOperationAction(ISD::SETCC, MVT::v1i128, Expand);

setOperationAction(ISD::LOAD, MVT::v2i64, Promote);		setOperationAction(ISD::LOAD, MVT::v2i64, Promote);
AddPromotedToType (ISD::LOAD, MVT::v2i64, MVT::v2f64);		AddPromotedToType (ISD::LOAD, MVT::v2i64, MVT::v2f64);
setOperationAction(ISD::STORE, MVT::v2i64, Promote);		setOperationAction(ISD::STORE, MVT::v2i64, Promote);
AddPromotedToType (ISD::STORE, MVT::v2i64, MVT::v2f64);		AddPromotedToType (ISD::STORE, MVT::v2i64, MVT::v2f64);

setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v2i64, Legal);		setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v2i64, Custom);

setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v2i64, Legal);		setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v2i64, Legal);
setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v2i64, Legal);		setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v2i64, Legal);
setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v2i64, Legal);		setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v2i64, Legal);
setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v2i64, Legal);		setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v2i64, Legal);
setOperationAction(ISD::SINT_TO_FP, MVT::v2i64, Legal);		setOperationAction(ISD::SINT_TO_FP, MVT::v2i64, Legal);
setOperationAction(ISD::UINT_TO_FP, MVT::v2i64, Legal);		setOperationAction(ISD::UINT_TO_FP, MVT::v2i64, Legal);
setOperationAction(ISD::FP_TO_SINT, MVT::v2i64, Legal);		setOperationAction(ISD::FP_TO_SINT, MVT::v2i64, Legal);
▲ Show 20 Lines • Show All 1,046 Lines • ▼ Show 20 Lines
}		}

/// isSplatShuffleMask - Return true if the specified VECTOR_SHUFFLE operand		/// isSplatShuffleMask - Return true if the specified VECTOR_SHUFFLE operand
/// specifies a splat of a single element that is suitable for input to		/// specifies a splat of a single element that is suitable for input to
/// one of the splat operations (VSPLTB/VSPLTH/VSPLTW/XXSPLTW/LXVDSX/etc.).		/// one of the splat operations (VSPLTB/VSPLTH/VSPLTW/XXSPLTW/LXVDSX/etc.).
bool PPC::isSplatShuffleMask(ShuffleVectorSDNode *N, unsigned EltSize) {		bool PPC::isSplatShuffleMask(ShuffleVectorSDNode *N, unsigned EltSize) {
assert(N->getValueType(0) == MVT::v16i8 && isPowerOf2_32(EltSize) &&		assert(N->getValueType(0) == MVT::v16i8 && isPowerOf2_32(EltSize) &&
EltSize <= 8 && "Can only handle 1,2,4,8 byte element sizes");		EltSize <= 8 && "Can only handle 1,2,4,8 byte element sizes");

		shchenzUnsubmitted Not Done Reply Inline Actions I think we may need to handle all other types(1/2/4/8 bytes) of splat load for shuffle_vector with same masks in all lanes, like what we do for build_vector on PowerPC. But that should not be this patch's scope. shchenz: I think we may need to handle all other types(1/2/4/8 bytes) of splat load for shuffle_vector…
// The consecutive indices need to specify an element, not part of two		// The consecutive indices need to specify an element, not part of two
// different elements. So abandon ship early if this isn't the case.		// different elements. So abandon ship early if this isn't the case.
if (N->getMaskElt(0) % EltSize != 0)		if (N->getMaskElt(0) % EltSize != 0)
return false;		return false;

// This is a splat operation if each element of the permute is the same, and		// This is a splat operation if each element of the permute is the same, and
// if the value doesn't reference the second vector.		// if the value doesn't reference the second vector.
unsigned ElementBase = N->getMaskElt(0);		unsigned ElementBase = N->getMaskElt(0);
▲ Show 20 Lines • Show All 7,718 Lines • ▼ Show 20 Lines	SDValue PPCTargetLowering::LowerVECTOR_SHUFFLE(SDValue Op,
unsigned ShiftElts, InsertAtByte;		unsigned ShiftElts, InsertAtByte;
bool Swap = false;		bool Swap = false;

// If this is a load-and-splat, we can do that with a single instruction		// If this is a load-and-splat, we can do that with a single instruction
// in some cases. However if the load has multiple uses, we don't want to		// in some cases. However if the load has multiple uses, we don't want to
// combine it because that will just produce multiple loads.		// combine it because that will just produce multiple loads.
bool IsPermutedLoad = false;		bool IsPermutedLoad = false;
const SDValue *InputLoad = getNormalLoadInput(V1, IsPermutedLoad);		const SDValue *InputLoad = getNormalLoadInput(V1, IsPermutedLoad);
if (InputLoad && Subtarget.hasVSX() && V2.isUndef() &&		auto isSplatShuffle = [](ShuffleVectorSDNode *SVOp) {
(PPC::isSplatShuffleMask(SVOp, 4) \|\| PPC::isSplatShuffleMask(SVOp, 8)) &&		if (SVOp->getValueType(0).getVectorNumElements() == 2)
		return SVOp->getMaskElt(0) == SVOp->getMaskElt(1);
		return PPC::isSplatShuffleMask(SVOp, 4) \|\| PPC::isSplatShuffleMask(SVOp, 8);
		};
		if (InputLoad && Subtarget.hasVSX() && V2.isUndef() && isSplatShuffle(SVOp) &&
		shchenzUnsubmitted Not Done Reply Inline Actions Can we integrate splat load check for 2 elements to `isSplatShuffleMask()` and `getSplatIdxForPPCMnemonics()`? shchenz: Can we integrate splat load check for 2 elements to `isSplatShuffleMask()` and…
		dmgreenAuthorUnsubmitted Done Reply Inline Actions Yeah I think I can make that work. It is used in more places, but it shouldn't be an issue if they are only handling v16i8 types. dmgreen: Yeah I think I can make that work. It is used in more places, but it shouldn't be an issue if…
InputLoad->hasOneUse()) {		InputLoad->hasOneUse()) {
bool IsFourByte = PPC::isSplatShuffleMask(SVOp, 4);		bool IsFourByte = false;
int SplatIdx =		int SplatIdx;
PPC::getSplatIdxForPPCMnemonics(SVOp, IsFourByte ? 4 : 8, DAG);		if (VT.getVectorNumElements() == 2) {
		SplatIdx = DAG.getDataLayout().isLittleEndian() ? 1 - SVOp->getMaskElt(0)
		: SVOp->getMaskElt(0);
		} else {
		IsFourByte = PPC::isSplatShuffleMask(SVOp, 4);
		SplatIdx = PPC::getSplatIdxForPPCMnemonics(SVOp, IsFourByte ? 4 : 8, DAG);
		}

// The splat index for permuted loads will be in the left half of the vector		// The splat index for permuted loads will be in the left half of the vector
// which is strictly wider than the loaded value by 8 bytes. So we need to		// which is strictly wider than the loaded value by 8 bytes. So we need to
// adjust the splat index to point to the correct address in memory.		// adjust the splat index to point to the correct address in memory.
if (IsPermutedLoad) {		if (IsPermutedLoad) {
assert((isLittleEndian \|\| IsFourByte) &&		assert((isLittleEndian \|\| IsFourByte) &&
"Unexpected size for permuted load on big endian target");		"Unexpected size for permuted load on big endian target");
SplatIdx += IsFourByte ? 2 : 1;		SplatIdx += IsFourByte ? 2 : 1;
Show All 30 Lines	if ((IsFourByte && Subtarget.hasP9Vector()) \|\| !IsFourByte) {
DAG.getMemIntrinsicNode(PPCISD::LD_SPLAT, dl, VTL,		DAG.getMemIntrinsicNode(PPCISD::LD_SPLAT, dl, VTL,
Ops, LD->getMemoryVT(), LD->getMemOperand());		Ops, LD->getMemoryVT(), LD->getMemOperand());
DAG.ReplaceAllUsesOfValueWith(InputLoad->getValue(1), LdSplt.getValue(1));		DAG.ReplaceAllUsesOfValueWith(InputLoad->getValue(1), LdSplt.getValue(1));
if (LdSplt.getValueType() != SVOp->getValueType(0))		if (LdSplt.getValueType() != SVOp->getValueType(0))
LdSplt = DAG.getBitcast(SVOp->getValueType(0), LdSplt);		LdSplt = DAG.getBitcast(SVOp->getValueType(0), LdSplt);
return LdSplt;		return LdSplt;
}		}
}		}

		// All v2i64 and v2f64 shuffles are legal
		if (VT == MVT::v2i64 \|\| VT == MVT::v2f64)
		return Op;

if (Subtarget.hasP9Vector() &&		if (Subtarget.hasP9Vector() &&
PPC::isXXINSERTWMask(SVOp, ShiftElts, InsertAtByte, Swap,		PPC::isXXINSERTWMask(SVOp, ShiftElts, InsertAtByte, Swap,
isLittleEndian)) {		isLittleEndian)) {
if (Swap)		if (Swap)
std::swap(V1, V2);		std::swap(V1, V2);
SDValue Conv1 = DAG.getNode(ISD::BITCAST, dl, MVT::v4i32, V1);		SDValue Conv1 = DAG.getNode(ISD::BITCAST, dl, MVT::v4i32, V1);
SDValue Conv2 = DAG.getNode(ISD::BITCAST, dl, MVT::v4i32, V2);		SDValue Conv2 = DAG.getNode(ISD::BITCAST, dl, MVT::v4i32, V2);
if (ShiftElts) {		if (ShiftElts) {
▲ Show 20 Lines • Show All 8,214 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/insert-extend.ll

Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
%add = add <8 x i16> %z1, %z2		%add = add <8 x i16> %z1, %z2
ret <8 x i16> %add		ret <8 x i16> %add
}		}

define i32 @large(i8* nocapture noundef readonly %p1, i32 noundef %st1, i8* nocapture noundef readonly %p2, i32 noundef %st2) {		define i32 @large(i8* nocapture noundef readonly %p1, i32 noundef %st1, i8* nocapture noundef readonly %p2, i32 noundef %st2) {
; CHECK-LABEL: large:		; CHECK-LABEL: large:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: // kill: def $w1 killed $w1 def $x1		; CHECK-NEXT: // kill: def $w1 killed $w1 def $x1
; CHECK-NEXT: sxtw x9, w1		; CHECK-NEXT: sxtw x8, w1
; CHECK-NEXT: // kill: def $w3 killed $w3 def $x3		; CHECK-NEXT: // kill: def $w3 killed $w3 def $x3
; CHECK-NEXT: sxtw x12, w3		; CHECK-NEXT: sxtw x11, w3
; CHECK-NEXT: add x8, x0, x9		; CHECK-NEXT: add x9, x0, x8
; CHECK-NEXT: add x10, x8, x9		; CHECK-NEXT: add x12, x2, x11
; CHECK-NEXT: add x11, x10, x9		; CHECK-NEXT: add x10, x9, x8
; CHECK-NEXT: add x9, x2, x12		; CHECK-NEXT: add x13, x12, x11
; CHECK-NEXT: add x13, x9, x12		; CHECK-NEXT: add x8, x10, x8
; CHECK-NEXT: add x12, x13, x12		; CHECK-NEXT: add x11, x13, x11
; CHECK-NEXT: ldp s0, s2, [x11]		; CHECK-NEXT: ldp s1, s5, [x9]
		; CHECK-NEXT: ldp s0, s4, [x8]
; CHECK-NEXT: ld1 { v0.s }[1], [x10], #4		; CHECK-NEXT: ld1 { v0.s }[1], [x10], #4
; CHECK-NEXT: ld1 { v0.s }[2], [x8], #4		; CHECK-NEXT: ld1 { v1.s }[1], [x0], #4
; CHECK-NEXT: ld1 { v0.s }[3], [x0], #4		; CHECK-NEXT: ldp s2, s6, [x11]
; CHECK-NEXT: ldp s1, s3, [x12]		; CHECK-NEXT: ldp s3, s7, [x12]
; CHECK-NEXT: ext v4.16b, v0.16b, v0.16b, #8
; CHECK-NEXT: ushll v0.8h, v0.8b, #0		; CHECK-NEXT: ushll v0.8h, v0.8b, #0
; CHECK-NEXT: ld1 { v1.s }[1], [x13], #4
; CHECK-NEXT: ld1 { v1.s }[2], [x9], #4
; CHECK-NEXT: ld1 { v1.s }[3], [x2], #4
; CHECK-NEXT: ld1 { v2.s }[1], [x10]
; CHECK-NEXT: ld1 { v3.s }[1], [x13]
; CHECK-NEXT: ext v5.16b, v1.16b, v1.16b, #8
; CHECK-NEXT: ushll v1.8h, v1.8b, #0		; CHECK-NEXT: ushll v1.8h, v1.8b, #0
; CHECK-NEXT: ld1 { v2.s }[2], [x8]		; CHECK-NEXT: ld1 { v2.s }[1], [x13], #4
; CHECK-NEXT: ld1 { v3.s }[2], [x9]		; CHECK-NEXT: ld1 { v3.s }[1], [x2], #4
; CHECK-NEXT: ushll v4.8h, v4.8b, #0		; CHECK-NEXT: ld1 { v4.s }[1], [x10]
; CHECK-NEXT: ushll v5.8h, v5.8b, #0		; CHECK-NEXT: ld1 { v5.s }[1], [x0]
; CHECK-NEXT: ld1 { v2.s }[3], [x0]		; CHECK-NEXT: ld1 { v6.s }[1], [x13]
; CHECK-NEXT: ld1 { v3.s }[3], [x2]		; CHECK-NEXT: ld1 { v7.s }[1], [x2]
; CHECK-NEXT: usubl v6.4s, v0.4h, v1.4h
; CHECK-NEXT: usubl2 v0.4s, v0.8h, v1.8h
; CHECK-NEXT: usubl v1.4s, v4.4h, v5.4h
; CHECK-NEXT: usubl2 v4.4s, v4.8h, v5.8h
; CHECK-NEXT: ushll v5.8h, v2.8b, #0
; CHECK-NEXT: ext v2.16b, v2.16b, v2.16b, #8
; CHECK-NEXT: ushll v7.8h, v3.8b, #0
; CHECK-NEXT: ext v3.16b, v3.16b, v3.16b, #8
; CHECK-NEXT: usubl2 v16.4s, v5.8h, v7.8h
; CHECK-NEXT: usubl v5.4s, v5.4h, v7.4h
; CHECK-NEXT: ushll v2.8h, v2.8b, #0		; CHECK-NEXT: ushll v2.8h, v2.8b, #0
; CHECK-NEXT: ushll v3.8h, v3.8b, #0		; CHECK-NEXT: ushll v3.8h, v3.8b, #0
		; CHECK-NEXT: usubl v16.4s, v0.4h, v2.4h
		; CHECK-NEXT: usubl2 v0.4s, v0.8h, v2.8h
		; CHECK-NEXT: usubl v2.4s, v1.4h, v3.4h
		; CHECK-NEXT: usubl2 v1.4s, v1.8h, v3.8h
		; CHECK-NEXT: ushll v3.8h, v4.8b, #0
		; CHECK-NEXT: ushll v4.8h, v5.8b, #0
		; CHECK-NEXT: ushll v5.8h, v6.8b, #0
		; CHECK-NEXT: ushll v6.8h, v7.8b, #0
		; CHECK-NEXT: usubl2 v7.4s, v3.8h, v5.8h
		; CHECK-NEXT: usubl v3.4s, v3.4h, v5.4h
		; CHECK-NEXT: usubl2 v5.4s, v4.8h, v6.8h
		; CHECK-NEXT: usubl v4.4s, v4.4h, v6.4h
		; CHECK-NEXT: shl v6.4s, v7.4s, #16
; CHECK-NEXT: shl v5.4s, v5.4s, #16		; CHECK-NEXT: shl v5.4s, v5.4s, #16
; CHECK-NEXT: shl v7.4s, v16.4s, #16		; CHECK-NEXT: shl v3.4s, v3.4s, #16
; CHECK-NEXT: usubl2 v16.4s, v2.8h, v3.8h		; CHECK-NEXT: shl v4.4s, v4.4s, #16
; CHECK-NEXT: usubl v2.4s, v2.4h, v3.4h		; CHECK-NEXT: add v1.4s, v5.4s, v1.4s
; CHECK-NEXT: add v0.4s, v7.4s, v0.4s		; CHECK-NEXT: add v2.4s, v4.4s, v2.4s
; CHECK-NEXT: add v3.4s, v5.4s, v6.4s		; CHECK-NEXT: add v0.4s, v6.4s, v0.4s
; CHECK-NEXT: shl v2.4s, v2.4s, #16		; CHECK-NEXT: rev64 v6.4s, v1.4s
; CHECK-NEXT: shl v5.4s, v16.4s, #16		; CHECK-NEXT: rev64 v7.4s, v2.4s
; CHECK-NEXT: rev64 v6.4s, v3.4s		; CHECK-NEXT: add v3.4s, v3.4s, v16.4s
; CHECK-NEXT: rev64 v7.4s, v0.4s		; CHECK-NEXT: rev64 v4.4s, v0.4s
; CHECK-NEXT: add v1.4s, v2.4s, v1.4s
; CHECK-NEXT: add v2.4s, v5.4s, v4.4s
; CHECK-NEXT: rev64 v4.4s, v1.4s
; CHECK-NEXT: rev64 v5.4s, v2.4s
; CHECK-NEXT: add v16.4s, v0.4s, v7.4s
; CHECK-NEXT: add v17.4s, v3.4s, v6.4s
; CHECK-NEXT: sub v0.4s, v0.4s, v7.4s
; CHECK-NEXT: sub v3.4s, v3.4s, v6.4s
; CHECK-NEXT: uzp2 v7.4s, v17.4s, v16.4s
; CHECK-NEXT: zip2 v18.4s, v0.4s, v3.4s
; CHECK-NEXT: zip1 v0.4s, v0.4s, v3.4s
; CHECK-NEXT: uzp2 v3.4s, v16.4s, v17.4s
; CHECK-NEXT: add v20.4s, v2.4s, v5.4s
; CHECK-NEXT: add v21.4s, v1.4s, v4.4s
; CHECK-NEXT: sub v2.4s, v2.4s, v5.4s
; CHECK-NEXT: sub v1.4s, v1.4s, v4.4s
; CHECK-NEXT: trn2 v6.4s, v16.4s, v17.4s
; CHECK-NEXT: trn2 v19.4s, v17.4s, v16.4s
; CHECK-NEXT: zip1 v4.4s, v21.4s, v20.4s
; CHECK-NEXT: uzp2 v5.4s, v7.4s, v17.4s
; CHECK-NEXT: zip2 v7.4s, v21.4s, v20.4s
; CHECK-NEXT: zip1 v17.4s, v1.4s, v2.4s
; CHECK-NEXT: uzp2 v3.4s, v3.4s, v16.4s
; CHECK-NEXT: mov v6.d[1], v4.d[1]
; CHECK-NEXT: mov v5.d[1], v7.d[1]
; CHECK-NEXT: ext v16.16b, v1.16b, v17.16b, #8
; CHECK-NEXT: mov v3.d[1], v7.d[1]
; CHECK-NEXT: mov v19.d[1], v4.d[1]
; CHECK-NEXT: mov v1.s[3], v2.s[2]
; CHECK-NEXT: mov v0.d[1], v16.d[1]
; CHECK-NEXT: sub v2.4s, v6.4s, v3.4s
; CHECK-NEXT: add v3.4s, v5.4s, v19.4s
; CHECK-NEXT: mov v18.d[1], v1.d[1]
; CHECK-NEXT: rev64 v5.4s, v3.4s		; CHECK-NEXT: rev64 v5.4s, v3.4s
; CHECK-NEXT: rev64 v4.4s, v2.4s		; CHECK-NEXT: add v18.4s, v1.4s, v6.4s
; CHECK-NEXT: sub v7.4s, v0.4s, v18.4s		; CHECK-NEXT: add v19.4s, v2.4s, v7.4s
; CHECK-NEXT: add v0.4s, v18.4s, v0.4s		; CHECK-NEXT: sub v1.4s, v1.4s, v6.4s
; CHECK-NEXT: add v6.4s, v3.4s, v5.4s		; CHECK-NEXT: sub v2.4s, v2.4s, v7.4s
; CHECK-NEXT: rev64 v16.4s, v7.4s		; CHECK-NEXT: add v16.4s, v0.4s, v4.4s
; CHECK-NEXT: rev64 v17.4s, v0.4s		; CHECK-NEXT: zip1 v6.4s, v2.4s, v1.4s
		; CHECK-NEXT: add v17.4s, v3.4s, v5.4s
		; CHECK-NEXT: sub v0.4s, v0.4s, v4.4s
; CHECK-NEXT: sub v3.4s, v3.4s, v5.4s		; CHECK-NEXT: sub v3.4s, v3.4s, v5.4s
; CHECK-NEXT: rev64 v5.4s, v6.4s		; CHECK-NEXT: ext v6.16b, v2.16b, v6.16b, #8
; CHECK-NEXT: add v1.4s, v2.4s, v4.4s		; CHECK-NEXT: zip1 v7.4s, v0.4s, v3.4s
; CHECK-NEXT: add v18.4s, v7.4s, v16.4s		; CHECK-NEXT: zip2 v0.4s, v0.4s, v3.4s
; CHECK-NEXT: add v19.4s, v0.4s, v17.4s		; CHECK-NEXT: uzp2 v3.4s, v17.4s, v16.4s
; CHECK-NEXT: sub v7.4s, v7.4s, v16.4s		; CHECK-NEXT: uzp2 v20.4s, v16.4s, v17.4s
; CHECK-NEXT: sub v0.4s, v0.4s, v17.4s		; CHECK-NEXT: trn2 v4.4s, v16.4s, v17.4s
; CHECK-NEXT: sub v2.4s, v2.4s, v4.4s		; CHECK-NEXT: zip1 v5.4s, v19.4s, v18.4s
; CHECK-NEXT: trn2 v4.4s, v5.4s, v3.4s		; CHECK-NEXT: uzp2 v3.4s, v3.4s, v17.4s
; CHECK-NEXT: ext v5.16b, v2.16b, v1.16b, #12		; CHECK-NEXT: mov v7.d[1], v6.d[1]
; CHECK-NEXT: ext v16.16b, v0.16b, v19.16b, #12		; CHECK-NEXT: zip2 v6.4s, v19.4s, v18.4s
; CHECK-NEXT: ext v17.16b, v7.16b, v18.16b, #12		; CHECK-NEXT: trn2 v17.4s, v17.4s, v16.4s
; CHECK-NEXT: ext v6.16b, v6.16b, v6.16b, #4		; CHECK-NEXT: mov v2.s[3], v1.s[2]
; CHECK-NEXT: rev64 v5.4s, v5.4s		; CHECK-NEXT: uzp2 v1.4s, v20.4s, v16.4s
		; CHECK-NEXT: mov v3.d[1], v6.d[1]
		; CHECK-NEXT: mov v17.d[1], v5.d[1]
		; CHECK-NEXT: mov v0.d[1], v2.d[1]
		; CHECK-NEXT: mov v4.d[1], v5.d[1]
		; CHECK-NEXT: mov v1.d[1], v6.d[1]
		; CHECK-NEXT: add v2.4s, v3.4s, v17.4s
		; CHECK-NEXT: add v3.4s, v0.4s, v7.4s
		; CHECK-NEXT: sub v0.4s, v7.4s, v0.4s
		; CHECK-NEXT: sub v1.4s, v4.4s, v1.4s
		; CHECK-NEXT: rev64 v4.4s, v3.4s
		; CHECK-NEXT: rev64 v6.4s, v1.4s
		; CHECK-NEXT: rev64 v5.4s, v2.4s
		; CHECK-NEXT: add v7.4s, v3.4s, v4.4s
		; CHECK-NEXT: sub v3.4s, v3.4s, v4.4s
		; CHECK-NEXT: rev64 v4.4s, v0.4s
		; CHECK-NEXT: add v17.4s, v1.4s, v6.4s
		; CHECK-NEXT: sub v1.4s, v1.4s, v6.4s
		; CHECK-NEXT: ext v16.16b, v3.16b, v7.16b, #12
		; CHECK-NEXT: add v19.4s, v0.4s, v4.4s
		; CHECK-NEXT: sub v0.4s, v0.4s, v4.4s
		; CHECK-NEXT: add v18.4s, v2.4s, v5.4s
		; CHECK-NEXT: ext v6.16b, v1.16b, v17.16b, #12
		; CHECK-NEXT: sub v2.4s, v2.4s, v5.4s
		; CHECK-NEXT: ext v5.16b, v0.16b, v19.16b, #12
; CHECK-NEXT: rev64 v16.4s, v16.4s		; CHECK-NEXT: rev64 v16.4s, v16.4s
; CHECK-NEXT: rev64 v17.4s, v17.4s		; CHECK-NEXT: rev64 v6.4s, v6.4s
; CHECK-NEXT: mov v1.s[3], v2.s[3]		; CHECK-NEXT: ext v20.16b, v18.16b, v18.16b, #4
		; CHECK-NEXT: rev64 v5.4s, v5.4s
		; CHECK-NEXT: mov v7.s[3], v3.s[3]
		; CHECK-NEXT: ext v4.16b, v16.16b, v3.16b, #4
; CHECK-NEXT: mov v19.s[3], v0.s[3]		; CHECK-NEXT: mov v19.s[3], v0.s[3]
; CHECK-NEXT: mov v18.s[3], v7.s[3]		; CHECK-NEXT: mov v17.s[3], v1.s[3]
; CHECK-NEXT: ext v16.16b, v16.16b, v0.16b, #4		; CHECK-NEXT: ext v6.16b, v6.16b, v1.16b, #4
; CHECK-NEXT: ext v17.16b, v17.16b, v7.16b, #4		; CHECK-NEXT: ext v5.16b, v5.16b, v0.16b, #4
; CHECK-NEXT: ext v5.16b, v5.16b, v2.16b, #4		; CHECK-NEXT: rev64 v18.4s, v18.4s
; CHECK-NEXT: trn2 v3.4s, v3.4s, v6.4s		; CHECK-NEXT: trn2 v20.4s, v2.4s, v20.4s
; CHECK-NEXT: sub v20.4s, v19.4s, v16.4s		; CHECK-NEXT: sub v16.4s, v7.4s, v4.4s
; CHECK-NEXT: sub v21.4s, v18.4s, v17.4s		; CHECK-NEXT: sub v21.4s, v17.4s, v6.4s
; CHECK-NEXT: sub v6.4s, v1.4s, v5.4s		; CHECK-NEXT: sub v22.4s, v19.4s, v5.4s
; CHECK-NEXT: mov v18.s[0], v7.s[0]		; CHECK-NEXT: trn2 v2.4s, v18.4s, v2.4s
		; CHECK-NEXT: mov v17.s[0], v1.s[0]
		; CHECK-NEXT: ext v1.16b, v20.16b, v20.16b, #4
; CHECK-NEXT: mov v19.s[0], v0.s[0]		; CHECK-NEXT: mov v19.s[0], v0.s[0]
; CHECK-NEXT: ext v0.16b, v3.16b, v3.16b, #4		; CHECK-NEXT: mov v7.s[0], v3.s[0]
; CHECK-NEXT: mov v1.s[0], v2.s[0]		; CHECK-NEXT: add v0.4s, v17.4s, v6.4s
; CHECK-NEXT: add v2.4s, v18.4s, v17.4s		; CHECK-NEXT: add v3.4s, v2.4s, v1.4s
; CHECK-NEXT: add v3.4s, v19.4s, v16.4s		; CHECK-NEXT: add v5.4s, v19.4s, v5.4s
; CHECK-NEXT: add v7.4s, v4.4s, v0.4s		; CHECK-NEXT: add v4.4s, v7.4s, v4.4s
; CHECK-NEXT: sub v0.4s, v4.4s, v0.4s		; CHECK-NEXT: sub v1.4s, v2.4s, v1.4s
; CHECK-NEXT: add v1.4s, v1.4s, v5.4s		; CHECK-NEXT: mov v4.d[1], v16.d[1]
; CHECK-NEXT: mov v7.d[1], v0.d[1]		; CHECK-NEXT: mov v5.d[1], v22.d[1]
; CHECK-NEXT: mov v1.d[1], v6.d[1]		; CHECK-NEXT: mov v0.d[1], v21.d[1]
; CHECK-NEXT: mov v2.d[1], v21.d[1]		; CHECK-NEXT: mov v3.d[1], v1.d[1]
; CHECK-NEXT: mov v3.d[1], v20.d[1]		; CHECK-NEXT: movi v1.8h, #1
; CHECK-NEXT: movi v0.8h, #1
; CHECK-NEXT: movi v17.2d, #0x00ffff0000ffff		; CHECK-NEXT: movi v17.2d, #0x00ffff0000ffff
; CHECK-NEXT: ushr v4.4s, v2.4s, #15		; CHECK-NEXT: ushr v2.4s, v0.4s, #15
; CHECK-NEXT: ushr v5.4s, v7.4s, #15		; CHECK-NEXT: ushr v6.4s, v4.4s, #15
; CHECK-NEXT: ushr v6.4s, v3.4s, #15		; CHECK-NEXT: ushr v7.4s, v3.4s, #15
; CHECK-NEXT: ushr v16.4s, v1.4s, #15		; CHECK-NEXT: ushr v16.4s, v5.4s, #15
; CHECK-NEXT: and v5.16b, v5.16b, v0.16b		; CHECK-NEXT: and v6.16b, v6.16b, v1.16b
; CHECK-NEXT: and v16.16b, v16.16b, v0.16b		; CHECK-NEXT: and v16.16b, v16.16b, v1.16b
; CHECK-NEXT: and v6.16b, v6.16b, v0.16b		; CHECK-NEXT: and v7.16b, v7.16b, v1.16b
; CHECK-NEXT: and v0.16b, v4.16b, v0.16b		; CHECK-NEXT: and v1.16b, v2.16b, v1.16b
; CHECK-NEXT: mul v4.4s, v5.4s, v17.4s		; CHECK-NEXT: mul v2.4s, v6.4s, v17.4s
; CHECK-NEXT: mul v5.4s, v16.4s, v17.4s		; CHECK-NEXT: mul v6.4s, v16.4s, v17.4s
; CHECK-NEXT: mul v0.4s, v0.4s, v17.4s		; CHECK-NEXT: mul v1.4s, v1.4s, v17.4s
; CHECK-NEXT: mul v6.4s, v6.4s, v17.4s		; CHECK-NEXT: mul v7.4s, v7.4s, v17.4s
; CHECK-NEXT: add v7.4s, v4.4s, v7.4s		; CHECK-NEXT: add v4.4s, v2.4s, v4.4s
; CHECK-NEXT: add v1.4s, v5.4s, v1.4s		; CHECK-NEXT: add v5.4s, v6.4s, v5.4s
; CHECK-NEXT: add v2.4s, v0.4s, v2.4s		; CHECK-NEXT: add v0.4s, v1.4s, v0.4s
; CHECK-NEXT: add v3.4s, v6.4s, v3.4s		; CHECK-NEXT: add v3.4s, v7.4s, v3.4s
; CHECK-NEXT: eor v0.16b, v2.16b, v0.16b		; CHECK-NEXT: eor v0.16b, v0.16b, v1.16b
; CHECK-NEXT: eor v2.16b, v3.16b, v6.16b		; CHECK-NEXT: eor v1.16b, v3.16b, v7.16b
; CHECK-NEXT: eor v1.16b, v1.16b, v5.16b		; CHECK-NEXT: eor v3.16b, v5.16b, v6.16b
; CHECK-NEXT: eor v3.16b, v7.16b, v4.16b		; CHECK-NEXT: eor v2.16b, v4.16b, v2.16b
; CHECK-NEXT: add v1.4s, v3.4s, v1.4s		; CHECK-NEXT: add v2.4s, v2.4s, v3.4s
; CHECK-NEXT: add v0.4s, v2.4s, v0.4s
; CHECK-NEXT: add v0.4s, v1.4s, v0.4s		; CHECK-NEXT: add v0.4s, v1.4s, v0.4s
		; CHECK-NEXT: add v0.4s, v0.4s, v2.4s
; CHECK-NEXT: addv s0, v0.4s		; CHECK-NEXT: addv s0, v0.4s
; CHECK-NEXT: fmov w8, s0		; CHECK-NEXT: fmov w8, s0
; CHECK-NEXT: lsr w9, w8, #16		; CHECK-NEXT: lsr w9, w8, #16
; CHECK-NEXT: add w8, w9, w8, uxth		; CHECK-NEXT: add w8, w9, w8, uxth
; CHECK-NEXT: lsr w0, w8, #1		; CHECK-NEXT: lsr w0, w8, #1
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%idx.ext = sext i32 %st1 to i64		%idx.ext = sext i32 %st1 to i64
▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines	entry:
%shr120 = lshr i32 %add119, 1		%shr120 = lshr i32 %add119, 1
ret i32 %shr120		ret i32 %shr120
}		}

define i32 @large_reordered(i8* nocapture noundef readonly %p1, i32 noundef %s1, i8* nocapture noundef readonly %p2, i32 noundef %s2) {		define i32 @large_reordered(i8* nocapture noundef readonly %p1, i32 noundef %s1, i8* nocapture noundef readonly %p2, i32 noundef %s2) {
; CHECK-LABEL: large_reordered:		; CHECK-LABEL: large_reordered:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: // kill: def $w1 killed $w1 def $x1		; CHECK-NEXT: // kill: def $w1 killed $w1 def $x1
; CHECK-NEXT: sxtw x9, w1		; CHECK-NEXT: sxtw x8, w1
; CHECK-NEXT: // kill: def $w3 killed $w3 def $x3		; CHECK-NEXT: // kill: def $w3 killed $w3 def $x3
; CHECK-NEXT: sxtw x11, w3		; CHECK-NEXT: sxtw x11, w3
; CHECK-NEXT: add x8, x0, x9		; CHECK-NEXT: add x9, x0, x8
; CHECK-NEXT: add x12, x2, x11		; CHECK-NEXT: add x12, x2, x11
; CHECK-NEXT: add x10, x8, x9		; CHECK-NEXT: add x10, x9, x8
; CHECK-NEXT: add x13, x12, x11		; CHECK-NEXT: add x13, x12, x11
; CHECK-NEXT: add x9, x10, x9		; CHECK-NEXT: add x8, x10, x8
; CHECK-NEXT: add x11, x13, x11		; CHECK-NEXT: add x11, x13, x11
; CHECK-NEXT: ldp s0, s2, [x10]		; CHECK-NEXT: ldp s1, s5, [x9]
; CHECK-NEXT: ld1 { v0.s }[1], [x9], #4		; CHECK-NEXT: ldp s0, s4, [x10]
; CHECK-NEXT: ld1 { v0.s }[2], [x8], #4		; CHECK-NEXT: ld1 { v0.s }[1], [x8], #4
; CHECK-NEXT: ld1 { v0.s }[3], [x0], #4		; CHECK-NEXT: ld1 { v1.s }[1], [x0], #4
; CHECK-NEXT: ldp s1, s3, [x13]		; CHECK-NEXT: ldp s2, s6, [x13]
; CHECK-NEXT: ext v4.16b, v0.16b, v0.16b, #8		; CHECK-NEXT: ldp s3, s16, [x12]
; CHECK-NEXT: ushll v0.8h, v0.8b, #0		; CHECK-NEXT: ushll v0.8h, v0.8b, #0
; CHECK-NEXT: ld1 { v1.s }[1], [x11], #4
; CHECK-NEXT: ld1 { v1.s }[2], [x12], #4
; CHECK-NEXT: ld1 { v1.s }[3], [x2], #4
; CHECK-NEXT: ld1 { v2.s }[1], [x9]
; CHECK-NEXT: ld1 { v3.s }[1], [x11]
; CHECK-NEXT: ext v5.16b, v1.16b, v1.16b, #8
; CHECK-NEXT: ushll v1.8h, v1.8b, #0		; CHECK-NEXT: ushll v1.8h, v1.8b, #0
; CHECK-NEXT: ld1 { v2.s }[2], [x8]		; CHECK-NEXT: ld1 { v2.s }[1], [x11], #4
; CHECK-NEXT: ld1 { v3.s }[2], [x12]		; CHECK-NEXT: ld1 { v3.s }[1], [x2], #4
; CHECK-NEXT: ushll v4.8h, v4.8b, #0		; CHECK-NEXT: ld1 { v4.s }[1], [x8]
; CHECK-NEXT: ushll v5.8h, v5.8b, #0		; CHECK-NEXT: ld1 { v5.s }[1], [x0]
; CHECK-NEXT: ld1 { v2.s }[3], [x0]		; CHECK-NEXT: ld1 { v6.s }[1], [x11]
; CHECK-NEXT: ld1 { v3.s }[3], [x2]		; CHECK-NEXT: ld1 { v16.s }[1], [x2]
; CHECK-NEXT: usubl2 v6.4s, v0.8h, v1.8h
; CHECK-NEXT: usubl v0.4s, v0.4h, v1.4h
; CHECK-NEXT: usubl v1.4s, v4.4h, v5.4h
; CHECK-NEXT: usubl2 v4.4s, v4.8h, v5.8h
; CHECK-NEXT: ext v5.16b, v2.16b, v2.16b, #8
; CHECK-NEXT: ushll v7.8h, v3.8b, #0
; CHECK-NEXT: ext v3.16b, v3.16b, v3.16b, #8
; CHECK-NEXT: ushll v2.8h, v2.8b, #0		; CHECK-NEXT: ushll v2.8h, v2.8b, #0
; CHECK-NEXT: ushll v5.8h, v5.8b, #0
; CHECK-NEXT: usubl v16.4s, v2.4h, v7.4h
; CHECK-NEXT: ushll v3.8h, v3.8b, #0		; CHECK-NEXT: ushll v3.8h, v3.8b, #0
; CHECK-NEXT: usubl2 v2.4s, v2.8h, v7.8h		; CHECK-NEXT: usubl2 v7.4s, v0.8h, v2.8h
; CHECK-NEXT: shl v7.4s, v16.4s, #16		; CHECK-NEXT: usubl v0.4s, v0.4h, v2.4h
; CHECK-NEXT: usubl2 v16.4s, v5.8h, v3.8h		; CHECK-NEXT: usubl v2.4s, v1.4h, v3.4h
; CHECK-NEXT: usubl v3.4s, v5.4h, v3.4h		; CHECK-NEXT: usubl2 v1.4s, v1.8h, v3.8h
; CHECK-NEXT: shl v2.4s, v2.4s, #16		; CHECK-NEXT: ushll v3.8h, v4.8b, #0
; CHECK-NEXT: add v0.4s, v7.4s, v0.4s		; CHECK-NEXT: ushll v4.8h, v5.8b, #0
; CHECK-NEXT: shl v5.4s, v16.4s, #16		; CHECK-NEXT: ushll v5.8h, v6.8b, #0
		; CHECK-NEXT: ushll v6.8h, v16.8b, #0
		; CHECK-NEXT: usubl v16.4s, v3.4h, v5.4h
		; CHECK-NEXT: usubl2 v3.4s, v3.8h, v5.8h
		; CHECK-NEXT: usubl2 v5.4s, v4.8h, v6.8h
		; CHECK-NEXT: usubl v4.4s, v4.4h, v6.4h
; CHECK-NEXT: shl v3.4s, v3.4s, #16		; CHECK-NEXT: shl v3.4s, v3.4s, #16
; CHECK-NEXT: add v2.4s, v2.4s, v6.4s		; CHECK-NEXT: shl v5.4s, v5.4s, #16
; CHECK-NEXT: rev64 v7.4s, v0.4s		; CHECK-NEXT: shl v6.4s, v16.4s, #16
; CHECK-NEXT: add v1.4s, v3.4s, v1.4s		; CHECK-NEXT: shl v4.4s, v4.4s, #16
; CHECK-NEXT: add v3.4s, v5.4s, v4.4s		; CHECK-NEXT: add v3.4s, v3.4s, v7.4s
; CHECK-NEXT: rev64 v6.4s, v2.4s		; CHECK-NEXT: add v1.4s, v5.4s, v1.4s
; CHECK-NEXT: rev64 v4.4s, v1.4s		; CHECK-NEXT: add v2.4s, v4.4s, v2.4s
		; CHECK-NEXT: add v0.4s, v6.4s, v0.4s
; CHECK-NEXT: rev64 v5.4s, v3.4s		; CHECK-NEXT: rev64 v5.4s, v3.4s
; CHECK-NEXT: sub v16.4s, v0.4s, v7.4s		; CHECK-NEXT: rev64 v6.4s, v1.4s
; CHECK-NEXT: sub v17.4s, v2.4s, v6.4s		; CHECK-NEXT: rev64 v7.4s, v2.4s
; CHECK-NEXT: add v0.4s, v0.4s, v7.4s		; CHECK-NEXT: rev64 v4.4s, v0.4s
; CHECK-NEXT: add v2.4s, v2.4s, v6.4s		; CHECK-NEXT: sub v17.4s, v3.4s, v5.4s
; CHECK-NEXT: rev64 v6.4s, v16.4s		; CHECK-NEXT: sub v18.4s, v1.4s, v6.4s
; CHECK-NEXT: ext v7.16b, v16.16b, v16.16b, #4		; CHECK-NEXT: sub v19.4s, v2.4s, v7.4s
; CHECK-NEXT: sub v16.4s, v3.4s, v5.4s
; CHECK-NEXT: sub v18.4s, v1.4s, v4.4s
; CHECK-NEXT: add v3.4s, v3.4s, v5.4s		; CHECK-NEXT: add v3.4s, v3.4s, v5.4s
; CHECK-NEXT: add v1.4s, v1.4s, v4.4s		; CHECK-NEXT: add v2.4s, v2.4s, v7.4s
; CHECK-NEXT: uzp1 v4.4s, v3.4s, v17.4s		; CHECK-NEXT: add v1.4s, v1.4s, v6.4s
; CHECK-NEXT: zip1 v19.4s, v2.4s, v1.4s		; CHECK-NEXT: sub v16.4s, v0.4s, v4.4s
; CHECK-NEXT: zip2 v20.4s, v18.4s, v16.4s		; CHECK-NEXT: add v0.4s, v0.4s, v4.4s
; CHECK-NEXT: zip1 v21.4s, v3.4s, v17.4s		; CHECK-NEXT: uzp2 v4.4s, v3.4s, v2.4s
; CHECK-NEXT: uzp2 v5.4s, v2.4s, v1.4s		; CHECK-NEXT: uzp1 v5.4s, v1.4s, v17.4s
; CHECK-NEXT: zip1 v22.4s, v18.4s, v16.4s		; CHECK-NEXT: rev64 v6.4s, v16.4s
; CHECK-NEXT: trn2 v6.4s, v6.4s, v0.4s		; CHECK-NEXT: zip1 v21.4s, v1.4s, v17.4s
; CHECK-NEXT: zip1 v23.4s, v3.4s, v3.4s		; CHECK-NEXT: uzp2 v4.4s, v4.4s, v3.4s
; CHECK-NEXT: trn2 v0.4s, v0.4s, v7.4s		; CHECK-NEXT: zip2 v5.4s, v1.4s, v5.4s
; CHECK-NEXT: zip2 v7.4s, v2.4s, v1.4s		; CHECK-NEXT: zip1 v7.4s, v3.4s, v2.4s
; CHECK-NEXT: zip2 v4.4s, v3.4s, v4.4s		; CHECK-NEXT: zip2 v20.4s, v19.4s, v18.4s
; CHECK-NEXT: mov v20.d[1], v19.d[1]		; CHECK-NEXT: zip1 v22.4s, v19.4s, v18.4s
; CHECK-NEXT: trn2 v19.4s, v3.4s, v21.4s		; CHECK-NEXT: mov v4.d[1], v5.d[1]
; CHECK-NEXT: rev64 v3.4s, v3.4s		; CHECK-NEXT: trn2 v5.4s, v6.4s, v0.4s
; CHECK-NEXT: uzp2 v5.4s, v5.4s, v2.4s		; CHECK-NEXT: trn2 v6.4s, v1.4s, v21.4s
; CHECK-NEXT: ext v21.16b, v18.16b, v22.16b, #8		; CHECK-NEXT: zip1 v21.4s, v1.4s, v1.4s
; CHECK-NEXT: ext v23.16b, v23.16b, v17.16b, #4		; CHECK-NEXT: ext v16.16b, v16.16b, v16.16b, #4
; CHECK-NEXT: trn2 v1.4s, v2.4s, v1.4s		; CHECK-NEXT: rev64 v1.4s, v1.4s
		; CHECK-NEXT: mov v20.d[1], v7.d[1]
		; CHECK-NEXT: ext v7.16b, v19.16b, v22.16b, #8
		; CHECK-NEXT: trn2 v0.4s, v0.4s, v16.4s
		; CHECK-NEXT: zip2 v1.4s, v1.4s, v17.4s
		; CHECK-NEXT: mov v19.s[3], v18.s[2]
		; CHECK-NEXT: zip2 v16.4s, v3.4s, v2.4s
		; CHECK-NEXT: mov v6.d[1], v7.d[1]
		; CHECK-NEXT: ext v7.16b, v21.16b, v17.16b, #4
		; CHECK-NEXT: trn2 v2.4s, v3.4s, v2.4s
		; CHECK-NEXT: mov v1.d[1], v19.d[1]
		; CHECK-NEXT: mov v22.d[1], v16.d[1]
; CHECK-NEXT: ext v0.16b, v0.16b, v0.16b, #4		; CHECK-NEXT: ext v0.16b, v0.16b, v0.16b, #4
; CHECK-NEXT: mov v22.d[1], v7.d[1]		; CHECK-NEXT: mov v2.d[1], v7.d[1]
; CHECK-NEXT: mov v18.s[3], v16.s[2]		; CHECK-NEXT: sub v1.4s, v6.4s, v1.4s
; CHECK-NEXT: zip2 v3.4s, v3.4s, v17.4s		; CHECK-NEXT: sub v6.4s, v20.4s, v22.4s
; CHECK-NEXT: mov v5.d[1], v4.d[1]		; CHECK-NEXT: sub v3.4s, v5.4s, v0.4s
; CHECK-NEXT: mov v1.d[1], v23.d[1]		; CHECK-NEXT: add v7.4s, v20.4s, v22.4s
; CHECK-NEXT: sub v2.4s, v6.4s, v0.4s		; CHECK-NEXT: add v2.4s, v4.4s, v2.4s
; CHECK-NEXT: add v4.4s, v20.4s, v22.4s		; CHECK-NEXT: add v0.4s, v5.4s, v0.4s
; CHECK-NEXT: mov v19.d[1], v21.d[1]		; CHECK-NEXT: zip2 v5.4s, v1.4s, v6.4s
; CHECK-NEXT: mov v3.d[1], v18.d[1]		; CHECK-NEXT: uzp2 v4.4s, v7.4s, v3.4s
; CHECK-NEXT: uzp2 v7.4s, v4.4s, v2.4s		; CHECK-NEXT: uzp1 v17.4s, v2.4s, v0.4s
; CHECK-NEXT: add v1.4s, v5.4s, v1.4s		; CHECK-NEXT: ext v18.16b, v2.16b, v2.16b, #4
; CHECK-NEXT: add v0.4s, v6.4s, v0.4s		; CHECK-NEXT: trn2 v5.4s, v1.4s, v5.4s
; CHECK-NEXT: sub v3.4s, v19.4s, v3.4s		; CHECK-NEXT: ext v16.16b, v6.16b, v3.16b, #12
; CHECK-NEXT: sub v16.4s, v20.4s, v22.4s		; CHECK-NEXT: trn1 v4.4s, v4.4s, v7.4s
; CHECK-NEXT: trn1 v5.4s, v7.4s, v4.4s		; CHECK-NEXT: mov v7.d[1], v6.d[1]
; CHECK-NEXT: uzp1 v7.4s, v1.4s, v0.4s		; CHECK-NEXT: trn2 v6.4s, v17.4s, v2.4s
; CHECK-NEXT: zip2 v17.4s, v3.4s, v16.4s		; CHECK-NEXT: rev64 v17.4s, v1.4s
; CHECK-NEXT: ext v6.16b, v16.16b, v2.16b, #12		; CHECK-NEXT: mov v5.d[1], v18.d[1]
; CHECK-NEXT: rev64 v19.4s, v3.4s		; CHECK-NEXT: dup v18.4s, v1.s[0]
; CHECK-NEXT: trn2 v7.4s, v7.4s, v1.4s		; CHECK-NEXT: mov v3.d[1], v0.d[1]
; CHECK-NEXT: mov v4.d[1], v16.d[1]		; CHECK-NEXT: mov v4.s[3], v18.s[3]
; CHECK-NEXT: trn2 v16.4s, v3.4s, v17.4s
; CHECK-NEXT: ext v17.16b, v1.16b, v1.16b, #4
; CHECK-NEXT: dup v18.4s, v3.s[0]
; CHECK-NEXT: mov v2.d[1], v0.d[1]
; CHECK-NEXT: ext v0.16b, v0.16b, v7.16b, #12
; CHECK-NEXT: mov v5.s[3], v18.s[3]
; CHECK-NEXT: mov v6.d[1], v19.d[1]
; CHECK-NEXT: mov v16.d[1], v17.d[1]		; CHECK-NEXT: mov v16.d[1], v17.d[1]
; CHECK-NEXT: add v17.4s, v1.4s, v0.4s		; CHECK-NEXT: ext v0.16b, v0.16b, v6.16b, #12
; CHECK-NEXT: sub v7.4s, v4.4s, v5.4s		; CHECK-NEXT: sub v3.4s, v3.4s, v5.4s
; CHECK-NEXT: sub v18.4s, v3.4s, v6.4s		; CHECK-NEXT: sub v6.4s, v7.4s, v4.4s
; CHECK-NEXT: sub v2.4s, v2.4s, v16.4s		; CHECK-NEXT: sub v17.4s, v1.4s, v16.4s
; CHECK-NEXT: rev64 v16.4s, v17.4s		; CHECK-NEXT: sub v5.4s, v2.4s, v0.4s
; CHECK-NEXT: sub v0.4s, v1.4s, v0.4s		; CHECK-NEXT: add v0.4s, v2.4s, v0.4s
; CHECK-NEXT: ext v1.16b, v18.16b, v7.16b, #12		; CHECK-NEXT: add v2.4s, v7.4s, v4.4s
; CHECK-NEXT: add v4.4s, v4.4s, v5.4s		; CHECK-NEXT: ext v4.16b, v17.16b, v6.16b, #12
; CHECK-NEXT: zip2 v19.4s, v16.4s, v2.4s		; CHECK-NEXT: rev64 v7.4s, v0.4s
; CHECK-NEXT: mov v16.s[2], v2.s[3]		; CHECK-NEXT: dup v19.4s, v5.s[2]
; CHECK-NEXT: trn1 v1.4s, v1.4s, v18.4s		; CHECK-NEXT: mov v21.16b, v0.16b
; CHECK-NEXT: add v3.4s, v3.4s, v6.4s		; CHECK-NEXT: dup v18.4s, v2.s[0]
; CHECK-NEXT: dup v6.4s, v0.s[2]		; CHECK-NEXT: trn1 v4.4s, v4.4s, v17.4s
; CHECK-NEXT: dup v20.4s, v4.s[0]		; CHECK-NEXT: zip2 v22.4s, v7.4s, v3.4s
; CHECK-NEXT: mov v5.16b, v16.16b		; CHECK-NEXT: mov v7.s[2], v3.s[3]
; CHECK-NEXT: mov v1.s[3], v6.s[3]		; CHECK-NEXT: mov v21.s[2], v5.s[2]
; CHECK-NEXT: mov v5.s[3], v20.s[3]		; CHECK-NEXT: mov v4.s[3], v19.s[3]
; CHECK-NEXT: rev64 v6.4s, v4.4s		; CHECK-NEXT: add v1.4s, v1.4s, v16.4s
; CHECK-NEXT: ext v20.16b, v3.16b, v2.16b, #4		; CHECK-NEXT: rev64 v16.4s, v2.4s
; CHECK-NEXT: add v1.4s, v2.4s, v1.4s		; CHECK-NEXT: ext v19.16b, v1.16b, v3.16b, #4
; CHECK-NEXT: add v5.4s, v17.4s, v5.4s		; CHECK-NEXT: add v4.4s, v3.4s, v4.4s
; CHECK-NEXT: mov v2.s[3], v3.s[1]		; CHECK-NEXT: mov v3.s[3], v1.s[1]
; CHECK-NEXT: mov v17.s[2], v0.s[2]		; CHECK-NEXT: sub v5.4s, v21.4s, v7.4s
; CHECK-NEXT: add v21.4s, v4.4s, v6.4s		; CHECK-NEXT: mov v7.s[3], v18.s[3]
; CHECK-NEXT: mov v4.s[1], v7.s[1]		; CHECK-NEXT: mov v20.16b, v2.16b
; CHECK-NEXT: mov v19.d[1], v6.d[1]		; CHECK-NEXT: mov v20.s[1], v6.s[1]
; CHECK-NEXT: trn2 v0.4s, v2.4s, v20.4s		; CHECK-NEXT: trn2 v3.4s, v3.4s, v19.4s
; CHECK-NEXT: sub v2.4s, v17.4s, v16.4s		; CHECK-NEXT: mov v17.s[2], v1.s[2]
; CHECK-NEXT: mov v18.s[2], v3.s[2]		; CHECK-NEXT: mov v22.d[1], v16.d[1]
; CHECK-NEXT: mov v2.s[0], v5.s[0]		; CHECK-NEXT: add v0.4s, v0.4s, v7.4s
; CHECK-NEXT: add v3.4s, v3.4s, v0.4s		; CHECK-NEXT: add v2.4s, v2.4s, v16.4s
; CHECK-NEXT: sub v4.4s, v4.4s, v19.4s		; CHECK-NEXT: mov v5.s[0], v0.s[0]
; CHECK-NEXT: sub v0.4s, v18.4s, v0.4s		; CHECK-NEXT: add v1.4s, v1.4s, v3.4s
; CHECK-NEXT: mov v2.s[3], v5.s[3]		; CHECK-NEXT: sub v3.4s, v17.4s, v3.4s
; CHECK-NEXT: mov v4.s[2], v21.s[2]		; CHECK-NEXT: sub v6.4s, v20.4s, v22.4s
; CHECK-NEXT: mov v0.s[1], v3.s[1]		; CHECK-NEXT: mov v3.s[1], v1.s[1]
; CHECK-NEXT: movi v3.8h, #1		; CHECK-NEXT: mov v5.s[3], v0.s[3]
		; CHECK-NEXT: mov v6.s[2], v2.s[2]
		; CHECK-NEXT: movi v0.8h, #1
; CHECK-NEXT: movi v17.2d, #0x00ffff0000ffff		; CHECK-NEXT: movi v17.2d, #0x00ffff0000ffff
; CHECK-NEXT: ushr v5.4s, v4.4s, #15		; CHECK-NEXT: ushr v1.4s, v3.4s, #15
; CHECK-NEXT: ushr v6.4s, v2.4s, #15		; CHECK-NEXT: ushr v2.4s, v5.4s, #15
; CHECK-NEXT: ushr v7.4s, v0.4s, #15		; CHECK-NEXT: ushr v7.4s, v4.4s, #15
; CHECK-NEXT: ushr v16.4s, v1.4s, #15		; CHECK-NEXT: ushr v16.4s, v6.4s, #15
; CHECK-NEXT: and v6.16b, v6.16b, v3.16b		; CHECK-NEXT: and v1.16b, v1.16b, v0.16b
; CHECK-NEXT: and v7.16b, v7.16b, v3.16b		; CHECK-NEXT: and v16.16b, v16.16b, v0.16b
; CHECK-NEXT: and v5.16b, v5.16b, v3.16b		; CHECK-NEXT: and v7.16b, v7.16b, v0.16b
; CHECK-NEXT: and v3.16b, v16.16b, v3.16b		; CHECK-NEXT: and v0.16b, v2.16b, v0.16b
; CHECK-NEXT: mul v6.4s, v6.4s, v17.4s		; CHECK-NEXT: mul v1.4s, v1.4s, v17.4s
		; CHECK-NEXT: mul v2.4s, v16.4s, v17.4s
; CHECK-NEXT: mul v7.4s, v7.4s, v17.4s		; CHECK-NEXT: mul v7.4s, v7.4s, v17.4s
; CHECK-NEXT: mul v5.4s, v5.4s, v17.4s		; CHECK-NEXT: mul v0.4s, v0.4s, v17.4s
; CHECK-NEXT: mul v3.4s, v3.4s, v17.4s		; CHECK-NEXT: add v3.4s, v1.4s, v3.4s
; CHECK-NEXT: add v2.4s, v6.4s, v2.4s		; CHECK-NEXT: add v6.4s, v2.4s, v6.4s
; CHECK-NEXT: add v0.4s, v7.4s, v0.4s		; CHECK-NEXT: add v4.4s, v7.4s, v4.4s
; CHECK-NEXT: add v4.4s, v5.4s, v4.4s		; CHECK-NEXT: add v5.4s, v0.4s, v5.4s
; CHECK-NEXT: add v1.4s, v3.4s, v1.4s		; CHECK-NEXT: eor v1.16b, v3.16b, v1.16b
; CHECK-NEXT: eor v4.16b, v4.16b, v5.16b		; CHECK-NEXT: eor v0.16b, v5.16b, v0.16b
; CHECK-NEXT: eor v0.16b, v0.16b, v7.16b		; CHECK-NEXT: eor v3.16b, v4.16b, v7.16b
; CHECK-NEXT: eor v2.16b, v2.16b, v6.16b		; CHECK-NEXT: eor v2.16b, v6.16b, v2.16b
; CHECK-NEXT: eor v1.16b, v1.16b, v3.16b		; CHECK-NEXT: add v2.4s, v3.4s, v2.4s
		; CHECK-NEXT: add v0.4s, v0.4s, v1.4s
; CHECK-NEXT: add v0.4s, v2.4s, v0.4s		; CHECK-NEXT: add v0.4s, v2.4s, v0.4s
; CHECK-NEXT: add v1.4s, v1.4s, v4.4s
; CHECK-NEXT: add v0.4s, v1.4s, v0.4s
; CHECK-NEXT: addv s0, v0.4s		; CHECK-NEXT: addv s0, v0.4s
; CHECK-NEXT: fmov w8, s0		; CHECK-NEXT: fmov w8, s0
; CHECK-NEXT: lsr w9, w8, #16		; CHECK-NEXT: lsr w9, w8, #16
; CHECK-NEXT: add w8, w9, w8, uxth		; CHECK-NEXT: add w8, w9, w8, uxth
; CHECK-NEXT: lsr w0, w8, #1		; CHECK-NEXT: lsr w0, w8, #1
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%idx.ext = sext i32 %s1 to i64		%idx.ext = sext i32 %s1 to i64
▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines	entry:
%shr120 = lshr i32 %add119, 1		%shr120 = lshr i32 %add119, 1
ret i32 %shr120		ret i32 %shr120
}		}

define i32 @large_reduceshuffle(i8* nocapture noundef readonly %p1, i32 noundef %s1, i8* nocapture noundef readonly %p2, i32 noundef %s2) {		define i32 @large_reduceshuffle(i8* nocapture noundef readonly %p1, i32 noundef %s1, i8* nocapture noundef readonly %p2, i32 noundef %s2) {
; CHECK-LABEL: large_reduceshuffle:		; CHECK-LABEL: large_reduceshuffle:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: // kill: def $w1 killed $w1 def $x1		; CHECK-NEXT: // kill: def $w1 killed $w1 def $x1
; CHECK-NEXT: sxtw x9, w1		; CHECK-NEXT: sxtw x8, w1
; CHECK-NEXT: // kill: def $w3 killed $w3 def $x3		; CHECK-NEXT: // kill: def $w3 killed $w3 def $x3
; CHECK-NEXT: sxtw x11, w3		; CHECK-NEXT: sxtw x11, w3
; CHECK-NEXT: add x8, x0, x9		; CHECK-NEXT: add x9, x0, x8
; CHECK-NEXT: add x12, x2, x11		; CHECK-NEXT: add x12, x2, x11
; CHECK-NEXT: add x10, x8, x9		; CHECK-NEXT: add x10, x9, x8
; CHECK-NEXT: add x13, x12, x11		; CHECK-NEXT: add x13, x12, x11
; CHECK-NEXT: add x9, x10, x9		; CHECK-NEXT: add x8, x10, x8
; CHECK-NEXT: add x11, x13, x11		; CHECK-NEXT: add x11, x13, x11
; CHECK-NEXT: ldp s0, s2, [x10]		; CHECK-NEXT: ldp s1, s5, [x9]
; CHECK-NEXT: ld1 { v0.s }[1], [x9], #4		; CHECK-NEXT: ldp s0, s4, [x10]
; CHECK-NEXT: ld1 { v0.s }[2], [x8], #4		; CHECK-NEXT: ld1 { v0.s }[1], [x8], #4
; CHECK-NEXT: ld1 { v0.s }[3], [x0], #4		; CHECK-NEXT: ld1 { v1.s }[1], [x0], #4
; CHECK-NEXT: ldp s1, s3, [x13]		; CHECK-NEXT: ldp s2, s6, [x13]
; CHECK-NEXT: ext v4.16b, v0.16b, v0.16b, #8		; CHECK-NEXT: ldp s3, s16, [x12]
; CHECK-NEXT: ushll v0.8h, v0.8b, #0		; CHECK-NEXT: ushll v0.8h, v0.8b, #0
; CHECK-NEXT: ld1 { v1.s }[1], [x11], #4
; CHECK-NEXT: ld1 { v1.s }[2], [x12], #4
; CHECK-NEXT: ld1 { v1.s }[3], [x2], #4
; CHECK-NEXT: ld1 { v2.s }[1], [x9]
; CHECK-NEXT: ld1 { v3.s }[1], [x11]
; CHECK-NEXT: ext v5.16b, v1.16b, v1.16b, #8
; CHECK-NEXT: ushll v1.8h, v1.8b, #0		; CHECK-NEXT: ushll v1.8h, v1.8b, #0
; CHECK-NEXT: ld1 { v2.s }[2], [x8]		; CHECK-NEXT: ld1 { v2.s }[1], [x11], #4
; CHECK-NEXT: ld1 { v3.s }[2], [x12]		; CHECK-NEXT: ld1 { v3.s }[1], [x2], #4
; CHECK-NEXT: ushll v4.8h, v4.8b, #0		; CHECK-NEXT: ld1 { v4.s }[1], [x8]
; CHECK-NEXT: ushll v5.8h, v5.8b, #0		; CHECK-NEXT: ld1 { v5.s }[1], [x0]
; CHECK-NEXT: ld1 { v2.s }[3], [x0]		; CHECK-NEXT: ld1 { v6.s }[1], [x11]
; CHECK-NEXT: ld1 { v3.s }[3], [x2]		; CHECK-NEXT: ld1 { v16.s }[1], [x2]
; CHECK-NEXT: usubl2 v6.4s, v0.8h, v1.8h
; CHECK-NEXT: usubl v0.4s, v0.4h, v1.4h
; CHECK-NEXT: usubl v1.4s, v4.4h, v5.4h
; CHECK-NEXT: usubl2 v4.4s, v4.8h, v5.8h
; CHECK-NEXT: ext v5.16b, v2.16b, v2.16b, #8
; CHECK-NEXT: ushll v7.8h, v3.8b, #0
; CHECK-NEXT: ext v3.16b, v3.16b, v3.16b, #8
; CHECK-NEXT: ushll v2.8h, v2.8b, #0		; CHECK-NEXT: ushll v2.8h, v2.8b, #0
; CHECK-NEXT: ushll v5.8h, v5.8b, #0
; CHECK-NEXT: usubl v16.4s, v2.4h, v7.4h
; CHECK-NEXT: ushll v3.8h, v3.8b, #0		; CHECK-NEXT: ushll v3.8h, v3.8b, #0
; CHECK-NEXT: usubl2 v2.4s, v2.8h, v7.8h		; CHECK-NEXT: usubl2 v7.4s, v0.8h, v2.8h
; CHECK-NEXT: shl v7.4s, v16.4s, #16		; CHECK-NEXT: usubl v0.4s, v0.4h, v2.4h
; CHECK-NEXT: usubl2 v16.4s, v5.8h, v3.8h		; CHECK-NEXT: usubl v2.4s, v1.4h, v3.4h
; CHECK-NEXT: usubl v3.4s, v5.4h, v3.4h		; CHECK-NEXT: usubl2 v1.4s, v1.8h, v3.8h
; CHECK-NEXT: shl v2.4s, v2.4s, #16		; CHECK-NEXT: ushll v3.8h, v4.8b, #0
; CHECK-NEXT: add v0.4s, v7.4s, v0.4s		; CHECK-NEXT: ushll v4.8h, v5.8b, #0
; CHECK-NEXT: shl v5.4s, v16.4s, #16		; CHECK-NEXT: ushll v5.8h, v6.8b, #0
		; CHECK-NEXT: ushll v6.8h, v16.8b, #0
		; CHECK-NEXT: usubl v16.4s, v3.4h, v5.4h
		; CHECK-NEXT: usubl2 v3.4s, v3.8h, v5.8h
		; CHECK-NEXT: usubl2 v5.4s, v4.8h, v6.8h
		; CHECK-NEXT: usubl v4.4s, v4.4h, v6.4h
; CHECK-NEXT: shl v3.4s, v3.4s, #16		; CHECK-NEXT: shl v3.4s, v3.4s, #16
; CHECK-NEXT: add v2.4s, v2.4s, v6.4s		; CHECK-NEXT: shl v5.4s, v5.4s, #16
; CHECK-NEXT: rev64 v7.4s, v0.4s		; CHECK-NEXT: shl v6.4s, v16.4s, #16
; CHECK-NEXT: add v1.4s, v3.4s, v1.4s		; CHECK-NEXT: shl v4.4s, v4.4s, #16
; CHECK-NEXT: add v3.4s, v5.4s, v4.4s		; CHECK-NEXT: add v3.4s, v3.4s, v7.4s
; CHECK-NEXT: rev64 v6.4s, v2.4s		; CHECK-NEXT: add v1.4s, v5.4s, v1.4s
; CHECK-NEXT: rev64 v4.4s, v1.4s		; CHECK-NEXT: add v2.4s, v4.4s, v2.4s
		; CHECK-NEXT: add v0.4s, v6.4s, v0.4s
; CHECK-NEXT: rev64 v5.4s, v3.4s		; CHECK-NEXT: rev64 v5.4s, v3.4s
; CHECK-NEXT: sub v16.4s, v0.4s, v7.4s		; CHECK-NEXT: rev64 v6.4s, v1.4s
; CHECK-NEXT: sub v17.4s, v2.4s, v6.4s		; CHECK-NEXT: rev64 v7.4s, v2.4s
; CHECK-NEXT: add v0.4s, v0.4s, v7.4s		; CHECK-NEXT: rev64 v4.4s, v0.4s
; CHECK-NEXT: add v2.4s, v2.4s, v6.4s		; CHECK-NEXT: sub v17.4s, v3.4s, v5.4s
; CHECK-NEXT: rev64 v6.4s, v16.4s		; CHECK-NEXT: sub v18.4s, v1.4s, v6.4s
; CHECK-NEXT: ext v7.16b, v16.16b, v16.16b, #4		; CHECK-NEXT: sub v19.4s, v2.4s, v7.4s
; CHECK-NEXT: sub v16.4s, v3.4s, v5.4s
; CHECK-NEXT: sub v18.4s, v1.4s, v4.4s
; CHECK-NEXT: add v3.4s, v3.4s, v5.4s		; CHECK-NEXT: add v3.4s, v3.4s, v5.4s
; CHECK-NEXT: add v1.4s, v1.4s, v4.4s		; CHECK-NEXT: add v2.4s, v2.4s, v7.4s
; CHECK-NEXT: uzp1 v4.4s, v3.4s, v17.4s		; CHECK-NEXT: add v1.4s, v1.4s, v6.4s
; CHECK-NEXT: zip1 v19.4s, v2.4s, v1.4s		; CHECK-NEXT: sub v16.4s, v0.4s, v4.4s
; CHECK-NEXT: zip2 v20.4s, v18.4s, v16.4s		; CHECK-NEXT: add v0.4s, v0.4s, v4.4s
; CHECK-NEXT: zip1 v21.4s, v3.4s, v17.4s		; CHECK-NEXT: uzp2 v4.4s, v3.4s, v2.4s
; CHECK-NEXT: uzp2 v5.4s, v2.4s, v1.4s		; CHECK-NEXT: uzp1 v5.4s, v1.4s, v17.4s
; CHECK-NEXT: zip1 v22.4s, v18.4s, v16.4s		; CHECK-NEXT: rev64 v6.4s, v16.4s
; CHECK-NEXT: trn2 v6.4s, v6.4s, v0.4s		; CHECK-NEXT: zip1 v7.4s, v3.4s, v2.4s
; CHECK-NEXT: zip1 v23.4s, v3.4s, v3.4s		; CHECK-NEXT: uzp2 v4.4s, v4.4s, v3.4s
; CHECK-NEXT: trn2 v0.4s, v0.4s, v7.4s		; CHECK-NEXT: zip2 v5.4s, v1.4s, v5.4s
; CHECK-NEXT: zip2 v7.4s, v2.4s, v1.4s		; CHECK-NEXT: zip2 v20.4s, v19.4s, v18.4s
; CHECK-NEXT: zip2 v4.4s, v3.4s, v4.4s		; CHECK-NEXT: zip1 v21.4s, v1.4s, v17.4s
; CHECK-NEXT: mov v20.d[1], v19.d[1]		; CHECK-NEXT: zip1 v22.4s, v19.4s, v18.4s
; CHECK-NEXT: trn2 v19.4s, v3.4s, v21.4s		; CHECK-NEXT: mov v4.d[1], v5.d[1]
; CHECK-NEXT: rev64 v3.4s, v3.4s		; CHECK-NEXT: trn2 v5.4s, v6.4s, v0.4s
; CHECK-NEXT: uzp2 v5.4s, v5.4s, v2.4s		; CHECK-NEXT: mov v20.d[1], v7.d[1]
; CHECK-NEXT: ext v21.16b, v18.16b, v22.16b, #8		; CHECK-NEXT: trn2 v6.4s, v1.4s, v21.4s
; CHECK-NEXT: ext v23.16b, v23.16b, v17.16b, #4		; CHECK-NEXT: ext v7.16b, v19.16b, v22.16b, #8
; CHECK-NEXT: mov v18.s[3], v16.s[2]		; CHECK-NEXT: zip1 v21.4s, v1.4s, v1.4s
; CHECK-NEXT: zip2 v3.4s, v3.4s, v17.4s		; CHECK-NEXT: ext v16.16b, v16.16b, v16.16b, #4
; CHECK-NEXT: trn2 v1.4s, v2.4s, v1.4s		; CHECK-NEXT: rev64 v1.4s, v1.4s
		; CHECK-NEXT: mov v6.d[1], v7.d[1]
		; CHECK-NEXT: ext v7.16b, v21.16b, v17.16b, #4
		; CHECK-NEXT: trn2 v0.4s, v0.4s, v16.4s
		; CHECK-NEXT: zip2 v1.4s, v1.4s, v17.4s
		; CHECK-NEXT: mov v19.s[3], v18.s[2]
		; CHECK-NEXT: zip2 v16.4s, v3.4s, v2.4s
		; CHECK-NEXT: trn2 v2.4s, v3.4s, v2.4s
; CHECK-NEXT: ext v0.16b, v0.16b, v0.16b, #4		; CHECK-NEXT: ext v0.16b, v0.16b, v0.16b, #4
; CHECK-NEXT: mov v22.d[1], v7.d[1]		; CHECK-NEXT: mov v1.d[1], v19.d[1]
; CHECK-NEXT: mov v5.d[1], v4.d[1]		; CHECK-NEXT: mov v22.d[1], v16.d[1]
; CHECK-NEXT: mov v19.d[1], v21.d[1]		; CHECK-NEXT: mov v2.d[1], v7.d[1]
; CHECK-NEXT: mov v3.d[1], v18.d[1]		; CHECK-NEXT: sub v3.4s, v5.4s, v0.4s
; CHECK-NEXT: mov v1.d[1], v23.d[1]		; CHECK-NEXT: sub v1.4s, v6.4s, v1.4s
; CHECK-NEXT: sub v2.4s, v6.4s, v0.4s		; CHECK-NEXT: add v6.4s, v20.4s, v22.4s
; CHECK-NEXT: add v4.4s, v20.4s, v22.4s		; CHECK-NEXT: add v2.4s, v4.4s, v2.4s
; CHECK-NEXT: sub v3.4s, v19.4s, v3.4s		; CHECK-NEXT: add v0.4s, v5.4s, v0.4s
; CHECK-NEXT: uzp2 v7.4s, v4.4s, v2.4s		; CHECK-NEXT: uzp2 v16.4s, v6.4s, v3.4s
; CHECK-NEXT: sub v16.4s, v20.4s, v22.4s		; CHECK-NEXT: uzp1 v17.4s, v2.4s, v0.4s
; CHECK-NEXT: add v1.4s, v5.4s, v1.4s		; CHECK-NEXT: sub v7.4s, v20.4s, v22.4s
; CHECK-NEXT: add v0.4s, v6.4s, v0.4s		; CHECK-NEXT: rev64 v18.4s, v1.4s
; CHECK-NEXT: trn1 v5.4s, v7.4s, v4.4s		; CHECK-NEXT: trn1 v5.4s, v16.4s, v6.4s
; CHECK-NEXT: uzp1 v7.4s, v1.4s, v0.4s		; CHECK-NEXT: zip2 v16.4s, v1.4s, v7.4s
; CHECK-NEXT: zip2 v17.4s, v3.4s, v16.4s		; CHECK-NEXT: trn2 v17.4s, v17.4s, v2.4s
; CHECK-NEXT: ext v6.16b, v16.16b, v2.16b, #12		; CHECK-NEXT: ext v4.16b, v7.16b, v3.16b, #12
; CHECK-NEXT: mov v4.d[1], v16.d[1]		; CHECK-NEXT: mov v3.d[1], v0.d[1]
; CHECK-NEXT: trn2 v7.4s, v7.4s, v1.4s		; CHECK-NEXT: mov v6.d[1], v7.d[1]
; CHECK-NEXT: trn2 v16.4s, v3.4s, v17.4s		; CHECK-NEXT: trn2 v7.4s, v1.4s, v16.4s
; CHECK-NEXT: ext v17.16b, v1.16b, v1.16b, #4		; CHECK-NEXT: ext v16.16b, v2.16b, v2.16b, #4
; CHECK-NEXT: mov v2.d[1], v0.d[1]		; CHECK-NEXT: ext v0.16b, v0.16b, v17.16b, #12
; CHECK-NEXT: rev64 v19.4s, v3.4s		; CHECK-NEXT: dup v19.4s, v1.s[0]
; CHECK-NEXT: ext v0.16b, v0.16b, v7.16b, #12		; CHECK-NEXT: mov v4.d[1], v18.d[1]
; CHECK-NEXT: mov v16.d[1], v17.d[1]		; CHECK-NEXT: mov v7.d[1], v16.d[1]
; CHECK-NEXT: dup v18.4s, v3.s[0]		; CHECK-NEXT: sub v16.4s, v2.4s, v0.4s
; CHECK-NEXT: mov v6.d[1], v19.d[1]		; CHECK-NEXT: add v0.4s, v2.4s, v0.4s
; CHECK-NEXT: mov v5.s[3], v18.s[3]		; CHECK-NEXT: mov v5.s[3], v19.s[3]
; CHECK-NEXT: sub v2.4s, v2.4s, v16.4s		; CHECK-NEXT: rev64 v17.4s, v0.4s
; CHECK-NEXT: add v16.4s, v1.4s, v0.4s		; CHECK-NEXT: sub v3.4s, v3.4s, v7.4s
; CHECK-NEXT: sub v0.4s, v1.4s, v0.4s		; CHECK-NEXT: sub v2.4s, v1.4s, v4.4s
; CHECK-NEXT: rev64 v1.4s, v16.4s		; CHECK-NEXT: sub v7.4s, v6.4s, v5.4s
; CHECK-NEXT: sub v7.4s, v4.4s, v5.4s		; CHECK-NEXT: add v1.4s, v1.4s, v4.4s
; CHECK-NEXT: sub v17.4s, v3.4s, v6.4s		; CHECK-NEXT: add v4.4s, v6.4s, v5.4s
; CHECK-NEXT: add v4.4s, v4.4s, v5.4s		; CHECK-NEXT: mov v5.16b, v0.16b
; CHECK-NEXT: add v3.4s, v3.4s, v6.4s		; CHECK-NEXT: zip2 v18.4s, v17.4s, v3.4s
; CHECK-NEXT: mov v20.16b, v2.16b		; CHECK-NEXT: mov v17.s[2], v3.s[3]
; CHECK-NEXT: mov v23.16b, v16.16b		; CHECK-NEXT: mov v5.s[2], v16.s[2]
; CHECK-NEXT: zip2 v5.4s, v1.4s, v2.4s		; CHECK-NEXT: dup v22.4s, v4.s[0]
; CHECK-NEXT: rev64 v6.4s, v4.4s		; CHECK-NEXT: mov v21.16b, v3.16b
; CHECK-NEXT: ext v18.16b, v3.16b, v2.16b, #4		; CHECK-NEXT: ext v6.16b, v1.16b, v3.16b, #4
; CHECK-NEXT: mov v1.s[2], v2.s[3]		; CHECK-NEXT: rev64 v19.4s, v4.4s
; CHECK-NEXT: ext v19.16b, v17.16b, v7.16b, #12		; CHECK-NEXT: ext v20.16b, v2.16b, v7.16b, #12
; CHECK-NEXT: mov v20.s[3], v3.s[1]		; CHECK-NEXT: mov v21.s[3], v1.s[1]
; CHECK-NEXT: mov v23.s[2], v0.s[2]		; CHECK-NEXT: sub v5.4s, v5.4s, v17.4s
; CHECK-NEXT: dup v21.4s, v4.s[0]		; CHECK-NEXT: mov v17.s[3], v22.s[3]
; CHECK-NEXT: add v22.4s, v4.4s, v6.4s		; CHECK-NEXT: add v23.4s, v4.4s, v19.4s
; CHECK-NEXT: dup v0.4s, v0.s[2]		; CHECK-NEXT: trn1 v20.4s, v20.4s, v2.4s
; CHECK-NEXT: trn1 v19.4s, v19.4s, v17.4s
; CHECK-NEXT: mov v4.s[1], v7.s[1]		; CHECK-NEXT: mov v4.s[1], v7.s[1]
; CHECK-NEXT: trn2 v7.4s, v20.4s, v18.4s		; CHECK-NEXT: mov v2.s[2], v1.s[2]
; CHECK-NEXT: sub v18.4s, v23.4s, v1.4s		; CHECK-NEXT: trn2 v6.4s, v21.4s, v6.4s
; CHECK-NEXT: mov v1.s[3], v21.s[3]		; CHECK-NEXT: mov v18.d[1], v19.d[1]
; CHECK-NEXT: mov v17.s[2], v3.s[2]		; CHECK-NEXT: add v0.4s, v0.4s, v17.4s
; CHECK-NEXT: mov v5.d[1], v6.d[1]		; CHECK-NEXT: dup v7.4s, v16.s[2]
; CHECK-NEXT: mov v19.s[3], v0.s[3]		; CHECK-NEXT: mov v5.s[0], v0.s[0]
; CHECK-NEXT: add v0.4s, v16.4s, v1.4s		; CHECK-NEXT: mov v20.s[3], v7.s[3]
; CHECK-NEXT: add v1.4s, v3.4s, v7.4s		; CHECK-NEXT: add v1.4s, v1.4s, v6.4s
; CHECK-NEXT: mov v18.s[0], v0.s[0]		; CHECK-NEXT: sub v2.4s, v2.4s, v6.4s
; CHECK-NEXT: sub v3.4s, v17.4s, v7.4s		; CHECK-NEXT: sub v4.4s, v4.4s, v18.4s
; CHECK-NEXT: sub v4.4s, v4.4s, v5.4s		; CHECK-NEXT: mov v2.s[1], v1.s[1]
; CHECK-NEXT: mov v3.s[1], v1.s[1]		; CHECK-NEXT: mov v4.s[2], v23.s[2]
; CHECK-NEXT: mov v18.s[3], v0.s[3]		; CHECK-NEXT: mov v5.s[3], v0.s[3]
; CHECK-NEXT: mov v4.s[2], v22.s[2]		; CHECK-NEXT: add v0.4s, v3.4s, v20.4s
; CHECK-NEXT: add v0.4s, v2.4s, v19.4s
; CHECK-NEXT: add v1.4s, v18.4s, v3.4s
; CHECK-NEXT: add v0.4s, v0.4s, v4.4s		; CHECK-NEXT: add v0.4s, v0.4s, v4.4s
		; CHECK-NEXT: add v1.4s, v5.4s, v2.4s
; CHECK-NEXT: add v0.4s, v0.4s, v1.4s		; CHECK-NEXT: add v0.4s, v0.4s, v1.4s
; CHECK-NEXT: addv s0, v0.4s		; CHECK-NEXT: addv s0, v0.4s
; CHECK-NEXT: fmov w8, s0		; CHECK-NEXT: fmov w8, s0
; CHECK-NEXT: lsr w9, w8, #16		; CHECK-NEXT: lsr w9, w8, #16
; CHECK-NEXT: add w8, w9, w8, uxth		; CHECK-NEXT: add w8, w9, w8, uxth
; CHECK-NEXT: lsr w0, w8, #1		; CHECK-NEXT: lsr w0, w8, #1
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
▲ Show 20 Lines • Show All 101 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/neon-copy.ll

Show First 20 Lines • Show All 1,735 Lines • ▼ Show 20 Lines	entry:
%vecext13 = extractelement <4 x i16> %y, i32 3		%vecext13 = extractelement <4 x i16> %y, i32 3
%vecinit14 = insertelement <8 x i16> %vecinit12, i16 %vecext13, i32 7		%vecinit14 = insertelement <8 x i16> %vecinit12, i16 %vecext13, i32 7
ret <8 x i16> %vecinit14		ret <8 x i16> %vecinit14
}		}

define <4 x i32> @test_concat_v4i32_v4i32_v4i32(<4 x i32> %x, <4 x i32> %y) #0 {		define <4 x i32> @test_concat_v4i32_v4i32_v4i32(<4 x i32> %x, <4 x i32> %y) #0 {
; CHECK-LABEL: test_concat_v4i32_v4i32_v4i32:		; CHECK-LABEL: test_concat_v4i32_v4i32_v4i32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vext.32 q8, q0, q0, #2		; CHECK-NEXT: vmov.f64 d1, d2
; CHECK-NEXT: vext.32 q0, q8, q1, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%vecinit6 = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 0, i32 1, i32 4, i32 5>		%vecinit6 = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
ret <4 x i32> %vecinit6		ret <4 x i32> %vecinit6
}		}

define <4 x i32> @test_concat_v4i32_v2i32_v4i32(<2 x i32> %x, <4 x i32> %y) #0 {		define <4 x i32> @test_concat_v4i32_v2i32_v4i32(<2 x i32> %x, <4 x i32> %y) #0 {
; CHECK-LABEL: test_concat_v4i32_v2i32_v4i32:		; CHECK-LABEL: test_concat_v4i32_v2i32_v4i32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: @ kill: def $d0 killed $d0 def $q0		; CHECK-NEXT: @ kill: def $d0 killed $d0 def $q0
; CHECK-NEXT: vext.32 q8, q0, q0, #2		; CHECK-NEXT: vmov.f64 d1, d2
; CHECK-NEXT: vext.32 q0, q8, q1, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%vecext = extractelement <2 x i32> %x, i32 0		%vecext = extractelement <2 x i32> %x, i32 0
%vecinit = insertelement <4 x i32> undef, i32 %vecext, i32 0		%vecinit = insertelement <4 x i32> undef, i32 %vecext, i32 0
%vecext1 = extractelement <2 x i32> %x, i32 1		%vecext1 = extractelement <2 x i32> %x, i32 1
%vecinit2 = insertelement <4 x i32> %vecinit, i32 %vecext1, i32 1		%vecinit2 = insertelement <4 x i32> %vecinit, i32 %vecext1, i32 1
%vecinit6 = shufflevector <4 x i32> %vecinit2, <4 x i32> %y, <4 x i32> <i32 0, i32 1, i32 4, i32 5>		%vecinit6 = shufflevector <4 x i32> %vecinit2, <4 x i32> %y, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
ret <4 x i32> %vecinit6		ret <4 x i32> %vecinit6
▲ Show 20 Lines • Show All 188 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/vector-DAGCombine.ll

	Show First 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test_vmovrrd_combine:			; CHECK-LABEL: test_vmovrrd_combine:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: mov r0, #0			; CHECK-NEXT: mov r0, #0
	; CHECK-NEXT: cmp r0, #0			; CHECK-NEXT: cmp r0, #0
	; CHECK-NEXT: @ implicit-def: $q8			; CHECK-NEXT: @ implicit-def: $q8
	; CHECK-NEXT: bne .LBB3_2			; CHECK-NEXT: bne .LBB3_2
	; CHECK-NEXT: @ %bb.1: @ %bb1.preheader			; CHECK-NEXT: @ %bb.1: @ %bb1.preheader
	; CHECK-NEXT: vmov.i32 q8, #0x0			; CHECK-NEXT: vmov.i32 q8, #0x0
	; CHECK-NEXT: vext.8 q8, q8, q8, #4
	; CHECK-NEXT: .LBB3_2: @ %bb2			; CHECK-NEXT: .LBB3_2: @ %bb2
	; CHECK-NEXT: vmov r0, r1, d16			; CHECK-NEXT: vmov r0, r1, d16
	; CHECK-NEXT: vmov r2, r3, d17			; CHECK-NEXT: vmov r2, r3, d17
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	br i1 undef, label %bb1, label %bb2			br i1 undef, label %bb1, label %bb2

	bb1:			bb1:
	▲ Show 20 Lines • Show All 295 Lines • Show Last 20 Lines

llvm/test/CodeGen/PowerPC/aix-vsx-splatimm.ll

	Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: # %bb.1: # %bb3			; CHECK-NEXT: # %bb.1: # %bb3
	; CHECK-NEXT: srwi 4, 4, 16			; CHECK-NEXT: srwi 4, 4, 16
	; CHECK-NEXT: srwi 5, 5, 16			; CHECK-NEXT: srwi 5, 5, 16
	; CHECK-NEXT: mullw 4, 5, 4			; CHECK-NEXT: mullw 4, 5, 4
	; CHECK-NEXT: lwz 5, 0(3)			; CHECK-NEXT: lwz 5, 0(3)
	; CHECK-NEXT: slwi 3, 3, 8			; CHECK-NEXT: slwi 3, 3, 8
	; CHECK-NEXT: neg 3, 3			; CHECK-NEXT: neg 3, 3
	; CHECK-NEXT: srwi 5, 5, 1			; CHECK-NEXT: srwi 5, 5, 1
	; CHECK-NEXT: mtvsrd 35, 3			; CHECK-NEXT: mtvsrd 34, 3
	; CHECK-NEXT: mullw 4, 4, 5
	; CHECK-NEXT: li 5, 0
	; CHECK-NEXT: mtvsrd 34, 5
	; CHECK-NEXT: vmrghh 3, 3, 2
	; CHECK-NEXT: neg 3, 4
	; CHECK-NEXT: mtvsrd 36, 3
	; CHECK-NEXT: addis 3, 2, .LCPI0_0@toc@ha
	; CHECK-NEXT: addi 3, 3, .LCPI0_0@toc@l
	; CHECK-NEXT: vmrghh 4, 2, 4
	; CHECK-NEXT: vsplth 2, 2, 3
	; CHECK-NEXT: xxmrglw 34, 34, 35
	; CHECK-NEXT: lvx 3, 0, 3
	; CHECK-NEXT: li 3, 0			; CHECK-NEXT: li 3, 0
	; CHECK-NEXT: vperm 2, 4, 2, 3			; CHECK-NEXT: mullw 4, 4, 5
	; CHECK-NEXT: vsplth 3, 2, 6
	; CHECK-NEXT: vsplth 2, 2, 3			; CHECK-NEXT: vsplth 2, 2, 3
	; CHECK-NEXT: stvx 3, 0, 3
	; CHECK-NEXT: stvx 2, 0, 3			; CHECK-NEXT: stvx 2, 0, 3
				; CHECK-NEXT: neg 4, 4
				; CHECK-NEXT: mtvsrd 35, 4
				; CHECK-NEXT: vsplth 3, 3, 3
				; CHECK-NEXT: stvx 3, 0, 3
	bb:			bb:
	br i1 undef, label %bb22, label %bb3			br i1 undef, label %bb22, label %bb3

	bb3: ; preds = %bb			bb3: ; preds = %bb
	%i = insertelement <8 x i16> undef, i16 0, i32 0			%i = insertelement <8 x i16> undef, i16 0, i32 0
	%i4 = trunc i32 %arg to i16			%i4 = trunc i32 %arg to i16
	%i5 = mul i16 %i4, -256			%i5 = mul i16 %i4, -256
	%i6 = insertelement <8 x i16> %i, i16 %i5, i32 1			%i6 = insertelement <8 x i16> %i, i16 %i5, i32 1
	Show All 22 Lines

llvm/test/CodeGen/PowerPC/canonical-merge-shuffles.ll

	Show First 20 Lines • Show All 859 Lines • ▼ Show 20 Lines
	; CHECK-P8-LABEL: testSplati64_1:			; CHECK-P8-LABEL: testSplati64_1:
	; CHECK-P8: # %bb.0: # %entry			; CHECK-P8: # %bb.0: # %entry
	; CHECK-P8-NEXT: lxvd2x vs0, 0, r3			; CHECK-P8-NEXT: lxvd2x vs0, 0, r3
	; CHECK-P8-NEXT: xxspltd v2, vs0, 1			; CHECK-P8-NEXT: xxspltd v2, vs0, 1
	; CHECK-P8-NEXT: blr			; CHECK-P8-NEXT: blr
	;			;
	; CHECK-P9-LABEL: testSplati64_1:			; CHECK-P9-LABEL: testSplati64_1:
	; CHECK-P9: # %bb.0: # %entry			; CHECK-P9: # %bb.0: # %entry
	; CHECK-P9-NEXT: lxv v2, 0(r3)			; CHECK-P9-NEXT: addi r3, r3, 8
	; CHECK-P9-NEXT: xxspltd v2, v2, 0			; CHECK-P9-NEXT: lxvdsx v2, 0, r3
	; CHECK-P9-NEXT: blr			; CHECK-P9-NEXT: blr
	;			;
	; CHECK-P9-BE-LABEL: testSplati64_1:			; CHECK-P9-BE-LABEL: testSplati64_1:
	; CHECK-P9-BE: # %bb.0: # %entry			; CHECK-P9-BE: # %bb.0: # %entry
	; CHECK-P9-BE-NEXT: lxv v2, 0(r3)			; CHECK-P9-BE-NEXT: addi r3, r3, 8
	; CHECK-P9-BE-NEXT: xxspltd v2, v2, 1			; CHECK-P9-BE-NEXT: lxvdsx v2, 0, r3
	; CHECK-P9-BE-NEXT: blr			; CHECK-P9-BE-NEXT: blr
	;			;
	; CHECK-NOVSX-LABEL: testSplati64_1:			; CHECK-NOVSX-LABEL: testSplati64_1:
	; CHECK-NOVSX: # %bb.0: # %entry			; CHECK-NOVSX: # %bb.0: # %entry
	; CHECK-NOVSX-NEXT: ld r4, 8(r3)			; CHECK-NOVSX-NEXT: ld r4, 8(r3)
	; CHECK-NOVSX-NEXT: std r4, -8(r1)			; CHECK-NOVSX-NEXT: std r4, -8(r1)
	; CHECK-NOVSX-NEXT: addis r4, r2, .LCPI21_0@toc@ha			; CHECK-NOVSX-NEXT: addis r4, r2, .LCPI21_0@toc@ha
	; CHECK-NOVSX-NEXT: ld r3, 0(r3)			; CHECK-NOVSX-NEXT: ld r3, 0(r3)
	▲ Show 20 Lines • Show All 70 Lines • Show Last 20 Lines

llvm/test/CodeGen/PowerPC/vsx_shuffle_le.ll

	Show All 12 Lines
	; CHECK-LABEL: test00:			; CHECK-LABEL: test00:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: lxvd2x 0, 0, 3			; CHECK-NEXT: lxvd2x 0, 0, 3
	; CHECK-NEXT: xxspltd 34, 0, 0			; CHECK-NEXT: xxspltd 34, 0, 0
	; CHECK-NEXT: blr			; CHECK-NEXT: blr
	;			;
	; CHECK-P9-LABEL: test00:			; CHECK-P9-LABEL: test00:
	; CHECK-P9: # %bb.0:			; CHECK-P9: # %bb.0:
	; CHECK-P9-NEXT: lxv 0, 0(3)			; CHECK-P9-NEXT: lxvdsx 34, 0, 3
	; CHECK-P9-NEXT: xxspltd 34, 0, 1
	; CHECK-P9-NEXT: blr			; CHECK-P9-NEXT: blr
	%v1 = load <2 x double>, <2 x double>* %p1			%v1 = load <2 x double>, <2 x double>* %p1
	%v2 = load <2 x double>, <2 x double>* %p2			%v2 = load <2 x double>, <2 x double>* %p2
	%v3 = shufflevector <2 x double> %v1, <2 x double> %v2, <2 x i32> < i32 0, i32 0>			%v3 = shufflevector <2 x double> %v1, <2 x double> %v2, <2 x i32> < i32 0, i32 0>
	ret <2 x double> %v3			ret <2 x double> %v3


	}			}
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test11:			; CHECK-LABEL: test11:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: lxvd2x 0, 0, 3			; CHECK-NEXT: lxvd2x 0, 0, 3
	; CHECK-NEXT: xxspltd 34, 0, 1			; CHECK-NEXT: xxspltd 34, 0, 1
	; CHECK-NEXT: blr			; CHECK-NEXT: blr
	;			;
	; CHECK-P9-LABEL: test11:			; CHECK-P9-LABEL: test11:
	; CHECK-P9: # %bb.0:			; CHECK-P9: # %bb.0:
	; CHECK-P9-NEXT: lxv 0, 0(3)			; CHECK-P9-NEXT: addi 3, 3, 8
	; CHECK-P9-NEXT: xxspltd 34, 0, 0			; CHECK-P9-NEXT: lxvdsx 34, 0, 3
	; CHECK-P9-NEXT: blr			; CHECK-P9-NEXT: blr
	%v1 = load <2 x double>, <2 x double>* %p1			%v1 = load <2 x double>, <2 x double>* %p1
	%v2 = load <2 x double>, <2 x double>* %p2			%v2 = load <2 x double>, <2 x double>* %p2
	%v3 = shufflevector <2 x double> %v1, <2 x double> %v2, <2 x i32> < i32 1, i32 1>			%v3 = shufflevector <2 x double> %v1, <2 x double> %v2, <2 x i32> < i32 1, i32 1>
	ret <2 x double> %v3			ret <2 x double> %v3


	}			}
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test22:			; CHECK-LABEL: test22:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: lxvd2x 0, 0, 4			; CHECK-NEXT: lxvd2x 0, 0, 4
	; CHECK-NEXT: xxspltd 34, 0, 0			; CHECK-NEXT: xxspltd 34, 0, 0
	; CHECK-NEXT: blr			; CHECK-NEXT: blr
	;			;
	; CHECK-P9-LABEL: test22:			; CHECK-P9-LABEL: test22:
	; CHECK-P9: # %bb.0:			; CHECK-P9: # %bb.0:
	; CHECK-P9-NEXT: lxv 0, 0(4)			; CHECK-P9-NEXT: lxvdsx 34, 0, 4
	; CHECK-P9-NEXT: xxspltd 34, 0, 1
	; CHECK-P9-NEXT: blr			; CHECK-P9-NEXT: blr
	%v1 = load <2 x double>, <2 x double>* %p1			%v1 = load <2 x double>, <2 x double>* %p1
	%v2 = load <2 x double>, <2 x double>* %p2			%v2 = load <2 x double>, <2 x double>* %p2
	%v3 = shufflevector <2 x double> %v1, <2 x double> %v2, <2 x i32> < i32 2, i32 2>			%v3 = shufflevector <2 x double> %v1, <2 x double> %v2, <2 x i32> < i32 2, i32 2>
	ret <2 x double> %v3			ret <2 x double> %v3


	}			}
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test33:			; CHECK-LABEL: test33:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: lxvd2x 0, 0, 4			; CHECK-NEXT: lxvd2x 0, 0, 4
	; CHECK-NEXT: xxspltd 34, 0, 1			; CHECK-NEXT: xxspltd 34, 0, 1
	; CHECK-NEXT: blr			; CHECK-NEXT: blr
	;			;
	; CHECK-P9-LABEL: test33:			; CHECK-P9-LABEL: test33:
	; CHECK-P9: # %bb.0:			; CHECK-P9: # %bb.0:
	; CHECK-P9-NEXT: lxv 0, 0(4)			; CHECK-P9-NEXT: addi 3, 4, 8
	; CHECK-P9-NEXT: xxspltd 34, 0, 0			; CHECK-P9-NEXT: lxvdsx 34, 0, 3
	; CHECK-P9-NEXT: blr			; CHECK-P9-NEXT: blr
	%v1 = load <2 x double>, <2 x double>* %p1			%v1 = load <2 x double>, <2 x double>* %p1
	%v2 = load <2 x double>, <2 x double>* %p2			%v2 = load <2 x double>, <2 x double>* %p2
	%v3 = shufflevector <2 x double> %v1, <2 x double> %v2, <2 x i32> < i32 3, i32 3>			%v3 = shufflevector <2 x double> %v1, <2 x double> %v2, <2 x i32> < i32 3, i32 3>
	ret <2 x double> %v3			ret <2 x double> %v3


	}			}

llvm/test/CodeGen/Thumb2/mve-shufflemov.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve,+fullfp16 -verify-machineinstrs %s -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve,+fullfp16 -verify-machineinstrs %s -o - \| FileCheck %s
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs %s -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs %s -o - \| FileCheck %s

	; i16			; i16

	define arm_aapcs_vfpcc <8 x i16> @shuffle_i16_45670123(<8 x i16> %s1, <8 x i16> %s2) {			define arm_aapcs_vfpcc <8 x i16> @shuffle_i16_45670123(<8 x i16> %s1, <8 x i16> %s2) {
	; CHECK-LABEL: shuffle_i16_45670123:			; CHECK-LABEL: shuffle_i16_45670123:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov.f32 s4, s2			; CHECK-NEXT: vmov.f32 s4, s2
	; CHECK-NEXT: vmov.f32 s5, s3
	; CHECK-NEXT: vmov.f32 s6, s0			; CHECK-NEXT: vmov.f32 s6, s0
				; CHECK-NEXT: vmov.f32 s5, s3
	; CHECK-NEXT: vmov.f32 s7, s1			; CHECK-NEXT: vmov.f32 s7, s1
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%out = shufflevector <8 x i16> %s1, <8 x i16> %s2, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3>			%out = shufflevector <8 x i16> %s1, <8 x i16> %s2, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3>
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	▲ Show 20 Lines • Show All 253 Lines • ▼ Show 20 Lines


	; f16			; f16

	define arm_aapcs_vfpcc <8 x half> @shuffle_f16_45670123(<8 x half> %s1, <8 x half> %s2) {			define arm_aapcs_vfpcc <8 x half> @shuffle_f16_45670123(<8 x half> %s1, <8 x half> %s2) {
	; CHECK-LABEL: shuffle_f16_45670123:			; CHECK-LABEL: shuffle_f16_45670123:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov.f32 s4, s2			; CHECK-NEXT: vmov.f32 s4, s2
	; CHECK-NEXT: vmov.f32 s5, s3
	; CHECK-NEXT: vmov.f32 s6, s0			; CHECK-NEXT: vmov.f32 s6, s0
				; CHECK-NEXT: vmov.f32 s5, s3
	; CHECK-NEXT: vmov.f32 s7, s1			; CHECK-NEXT: vmov.f32 s7, s1
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%out = shufflevector <8 x half> %s1, <8 x half> %s2, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3>			%out = shufflevector <8 x half> %s1, <8 x half> %s2, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3>
	ret <8 x half> %out			ret <8 x half> %out
	}			}

	▲ Show 20 Lines • Show All 95 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vld2-post.ll

	Show First 20 Lines • Show All 62 Lines • ▼ Show 20 Lines

	; i64			; i64

	define <4 x i64> @vld2_v2i64(<4 x i64> %src, <2 x i64> *%dst) {			define <4 x i64> @vld2_v2i64(<4 x i64> %src, <2 x i64> *%dst) {
	; CHECK-LABEL: vld2_v2i64:			; CHECK-LABEL: vld2_v2i64:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, r5, r6, r7, lr}			; CHECK-NEXT: .save {r4, r5, r6, r7, lr}
	; CHECK-NEXT: push {r4, r5, r6, r7, lr}			; CHECK-NEXT: push {r4, r5, r6, r7, lr}
	; CHECK-NEXT: vldrw.u32 q1, [r0, #16]			; CHECK-NEXT: vldrw.u32 q0, [r0, #16]
				; CHECK-NEXT: vmov r2, r12, d1
				; CHECK-NEXT: vmov r3, lr, d0
	; CHECK-NEXT: vldrw.u32 q0, [r0], #32			; CHECK-NEXT: vldrw.u32 q0, [r0], #32
	; CHECK-NEXT: vmov.f32 s8, s2			; CHECK-NEXT: vmov r4, r7, d1
	; CHECK-NEXT: vmov.f32 s9, s3			; CHECK-NEXT: adds r2, r2, r3
	; CHECK-NEXT: vmov.f32 s2, s4			; CHECK-NEXT: vmov r3, r6, d0
	; CHECK-NEXT: vmov.f32 s3, s5			; CHECK-NEXT: adc.w r5, lr, r12
	; CHECK-NEXT: vmov lr, r12, d3			; CHECK-NEXT: adds r3, r3, r4
	; CHECK-NEXT: vmov r2, r5, d0			; CHECK-NEXT: adcs r7, r6
	; CHECK-NEXT: vmov r4, r7, d4			; CHECK-NEXT: vmov q0[2], q0[0], r3, r2
	; CHECK-NEXT: vmov r3, r6, d1			; CHECK-NEXT: vmov q0[3], q0[1], r7, r5
	; CHECK-NEXT: adds.w r3, r3, lr
	; CHECK-NEXT: adc.w r6, r6, r12
	; CHECK-NEXT: adds r2, r2, r4
	; CHECK-NEXT: adcs r7, r5
	; CHECK-NEXT: vmov q0[2], q0[0], r2, r3
	; CHECK-NEXT: vmov q0[3], q0[1], r7, r6
	; CHECK-NEXT: vstrw.32 q0, [r1]			; CHECK-NEXT: vstrw.32 q0, [r1]
	; CHECK-NEXT: pop {r4, r5, r6, r7, pc}			; CHECK-NEXT: pop {r4, r5, r6, r7, pc}
	entry:			entry:
	%l1 = load <4 x i64>, <4 x i64>* %src, align 4			%l1 = load <4 x i64>, <4 x i64>* %src, align 4
	%s1 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 0, i32 2>			%s1 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 0, i32 2>
	%s2 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 1, i32 3>			%s2 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 1, i32 3>
	%a = add <2 x i64> %s1, %s2			%a = add <2 x i64> %s1, %s2
	store <2 x i64> %a, <2 x i64> *%dst			store <2 x i64> %a, <2 x i64> *%dst
	▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vld2.ll

	Show First 20 Lines • Show All 314 Lines • ▼ Show 20 Lines

	; i64			; i64

	define void @vld2_v2i64(<4 x i64> %src, <2 x i64> %dst) {			define void @vld2_v2i64(<4 x i64> %src, <2 x i64> %dst) {
	; CHECK-LABEL: vld2_v2i64:			; CHECK-LABEL: vld2_v2i64:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, r5, r6, lr}			; CHECK-NEXT: .save {r4, r5, r6, lr}
	; CHECK-NEXT: push {r4, r5, r6, lr}			; CHECK-NEXT: push {r4, r5, r6, lr}
				; CHECK-NEXT: vldrw.u32 q0, [r0, #16]
				; CHECK-NEXT: vmov lr, r12, d1
				; CHECK-NEXT: vmov r3, r2, d0
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q0, [r0]
	; CHECK-NEXT: vldrw.u32 q1, [r0, #16]			; CHECK-NEXT: vmov r0, r4, d1
	; CHECK-NEXT: vmov.f32 s8, s2
	; CHECK-NEXT: vmov.f32 s9, s3
	; CHECK-NEXT: vmov.f32 s2, s4
	; CHECK-NEXT: vmov.f32 s3, s5
	; CHECK-NEXT: vmov lr, r12, d3
	; CHECK-NEXT: vmov r5, r6, d0			; CHECK-NEXT: vmov r5, r6, d0
	; CHECK-NEXT: vmov r0, r4, d4
	; CHECK-NEXT: vmov r3, r2, d1
	; CHECK-NEXT: adds.w r3, r3, lr			; CHECK-NEXT: adds.w r3, r3, lr
	; CHECK-NEXT: adc.w r2, r2, r12			; CHECK-NEXT: adc.w r2, r2, r12
	; CHECK-NEXT: adds r0, r0, r5			; CHECK-NEXT: adds r0, r0, r5
	; CHECK-NEXT: adcs r6, r4			; CHECK-NEXT: adcs r6, r4
	; CHECK-NEXT: vmov q0[2], q0[0], r0, r3			; CHECK-NEXT: vmov q0[2], q0[0], r0, r3
	; CHECK-NEXT: vmov q0[3], q0[1], r6, r2			; CHECK-NEXT: vmov q0[3], q0[1], r6, r2
	; CHECK-NEXT: vstrw.32 q0, [r1]			; CHECK-NEXT: vstrw.32 q0, [r1]
	; CHECK-NEXT: pop {r4, r5, r6, pc}			; CHECK-NEXT: pop {r4, r5, r6, pc}
	▲ Show 20 Lines • Show All 346 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vst3.ll

Show First 20 Lines • Show All 937 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

define void @vst3_v4i64(<4 x i64> %src, <12 x i64> %dst) {		define void @vst3_v4i64(<4 x i64> %src, <12 x i64> %dst) {
; CHECK-LABEL: vst3_v4i64:		; CHECK-LABEL: vst3_v4i64:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vldrw.u32 q3, [r0, #48]		; CHECK-NEXT: vldrw.u32 q7, [r0, #48]
; CHECK-NEXT: vldrw.u32 q7, [r0, #32]		; CHECK-NEXT: vldrw.u32 q6, [r0, #32]
; CHECK-NEXT: vldrw.u32 q0, [r0, #80]		; CHECK-NEXT: vldrw.u32 q0, [r0, #80]
; CHECK-NEXT: vldrw.u32 q1, [r0]		; CHECK-NEXT: vldrw.u32 q1, [r0]
; CHECK-NEXT: vmov.f32 s16, s14		; CHECK-NEXT: vmov.f64 d6, d15
; CHECK-NEXT: vldrw.u32 q6, [r0, #16]		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vmov.f32 s17, s15		; CHECK-NEXT: vldrw.u32 q4, [r0, #64]
; CHECK-NEXT: vldrw.u32 q2, [r0, #64]		; CHECK-NEXT: vmov.f64 d15, d13
; CHECK-NEXT: vmov.f64 d7, d15		; CHECK-NEXT: vmov.f64 d7, d1
; CHECK-NEXT: vmov.f32 s18, s2		; CHECK-NEXT: vmov.f64 d10, d2
; CHECK-NEXT: vmov.f32 s19, s3		; CHECK-NEXT: vstrw.32 q3, [r1, #80]
; CHECK-NEXT: vmov.f32 s20, s4		; CHECK-NEXT: vmov.f64 d11, d12
; CHECK-NEXT: vstrw.32 q4, [r1, #80]		; CHECK-NEXT: vmov.f64 d2, d8
; CHECK-NEXT: vmov.f32 s21, s5
; CHECK-NEXT: vmov.f32 s22, s28
; CHECK-NEXT: vmov.f32 s23, s29
; CHECK-NEXT: vmov.f32 s4, s8
; CHECK-NEXT: vstrw.32 q5, [r1]		; CHECK-NEXT: vstrw.32 q5, [r1]
; CHECK-NEXT: vmov.f32 s5, s9		; CHECK-NEXT: vmov.f64 d1, d5
; CHECK-NEXT: vmov.f32 s28, s24
; CHECK-NEXT: vstrw.32 q1, [r1, #16]		; CHECK-NEXT: vstrw.32 q1, [r1, #16]
; CHECK-NEXT: vmov.f32 s29, s25		; CHECK-NEXT: vmov.f64 d8, d15
; CHECK-NEXT: vmov.f32 s30, s12
; CHECK-NEXT: vmov.f32 s31, s13
; CHECK-NEXT: vmov.f32 s2, s26
; CHECK-NEXT: vstrw.32 q7, [r1, #48]
; CHECK-NEXT: vmov.f32 s3, s27
; CHECK-NEXT: vmov.f32 s8, s14
; CHECK-NEXT: vstrw.32 q0, [r1, #64]		; CHECK-NEXT: vstrw.32 q0, [r1, #64]
; CHECK-NEXT: vmov.f32 s9, s15		; CHECK-NEXT: vmov.f64 d12, d4
; CHECK-NEXT: vstrw.32 q2, [r1, #32]		; CHECK-NEXT: vstrw.32 q4, [r1, #32]
		; CHECK-NEXT: vmov.f64 d13, d14
		; CHECK-NEXT: vstrw.32 q6, [r1, #48]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <4 x i64>, <4 x i64>* %src, i32 0		%s1 = getelementptr <4 x i64>, <4 x i64>* %src, i32 0
%l1 = load <4 x i64>, <4 x i64>* %s1, align 4		%l1 = load <4 x i64>, <4 x i64>* %s1, align 4
%s2 = getelementptr <4 x i64>, <4 x i64>* %src, i32 1		%s2 = getelementptr <4 x i64>, <4 x i64>* %src, i32 1
%l2 = load <4 x i64>, <4 x i64>* %s2, align 4		%l2 = load <4 x i64>, <4 x i64>* %s2, align 4
%s3 = getelementptr <4 x i64>, <4 x i64>* %src, i32 2		%s3 = getelementptr <4 x i64>, <4 x i64>* %src, i32 2
▲ Show 20 Lines • Show All 252 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; f16		; f16

define void @vst3_v2f16(<2 x half> %src, <6 x half> %dst) {		define void @vst3_v2f16(<2 x half> %src, <6 x half> %dst) {
; CHECK-LABEL: vst3_v2f16:		; CHECK-LABEL: vst3_v2f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldmia r0, {s0, s1}		; CHECK-NEXT: ldrd r2, r3, [r0]
; CHECK-NEXT: ldr r0, [r0, #8]		; CHECK-NEXT: ldr r0, [r0, #8]
; CHECK-NEXT: vmovx.f16 s2, s0		; CHECK-NEXT: vmov.32 q0[0], r2
; CHECK-NEXT: vins.f16 s0, s1		; CHECK-NEXT: vmov.32 q0[1], r3
; CHECK-NEXT: vmov.32 q1[0], r0		; CHECK-NEXT: vmov.32 q1[0], r0
		; CHECK-NEXT: vmovx.f16 s2, s0
; CHECK-NEXT: vmovx.f16 s6, s4		; CHECK-NEXT: vmovx.f16 s6, s4
; CHECK-NEXT: vins.f16 s4, s2		; CHECK-NEXT: vins.f16 s4, s2
; CHECK-NEXT: vmovx.f16 s2, s1		; CHECK-NEXT: vmovx.f16 s2, s1
		; CHECK-NEXT: vins.f16 s0, s1
; CHECK-NEXT: vmov.f32 s1, s4		; CHECK-NEXT: vmov.f32 s1, s4
; CHECK-NEXT: vins.f16 s2, s6		; CHECK-NEXT: vins.f16 s2, s6
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: vmov r0, r2, d0		; CHECK-NEXT: vmov r0, r2, d0
; CHECK-NEXT: stm r1!, {r0, r2, r3}		; CHECK-NEXT: stm r1!, {r0, r2, r3}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <2 x half>, <2 x half>* %src, i32 0		%s1 = getelementptr <2 x half>, <2 x half>* %src, i32 0
▲ Show 20 Lines • Show All 335 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vst4.ll

Show First 20 Lines • Show All 751 Lines • ▼ Show 20 Lines

define void @vst4_v4i64(<4 x i64> %src, <16 x i64> %dst) {		define void @vst4_v4i64(<4 x i64> %src, <16 x i64> %dst) {
; CHECK-LABEL: vst4_v4i64:		; CHECK-LABEL: vst4_v4i64:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: .pad #64		; CHECK-NEXT: .pad #64
; CHECK-NEXT: sub sp, #64		; CHECK-NEXT: sub sp, #64
; CHECK-NEXT: vldrw.u32 q0, [r0, #32]		; CHECK-NEXT: vldrw.u32 q7, [r0, #80]
; CHECK-NEXT: vldrw.u32 q7, [r0]		; CHECK-NEXT: vldrw.u32 q5, [r0, #32]
; CHECK-NEXT: vldrw.u32 q2, [r0, #96]		; CHECK-NEXT: vldrw.u32 q6, [r0]
; CHECK-NEXT: vldrw.u32 q3, [r0, #64]		; CHECK-NEXT: vldrw.u32 q1, [r0, #96]
; CHECK-NEXT: vmov.f32 s6, s0		; CHECK-NEXT: vstrw.32 q7, [sp, #32] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q5, [r0, #112]		; CHECK-NEXT: vmov.f64 d15, d10
; CHECK-NEXT: vmov.f32 s7, s1		; CHECK-NEXT: vldrw.u32 q2, [r0, #64]
; CHECK-NEXT: vldrw.u32 q4, [r0, #48]
; CHECK-NEXT: vmov.f64 d13, d1
; CHECK-NEXT: vldrw.u32 q0, [r0, #16]		; CHECK-NEXT: vldrw.u32 q0, [r0, #16]
		; CHECK-NEXT: vldrw.u32 q3, [r0, #48]
		; CHECK-NEXT: vldrw.u32 q4, [r0, #112]
; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill		; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q0, [r0, #80]		; CHECK-NEXT: vmov.f64 d14, d12
; CHECK-NEXT: vmov.f32 s4, s28		; CHECK-NEXT: vstrw.32 q7, [sp, #48] @ 16-byte Spill
; CHECK-NEXT: vstrw.32 q0, [sp, #32] @ 16-byte Spill		; CHECK-NEXT: vmov.f64 d14, d4
; CHECK-NEXT: vmov.f32 s5, s29		; CHECK-NEXT: vmov.f64 d15, d2
; CHECK-NEXT: vmov.f32 s24, s30		; CHECK-NEXT: vstrw.32 q7, [sp] @ 16-byte Spill
; CHECK-NEXT: vstrw.32 q1, [sp] @ 16-byte Spill		; CHECK-NEXT: vmov.f64 d4, d0
; CHECK-NEXT: vmov.f32 s25, s31		; CHECK-NEXT: vldrw.u32 q0, [sp, #32] @ 16-byte Reload
; CHECK-NEXT: vldrw.u32 q7, [sp, #16] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q7, [sp, #16] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s6, s8		; CHECK-NEXT: vmov.f64 d10, d13
; CHECK-NEXT: vstrw.32 q6, [sp, #48] @ 16-byte Spill		; CHECK-NEXT: vmov.f64 d2, d5
; CHECK-NEXT: vmov.f32 s7, s9		; CHECK-NEXT: vstrw.32 q5, [r1, #32]
; CHECK-NEXT: vmov.f32 s4, s12		; CHECK-NEXT: vmov.f64 d5, d6
; CHECK-NEXT: vmov.f32 s5, s13		; CHECK-NEXT: vstrw.32 q1, [r1, #48]
; CHECK-NEXT: vmov.f32 s8, s14		; CHECK-NEXT: vmov.f64 d13, d8
; CHECK-NEXT: vstrw.32 q1, [r1, #16]		; CHECK-NEXT: vstrw.32 q2, [r1, #64]
; CHECK-NEXT: vmov.f32 s9, s15		; CHECK-NEXT: vmov.f64 d12, d0
; CHECK-NEXT: vldrw.u32 q3, [sp, #32] @ 16-byte Reload		; CHECK-NEXT: vmov.f64 d8, d1
; CHECK-NEXT: vmov.f64 d1, d15		; CHECK-NEXT: vldrw.u32 q0, [sp, #48] @ 16-byte Reload
; CHECK-NEXT: vstrw.32 q2, [r1, #48]		; CHECK-NEXT: vstrw.32 q6, [r1, #80]
; CHECK-NEXT: vmov.f64 d13, d7
; CHECK-NEXT: vmov.f32 s14, s20
; CHECK-NEXT: vmov.f32 s15, s21
; CHECK-NEXT: vmov.f32 s30, s16
; CHECK-NEXT: vstrw.32 q3, [r1, #80]
; CHECK-NEXT: vmov.f32 s31, s17
; CHECK-NEXT: vldrw.u32 q3, [sp, #48] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s16, s2
; CHECK-NEXT: vstrw.32 q7, [r1, #64]
; CHECK-NEXT: vmov.f32 s17, s3
; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s20, s26
; CHECK-NEXT: vstrw.32 q4, [r1, #96]
; CHECK-NEXT: vmov.f32 s21, s27
; CHECK-NEXT: vstrw.32 q3, [r1, #32]
; CHECK-NEXT: vstrw.32 q5, [r1, #112]
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
		; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload
		; CHECK-NEXT: vmov.f64 d6, d15
		; CHECK-NEXT: vstrw.32 q4, [r1, #112]
		; CHECK-NEXT: vstrw.32 q0, [r1, #16]
		; CHECK-NEXT: vstrw.32 q3, [r1, #96]
; CHECK-NEXT: add sp, #64		; CHECK-NEXT: add sp, #64
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <4 x i64>, <4 x i64>* %src, i32 0		%s1 = getelementptr <4 x i64>, <4 x i64>* %src, i32 0
%l1 = load <4 x i64>, <4 x i64>* %s1, align 4		%l1 = load <4 x i64>, <4 x i64>* %s1, align 4
%s2 = getelementptr <4 x i64>, <4 x i64>* %src, i32 1		%s2 = getelementptr <4 x i64>, <4 x i64>* %src, i32 1
%l2 = load <4 x i64>, <4 x i64>* %s2, align 4		%l2 = load <4 x i64>, <4 x i64>* %s2, align 4
▲ Show 20 Lines • Show All 242 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; f16		; f16

define void @vst4_v2f16(<2 x half> %src, <8 x half> %dst) {		define void @vst4_v2f16(<2 x half> %src, <8 x half> %dst) {
; CHECK-LABEL: vst4_v2f16:		; CHECK-LABEL: vst4_v2f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldr s0, [r0]		; CHECK-NEXT: ldm.w r0, {r2, r3, r12}
; CHECK-NEXT: vldr s5, [r0, #4]		; CHECK-NEXT: vmov.32 q1[0], r12
; CHECK-NEXT: vldr s4, [r0, #8]		; CHECK-NEXT: ldr r0, [r0, #12]
		; CHECK-NEXT: vmov.32 q0[0], r2
		; CHECK-NEXT: vmov.32 q0[1], r3
		; CHECK-NEXT: vmov.32 q1[1], r0
; CHECK-NEXT: vmovx.f16 s2, s0		; CHECK-NEXT: vmovx.f16 s2, s0
; CHECK-NEXT: vldr s1, [r0, #12]		; CHECK-NEXT: vmovx.f16 s6, s1
; CHECK-NEXT: vmovx.f16 s6, s5
; CHECK-NEXT: vmovx.f16 s3, s4		; CHECK-NEXT: vmovx.f16 s3, s4
; CHECK-NEXT: vins.f16 s2, s6		; CHECK-NEXT: vins.f16 s2, s6
; CHECK-NEXT: vmovx.f16 s6, s1		; CHECK-NEXT: vmovx.f16 s6, s5
; CHECK-NEXT: vins.f16 s4, s1		; CHECK-NEXT: vins.f16 s4, s5
; CHECK-NEXT: vins.f16 s0, s5		; CHECK-NEXT: vins.f16 s0, s1
; CHECK-NEXT: vins.f16 s3, s6		; CHECK-NEXT: vins.f16 s3, s6
; CHECK-NEXT: vmov.f32 s1, s4		; CHECK-NEXT: vmov.f32 s1, s4
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <2 x half>, <2 x half>* %src, i32 0		%s1 = getelementptr <2 x half>, <2 x half>* %src, i32 0
%l1 = load <2 x half>, <2 x half>* %s1, align 4		%l1 = load <2 x half>, <2 x half>* %s1, align 4
%s2 = getelementptr <2 x half>, <2 x half>* %src, i32 1		%s2 = getelementptr <2 x half>, <2 x half>* %src, i32 1
▲ Show 20 Lines • Show All 312 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx-vbroadcast.ll

Show First 20 Lines • Show All 971 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
ret float %9		ret float %9
}		}

define <8 x i16> @broadcast_x86_mmx(x86_mmx %tmp) nounwind {		define <8 x i16> @broadcast_x86_mmx(x86_mmx %tmp) nounwind {
; X86-LABEL: broadcast_x86_mmx:		; X86-LABEL: broadcast_x86_mmx:
; X86: ## %bb.0: ## %bb		; X86: ## %bb.0: ## %bb
; X86-NEXT: subl $12, %esp		; X86-NEXT: subl $12, %esp
; X86-NEXT: movq %mm0, (%esp)		; X86-NEXT: movq %mm0, (%esp)
; X86-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; X86-NEXT: vmovddup {{.*#+}} xmm0 = mem[0,0]
; X86-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]
; X86-NEXT: addl $12, %esp		; X86-NEXT: addl $12, %esp
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: broadcast_x86_mmx:		; X64-LABEL: broadcast_x86_mmx:
; X64: ## %bb.0: ## %bb		; X64: ## %bb.0: ## %bb
; X64-NEXT: movdq2q %xmm0, %mm0		; X64-NEXT: movdq2q %xmm0, %mm0
; X64-NEXT: movq2dq %mm0, %xmm0		; X64-NEXT: movq2dq %mm0, %xmm0
; X64-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]		; X64-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]
Show All 12 Lines

llvm/test/CodeGen/X86/oddshuffles.ll

Show First 20 Lines • Show All 807 Lines • ▼ Show 20 Lines	; XOP-NEXT: retq
store <8 x i8> %s2, <8 x i8>* %q2, align 4		store <8 x i8> %s2, <8 x i8>* %q2, align 4
store <8 x i8> %s3, <8 x i8>* %q3, align 4		store <8 x i8> %s3, <8 x i8>* %q3, align 4
ret void		ret void
}		}

define void @interleave_24i8_in(<24 x i8>* %p, <8 x i8>* %q1, <8 x i8>* %q2, <8 x i8>* %q3) nounwind {		define void @interleave_24i8_in(<24 x i8>* %p, <8 x i8>* %q1, <8 x i8>* %q2, <8 x i8>* %q3) nounwind {
; SSE2-LABEL: interleave_24i8_in:		; SSE2-LABEL: interleave_24i8_in:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
		; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE2-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE2-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; SSE2-NEXT: movq {{.*#+}} xmm2 = mem[0],zero		; SSE2-NEXT: movq {{.*#+}} xmm2 = mem[0],zero
; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE2-NEXT: pxor %xmm3, %xmm3		; SSE2-NEXT: pxor %xmm3, %xmm3
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,2,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,1,2,2]
; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [65535,65535,0,65535,65535,0,65535,65535]		; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [65535,65535,0,65535,65535,0,65535,65535]
; SSE2-NEXT: pand %xmm5, %xmm4		; SSE2-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm2[3,3,3,3,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm1[3,3,3,3,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,4,4,4]		; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,4,4,4]
; SSE2-NEXT: pandn %xmm3, %xmm5		; SSE2-NEXT: pandn %xmm3, %xmm5
; SSE2-NEXT: por %xmm4, %xmm5		; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm1, %xmm3		; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,1,2,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,1,2,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[0,1,2,2,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[0,1,2,2,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,7,5,4,5]		; SSE2-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,7,5,4,5]
; SSE2-NEXT: packuswb %xmm5, %xmm3		; SSE2-NEXT: packuswb %xmm5, %xmm3
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [255,255,0,255,255,0,255,255,0,255,255,0,255,255,0,255]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [255,255,0,255,255,0,255,255,0,255,255,0,255,255,0,255]
; SSE2-NEXT: pand %xmm4, %xmm3		; SSE2-NEXT: pand %xmm4, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,1,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,1,0,1]
; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[0,0,0,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[0,0,0,0,4,5,6,7]
; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,5,5,6,6]		; SSE2-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,5,5,6,6]
; SSE2-NEXT: pandn %xmm5, %xmm4		; SSE2-NEXT: pandn %xmm5, %xmm4
; SSE2-NEXT: por %xmm3, %xmm4		; SSE2-NEXT: por %xmm3, %xmm4
; SSE2-NEXT: punpckhwd {{.*#+}} xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]		; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,1,3,3]
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[2,1,1,0,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[2,1,1,0,4,5,6,7]
; SSE2-NEXT: packuswb %xmm1, %xmm1		; SSE2-NEXT: packuswb %xmm1, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [255,0,255,255,0,255,255,0,255,255,255,255,255,255,255,255]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [255,0,255,255,0,255,255,0,255,255,255,255,255,255,255,255]
; SSE2-NEXT: pand %xmm2, %xmm1		; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[2,1,3,3,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[2,1,3,3,4,5,6,7]
; SSE2-NEXT: pandn %xmm0, %xmm2		; SSE2-NEXT: pandn %xmm0, %xmm2
; SSE2-NEXT: por %xmm1, %xmm2		; SSE2-NEXT: por %xmm1, %xmm2
; SSE2-NEXT: movq %xmm2, 16(%rdi)		; SSE2-NEXT: movq %xmm2, 16(%rdi)
; SSE2-NEXT: movdqu %xmm4, (%rdi)		; SSE2-NEXT: movdqu %xmm4, (%rdi)
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: interleave_24i8_in:		; SSE42-LABEL: interleave_24i8_in:
; SSE42: # %bb.0:		; SSE42: # %bb.0:
; SSE42-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; SSE42-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE42-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE42-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE42-NEXT: movq {{.*#+}} xmm2 = mem[0],zero
; SSE42-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE42-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]
; SSE42-NEXT: movdqa %xmm0, %xmm2		; SSE42-NEXT: movdqa %xmm2, %xmm1
; SSE42-NEXT: pshufb {{.*#+}} xmm2 = xmm2[0,8],zero,xmm2[1,9],zero,xmm2[2,10],zero,xmm2[3,11],zero,xmm2[4,12],zero,xmm2[5]		; SSE42-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,8],zero,xmm1[1,9],zero,xmm1[2,10],zero,xmm1[3,11],zero,xmm1[4,12],zero,xmm1[5]
; SSE42-NEXT: movdqa %xmm1, %xmm3		; SSE42-NEXT: movdqa %xmm0, %xmm3
; SSE42-NEXT: pshufb {{.*#+}} xmm3 = zero,zero,xmm3[0],zero,zero,xmm3[1],zero,zero,xmm3[2],zero,zero,xmm3[3],zero,zero,xmm3[4],zero		; SSE42-NEXT: pshufb {{.*#+}} xmm3 = zero,zero,xmm3[0],zero,zero,xmm3[1],zero,zero,xmm3[2],zero,zero,xmm3[3],zero,zero,xmm3[4],zero
; SSE42-NEXT: por %xmm2, %xmm3		; SSE42-NEXT: por %xmm1, %xmm3
; SSE42-NEXT: pshufb {{.*#+}} xmm0 = xmm0[13],zero,xmm0[6,14],zero,xmm0[7,15],zero,xmm0[u,u,u,u,u,u,u,u]		; SSE42-NEXT: pshufb {{.*#+}} xmm2 = xmm2[13],zero,xmm2[6,14],zero,xmm2[7,15],zero,xmm2[u,u,u,u,u,u,u,u]
; SSE42-NEXT: pshufb {{.*#+}} xmm1 = zero,xmm1[5],zero,zero,xmm1[6],zero,zero,xmm1[7,u,u,u,u,u,u,u,u]		; SSE42-NEXT: pshufb {{.*#+}} xmm0 = zero,xmm0[5],zero,zero,xmm0[6],zero,zero,xmm0[7,u,u,u,u,u,u,u,u]
; SSE42-NEXT: por %xmm0, %xmm1		; SSE42-NEXT: por %xmm2, %xmm0
; SSE42-NEXT: movq %xmm1, 16(%rdi)		; SSE42-NEXT: movq %xmm0, 16(%rdi)
; SSE42-NEXT: movdqu %xmm3, (%rdi)		; SSE42-NEXT: movdqu %xmm3, (%rdi)
; SSE42-NEXT: retq		; SSE42-NEXT: retq
;		;
; AVX-LABEL: interleave_24i8_in:		; AVX-LABEL: interleave_24i8_in:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX-NEXT: vpshufb {{.*#+}} xmm2 = xmm0[0,8],zero,xmm0[1,9],zero,xmm0[2,10],zero,xmm0[3,11],zero,xmm0[4,12],zero,xmm0[5]		; AVX-NEXT: vpshufb {{.*#+}} xmm2 = xmm1[0,8],zero,xmm1[1,9],zero,xmm1[2,10],zero,xmm1[3,11],zero,xmm1[4,12],zero,xmm1[5]
; AVX-NEXT: vpshufb {{.*#+}} xmm3 = zero,zero,xmm1[0],zero,zero,xmm1[1],zero,zero,xmm1[2],zero,zero,xmm1[3],zero,zero,xmm1[4],zero		; AVX-NEXT: vpshufb {{.*#+}} xmm3 = zero,zero,xmm0[0],zero,zero,xmm0[1],zero,zero,xmm0[2],zero,zero,xmm0[3],zero,zero,xmm0[4],zero
; AVX-NEXT: vpor %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpor %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[13],zero,xmm0[6,14],zero,xmm0[7,15],zero,xmm0[u,u,u,u,u,u,u,u]		; AVX-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[13],zero,xmm1[6,14],zero,xmm1[7,15],zero,xmm1[u,u,u,u,u,u,u,u]
; AVX-NEXT: vpshufb {{.*#+}} xmm1 = zero,xmm1[5],zero,zero,xmm1[6],zero,zero,xmm1[7,u,u,u,u,u,u,u,u]		; AVX-NEXT: vpshufb {{.*#+}} xmm0 = zero,xmm0[5],zero,zero,xmm0[6],zero,zero,xmm0[7,u,u,u,u,u,u,u,u]
; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0
; AVX-NEXT: vmovq %xmm0, 16(%rdi)		; AVX-NEXT: vmovq %xmm0, 16(%rdi)
; AVX-NEXT: vmovdqu %xmm2, (%rdi)		; AVX-NEXT: vmovdqu %xmm2, (%rdi)
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; XOP-LABEL: interleave_24i8_in:		; XOP-LABEL: interleave_24i8_in:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; XOP-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; XOP-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; XOP-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; XOP-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; XOP-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; XOP-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; XOP-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; XOP-NEXT: vpperm {{.*#+}} xmm2 = xmm0[0,8],xmm1[0],xmm0[1,9],xmm1[1],xmm0[2,10],xmm1[2],xmm0[3,11],xmm1[3],xmm0[4,12],xmm1[4],xmm0[5]		; XOP-NEXT: vpperm {{.*#+}} xmm2 = xmm1[0,8],xmm0[0],xmm1[1,9],xmm0[1],xmm1[2,10],xmm0[2],xmm1[3,11],xmm0[3],xmm1[4,12],xmm0[4],xmm1[5]
; XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm0[13],xmm1[5],xmm0[6,14],xmm1[6],xmm0[7,15],xmm1[7],xmm0[u,u,u,u,u,u,u,u]		; XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm1[13],xmm0[5],xmm1[6,14],xmm0[6],xmm1[7,15],xmm0[7],xmm1[u,u,u,u,u,u,u,u]
; XOP-NEXT: vmovq %xmm0, 16(%rdi)		; XOP-NEXT: vmovq %xmm0, 16(%rdi)
; XOP-NEXT: vmovdqu %xmm2, (%rdi)		; XOP-NEXT: vmovdqu %xmm2, (%rdi)
; XOP-NEXT: retq		; XOP-NEXT: retq
%s1 = load <8 x i8>, <8 x i8>* %q1, align 4		%s1 = load <8 x i8>, <8 x i8>* %q1, align 4
%s2 = load <8 x i8>, <8 x i8>* %q2, align 4		%s2 = load <8 x i8>, <8 x i8>* %q2, align 4
%s3 = load <8 x i8>, <8 x i8>* %q3, align 4		%s3 = load <8 x i8>, <8 x i8>* %q3, align 4
%t1 = shufflevector <8 x i8> %s1, <8 x i8> %s2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>		%t1 = shufflevector <8 x i8> %s1, <8 x i8> %s2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
%t2 = shufflevector <8 x i8> %s3, <8 x i8> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%t2 = shufflevector <8 x i8> %s3, <8 x i8> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
▲ Show 20 Lines • Show All 1,635 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-2.ll

Show All 39 Lines	; AVX512-NEXT: retq
ret void		ret void
}		}

define void @vf4(<4 x i16>* %in.vecptr0, <4 x i16>* %in.vecptr1, <8 x i16>* %out.vec) nounwind {		define void @vf4(<4 x i16>* %in.vecptr0, <4 x i16>* %in.vecptr1, <8 x i16>* %out.vec) nounwind {
; SSE-LABEL: vf4:		; SSE-LABEL: vf4:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE-NEXT: movdqa %xmm0, (%rdx)		; SSE-NEXT: movdqa %xmm1, (%rdx)
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: vf4:		; AVX-LABEL: vf4:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; AVX-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; AVX-NEXT: vmovdqa %xmm0, (%rdx)		; AVX-NEXT: vmovdqa %xmm0, (%rdx)
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: vf4:		; AVX512-LABEL: vf4:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX512-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; AVX512-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; AVX512-NEXT: vmovdqa %xmm0, (%rdx)		; AVX512-NEXT: vmovdqa %xmm0, (%rdx)
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%in.vec0 = load <4 x i16>, <4 x i16>* %in.vecptr0, align 32		%in.vec0 = load <4 x i16>, <4 x i16>* %in.vecptr0, align 32
%in.vec1 = load <4 x i16>, <4 x i16>* %in.vecptr1, align 32		%in.vec1 = load <4 x i16>, <4 x i16>* %in.vecptr1, align 32

%concat01 = shufflevector <4 x i16> %in.vec0, <4 x i16> %in.vec1, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>		%concat01 = shufflevector <4 x i16> %in.vec0, <4 x i16> %in.vec1, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
%interleaved.vec = shufflevector <8 x i16> %concat01, <8 x i16> poison, <8 x i32> <i32 0, i32 4, i32 1, i32 5, i32 2, i32 6, i32 3, i32 7>		%interleaved.vec = shufflevector <8 x i16> %concat01, <8 x i16> poison, <8 x i32> <i32 0, i32 4, i32 1, i32 5, i32 2, i32 6, i32 3, i32 7>

▲ Show 20 Lines • Show All 195 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-3.ll

Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
ret void		ret void
}		}

define void @vf4(<4 x i16>* %in.vecptr0, <4 x i16>* %in.vecptr1, <4 x i16>* %in.vecptr2, <12 x i16>* %out.vec) nounwind {		define void @vf4(<4 x i16>* %in.vecptr0, <4 x i16>* %in.vecptr1, <4 x i16>* %in.vecptr2, <12 x i16>* %out.vec) nounwind {
; SSE-LABEL: vf4:		; SSE-LABEL: vf4:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE-NEXT: movq {{.*#+}} xmm2 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm1[0]
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,0,0]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,0,0]
; SSE-NEXT: movdqa {{.*#+}} xmm3 = [65535,65535,0,65535,65535,0,65535,65535]		; SSE-NEXT: movdqa {{.*#+}} xmm3 = [65535,65535,0,65535,65535,0,65535,65535]
; SSE-NEXT: pshufhw {{.*#+}} xmm4 = xmm0[0,1,2,3,6,5,4,7]		; SSE-NEXT: pshufhw {{.*#+}} xmm4 = xmm2[0,1,2,3,6,5,4,7]
; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,3,2,1]		; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,3,2,1]
; SSE-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[0,2,2,1,4,5,6,7]		; SSE-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[0,2,2,1,4,5,6,7]
; SSE-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,5,5,6,4]		; SSE-NEXT: pshufhw {{.*#+}} xmm4 = xmm4[0,1,2,3,5,5,6,4]
; SSE-NEXT: pand %xmm3, %xmm4		; SSE-NEXT: pand %xmm3, %xmm4
; SSE-NEXT: pandn %xmm2, %xmm3		; SSE-NEXT: pandn %xmm1, %xmm3
; SSE-NEXT: por %xmm4, %xmm3		; SSE-NEXT: por %xmm4, %xmm3
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,1,1]
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [65535,0,0,65535,65535,65535,65535,65535]		; SSE-NEXT: movdqa {{.*#+}} xmm1 = [65535,0,0,65535,65535,65535,65535,65535]
; SSE-NEXT: pand %xmm2, %xmm1		; SSE-NEXT: pand %xmm1, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[3,1,2,3]
; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,3,1,3,4,5,6,7]		; SSE-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[0,3,1,3,4,5,6,7]
; SSE-NEXT: pandn %xmm0, %xmm2		; SSE-NEXT: pandn %xmm2, %xmm1
; SSE-NEXT: por %xmm1, %xmm2		; SSE-NEXT: por %xmm0, %xmm1
; SSE-NEXT: movq %xmm2, 16(%rcx)		; SSE-NEXT: movq %xmm1, 16(%rcx)
; SSE-NEXT: movdqa %xmm3, (%rcx)		; SSE-NEXT: movdqa %xmm3, (%rcx)
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: vf4:		; AVX1-LABEL: vf4:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[3,1,2,3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[3,1,2,3]
; AVX1-NEXT: vpshuflw {{.*#+}} xmm2 = xmm2[0,3,1,3,4,5,6,7]		; AVX1-NEXT: vpshuflw {{.*#+}} xmm2 = xmm2[0,3,1,3,4,5,6,7]
; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,1,1,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,1,1]
; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0],xmm2[1,2],xmm3[3],xmm2[4,5,6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0],xmm2[1,2],xmm3[3],xmm2[4,5,6,7]
; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,8,9,u,u,2,3,10,11,u,u,4,5,12,13]		; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1,8,9,u,u,2,3,10,11,u,u,4,5,12,13]
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]		; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2],xmm0[3,4],xmm1[5],xmm0[6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2],xmm1[3,4],xmm0[5],xmm1[6,7]
; AVX1-NEXT: vmovdqa %xmm0, (%rcx)		; AVX1-NEXT: vmovdqa %xmm0, (%rcx)
; AVX1-NEXT: vmovq %xmm2, 16(%rcx)		; AVX1-NEXT: vmovq %xmm2, 16(%rcx)
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: vf4:		; AVX2-LABEL: vf4:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,1,8,9],zero,zero,ymm0[2,3,10,11],zero,zero,ymm0[4,5,12,13,20,21],zero,zero,zero,zero,ymm0[22,23],zero,zero,zero,zero,zero,zero,zero,zero		; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,1,8,9],zero,zero,ymm0[2,3,10,11],zero,zero,ymm0[4,5,12,13,20,21],zero,zero,zero,zero,ymm0[22,23],zero,zero,zero,zero,zero,zero,zero,zero
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]
; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = zero,zero,zero,zero,ymm0[0,1],zero,zero,zero,zero,ymm0[2,3],zero,zero,zero,zero,zero,zero,ymm0[22,23,30,31],zero,zero,ymm0[u,u,u,u,u,u,u,u]		; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = zero,zero,zero,zero,ymm0[0,1],zero,zero,zero,zero,ymm0[2,3],zero,zero,zero,zero,zero,zero,ymm0[22,23,30,31],zero,zero,ymm0[u,u,u,u,u,u,u,u]
; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0		; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vmovq %xmm1, 16(%rcx)		; AVX2-NEXT: vmovq %xmm1, 16(%rcx)
; AVX2-NEXT: vmovdqa %xmm0, (%rcx)		; AVX2-NEXT: vmovdqa %xmm0, (%rcx)
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: vf4:		; AVX512-LABEL: vf4:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX512-NEXT: vmovdqa {{.*#+}} ymm1 = <0,4,8,1,5,9,2,6,10,3,7,11,u,u,u,u>		; AVX512-NEXT: vmovdqa {{.*#+}} ymm1 = <0,4,8,1,5,9,2,6,10,3,7,11,u,u,u,u>
; AVX512-NEXT: vpermw %ymm0, %ymm1, %ymm0		; AVX512-NEXT: vpermw %ymm0, %ymm1, %ymm0
; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512-NEXT: vmovq %xmm1, 16(%rcx)		; AVX512-NEXT: vmovq %xmm1, 16(%rcx)
; AVX512-NEXT: vmovdqa %xmm0, (%rcx)		; AVX512-NEXT: vmovdqa %xmm0, (%rcx)
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%in.vec0 = load <4 x i16>, <4 x i16>* %in.vecptr0, align 32		%in.vec0 = load <4 x i16>, <4 x i16>* %in.vecptr0, align 32
▲ Show 20 Lines • Show All 863 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-4.ll

Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
ret void		ret void
}		}

define void @vf4(<4 x i16>* %in.vecptr0, <4 x i16>* %in.vecptr1, <4 x i16>* %in.vecptr2, <4 x i16>* %in.vecptr3, <16 x i16>* %out.vec) nounwind {		define void @vf4(<4 x i16>* %in.vecptr0, <4 x i16>* %in.vecptr1, <4 x i16>* %in.vecptr2, <4 x i16>* %in.vecptr3, <16 x i16>* %out.vec) nounwind {
; SSE-LABEL: vf4:		; SSE-LABEL: vf4:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm2 = mem[0],zero		; SSE-NEXT: movdqa %xmm1, %xmm2
		; SSE-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm0[0]
; SSE-NEXT: movq {{.*#+}} xmm3 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm3 = mem[0],zero
; SSE-NEXT: movdqa %xmm0, %xmm4		; SSE-NEXT: movq {{.*#+}} xmm4 = mem[0],zero
; SSE-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm1[0]		; SSE-NEXT: movdqa %xmm4, %xmm5
; SSE-NEXT: movdqa %xmm2, %xmm5
; SSE-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm3[0]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm3[0]
; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm5[3,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm5[3,1,2,3]
; SSE-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[2,0,3,1,4,5,6,7]		; SSE-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[2,0,3,1,4,5,6,7]
; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[3,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[3,1,2,3]
; SSE-NEXT: pshuflw {{.*#+}} xmm4 = xmm4[2,0,3,1,4,5,6,7]		; SSE-NEXT: pshuflw {{.*#+}} xmm2 = xmm2[2,0,3,1,4,5,6,7]
; SSE-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]		; SSE-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1]
; SSE-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]		; SSE-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
; SSE-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1]
; SSE-NEXT: movdqa %xmm0, (%r8)		; SSE-NEXT: movdqa %xmm1, (%r8)
; SSE-NEXT: movdqa %xmm4, 16(%r8)		; SSE-NEXT: movdqa %xmm2, 16(%r8)
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: vf4:		; AVX1-LABEL: vf4:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm1[0],xmm0[0]
; AVX1-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm4 = xmm0[0],xmm1[0]		; AVX1-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm5 = xmm2[0],xmm3[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm5 = xmm4[0],xmm3[0]
; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]		; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; AVX1-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; AVX1-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm5[3,1,2,3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm5[3,1,2,3]
; AVX1-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[2,0,3,1,4,5,6,7]		; AVX1-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[2,0,3,1,4,5,6,7]
; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm4[3,1,2,3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[3,1,2,3]
; AVX1-NEXT: vpshuflw {{.*#+}} xmm2 = xmm2[2,0,3,1,4,5,6,7]		; AVX1-NEXT: vpshuflw {{.*#+}} xmm2 = xmm2[2,0,3,1,4,5,6,7]
; AVX1-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; AVX1-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vmovaps %ymm0, (%r8)		; AVX1-NEXT: vmovaps %ymm0, (%r8)
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-SLOW-LABEL: vf4:		; AVX2-SLOW-LABEL: vf4:
; AVX2-SLOW: # %bb.0:		; AVX2-SLOW: # %bb.0:
; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,1,8,9,u,u,u,u,2,3,10,11,u,u,u,u,u,u,u,u,20,21,28,29,u,u,u,u,22,23,30,31]		; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,1,8,9,u,u,u,u,2,3,10,11,u,u,u,u,u,u,u,u,20,21,28,29,u,u,u,u,22,23,30,31]
; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]		; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]
; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[u,u,u,u,0,1,8,9,u,u,u,u,2,3,10,11,20,21,28,29,u,u,u,u,22,23,30,31,u,u,u,u]		; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[u,u,u,u,0,1,8,9,u,u,u,u,2,3,10,11,20,21,28,29,u,u,u,u,22,23,30,31,u,u,u,u]
; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6],ymm1[7]		; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6],ymm1[7]
; AVX2-SLOW-NEXT: vmovdqa %ymm0, (%r8)		; AVX2-SLOW-NEXT: vmovdqa %ymm0, (%r8)
; AVX2-SLOW-NEXT: vzeroupper		; AVX2-SLOW-NEXT: vzeroupper
; AVX2-SLOW-NEXT: retq		; AVX2-SLOW-NEXT: retq
;		;
; AVX2-FAST-ALL-LABEL: vf4:		; AVX2-FAST-ALL-LABEL: vf4:
; AVX2-FAST-ALL: # %bb.0:		; AVX2-FAST-ALL: # %bb.0:
; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-FAST-ALL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX2-FAST-ALL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX2-FAST-ALL-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,1,3,5,7]		; AVX2-FAST-ALL-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,1,3,5,7]
; AVX2-FAST-ALL-NEXT: vpermd %ymm0, %ymm1, %ymm0		; AVX2-FAST-ALL-NEXT: vpermd %ymm0, %ymm1, %ymm0
; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,2,3,6,7,10,11,14,15,16,17,20,21,24,25,28,29,18,19,22,23,26,27,30,31]		; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,2,3,6,7,10,11,14,15,16,17,20,21,24,25,28,29,18,19,22,23,26,27,30,31]
; AVX2-FAST-ALL-NEXT: vmovdqa %ymm0, (%r8)		; AVX2-FAST-ALL-NEXT: vmovdqa %ymm0, (%r8)
; AVX2-FAST-ALL-NEXT: vzeroupper		; AVX2-FAST-ALL-NEXT: vzeroupper
; AVX2-FAST-ALL-NEXT: retq		; AVX2-FAST-ALL-NEXT: retq
;		;
; AVX2-FAST-PERLANE-LABEL: vf4:		; AVX2-FAST-PERLANE-LABEL: vf4:
; AVX2-FAST-PERLANE: # %bb.0:		; AVX2-FAST-PERLANE: # %bb.0:
; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-FAST-PERLANE-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX2-FAST-PERLANE-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,1,8,9,u,u,u,u,2,3,10,11,u,u,u,u,u,u,u,u,20,21,28,29,u,u,u,u,22,23,30,31]		; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,1,8,9,u,u,u,u,2,3,10,11,u,u,u,u,u,u,u,u,20,21,28,29,u,u,u,u,22,23,30,31]
; AVX2-FAST-PERLANE-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]		; AVX2-FAST-PERLANE-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]
; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[u,u,u,u,0,1,8,9,u,u,u,u,2,3,10,11,20,21,28,29,u,u,u,u,22,23,30,31,u,u,u,u]		; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[u,u,u,u,0,1,8,9,u,u,u,u,2,3,10,11,20,21,28,29,u,u,u,u,22,23,30,31,u,u,u,u]
; AVX2-FAST-PERLANE-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6],ymm1[7]		; AVX2-FAST-PERLANE-NEXT: vpblendd {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6],ymm1[7]
; AVX2-FAST-PERLANE-NEXT: vmovdqa %ymm0, (%r8)		; AVX2-FAST-PERLANE-NEXT: vmovdqa %ymm0, (%r8)
; AVX2-FAST-PERLANE-NEXT: vzeroupper		; AVX2-FAST-PERLANE-NEXT: vzeroupper
; AVX2-FAST-PERLANE-NEXT: retq		; AVX2-FAST-PERLANE-NEXT: retq
;		;
; AVX512-LABEL: vf4:		; AVX512-LABEL: vf4:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX512-NEXT: vmovdqa {{.*#+}} ymm1 = [0,4,8,12,1,5,9,13,2,6,10,14,3,7,11,15]		; AVX512-NEXT: vmovdqa {{.*#+}} ymm1 = [0,4,8,12,1,5,9,13,2,6,10,14,3,7,11,15]
; AVX512-NEXT: vpermw %ymm0, %ymm1, %ymm0		; AVX512-NEXT: vpermw %ymm0, %ymm1, %ymm0
; AVX512-NEXT: vmovdqa %ymm0, (%r8)		; AVX512-NEXT: vmovdqa %ymm0, (%r8)
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%in.vec0 = load <4 x i16>, <4 x i16>* %in.vecptr0, align 32		%in.vec0 = load <4 x i16>, <4 x i16>* %in.vecptr0, align 32
%in.vec1 = load <4 x i16>, <4 x i16>* %in.vecptr1, align 32		%in.vec1 = load <4 x i16>, <4 x i16>* %in.vecptr1, align 32
▲ Show 20 Lines • Show All 634 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-5.ll

	Show First 20 Lines • Show All 167 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movdqa %xmm7, 16(%r9)			; SSE-NEXT: movdqa %xmm7, 16(%r9)
	; SSE-NEXT: movdqa %xmm5, (%r9)			; SSE-NEXT: movdqa %xmm5, (%r9)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: vf4:			; AVX1-LABEL: vf4:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[3,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[3,1,2,3]
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm4 = xmm4[0,3,1,3,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm4 = xmm4[0,3,1,3,4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0],xmm4[1,2,3,4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0],xmm4[1,2,3,4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2],xmm2[3],xmm3[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2],xmm2[3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = xmm1[10,11,10,11,u,u,u,u,4,5,12,13,u,u,u,u]			; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = xmm1[10,11,10,11,u,u,u,u,4,5,12,13,u,u,u,u]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[3,1,2,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[3,1,2,1]
	Show All 9 Lines
	; AVX1-NEXT: vmovdqa %xmm4, 16(%r9)			; AVX1-NEXT: vmovdqa %xmm4, 16(%r9)
	; AVX1-NEXT: vmovq %xmm3, 32(%r9)			; AVX1-NEXT: vmovq %xmm3, 32(%r9)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: vf4:			; AVX2-SLOW-LABEL: vf4:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; AVX2-SLOW-NEXT: vpbroadcastq %xmm3, %ymm3			; AVX2-SLOW-NEXT: vpbroadcastq %xmm3, %ymm3
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm4 = ymm2[0,1,8,9,u,u,u,u,u,u,2,3,10,11,u,u,26,27,u,u,u,u,u,u,20,21,28,29,u,u,u,u]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm4 = ymm2[0,1,8,9,u,u,u,u,u,u,2,3,10,11,u,u,26,27,u,u,u,u,u,u,20,21,28,29,u,u,u,u]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[2,3,0,1]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[2,3,0,1]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm2 = ymm2[u,u,u,u,0,1,8,9,u,u,u,u,u,u,2,3,u,u,u,u,20,21,28,29,u,u,u,u,u,u,22,23]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm2 = ymm2[u,u,u,u,0,1,8,9,u,u,u,u,u,u,2,3,u,u,u,u,20,21,28,29,u,u,u,u,u,u,22,23]
	; AVX2-SLOW-NEXT: vpblendw {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3],ymm4[4,5,6],ymm2[7],ymm4[8,9],ymm2[10,11],ymm4[12,13,14],ymm2[15]			; AVX2-SLOW-NEXT: vpblendw {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3],ymm4[4,5,6],ymm2[7],ymm4[8,9],ymm2[10,11],ymm4[12,13,14],ymm2[15]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,0,0,255,255,255,255,255,255,255,255,0,0,255,255,255,255,255,255,255,255,0,0,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,0,0,255,255,255,255,255,255,255,255,0,0,255,255,255,255,255,255,255,255,0,0,255,255]
	; AVX2-SLOW-NEXT: vpblendvb %ymm4, %ymm2, %ymm3, %ymm2			; AVX2-SLOW-NEXT: vpblendvb %ymm4, %ymm2, %ymm3, %ymm2
	; AVX2-SLOW-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-SLOW-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,3,1,3,4,5,6,7]			; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,3,1,3,4,5,6,7]
	; AVX2-SLOW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3,4,5,6,7]			; AVX2-SLOW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3,4,5,6,7]
	; AVX2-SLOW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[3],xmm0[4,5,6,7]			; AVX2-SLOW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[3],xmm0[4,5,6,7]
	; AVX2-SLOW-NEXT: vmovq %xmm0, 32(%r9)			; AVX2-SLOW-NEXT: vmovq %xmm0, 32(%r9)
	; AVX2-SLOW-NEXT: vmovdqa %ymm2, (%r9)			; AVX2-SLOW-NEXT: vmovdqa %ymm2, (%r9)
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: vf4:			; AVX2-FAST-LABEL: vf4:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2			; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2
	; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; AVX2-FAST-NEXT: vpbroadcastq %xmm3, %ymm3			; AVX2-FAST-NEXT: vpbroadcastq %xmm3, %ymm3
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm4 = ymm2[0,1,8,9,u,u,u,u,u,u,2,3,10,11,u,u,26,27,u,u,u,u,u,u,20,21,28,29,u,u,u,u]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm4 = ymm2[0,1,8,9,u,u,u,u,u,u,2,3,10,11,u,u,26,27,u,u,u,u,u,u,20,21,28,29,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[2,3,0,1]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[2,3,0,1]
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm2 = ymm2[u,u,u,u,0,1,8,9,u,u,u,u,u,u,2,3,u,u,u,u,20,21,28,29,u,u,u,u,u,u,22,23]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm2 = ymm2[u,u,u,u,0,1,8,9,u,u,u,u,u,u,2,3,u,u,u,u,20,21,28,29,u,u,u,u,u,u,22,23]
	; AVX2-FAST-NEXT: vpblendw {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3],ymm4[4,5,6],ymm2[7],ymm4[8,9],ymm2[10,11],ymm4[12,13,14],ymm2[15]			; AVX2-FAST-NEXT: vpblendw {{.*#+}} ymm2 = ymm4[0,1],ymm2[2,3],ymm4[4,5,6],ymm2[7],ymm4[8,9],ymm2[10,11],ymm4[12,13,14],ymm2[15]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,0,0,255,255,255,255,255,255,255,255,0,0,255,255,255,255,255,255,255,255,0,0,255,255]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,0,0,255,255,255,255,255,255,255,255,0,0,255,255,255,255,255,255,255,255,0,0,255,255]
	; AVX2-FAST-NEXT: vpblendvb %ymm4, %ymm2, %ymm3, %ymm2			; AVX2-FAST-NEXT: vpblendvb %ymm4, %ymm2, %ymm3, %ymm2
	; AVX2-FAST-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-FAST-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[u,u,6,7,14,15,u,u,u,u,u,u,u,u,u,u]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[u,u,6,7,14,15,u,u,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3,4,5,6,7]			; AVX2-FAST-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3,4,5,6,7]
	; AVX2-FAST-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[3],xmm0[4,5,6,7]			; AVX2-FAST-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[3],xmm0[4,5,6,7]
	; AVX2-FAST-NEXT: vmovq %xmm0, 32(%r9)			; AVX2-FAST-NEXT: vmovq %xmm0, 32(%r9)
	; AVX2-FAST-NEXT: vmovdqa %ymm2, (%r9)			; AVX2-FAST-NEXT: vmovdqa %ymm2, (%r9)
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: vf4:			; AVX512-LABEL: vf4:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovdqa64 {{.*#+}} zmm1 = <0,4,8,12,16,1,5,9,13,17,2,6,10,14,18,3,7,11,15,19,u,u,u,u,u,u,u,u,u,u,u,u>			; AVX512-NEXT: vmovdqa64 {{.*#+}} zmm1 = <0,4,8,12,16,1,5,9,13,17,2,6,10,14,18,3,7,11,15,19,u,u,u,u,u,u,u,u,u,u,u,u>
	; AVX512-NEXT: vpermw %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpermw %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextracti32x4 $2, %zmm0, %xmm1			; AVX512-NEXT: vextracti32x4 $2, %zmm0, %xmm1
	; AVX512-NEXT: vmovq %xmm1, 32(%r9)			; AVX512-NEXT: vmovq %xmm1, 32(%r9)
	; AVX512-NEXT: vmovdqa %ymm0, (%r9)			; AVX512-NEXT: vmovdqa %ymm0, (%r9)
	▲ Show 20 Lines • Show All 2,247 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-6.ll

	Show First 20 Lines • Show All 167 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movaps %xmm4, (%rax)			; SSE-NEXT: movaps %xmm4, (%rax)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: vf4:			; AVX1-LABEL: vf4:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX1-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm3 = xmm2[0],xmm1[0]
	; AVX1-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm5 = xmm1[0],xmm2[0]			; AVX1-NEXT: vmovq {{.*#+}} xmm5 = mem[0],zero
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm8 = xmm3[0],xmm4[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm8 = xmm5[0],xmm4[0]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm7 = xmm5[2,3,10,11,u,u,u,u,u,u,u,u,4,5,12,13]			; AVX1-NEXT: vpshufb {{.*#+}} xmm7 = xmm3[2,3,10,11,u,u,u,u,u,u,u,u,4,5,12,13]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[0,1,1,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[0,1,1,3]
	; AVX1-NEXT: vpshufhw {{.*#+}} xmm6 = xmm6[0,1,2,3,4,6,6,7]			; AVX1-NEXT: vpshufhw {{.*#+}} xmm6 = xmm6[0,1,2,3,4,6,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm6 = xmm7[0,1,2,3],xmm6[4,5],xmm7[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm6 = xmm7[0,1,2,3],xmm6[4,5],xmm7[6,7]
	; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3]			; AVX1-NEXT: vpunpcklwd {{.*#+}} xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm6[0,1],xmm3[2,3],xmm6[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm6[0,1],xmm4[2,3],xmm6[4,5,6,7]
	; AVX1-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; AVX1-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,1,0,2,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,1,0,2,4,5,6,7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = xmm0[0,1,8,9,u,u,u,u,u,u,u,u,2,3,10,11]			; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = xmm0[0,1,8,9,u,u,u,u,u,u,u,u,2,3,10,11]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm8[0,1,2,0]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm8[0,1,2,0]
	; AVX1-NEXT: vpshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,6,4,6,7]			; AVX1-NEXT: vpshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,6,4,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5],xmm1[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5],xmm1[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm5[3,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm3[3,1,2,3]
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm2 = xmm2[3,1,2,3,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm2 = xmm2[3,1,2,3,4,5,6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,1,3,1,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,1,3,1,4,5,6,7]
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = xmm8[4,5,12,13,u,u,u,u,u,u,u,u,6,7,14,15]			; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = xmm8[4,5,12,13,u,u,u,u,u,u,u,u,6,7,14,15]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3,4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3,4,5],xmm2[6,7]
	; AVX1-NEXT: vmovdqa %xmm0, 32(%rax)			; AVX1-NEXT: vmovdqa %xmm0, 32(%rax)
	; AVX1-NEXT: vmovaps %ymm1, (%rax)			; AVX1-NEXT: vmovaps %ymm1, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: vf4:			; AVX2-SLOW-LABEL: vf4:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX2-SLOW-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm4			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm5 = xmm2[0],xmm3[0]			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm5 = xmm4[0],xmm3[0]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm6 = ymm4[0,1,8,9,u,u,u,u,u,u,u,u,2,3,10,11,18,19,26,27,u,u,u,u,u,u,u,u,20,21,28,29]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm6 = ymm2[0,1,8,9,u,u,u,u,u,u,u,u,2,3,10,11,18,19,26,27,u,u,u,u,u,u,u,u,20,21,28,29]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm4 = ymm4[2,3,0,1]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[2,3,0,1]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm4 = ymm4[u,u,u,u,0,1,8,9,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,20,21,28,29,u,u,u,u]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm2 = ymm2[u,u,u,u,0,1,8,9,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,20,21,28,29,u,u,u,u]
	; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm4 = ymm6[0],ymm4[1],ymm6[2,3,4,5],ymm4[6],ymm6[7]			; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm2 = ymm6[0],ymm2[1],ymm6[2,3,4,5],ymm2[6],ymm6[7]
	; AVX2-SLOW-NEXT: vpunpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]			; AVX2-SLOW-NEXT: vpunpcklwd {{.*#+}} xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
	; AVX2-SLOW-NEXT: vpbroadcastq %xmm2, %ymm2			; AVX2-SLOW-NEXT: vpbroadcastq %xmm3, %ymm3
	; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1],ymm2[2],ymm4[3,4],ymm2[5],ymm4[6,7]			; AVX2-SLOW-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4],ymm3[5],ymm2[6,7]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[3,1,2,3,4,5,6,7]			; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[3,1,2,3,4,5,6,7]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,1,3,1,4,5,6,7]			; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,1,3,1,4,5,6,7]
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm1 = xmm5[4,5,12,13,u,u,u,u,u,u,u,u,6,7,14,15]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm1 = xmm5[4,5,12,13,u,u,u,u,u,u,u,u,6,7,14,15]
	; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0],xmm0[1,2],xmm1[3]			; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0],xmm0[1,2],xmm1[3]
	; AVX2-SLOW-NEXT: vmovdqa %xmm0, 32(%rax)			; AVX2-SLOW-NEXT: vmovdqa %xmm0, 32(%rax)
	; AVX2-SLOW-NEXT: vmovdqa %ymm2, (%rax)			; AVX2-SLOW-NEXT: vmovdqa %ymm2, (%rax)
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-ALL-LABEL: vf4:			; AVX2-FAST-ALL-LABEL: vf4:
	; AVX2-FAST-ALL: # %bb.0:			; AVX2-FAST-ALL: # %bb.0:
	; AVX2-FAST-ALL-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX2-FAST-ALL-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2
	; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm4			; AVX2-FAST-ALL-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm5 = xmm2[0],xmm3[0]			; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm5 = xmm4[0],xmm3[0]
	; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} ymm6 = ymm4[0,1,8,9,u,u,u,u,u,u,u,u,2,3,10,11,18,19,26,27,u,u,u,u,u,u,u,u,20,21,28,29]			; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} ymm6 = ymm2[0,1,8,9,u,u,u,u,u,u,u,u,2,3,10,11,18,19,26,27,u,u,u,u,u,u,u,u,20,21,28,29]
	; AVX2-FAST-ALL-NEXT: vbroadcasti128 {{.*#+}} ymm7 = [4,6,1,3,4,6,1,3]			; AVX2-FAST-ALL-NEXT: vbroadcasti128 {{.*#+}} ymm7 = [4,6,1,3,4,6,1,3]
	; AVX2-FAST-ALL-NEXT: # ymm7 = mem[0,1,0,1]			; AVX2-FAST-ALL-NEXT: # ymm7 = mem[0,1,0,1]
	; AVX2-FAST-ALL-NEXT: vpermd %ymm4, %ymm7, %ymm4			; AVX2-FAST-ALL-NEXT: vpermd %ymm2, %ymm7, %ymm2
	; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} ymm4 = ymm4[u,u,u,u,0,1,4,5,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,24,25,28,29,u,u,u,u]			; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} ymm2 = ymm2[u,u,u,u,0,1,4,5,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,24,25,28,29,u,u,u,u]
	; AVX2-FAST-ALL-NEXT: vpblendd {{.*#+}} ymm4 = ymm6[0],ymm4[1],ymm6[2,3,4,5],ymm4[6],ymm6[7]			; AVX2-FAST-ALL-NEXT: vpblendd {{.*#+}} ymm2 = ymm6[0],ymm2[1],ymm6[2,3,4,5],ymm2[6],ymm6[7]
	; AVX2-FAST-ALL-NEXT: vpunpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]			; AVX2-FAST-ALL-NEXT: vpunpcklwd {{.*#+}} xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
	; AVX2-FAST-ALL-NEXT: vpbroadcastq %xmm2, %ymm2			; AVX2-FAST-ALL-NEXT: vpbroadcastq %xmm3, %ymm3
	; AVX2-FAST-ALL-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1],ymm2[2],ymm4[3,4],ymm2[5],ymm4[6,7]			; AVX2-FAST-ALL-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4],ymm3[5],ymm2[6,7]
	; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[6,7,14,15,4,5,6,7,u,u,u,u,u,u,u,u]			; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[6,7,14,15,4,5,6,7,u,u,u,u,u,u,u,u]
	; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[12,13,14,15,6,7,14,15,u,u,u,u,u,u,u,u]			; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[12,13,14,15,6,7,14,15,u,u,u,u,u,u,u,u]
	; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-ALL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} xmm1 = xmm5[4,5,12,13,u,u,u,u,u,u,u,u,6,7,14,15]			; AVX2-FAST-ALL-NEXT: vpshufb {{.*#+}} xmm1 = xmm5[4,5,12,13,u,u,u,u,u,u,u,u,6,7,14,15]
	; AVX2-FAST-ALL-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0],xmm0[1,2],xmm1[3]			; AVX2-FAST-ALL-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0],xmm0[1,2],xmm1[3]
	; AVX2-FAST-ALL-NEXT: vmovdqa %xmm0, 32(%rax)			; AVX2-FAST-ALL-NEXT: vmovdqa %xmm0, 32(%rax)
	; AVX2-FAST-ALL-NEXT: vmovdqa %ymm2, (%rax)			; AVX2-FAST-ALL-NEXT: vmovdqa %ymm2, (%rax)
	; AVX2-FAST-ALL-NEXT: vzeroupper			; AVX2-FAST-ALL-NEXT: vzeroupper
	; AVX2-FAST-ALL-NEXT: retq			; AVX2-FAST-ALL-NEXT: retq
	;			;
	; AVX2-FAST-PERLANE-LABEL: vf4:			; AVX2-FAST-PERLANE-LABEL: vf4:
	; AVX2-FAST-PERLANE: # %bb.0:			; AVX2-FAST-PERLANE: # %bb.0:
	; AVX2-FAST-PERLANE-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX2-FAST-PERLANE-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2
	; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm4			; AVX2-FAST-PERLANE-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm5 = xmm2[0],xmm3[0]			; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm5 = xmm4[0],xmm3[0]
	; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} ymm6 = ymm4[0,1,8,9,u,u,u,u,u,u,u,u,2,3,10,11,18,19,26,27,u,u,u,u,u,u,u,u,20,21,28,29]			; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} ymm6 = ymm2[0,1,8,9,u,u,u,u,u,u,u,u,2,3,10,11,18,19,26,27,u,u,u,u,u,u,u,u,20,21,28,29]
	; AVX2-FAST-PERLANE-NEXT: vpermq {{.*#+}} ymm4 = ymm4[2,3,0,1]			; AVX2-FAST-PERLANE-NEXT: vpermq {{.*#+}} ymm2 = ymm2[2,3,0,1]
	; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} ymm4 = ymm4[u,u,u,u,0,1,8,9,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,20,21,28,29,u,u,u,u]			; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} ymm2 = ymm2[u,u,u,u,0,1,8,9,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,u,20,21,28,29,u,u,u,u]
	; AVX2-FAST-PERLANE-NEXT: vpblendd {{.*#+}} ymm4 = ymm6[0],ymm4[1],ymm6[2,3,4,5],ymm4[6],ymm6[7]			; AVX2-FAST-PERLANE-NEXT: vpblendd {{.*#+}} ymm2 = ymm6[0],ymm2[1],ymm6[2,3,4,5],ymm2[6],ymm6[7]
	; AVX2-FAST-PERLANE-NEXT: vpunpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]			; AVX2-FAST-PERLANE-NEXT: vpunpcklwd {{.*#+}} xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
	; AVX2-FAST-PERLANE-NEXT: vpbroadcastq %xmm2, %ymm2			; AVX2-FAST-PERLANE-NEXT: vpbroadcastq %xmm3, %ymm3
	; AVX2-FAST-PERLANE-NEXT: vpblendd {{.*#+}} ymm2 = ymm4[0,1],ymm2[2],ymm4[3,4],ymm2[5],ymm4[6,7]			; AVX2-FAST-PERLANE-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4],ymm3[5],ymm2[6,7]
	; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[6,7,14,15,4,5,6,7,u,u,u,u,u,u,u,u]			; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[6,7,14,15,4,5,6,7,u,u,u,u,u,u,u,u]
	; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[12,13,14,15,6,7,14,15,u,u,u,u,u,u,u,u]			; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[12,13,14,15,6,7,14,15,u,u,u,u,u,u,u,u]
	; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-PERLANE-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} xmm1 = xmm5[4,5,12,13,u,u,u,u,u,u,u,u,6,7,14,15]			; AVX2-FAST-PERLANE-NEXT: vpshufb {{.*#+}} xmm1 = xmm5[4,5,12,13,u,u,u,u,u,u,u,u,6,7,14,15]
	; AVX2-FAST-PERLANE-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0],xmm0[1,2],xmm1[3]			; AVX2-FAST-PERLANE-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0],xmm0[1,2],xmm1[3]
	; AVX2-FAST-PERLANE-NEXT: vmovdqa %xmm0, 32(%rax)			; AVX2-FAST-PERLANE-NEXT: vmovdqa %xmm0, 32(%rax)
	; AVX2-FAST-PERLANE-NEXT: vmovdqa %ymm2, (%rax)			; AVX2-FAST-PERLANE-NEXT: vmovdqa %ymm2, (%rax)
	; AVX2-FAST-PERLANE-NEXT: vzeroupper			; AVX2-FAST-PERLANE-NEXT: vzeroupper
	; AVX2-FAST-PERLANE-NEXT: retq			; AVX2-FAST-PERLANE-NEXT: retq
	;			;
	; AVX512-LABEL: vf4:			; AVX512-LABEL: vf4:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX512-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX512-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0			; AVX512-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0
	; AVX512-NEXT: vmovdqa64 {{.*#+}} zmm1 = <0,4,8,12,16,20,1,5,9,13,17,21,2,6,10,14,18,22,3,7,11,15,19,23,u,u,u,u,u,u,u,u>			; AVX512-NEXT: vmovdqa64 {{.*#+}} zmm1 = <0,4,8,12,16,20,1,5,9,13,17,21,2,6,10,14,18,22,3,7,11,15,19,23,u,u,u,u,u,u,u,u>
	; AVX512-NEXT: vpermw %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpermw %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextracti32x4 $2, %zmm0, 32(%rax)			; AVX512-NEXT: vextracti32x4 $2, %zmm0, 32(%rax)
	; AVX512-NEXT: vmovdqa %ymm0, (%rax)			; AVX512-NEXT: vmovdqa %ymm0, (%rax)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	▲ Show 20 Lines • Show All 1,985 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-2.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE			; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-crosslane-shuffle,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX,AVX2			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-crosslane-shuffle,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX,AVX2
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX,AVX2			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX,AVX2
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512

	; These patterns are produced by LoopVectorizer for interleaved stores.			; These patterns are produced by LoopVectorizer for interleaved stores.

	define void @store_i32_stride2_vf2(<2 x i32>* %in.vecptr0, <2 x i32>* %in.vecptr1, <4 x i32>* %out.vec) nounwind {			define void @store_i32_stride2_vf2(<2 x i32>* %in.vecptr0, <2 x i32>* %in.vecptr1, <4 x i32>* %out.vec) nounwind {
	; SSE-LABEL: store_i32_stride2_vf2:			; SSE-LABEL: store_i32_stride2_vf2:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
	; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE-NEXT: movaps %xmm0, (%rdx)			; SSE-NEXT: movaps %xmm1, (%rdx)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: store_i32_stride2_vf2:			; AVX-LABEL: store_i32_stride2_vf2:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; AVX-NEXT: vunpcklps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; AVX-NEXT: vmovaps %xmm0, (%rdx)			; AVX-NEXT: vmovaps %xmm0, (%rdx)
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: store_i32_stride2_vf2:			; AVX512-LABEL: store_i32_stride2_vf2:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; AVX512-NEXT: vunpcklps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; AVX512-NEXT: vmovaps %xmm0, (%rdx)			; AVX512-NEXT: vmovaps %xmm0, (%rdx)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%in.vec0 = load <2 x i32>, <2 x i32>* %in.vecptr0, align 32			%in.vec0 = load <2 x i32>, <2 x i32>* %in.vecptr0, align 32
	%in.vec1 = load <2 x i32>, <2 x i32>* %in.vecptr1, align 32			%in.vec1 = load <2 x i32>, <2 x i32>* %in.vecptr1, align 32

	%concat01 = shufflevector <2 x i32> %in.vec0, <2 x i32> %in.vec1, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%concat01 = shufflevector <2 x i32> %in.vec0, <2 x i32> %in.vec1, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%interleaved.vec = shufflevector <4 x i32> %concat01, <4 x i32> poison, <4 x i32> <i32 0, i32 2, i32 1, i32 3>			%interleaved.vec = shufflevector <4 x i32> %concat01, <4 x i32> poison, <4 x i32> <i32 0, i32 2, i32 1, i32 3>

	▲ Show 20 Lines • Show All 446 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-3.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE			; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx \| FileCheck %s --check-prefixes=AVX1			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx \| FileCheck %s --check-prefixes=AVX1
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX2,AVX2-SLOW			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX2,AVX2-SLOW
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-crosslane-shuffle,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-ALL			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-crosslane-shuffle,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-ALL
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-PERLANE			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-PERLANE
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512

	; These patterns are produced by LoopVectorizer for interleaved stores.			; These patterns are produced by LoopVectorizer for interleaved stores.

	define void @store_i32_stride3_vf2(<2 x i32>* %in.vecptr0, <2 x i32>* %in.vecptr1, <2 x i32>* %in.vecptr2, <6 x i32>* %out.vec) nounwind {			define void @store_i32_stride3_vf2(<2 x i32>* %in.vecptr0, <2 x i32>* %in.vecptr1, <2 x i32>* %in.vecptr2, <6 x i32>* %out.vec) nounwind {
	; SSE-LABEL: store_i32_stride3_vf2:			; SSE-LABEL: store_i32_stride3_vf2:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
	; SSE-NEXT: movq {{.*#+}} xmm2 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
	; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,1,1]			; SSE-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm1[0]
	; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[1,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,1,1]
	; SSE-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[1,0]
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm2[3,3,3,3]
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]			; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm0[0,2]
	; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]
	; SSE-NEXT: movq %xmm1, 16(%rcx)			; SSE-NEXT: movq %xmm3, 16(%rcx)
	; SSE-NEXT: movaps %xmm0, (%rcx)			; SSE-NEXT: movaps %xmm2, (%rcx)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: store_i32_stride3_vf2:			; AVX1-LABEL: store_i32_stride3_vf2:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX1-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX1-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX1-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX1-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX1-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX1-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm2
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,1,0,3,7,5,4,7]			; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,1,0,3,7,5,4,7]
	; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = ymm2[0,2,u,1,u,5,u,u]			; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = ymm2[0,2,u,1,u,5,u,u]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2],ymm1[3],ymm0[4],ymm1[5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2],ymm1[3],ymm0[4],ymm1[5,6,7]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovlps %xmm1, 16(%rcx)			; AVX1-NEXT: vmovlps %xmm1, 16(%rcx)
	; AVX1-NEXT: vmovaps %xmm0, (%rcx)			; AVX1-NEXT: vmovaps %xmm0, (%rcx)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: store_i32_stride3_vf2:			; AVX2-LABEL: store_i32_stride3_vf2:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX2-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX2-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX2-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: vmovaps {{.*#+}} ymm1 = <0,2,4,1,3,5,u,u>			; AVX2-NEXT: vmovaps {{.*#+}} ymm1 = <0,2,4,1,3,5,u,u>
	; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vmovlps %xmm1, 16(%rcx)			; AVX2-NEXT: vmovlps %xmm1, 16(%rcx)
	; AVX2-NEXT: vmovaps %xmm0, (%rcx)			; AVX2-NEXT: vmovaps %xmm0, (%rcx)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: store_i32_stride3_vf2:			; AVX512-LABEL: store_i32_stride3_vf2:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX512-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX512-NEXT: vmovaps {{.*#+}} ymm1 = <0,2,4,1,3,5,u,u>			; AVX512-NEXT: vmovaps {{.*#+}} ymm1 = <0,2,4,1,3,5,u,u>
	; AVX512-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vpermps %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmovlps %xmm1, 16(%rcx)			; AVX512-NEXT: vmovlps %xmm1, 16(%rcx)
	; AVX512-NEXT: vmovaps %xmm0, (%rcx)			; AVX512-NEXT: vmovaps %xmm0, (%rcx)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%in.vec0 = load <2 x i32>, <2 x i32>* %in.vecptr0, align 32			%in.vec0 = load <2 x i32>, <2 x i32>* %in.vecptr0, align 32
	▲ Show 20 Lines • Show All 1,299 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-4.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE			; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx \| FileCheck %s --check-prefixes=AVX1			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx \| FileCheck %s --check-prefixes=AVX1
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX2,AVX2-SLOW			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX2,AVX2-SLOW
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-crosslane-shuffle,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-ALL			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-crosslane-shuffle,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-ALL
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-PERLANE			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-PERLANE
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512

	; These patterns are produced by LoopVectorizer for interleaved stores.			; These patterns are produced by LoopVectorizer for interleaved stores.

	define void @store_i32_stride4_vf2(<2 x i32>* %in.vecptr0, <2 x i32>* %in.vecptr1, <2 x i32>* %in.vecptr2, <2 x i32>* %in.vecptr3, <8 x i32>* %out.vec) nounwind {			define void @store_i32_stride4_vf2(<2 x i32>* %in.vecptr0, <2 x i32>* %in.vecptr1, <2 x i32>* %in.vecptr2, <2 x i32>* %in.vecptr3, <8 x i32>* %out.vec) nounwind {
	; SSE-LABEL: store_i32_stride4_vf2:			; SSE-LABEL: store_i32_stride4_vf2:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
	; SSE-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; SSE-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
	; SSE-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; SSE-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm0[0]
	; SSE-NEXT: movaps %xmm0, %xmm2			; SSE-NEXT: movaps %xmm1, %xmm0
	; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm1[0,2]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]			; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,3],xmm2[1,3]
	; SSE-NEXT: movaps %xmm0, 16(%r8)			; SSE-NEXT: movaps %xmm1, 16(%r8)
	; SSE-NEXT: movaps %xmm2, (%r8)			; SSE-NEXT: movaps %xmm0, (%r8)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: store_i32_stride4_vf2:			; AVX1-LABEL: store_i32_stride4_vf2:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX1-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX1-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX1-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX1-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vmovlhps {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX1-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX1-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX1-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX1-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX1-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm2
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,0,2,5,7,4,6]			; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,0,2,5,7,4,6]
	; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = ymm2[0,2,1,3,4,6,5,7]			; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = ymm2[0,2,1,3,4,6,5,7]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3,4,5],ymm1[6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2,3,4,5],ymm1[6,7]
	; AVX1-NEXT: vmovaps %ymm0, (%r8)			; AVX1-NEXT: vmovaps %ymm0, (%r8)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: store_i32_stride4_vf2:			; AVX2-SLOW-LABEL: store_i32_stride4_vf2:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,1,3,4,6,5,7]			; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,1,3,4,6,5,7]
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vmovaps %ymm0, (%r8)			; AVX2-SLOW-NEXT: vmovaps %ymm0, (%r8)
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-ALL-LABEL: store_i32_stride4_vf2:			; AVX2-FAST-ALL-LABEL: store_i32_stride4_vf2:
	; AVX2-FAST-ALL: # %bb.0:			; AVX2-FAST-ALL: # %bb.0:
	; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-ALL-NEXT: vmovlhps {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-FAST-ALL-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-FAST-ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-FAST-ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-ALL-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,1,3,5,7]			; AVX2-FAST-ALL-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,1,3,5,7]
	; AVX2-FAST-ALL-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-ALL-NEXT: vpermps %ymm0, %ymm1, %ymm0
	; AVX2-FAST-ALL-NEXT: vmovaps %ymm0, (%r8)			; AVX2-FAST-ALL-NEXT: vmovaps %ymm0, (%r8)
	; AVX2-FAST-ALL-NEXT: vzeroupper			; AVX2-FAST-ALL-NEXT: vzeroupper
	; AVX2-FAST-ALL-NEXT: retq			; AVX2-FAST-ALL-NEXT: retq
	;			;
	; AVX2-FAST-PERLANE-LABEL: store_i32_stride4_vf2:			; AVX2-FAST-PERLANE-LABEL: store_i32_stride4_vf2:
	; AVX2-FAST-PERLANE: # %bb.0:			; AVX2-FAST-PERLANE: # %bb.0:
	; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-PERLANE-NEXT: vmovlhps {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-FAST-PERLANE-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-FAST-PERLANE-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-FAST-PERLANE-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-PERLANE-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,1,3,4,6,5,7]			; AVX2-FAST-PERLANE-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,1,3,4,6,5,7]
	; AVX2-FAST-PERLANE-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-FAST-PERLANE-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-FAST-PERLANE-NEXT: vmovaps %ymm0, (%r8)			; AVX2-FAST-PERLANE-NEXT: vmovaps %ymm0, (%r8)
	; AVX2-FAST-PERLANE-NEXT: vzeroupper			; AVX2-FAST-PERLANE-NEXT: vzeroupper
	; AVX2-FAST-PERLANE-NEXT: retq			; AVX2-FAST-PERLANE-NEXT: retq
	;			;
	; AVX512-LABEL: store_i32_stride4_vf2:			; AVX512-LABEL: store_i32_stride4_vf2:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vmovlhps {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX512-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX512-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX512-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,1,3,4,6,5,7]			; AVX512-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,1,3,4,6,5,7]
	; AVX512-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX512-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX512-NEXT: vmovaps %ymm0, (%r8)			; AVX512-NEXT: vmovaps %ymm0, (%r8)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%in.vec0 = load <2 x i32>, <2 x i32>* %in.vecptr0, align 32			%in.vec0 = load <2 x i32>, <2 x i32>* %in.vecptr0, align 32
	%in.vec1 = load <2 x i32>, <2 x i32>* %in.vecptr1, align 32			%in.vec1 = load <2 x i32>, <2 x i32>* %in.vecptr1, align 32
	▲ Show 20 Lines • Show All 1,263 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-6.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE			; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx \| FileCheck %s --check-prefixes=AVX1			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx \| FileCheck %s --check-prefixes=AVX1
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX2,AVX2-SLOW			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX2,AVX2-SLOW
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-crosslane-shuffle,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-ALL			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-crosslane-shuffle,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-ALL
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-PERLANE			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,+fast-variable-perlane-shuffle \| FileCheck %s --check-prefixes=AVX2,AVX2-FAST-PERLANE
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512

	; These patterns are produced by LoopVectorizer for interleaved stores.			; These patterns are produced by LoopVectorizer for interleaved stores.

	define void @store_i32_stride6_vf2(<2 x i32>* %in.vecptr0, <2 x i32>* %in.vecptr1, <2 x i32>* %in.vecptr2, <2 x i32>* %in.vecptr3, <2 x i32>* %in.vecptr4, <2 x i32>* %in.vecptr5, <12 x i32>* %out.vec) nounwind {			define void @store_i32_stride6_vf2(<2 x i32>* %in.vecptr0, <2 x i32>* %in.vecptr1, <2 x i32>* %in.vecptr2, <2 x i32>* %in.vecptr3, <2 x i32>* %in.vecptr4, <2 x i32>* %in.vecptr5, <12 x i32>* %out.vec) nounwind {
	; SSE-LABEL: store_i32_stride6_vf2:			; SSE-LABEL: store_i32_stride6_vf2:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movq {{[0-9]+}}(%rsp), %rax			; SSE-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
	; SSE-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; SSE-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; SSE-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
	; SSE-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
				; SSE-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm0[0]
				; SSE-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; SSE-NEXT: movsd {{.*#+}} xmm3 = mem[0],zero			; SSE-NEXT: movsd {{.*#+}} xmm3 = mem[0],zero
	; SSE-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; SSE-NEXT: movlhps {{.*#+}} xmm3 = xmm3[0],xmm0[0]
	; SSE-NEXT: movaps %xmm2, %xmm3			; SSE-NEXT: movaps %xmm3, %xmm0
	; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,2],xmm0[1,3]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[1,3]
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,3],xmm2[1,3]			; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,3],xmm3[1,3]
	; SSE-NEXT: movaps %xmm1, 32(%rax)			; SSE-NEXT: movaps %xmm2, 32(%rax)
	; SSE-NEXT: movaps %xmm3, 16(%rax)			; SSE-NEXT: movaps %xmm0, 16(%rax)
	; SSE-NEXT: movaps %xmm0, (%rax)			; SSE-NEXT: movaps %xmm1, (%rax)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: store_i32_stride6_vf2:			; AVX1-LABEL: store_i32_stride6_vf2:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX1-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX1-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX1-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX1-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX1-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX1-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX1-NEXT: vmovlhps {{.*#+}} xmm2 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
	; AVX1-NEXT: vmovlhps {{.*#+}} xmm2 = xmm2[0],xmm3[0]
	; AVX1-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero			; AVX1-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
	; AVX1-NEXT: vmovsd {{.*#+}} xmm4 = mem[0],zero			; AVX1-NEXT: vmovsd {{.*#+}} xmm4 = mem[0],zero
	; AVX1-NEXT: vmovlhps {{.*#+}} xmm3 = xmm3[0],xmm4[0]			; AVX1-NEXT: vmovlhps {{.*#+}} xmm3 = xmm4[0],xmm3[0]
	; AVX1-NEXT: vmovlhps {{.*#+}} xmm4 = xmm0[0],xmm1[0]			; AVX1-NEXT: vmovsd {{.*#+}} xmm4 = mem[0],zero
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm4			; AVX1-NEXT: vmovsd {{.*#+}} xmm5 = mem[0],zero
	; AVX1-NEXT: vpermilps {{.*#+}} ymm4 = ymm4[u,u,0,2,u,u,5,7]			; AVX1-NEXT: vmovlhps {{.*#+}} xmm4 = xmm5[0],xmm4[0]
	; AVX1-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm4[2,3,4,5,6,7]			; AVX1-NEXT: vpermilps {{.*#+}} ymm2 = ymm2[u,u,0,2,u,u,5,7]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm3[0,2,2,3]			; AVX1-NEXT: vunpcklps {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
				; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm2[2,3,4,5,6,7]
				; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm4[0,2,2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm2[1,3],xmm3[1,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm3[1,3],xmm4[1,3]
	; AVX1-NEXT: vmovaps %xmm1, 32(%rax)			; AVX1-NEXT: vmovaps %xmm1, 32(%rax)
	; AVX1-NEXT: vmovaps %ymm0, (%rax)			; AVX1-NEXT: vmovaps %ymm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: store_i32_stride6_vf2:			; AVX2-SLOW-LABEL: store_i32_stride6_vf2:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX2-SLOW-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
				; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero			; AVX2-SLOW-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; AVX2-SLOW-NEXT: vmovlhps {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,1,3,4,6,5,7]			; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,1,3,4,6,5,7]
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,1]			; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,1]
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm3 = xmm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm3 = xmm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm3			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm3
	; AVX2-SLOW-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm3[4,5],ymm0[6,7]			; AVX2-SLOW-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm3[4,5],ymm0[6,7]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm2[1,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm2[1,3]
	; AVX2-SLOW-NEXT: vmovaps %xmm1, 32(%rax)			; AVX2-SLOW-NEXT: vmovaps %xmm1, 32(%rax)
	; AVX2-SLOW-NEXT: vmovaps %ymm0, (%rax)			; AVX2-SLOW-NEXT: vmovaps %ymm0, (%rax)
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-ALL-LABEL: store_i32_stride6_vf2:			; AVX2-FAST-ALL-LABEL: store_i32_stride6_vf2:
	; AVX2-FAST-ALL: # %bb.0:			; AVX2-FAST-ALL: # %bb.0:
	; AVX2-FAST-ALL-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX2-FAST-ALL-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-ALL-NEXT: vmovlhps {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-FAST-ALL-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-FAST-ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-ALL-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm3[0]			; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vshufps {{.*#+}} ymm1 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]			; AVX2-FAST-ALL-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX2-FAST-ALL-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[2,1,2,3]			; AVX2-FAST-ALL-NEXT: vmovlhps {{.*#+}} xmm3 = xmm2[0],xmm1[0]
				; AVX2-FAST-ALL-NEXT: vshufps {{.*#+}} ymm3 = ymm0[1,3],ymm3[1,3],ymm0[5,7],ymm3[5,7]
				; AVX2-FAST-ALL-NEXT: vpermpd {{.*#+}} ymm3 = ymm3[2,1,2,3]
	; AVX2-FAST-ALL-NEXT: vmovaps {{.*#+}} ymm4 = <0,2,4,6,u,u,1,3>			; AVX2-FAST-ALL-NEXT: vmovaps {{.*#+}} ymm4 = <0,2,4,6,u,u,1,3>
	; AVX2-FAST-ALL-NEXT: vpermps %ymm0, %ymm4, %ymm0			; AVX2-FAST-ALL-NEXT: vpermps %ymm0, %ymm4, %ymm0
	; AVX2-FAST-ALL-NEXT: vunpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]			; AVX2-FAST-ALL-NEXT: vunpcklps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; AVX2-FAST-ALL-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm2			; AVX2-FAST-ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; AVX2-FAST-ALL-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm2[4,5],ymm0[6,7]			; AVX2-FAST-ALL-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5],ymm0[6,7]
	; AVX2-FAST-ALL-NEXT: vmovaps %ymm0, (%rax)			; AVX2-FAST-ALL-NEXT: vmovaps %ymm0, (%rax)
	; AVX2-FAST-ALL-NEXT: vmovaps %xmm1, 32(%rax)			; AVX2-FAST-ALL-NEXT: vmovaps %xmm3, 32(%rax)
	; AVX2-FAST-ALL-NEXT: vzeroupper			; AVX2-FAST-ALL-NEXT: vzeroupper
	; AVX2-FAST-ALL-NEXT: retq			; AVX2-FAST-ALL-NEXT: retq
	;			;
	; AVX2-FAST-PERLANE-LABEL: store_i32_stride6_vf2:			; AVX2-FAST-PERLANE-LABEL: store_i32_stride6_vf2:
	; AVX2-FAST-PERLANE: # %bb.0:			; AVX2-FAST-PERLANE: # %bb.0:
	; AVX2-FAST-PERLANE-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX2-FAST-PERLANE-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-PERLANE-NEXT: vmovlhps {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-FAST-PERLANE-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
				; AVX2-FAST-PERLANE-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero			; AVX2-FAST-PERLANE-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
	; AVX2-FAST-PERLANE-NEXT: vmovlhps {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; AVX2-FAST-PERLANE-NEXT: vmovlhps {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX2-FAST-PERLANE-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-PERLANE-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,1,3,4,6,5,7]			; AVX2-FAST-PERLANE-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,1,3,4,6,5,7]
	; AVX2-FAST-PERLANE-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,1]			; AVX2-FAST-PERLANE-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,1]
	; AVX2-FAST-PERLANE-NEXT: vpermilps {{.*#+}} xmm3 = xmm2[0,2,2,3]			; AVX2-FAST-PERLANE-NEXT: vpermilps {{.*#+}} xmm3 = xmm2[0,2,2,3]
	; AVX2-FAST-PERLANE-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm3			; AVX2-FAST-PERLANE-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm3
	; AVX2-FAST-PERLANE-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm3[4,5],ymm0[6,7]			; AVX2-FAST-PERLANE-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm3[4,5],ymm0[6,7]
	; AVX2-FAST-PERLANE-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm2[1,3]			; AVX2-FAST-PERLANE-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm2[1,3]
	; AVX2-FAST-PERLANE-NEXT: vmovaps %xmm1, 32(%rax)			; AVX2-FAST-PERLANE-NEXT: vmovaps %xmm1, 32(%rax)
	; AVX2-FAST-PERLANE-NEXT: vmovaps %ymm0, (%rax)			; AVX2-FAST-PERLANE-NEXT: vmovaps %ymm0, (%rax)
	; AVX2-FAST-PERLANE-NEXT: vzeroupper			; AVX2-FAST-PERLANE-NEXT: vzeroupper
	; AVX2-FAST-PERLANE-NEXT: retq			; AVX2-FAST-PERLANE-NEXT: retq
	;			;
	; AVX512-LABEL: store_i32_stride6_vf2:			; AVX512-LABEL: store_i32_stride6_vf2:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX512-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX512-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vmovlhps {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX512-NEXT: vmovlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX512-NEXT: vmovlhps {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; AVX512-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero			; AVX512-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
	; AVX512-NEXT: vmovlhps {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; AVX512-NEXT: vmovlhps {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX512-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX512-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX512-NEXT: vinsertf64x4 $1, %ymm2, %zmm0, %zmm0			; AVX512-NEXT: vinsertf64x4 $1, %ymm2, %zmm0, %zmm0
	; AVX512-NEXT: vmovaps {{.*#+}} zmm1 = <0,2,4,6,8,10,1,3,5,7,9,11,u,u,u,u>			; AVX512-NEXT: vmovaps {{.*#+}} zmm1 = <0,2,4,6,8,10,1,3,5,7,9,11,u,u,u,u>
	; AVX512-NEXT: vpermps %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpermps %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf32x4 $2, %zmm0, 32(%rax)			; AVX512-NEXT: vextractf32x4 $2, %zmm0, 32(%rax)
	; AVX512-NEXT: vmovaps %ymm0, (%rax)			; AVX512-NEXT: vmovaps %ymm0, (%rax)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	▲ Show 20 Lines • Show All 1,009 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i8-stride-2.ll

Show First 20 Lines • Show All 71 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
ret void		ret void
}		}

define void @store_i8_stride2_vf8(<8 x i8>* %in.vecptr0, <8 x i8>* %in.vecptr1, <16 x i8>* %out.vec) nounwind {		define void @store_i8_stride2_vf8(<8 x i8>* %in.vecptr0, <8 x i8>* %in.vecptr1, <16 x i8>* %out.vec) nounwind {
; SSE-LABEL: store_i8_stride2_vf8:		; SSE-LABEL: store_i8_stride2_vf8:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; SSE-NEXT: movdqa %xmm0, (%rdx)		; SSE-NEXT: movdqa %xmm1, (%rdx)
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: store_i8_stride2_vf8:		; AVX-LABEL: store_i8_stride2_vf8:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; AVX-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; AVX-NEXT: vmovdqa %xmm0, (%rdx)		; AVX-NEXT: vmovdqa %xmm0, (%rdx)
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: store_i8_stride2_vf8:		; AVX512-LABEL: store_i8_stride2_vf8:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX512-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; AVX512-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
; AVX512-NEXT: vmovdqa %xmm0, (%rdx)		; AVX512-NEXT: vmovdqa %xmm0, (%rdx)
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%in.vec0 = load <8 x i8>, <8 x i8>* %in.vecptr0, align 32		%in.vec0 = load <8 x i8>, <8 x i8>* %in.vecptr0, align 32
%in.vec1 = load <8 x i8>, <8 x i8>* %in.vecptr1, align 32		%in.vec1 = load <8 x i8>, <8 x i8>* %in.vecptr1, align 32

%concat01 = shufflevector <8 x i8> %in.vec0, <8 x i8> %in.vec1, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>		%concat01 = shufflevector <8 x i8> %in.vec0, <8 x i8> %in.vec1, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
%interleaved.vec = shufflevector <16 x i8> %concat01, <16 x i8> poison, <16 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11, i32 4, i32 12, i32 5, i32 13, i32 6, i32 14, i32 7, i32 15>		%interleaved.vec = shufflevector <16 x i8> %concat01, <16 x i8> poison, <16 x i32> <i32 0, i32 8, i32 1, i32 9, i32 2, i32 10, i32 3, i32 11, i32 4, i32 12, i32 5, i32 13, i32 6, i32 14, i32 7, i32 15>

▲ Show 20 Lines • Show All 112 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i8-stride-3.ll

Show First 20 Lines • Show All 116 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
store <12 x i8> %interleaved.vec, <12 x i8>* %out.vec, align 32		store <12 x i8> %interleaved.vec, <12 x i8>* %out.vec, align 32

ret void		ret void
}		}

define void @store_i8_stride3_vf8(<8 x i8>* %in.vecptr0, <8 x i8>* %in.vecptr1, <8 x i8>* %in.vecptr2, <24 x i8>* %out.vec) nounwind {		define void @store_i8_stride3_vf8(<8 x i8>* %in.vecptr0, <8 x i8>* %in.vecptr1, <8 x i8>* %in.vecptr2, <24 x i8>* %out.vec) nounwind {
; SSE-LABEL: store_i8_stride3_vf8:		; SSE-LABEL: store_i8_stride3_vf8:
; SSE: # %bb.0:		; SSE: # %bb.0:
		; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm2 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm2 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: pxor %xmm3, %xmm3		; SSE-NEXT: pxor %xmm3, %xmm3
; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,2,2]		; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm2[1,1,2,2]
; SSE-NEXT: movdqa {{.*#+}} xmm5 = [65535,65535,0,65535,65535,0,65535,65535]		; SSE-NEXT: movdqa {{.*#+}} xmm5 = [65535,65535,0,65535,65535,0,65535,65535]
; SSE-NEXT: pand %xmm5, %xmm4		; SSE-NEXT: pand %xmm5, %xmm4
; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]		; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
; SSE-NEXT: pshuflw {{.*#+}} xmm3 = xmm2[3,3,3,3,4,5,6,7]		; SSE-NEXT: pshuflw {{.*#+}} xmm3 = xmm1[3,3,3,3,4,5,6,7]
; SSE-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,4,4,4]		; SSE-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,4,4,4,4]
; SSE-NEXT: pandn %xmm3, %xmm5		; SSE-NEXT: pandn %xmm3, %xmm5
; SSE-NEXT: por %xmm4, %xmm5		; SSE-NEXT: por %xmm4, %xmm5
; SSE-NEXT: movdqa %xmm1, %xmm3		; SSE-NEXT: movdqa %xmm2, %xmm3
; SSE-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]		; SSE-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,1,2,1]		; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,1,2,1]
; SSE-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[0,1,2,2,4,5,6,7]		; SSE-NEXT: pshuflw {{.*#+}} xmm3 = xmm3[0,1,2,2,4,5,6,7]
; SSE-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,7,5,4,5]		; SSE-NEXT: pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,7,5,4,5]
; SSE-NEXT: packuswb %xmm5, %xmm3		; SSE-NEXT: packuswb %xmm5, %xmm3
; SSE-NEXT: movdqa {{.*#+}} xmm4 = [255,255,0,255,255,0,255,255,0,255,255,0,255,255,0,255]		; SSE-NEXT: movdqa {{.*#+}} xmm4 = [255,255,0,255,255,0,255,255,0,255,255,0,255,255,0,255]
; SSE-NEXT: pand %xmm4, %xmm3		; SSE-NEXT: pand %xmm4, %xmm3
; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,1,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,1,0,1]
; SSE-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[0,0,0,0,4,5,6,7]		; SSE-NEXT: pshuflw {{.*#+}} xmm5 = xmm5[0,0,0,0,4,5,6,7]
; SSE-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,5,5,6,6]		; SSE-NEXT: pshufhw {{.*#+}} xmm5 = xmm5[0,1,2,3,5,5,6,6]
; SSE-NEXT: pandn %xmm5, %xmm4		; SSE-NEXT: pandn %xmm5, %xmm4
; SSE-NEXT: por %xmm3, %xmm4		; SSE-NEXT: por %xmm3, %xmm4
; SSE-NEXT: punpckhwd {{.*#+}} xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]		; SSE-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,1,3,3]
; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[2,1,1,0,4,5,6,7]		; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[2,1,1,0,4,5,6,7]
; SSE-NEXT: packuswb %xmm1, %xmm1		; SSE-NEXT: packuswb %xmm1, %xmm1
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,0,255,255,0,255,255,0,255,255,255,255,255,255,255,255]		; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,0,255,255,0,255,255,0,255,255,255,255,255,255,255,255]
; SSE-NEXT: pand %xmm2, %xmm1		; SSE-NEXT: pand %xmm2, %xmm1
; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[2,1,3,3,4,5,6,7]		; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[2,1,3,3,4,5,6,7]
; SSE-NEXT: pandn %xmm0, %xmm2		; SSE-NEXT: pandn %xmm0, %xmm2
; SSE-NEXT: por %xmm1, %xmm2		; SSE-NEXT: por %xmm1, %xmm2
; SSE-NEXT: movq %xmm2, 16(%rcx)		; SSE-NEXT: movq %xmm2, 16(%rcx)
; SSE-NEXT: movdqa %xmm4, (%rcx)		; SSE-NEXT: movdqa %xmm4, (%rcx)
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: store_i8_stride3_vf8:		; AVX1-LABEL: store_i8_stride3_vf8:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = xmm0[0,8],zero,xmm0[1,9],zero,xmm0[2,10],zero,xmm0[3,11],zero,xmm0[4,12],zero,xmm0[5]		; AVX1-NEXT: vpshufb {{.*#+}} xmm2 = xmm1[0,8],zero,xmm1[1,9],zero,xmm1[2,10],zero,xmm1[3,11],zero,xmm1[4,12],zero,xmm1[5]
; AVX1-NEXT: vpshufb {{.*#+}} xmm3 = zero,zero,xmm1[0],zero,zero,xmm1[1],zero,zero,xmm1[2],zero,zero,xmm1[3],zero,zero,xmm1[4],zero		; AVX1-NEXT: vpshufb {{.*#+}} xmm3 = zero,zero,xmm0[0],zero,zero,xmm0[1],zero,zero,xmm0[2],zero,zero,xmm0[3],zero,zero,xmm0[4],zero
; AVX1-NEXT: vpor %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpor %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[13],zero,xmm0[6,14],zero,xmm0[7,15],zero,xmm0[u,u,u,u,u,u,u,u]		; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[13],zero,xmm1[6,14],zero,xmm1[7,15],zero,xmm1[u,u,u,u,u,u,u,u]
; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = zero,xmm1[5],zero,zero,xmm1[6],zero,zero,xmm1[7,u,u,u,u,u,u,u,u]		; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = zero,xmm0[5],zero,zero,xmm0[6],zero,zero,xmm0[7,u,u,u,u,u,u,u,u]
; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpor %xmm0, %xmm1, %xmm0
; AVX1-NEXT: vmovq %xmm0, 16(%rcx)		; AVX1-NEXT: vmovq %xmm0, 16(%rcx)
; AVX1-NEXT: vmovdqa %xmm2, (%rcx)		; AVX1-NEXT: vmovdqa %xmm2, (%rcx)
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: store_i8_stride3_vf8:		; AVX2-LABEL: store_i8_stride3_vf8:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,8],zero,ymm0[1,9],zero,ymm0[2,10],zero,ymm0[3,11],zero,ymm0[4,12],zero,ymm0[5],zero,ymm0[21],zero,zero,ymm0[22],zero,zero,ymm0[23],zero,zero,zero,zero,zero,zero,zero,zero		; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,8],zero,ymm0[1,9],zero,ymm0[2,10],zero,ymm0[3,11],zero,ymm0[4,12],zero,ymm0[5],zero,ymm0[21],zero,zero,ymm0[22],zero,zero,ymm0[23],zero,zero,zero,zero,zero,zero,zero,zero
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]
; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = zero,zero,ymm0[0],zero,zero,ymm0[1],zero,zero,ymm0[2],zero,zero,ymm0[3],zero,zero,ymm0[4],zero,ymm0[29],zero,ymm0[22,30],zero,ymm0[23,31],zero,ymm0[u,u,u,u,u,u,u,u]		; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = zero,zero,ymm0[0],zero,zero,ymm0[1],zero,zero,ymm0[2],zero,zero,ymm0[3],zero,zero,ymm0[4],zero,ymm0[29],zero,ymm0[22,30],zero,ymm0[23,31],zero,ymm0[u,u,u,u,u,u,u,u]
; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0		; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vmovq %xmm1, 16(%rcx)		; AVX2-NEXT: vmovq %xmm1, 16(%rcx)
; AVX2-NEXT: vmovdqa %xmm0, (%rcx)		; AVX2-NEXT: vmovdqa %xmm0, (%rcx)
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: store_i8_stride3_vf8:		; AVX512-LABEL: store_i8_stride3_vf8:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX512-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,8],zero,ymm0[1,9],zero,ymm0[2,10],zero,ymm0[3,11],zero,ymm0[4,12],zero,ymm0[5],zero,ymm0[21],zero,zero,ymm0[22],zero,zero,ymm0[23,u,u,u,u,u,u,u,u]		; AVX512-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,8],zero,ymm0[1,9],zero,ymm0[2,10],zero,ymm0[3,11],zero,ymm0[4,12],zero,ymm0[5],zero,ymm0[21],zero,zero,ymm0[22],zero,zero,ymm0[23,u,u,u,u,u,u,u,u]
; AVX512-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]		; AVX512-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]
; AVX512-NEXT: vpshufb {{.*#+}} ymm0 = zero,zero,ymm0[0],zero,zero,ymm0[1],zero,zero,ymm0[2],zero,zero,ymm0[3],zero,zero,ymm0[4],zero,ymm0[29],zero,ymm0[22,30],zero,ymm0[23,31],zero,zero,zero,zero,zero,zero,zero,zero,zero		; AVX512-NEXT: vpshufb {{.*#+}} ymm0 = zero,zero,ymm0[0],zero,zero,ymm0[1],zero,zero,ymm0[2],zero,zero,ymm0[3],zero,zero,ymm0[4],zero,ymm0[29],zero,ymm0[22,30],zero,ymm0[23,31],zero,zero,zero,zero,zero,zero,zero,zero,zero
; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512-NEXT: vmovq %xmm1, 16(%rcx)		; AVX512-NEXT: vmovq %xmm1, 16(%rcx)
; AVX512-NEXT: vmovdqa %xmm0, (%rcx)		; AVX512-NEXT: vmovdqa %xmm0, (%rcx)
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
▲ Show 20 Lines • Show All 359 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-interleaved-store-i8-stride-6.ll

	Show First 20 Lines • Show All 343 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movdqa %xmm5, (%rax)			; SSE-NEXT: movdqa %xmm5, (%rax)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: store_i8_stride6_vf8:			; AVX1-LABEL: store_i8_stride6_vf8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX1-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX1-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; AVX1-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm3 = xmm1[u,u],zero,zero,xmm1[3,11,u,u],zero,zero,xmm1[4,12,u,u],zero,zero			; AVX1-NEXT: vpshufb {{.*#+}} xmm3 = xmm1[u,u],zero,zero,xmm1[3,11,u,u],zero,zero,xmm1[4,12,u,u],zero,zero
	; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = xmm0[u,u,3,11],zero,zero,xmm0[u,u,4,12],zero,zero,xmm0[u,u,5,13]			; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = xmm0[u,u,3,11],zero,zero,xmm0[u,u,4,12],zero,zero,xmm0[u,u,5,13]
	; AVX1-NEXT: vpor %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpor %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = xmm2[2,10,u,u,u,u,3,11,u,u,u,u,4,12,u,u]			; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = xmm2[2,10,u,u,u,u,3,11,u,u,u,u,4,12,u,u]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0],xmm3[1,2],xmm4[3],xmm3[4,5],xmm4[6],xmm3[7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0],xmm3[1,2],xmm4[3],xmm3[4,5],xmm4[6],xmm3[7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = zero,zero,xmm1[0,8,u,u],zero,zero,xmm1[1,9,u,u],zero,zero,xmm1[2,10]			; AVX1-NEXT: vpshufb {{.*#+}} xmm4 = zero,zero,xmm1[0,8,u,u],zero,zero,xmm1[1,9,u,u],zero,zero,xmm1[2,10]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm5 = xmm0[0,8],zero,zero,xmm0[u,u,1,9],zero,zero,xmm0[u,u,2,10],zero,zero			; AVX1-NEXT: vpshufb {{.*#+}} xmm5 = xmm0[0,8],zero,zero,xmm0[u,u,1,9],zero,zero,xmm0[u,u,2,10],zero,zero
	; AVX1-NEXT: vpor %xmm4, %xmm5, %xmm4			; AVX1-NEXT: vpor %xmm4, %xmm5, %xmm4
	Show All 10 Lines
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: store_i8_stride6_vf8:			; AVX2-SLOW-LABEL: store_i8_stride6_vf8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX2-SLOW-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2
	; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; AVX2-SLOW-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm3			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm3 = xmm4[0],xmm3[0]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm4 = ymm3[0,8,u,u,u,u,1,9,u,u,u,u,2,10,u,u,u,u,u,u,19,27,u,u,u,u,20,28,u,u,u,u]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm4 = ymm2[0,8,u,u,u,u,1,9,u,u,u,u,2,10,u,u,u,u,u,u,19,27,u,u,u,u,20,28,u,u,u,u]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[2,3,0,1]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[2,3,0,1]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm3 = ymm3[u,u,0,8,u,u,u,u,1,9,u,u,u,u,2,10,u,u,19,27,u,u,u,u,20,28,u,u,u,u,21,29]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm2 = ymm2[u,u,0,8,u,u,u,u,1,9,u,u,u,u,2,10,u,u,19,27,u,u,u,u,20,28,u,u,u,u,21,29]
	; AVX2-SLOW-NEXT: vpblendw {{.*#+}} ymm3 = ymm4[0],ymm3[1],ymm4[2,3],ymm3[4],ymm4[5,6],ymm3[7],ymm4[8],ymm3[9],ymm4[10,11],ymm3[12],ymm4[13,14],ymm3[15]			; AVX2-SLOW-NEXT: vpblendw {{.*#+}} ymm2 = ymm4[0],ymm2[1],ymm4[2,3],ymm2[4],ymm4[5,6],ymm2[7],ymm4[8],ymm2[9],ymm4[10,11],ymm2[12],ymm4[13,14],ymm2[15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm4 = xmm2[2,10,1,9,0,8,3,11,u,u,u,u,4,12,u,u]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm4 = xmm3[2,10,1,9,0,8,3,11,u,u,u,u,4,12,u,u]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm4 = ymm4[0,0,0,1]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm4 = ymm4[0,0,0,1]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255]
	; AVX2-SLOW-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3			; AVX2-SLOW-NEXT: vpblendvb %ymm5, %ymm2, %ymm4, %ymm2
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,xmm0[u,u,6,14],zero,zero,xmm0[u,u,7,15],zero,zero,xmm0[u,u]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,xmm0[u,u,6,14],zero,zero,xmm0[u,u,7,15],zero,zero,xmm0[u,u]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[5,13,u,u],zero,zero,xmm1[6,14,u,u],zero,zero,xmm1[7,15,u,u]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[5,13,u,u],zero,zero,xmm1[6,14,u,u],zero,zero,xmm1[7,15,u,u]
	; AVX2-SLOW-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX2-SLOW-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm1 = xmm2[u,u,5,13,u,u,u,u,6,14,u,u,u,u,7,15]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm1 = xmm3[u,u,5,13,u,u,u,u,6,14,u,u,u,u,7,15]
	; AVX2-SLOW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3],xmm1[4],xmm0[5,6],xmm1[7]			; AVX2-SLOW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3],xmm1[4],xmm0[5,6],xmm1[7]
	; AVX2-SLOW-NEXT: vmovdqa %xmm0, 32(%rax)			; AVX2-SLOW-NEXT: vmovdqa %xmm0, 32(%rax)
	; AVX2-SLOW-NEXT: vmovdqa %ymm3, (%rax)			; AVX2-SLOW-NEXT: vmovdqa %ymm2, (%rax)
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: store_i8_stride6_vf8:			; AVX2-FAST-LABEL: store_i8_stride6_vf8:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX2-FAST-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm2
	; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; AVX2-FAST-NEXT: vmovq {{.*#+}} xmm4 = mem[0],zero
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm3			; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm3 = xmm4[0],xmm3[0]
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm4 = ymm3[0,8,u,u,u,u,1,9,u,u,u,u,2,10,u,u,u,u,u,u,19,27,u,u,u,u,20,28,u,u,u,u]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm4 = ymm2[0,8,u,u,u,u,1,9,u,u,u,u,2,10,u,u,u,u,u,u,19,27,u,u,u,u,20,28,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm3 = ymm3[2,3,0,1]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[2,3,0,1]
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm3 = ymm3[u,u,0,8,u,u,u,u,1,9,u,u,u,u,2,10,u,u,19,27,u,u,u,u,20,28,u,u,u,u,21,29]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm2 = ymm2[u,u,0,8,u,u,u,u,1,9,u,u,u,u,2,10,u,u,19,27,u,u,u,u,20,28,u,u,u,u,21,29]
	; AVX2-FAST-NEXT: vpblendw {{.*#+}} ymm3 = ymm4[0],ymm3[1],ymm4[2,3],ymm3[4],ymm4[5,6],ymm3[7],ymm4[8],ymm3[9],ymm4[10,11],ymm3[12],ymm4[13,14],ymm3[15]			; AVX2-FAST-NEXT: vpblendw {{.*#+}} ymm2 = ymm4[0],ymm2[1],ymm4[2,3],ymm2[4],ymm4[5,6],ymm2[7],ymm4[8],ymm2[9],ymm4[10,11],ymm2[12],ymm4[13,14],ymm2[15]
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm4 = xmm2[2,10,1,9,0,8,3,11,u,u,u,u,4,12,u,u]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm4 = xmm3[2,10,1,9,0,8,3,11,u,u,u,u,4,12,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm4 = ymm4[0,0,0,1]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm4 = ymm4[0,0,0,1]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255,255,255,0,0,255,255]
	; AVX2-FAST-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3			; AVX2-FAST-NEXT: vpblendvb %ymm5, %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,xmm0[u,u,6,14],zero,zero,xmm0[u,u,7,15],zero,zero,xmm0[u,u]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,xmm0[u,u,6,14],zero,zero,xmm0[u,u,7,15],zero,zero,xmm0[u,u]
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[5,13,u,u],zero,zero,xmm1[6,14,u,u],zero,zero,xmm1[7,15,u,u]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[5,13,u,u],zero,zero,xmm1[6,14,u,u],zero,zero,xmm1[7,15,u,u]
	; AVX2-FAST-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX2-FAST-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm2[u,u,5,13,u,u,u,u,6,14,u,u,u,u,7,15]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm3[u,u,5,13,u,u,u,u,6,14,u,u,u,u,7,15]
	; AVX2-FAST-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3],xmm1[4],xmm0[5,6],xmm1[7]			; AVX2-FAST-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3],xmm1[4],xmm0[5,6],xmm1[7]
	; AVX2-FAST-NEXT: vmovdqa %xmm0, 32(%rax)			; AVX2-FAST-NEXT: vmovdqa %xmm0, 32(%rax)
	; AVX2-FAST-NEXT: vmovdqa %ymm3, (%rax)			; AVX2-FAST-NEXT: vmovdqa %ymm2, (%rax)
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: store_i8_stride6_vf8:			; AVX512-LABEL: store_i8_stride6_vf8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: movq {{[0-9]+}}(%rsp), %rax			; AVX512-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
	; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
	; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
	; AVX512-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm3 = mem[0],zero
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm3[0],xmm2[0]
	; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm3			; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm3
	; AVX512-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,xmm0[u,u,6,14],zero,zero,xmm0[u,u,7,15],zero,zero,xmm0[u,u]			; AVX512-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,xmm0[u,u,6,14],zero,zero,xmm0[u,u,7,15],zero,zero,xmm0[u,u]
	; AVX512-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[5,13,u,u],zero,zero,xmm1[6,14,u,u],zero,zero,xmm1[7,15,u,u]			; AVX512-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[5,13,u,u],zero,zero,xmm1[6,14,u,u],zero,zero,xmm1[7,15,u,u]
	; AVX512-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vpor %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vextracti32x4 $2, %zmm2, %xmm1			; AVX512-NEXT: vextracti32x4 $2, %zmm2, %xmm1
	; AVX512-NEXT: vpshufb {{.*#+}} xmm2 = xmm1[u,u,5,13,u,u,u,u,6,14,u,u,u,u,7,15]			; AVX512-NEXT: vpshufb {{.*#+}} xmm2 = xmm1[u,u,5,13,u,u,u,u,6,14,u,u,u,u,7,15]
	; AVX512-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2,3],xmm2[4],xmm0[5,6],xmm2[7]			; AVX512-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2,3],xmm2[4],xmm0[5,6],xmm2[7]
	▲ Show 20 Lines • Show All 1,066 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-128-v4.ll

	Show First 20 Lines • Show All 2,454 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movaps %xmm0, %xmm2			; SSE-NEXT: movaps %xmm0, %xmm2
	; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0,0,0]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; SSE-NEXT: movaps %xmm2, (%rsi)			; SSE-NEXT: movaps %xmm2, (%rsi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: shuffle_mem_pmovzx_v4f32:			; AVX1-LABEL: shuffle_mem_pmovzx_v4f32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = mem[0,0]
	; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vunpcklps {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; AVX1-NEXT: vunpckhps {{.*#+}} xmm1 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,0,0]			; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; AVX1-NEXT: vmovaps %xmm1, (%rsi)			; AVX1-NEXT: vmovaps %xmm1, (%rsi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2OR512VL-LABEL: shuffle_mem_pmovzx_v4f32:			; AVX2OR512VL-LABEL: shuffle_mem_pmovzx_v4f32:
	; AVX2OR512VL: # %bb.0:			; AVX2OR512VL: # %bb.0:
	; AVX2OR512VL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX2OR512VL-NEXT: vmovddup {{.*#+}} xmm0 = mem[0,0]
	; AVX2OR512VL-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX2OR512VL-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; AVX2OR512VL-NEXT: vunpcklps {{.*#+}} xmm1 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; AVX2OR512VL-NEXT: vunpckhps {{.*#+}} xmm1 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX2OR512VL-NEXT: vbroadcastss %xmm0, %xmm0			; AVX2OR512VL-NEXT: vbroadcastss %xmm0, %xmm0
	; AVX2OR512VL-NEXT: vmovaps %xmm1, (%rsi)			; AVX2OR512VL-NEXT: vmovaps %xmm1, (%rsi)
	; AVX2OR512VL-NEXT: retq			; AVX2OR512VL-NEXT: retq
	%1 = load <2 x float>, <2 x float>* %p0			%1 = load <2 x float>, <2 x float>* %p0
	%2 = shufflevector <2 x float> %1, <2 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 1>			%2 = shufflevector <2 x float> %1, <2 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 1>
	%3 = shufflevector <4 x float> %2, <4 x float> <float undef, float undef, float 0.000000e+00, float 0.000000e+00>, <4 x i32> <i32 2, i32 6, i32 3, i32 7>			%3 = shufflevector <4 x float> %2, <4 x float> <float undef, float undef, float 0.000000e+00, float 0.000000e+00>, <4 x i32> <i32 2, i32 6, i32 3, i32 7>
	%4 = shufflevector <2 x float> %1, <2 x float> undef, <4 x i32> zeroinitializer			%4 = shufflevector <2 x float> %1, <2 x float> undef, <4 x i32> zeroinitializer
	store <4 x float> %3, <4 x float>* %p1			store <4 x float> %3, <4 x float>* %p1
	▲ Show 20 Lines • Show All 129 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[DAG][PowerPC] Combine shuffle(bitcast(X), Mask) to bitcast(shuffle(X, Mask'))
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 422888

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/lib/Target/PowerPC/PPCISelLowering.cpp

llvm/test/CodeGen/AArch64/insert-extend.ll

llvm/test/CodeGen/ARM/neon-copy.ll

llvm/test/CodeGen/ARM/vector-DAGCombine.ll

llvm/test/CodeGen/PowerPC/aix-vsx-splatimm.ll

llvm/test/CodeGen/PowerPC/canonical-merge-shuffles.ll

llvm/test/CodeGen/PowerPC/vsx_shuffle_le.ll

llvm/test/CodeGen/Thumb2/mve-shufflemov.ll

llvm/test/CodeGen/Thumb2/mve-vld2-post.ll

llvm/test/CodeGen/Thumb2/mve-vld2.ll

llvm/test/CodeGen/Thumb2/mve-vst3.ll

llvm/test/CodeGen/Thumb2/mve-vst4.ll

llvm/test/CodeGen/X86/avx-vbroadcast.ll

llvm/test/CodeGen/X86/oddshuffles.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-2.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-3.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-4.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-5.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-6.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-2.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-3.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-4.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-6.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i8-stride-2.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i8-stride-3.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i8-stride-6.ll

llvm/test/CodeGen/X86/vector-shuffle-128-v4.ll

This is an archive of the discontinued LLVM Phabricator instance.

[DAG][PowerPC] Combine shuffle(bitcast(X), Mask) to bitcast(shuffle(X, Mask'))ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 422888

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/lib/Target/PowerPC/PPCISelLowering.cpp

llvm/test/CodeGen/AArch64/insert-extend.ll

llvm/test/CodeGen/ARM/neon-copy.ll

llvm/test/CodeGen/ARM/vector-DAGCombine.ll

llvm/test/CodeGen/PowerPC/aix-vsx-splatimm.ll

llvm/test/CodeGen/PowerPC/canonical-merge-shuffles.ll

llvm/test/CodeGen/PowerPC/vsx_shuffle_le.ll

llvm/test/CodeGen/Thumb2/mve-shufflemov.ll

llvm/test/CodeGen/Thumb2/mve-vld2-post.ll

llvm/test/CodeGen/Thumb2/mve-vld2.ll

llvm/test/CodeGen/Thumb2/mve-vst3.ll

llvm/test/CodeGen/Thumb2/mve-vst4.ll

llvm/test/CodeGen/X86/avx-vbroadcast.ll

llvm/test/CodeGen/X86/oddshuffles.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-2.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-3.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-4.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-5.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-6.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-2.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-3.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-4.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i32-stride-6.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i8-stride-2.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i8-stride-3.ll

llvm/test/CodeGen/X86/vector-interleaved-store-i8-stride-6.ll

llvm/test/CodeGen/X86/vector-shuffle-128-v4.ll

[DAG][PowerPC] Combine shuffle(bitcast(X), Mask) to bitcast(shuffle(X, Mask'))
ClosedPublic