Diff 140093

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 448 Lines • ▼ Show 20 Lines	SDNode *MatchRotatePosNeg(SDValue Shifted, SDValue Pos, SDValue Neg,
unsigned PosOpcode, unsigned NegOpcode,		unsigned PosOpcode, unsigned NegOpcode,
const SDLoc &DL);		const SDLoc &DL);
SDNode *MatchRotate(SDValue LHS, SDValue RHS, const SDLoc &DL);		SDNode *MatchRotate(SDValue LHS, SDValue RHS, const SDLoc &DL);
SDValue MatchLoadCombine(SDNode *N);		SDValue MatchLoadCombine(SDNode *N);
SDValue ReduceLoadWidth(SDNode *N);		SDValue ReduceLoadWidth(SDNode *N);
SDValue ReduceLoadOpStoreWidth(SDNode *N);		SDValue ReduceLoadOpStoreWidth(SDNode *N);
SDValue splitMergedValStore(StoreSDNode *ST);		SDValue splitMergedValStore(StoreSDNode *ST);
SDValue TransformFPLoadStorePair(SDNode *N);		SDValue TransformFPLoadStorePair(SDNode *N);
		SDValue convertBuildVecZextToZext(SDNode *N);
SDValue reduceBuildVecExtToExtBuildVec(SDNode *N);		SDValue reduceBuildVecExtToExtBuildVec(SDNode *N);
SDValue reduceBuildVecConvertToConvertBuildVec(SDNode *N);		SDValue reduceBuildVecConvertToConvertBuildVec(SDNode *N);
SDValue reduceBuildVecToShuffle(SDNode *N);		SDValue reduceBuildVecToShuffle(SDNode *N);
SDValue createBuildVecShuffle(const SDLoc &DL, SDNode *N,		SDValue createBuildVecShuffle(const SDLoc &DL, SDNode *N,
ArrayRef<int> VectorMask, SDValue VecIn1,		ArrayRef<int> VectorMask, SDValue VecIn1,
SDValue VecIn2, unsigned LeftIdx);		SDValue VecIn2, unsigned LeftIdx);
SDValue matchVSelectOpSizesWithSetCC(SDNode *N);		SDValue matchVSelectOpSizesWithSetCC(SDNode *N);

▲ Show 20 Lines • Show All 14,489 Lines • ▼ Show 20 Lines	for (unsigned In = 0, Len = CurSize / 2; In < Len; ++In) {

Shuffles[In] =		Shuffles[In] =
DAG.getVectorShuffle(VT, DL, Shuffles[Left], Shuffles[Right], Mask);		DAG.getVectorShuffle(VT, DL, Shuffles[Left], Shuffles[Right], Mask);
}		}
}		}
return Shuffles[0];		return Shuffles[0];
}		}

		// Try to turn a build vector of zero extends of extract vector elts into a
		// a vector zero extend and possibly an extract subvector.
		// TODO: Support sign extend or any extend?
		// TODO: Allow undef elements?
		// TODO: Don't require the extracts to start at element 0.
		SDValue DAGCombiner::convertBuildVecZextToZext(SDNode *N) {
		if (LegalOperations)
		return SDValue();

		EVT VT = N->getValueType(0);

		SDValue Op0 = N->getOperand(0);
		auto checkElem = [&](SDValue Op) -> uint64_t {
		if (Op.getOpcode() == ISD::ZERO_EXTEND &&
		Op.getOperand(0).getOpcode() == ISD::EXTRACT_VECTOR_ELT &&
		Op0.getOperand(0).getOperand(0) == Op.getOperand(0).getOperand(0))
		if (auto *C = dyn_cast<ConstantSDNode>(Op.getOperand(0).getOperand(1)))
		return C->getZExtValue();
		return -1;
		RKSimonUnsubmitted Not Done Reply Inline Actions You're setting the return type as uint64_t but returning -1 ? RKSimon: You're setting the return type as uint64_t but returning -1 ?
		};

		// Make sure the first element matches
		// (zext (extract_vector_elt X, C))
		int Offset = checkElem(Op0);
		if (Offset < 0)
		return SDValue();

		unsigned NumElems = N->getNumOperands();
		SDValue In = Op0.getOperand(0).getOperand(0);
		EVT InSVT = In.getValueType().getScalarType();
		EVT InVT = EVT::getVectorVT(*DAG.getContext(), InSVT, NumElems);

		// Don't create an illegal input type after type legalization.
		if (LegalTypes && !TLI.isTypeLegal(InVT))
		return SDValue();

		// Ensure all the elements come from the same vector and are adjacent.
		for (unsigned i = 1; i != NumElems; ++i) {
		if (Offset + i != checkElem(N->getOperand(i)))
		RKSimonUnsubmitted Not Done Reply Inline Actions (Offset + i) for clarity RKSimon: (Offset + i) for clarity
		return SDValue();
		}

		SDLoc DL(N);
		In = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, InVT, In,
		Op0.getOperand(0).getOperand(1));
		return DAG.getNode(ISD::ZERO_EXTEND, DL, VT, In);
		}

SDValue DAGCombiner::visitBUILD_VECTOR(SDNode *N) {		SDValue DAGCombiner::visitBUILD_VECTOR(SDNode *N) {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

// A vector built entirely of undefs is undef.		// A vector built entirely of undefs is undef.
if (ISD::allOperandsUndef(N))		if (ISD::allOperandsUndef(N))
return DAG.getUNDEF(VT);		return DAG.getUNDEF(VT);

// If this is a splat of a bitcast from another vector, change to a		// If this is a splat of a bitcast from another vector, change to a
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	if ((Offset == 0) &&
return Op0.getOperand(0);		return Op0.getOperand(0);
if ((Offset != -1) &&		if ((Offset != -1) &&
((Offset % N->getValueType(0).getVectorNumElements()) ==		((Offset % N->getValueType(0).getVectorNumElements()) ==
0)) // IDX must be multiple of output size.		0)) // IDX must be multiple of output size.
return DAG.getNode(ISD::EXTRACT_SUBVECTOR, SDLoc(N), N->getValueType(0),		return DAG.getNode(ISD::EXTRACT_SUBVECTOR, SDLoc(N), N->getValueType(0),
Op0.getOperand(0), Op0.getOperand(1));		Op0.getOperand(0), Op0.getOperand(1));
}		}

		if (SDValue V = convertBuildVecZextToZext(N))
		RKSimonUnsubmitted Not Done Reply Inline Actions Its strange that we have reduceBuildVecExtToExtBuildVec for post-legalization and this for pre-legalization. Not exactly the same I know. RKSimon: Its strange that we have reduceBuildVecExtToExtBuildVec for post-legalization and this for pre…
		craig.topperAuthorUnsubmitted Not Done Reply Inline Actions I tried to enable reduceBuildVecExtToExtBuildVec pre-legalization, but it was too aggressive and caused many other issues. The first DAG combine effectively runs on the DAG bottom up. So we could fold BUILD_VECTORS of zero_extends before the zero_extends are combined with loads or truncates before them. So we would need to try to detect those opportunities and prevent the combine or add more combines to do the same combines with the new build_vector. craig.topper: I tried to enable reduceBuildVecExtToExtBuildVec pre-legalization, but it was too aggressive…
		return V;

if (SDValue V = reduceBuildVecExtToExtBuildVec(N))		if (SDValue V = reduceBuildVecExtToExtBuildVec(N))
return V;		return V;

if (SDValue V = reduceBuildVecConvertToConvertBuildVec(N))		if (SDValue V = reduceBuildVecConvertToConvertBuildVec(N))
return V;		return V;

if (SDValue V = reduceBuildVecToShuffle(N))		if (SDValue V = reduceBuildVecToShuffle(N))
return V;		return V;
▲ Show 20 Lines • Show All 2,689 Lines • Show Last 20 Lines

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,338 Lines • ▼ Show 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.useAVX512Regs()) {
setOperationPromotedToType(ISD::OR, MVT::v16i32, MVT::v8i64);		setOperationPromotedToType(ISD::OR, MVT::v16i32, MVT::v8i64);
setOperationPromotedToType(ISD::XOR, MVT::v16i32, MVT::v8i64);		setOperationPromotedToType(ISD::XOR, MVT::v16i32, MVT::v8i64);

if (Subtarget.hasDQI()) {		if (Subtarget.hasDQI()) {
setOperationAction(ISD::SINT_TO_FP, MVT::v8i64, Legal);		setOperationAction(ISD::SINT_TO_FP, MVT::v8i64, Legal);
setOperationAction(ISD::UINT_TO_FP, MVT::v8i64, Legal);		setOperationAction(ISD::UINT_TO_FP, MVT::v8i64, Legal);
setOperationAction(ISD::FP_TO_SINT, MVT::v8i64, Legal);		setOperationAction(ISD::FP_TO_SINT, MVT::v8i64, Legal);
setOperationAction(ISD::FP_TO_UINT, MVT::v8i64, Legal);		setOperationAction(ISD::FP_TO_UINT, MVT::v8i64, Legal);

		setOperationAction(ISD::MUL, MVT::v8i64, Legal);
}		}

if (Subtarget.hasCDI()) {		if (Subtarget.hasCDI()) {
// NonVLX sub-targets extend 128/256 vectors to use the 512 version.		// NonVLX sub-targets extend 128/256 vectors to use the 512 version.
for (auto VT : { MVT::v16i32, MVT::v8i64} ) {		for (auto VT : { MVT::v16i32, MVT::v8i64} ) {
setOperationAction(ISD::CTLZ, VT, Legal);		setOperationAction(ISD::CTLZ, VT, Legal);
setOperationAction(ISD::CTTZ_ZERO_UNDEF, VT, Custom);		setOperationAction(ISD::CTTZ_ZERO_UNDEF, VT, Custom);
}		}
▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines	for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64,
setOperationAction(ISD::MSCATTER, VT, Custom);		setOperationAction(ISD::MSCATTER, VT, Custom);

if (Subtarget.hasDQI()) {		if (Subtarget.hasDQI()) {
for (auto VT : { MVT::v2i64, MVT::v4i64 }) {		for (auto VT : { MVT::v2i64, MVT::v4i64 }) {
setOperationAction(ISD::SINT_TO_FP, VT, Legal);		setOperationAction(ISD::SINT_TO_FP, VT, Legal);
setOperationAction(ISD::UINT_TO_FP, VT, Legal);		setOperationAction(ISD::UINT_TO_FP, VT, Legal);
setOperationAction(ISD::FP_TO_SINT, VT, Legal);		setOperationAction(ISD::FP_TO_SINT, VT, Legal);
setOperationAction(ISD::FP_TO_UINT, VT, Legal);		setOperationAction(ISD::FP_TO_UINT, VT, Legal);

		setOperationAction(ISD::MUL, VT, Legal);
}		}
}		}

if (Subtarget.hasCDI()) {		if (Subtarget.hasCDI()) {
for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64 }) {		for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64 }) {
setOperationAction(ISD::CTLZ, VT, Legal);		setOperationAction(ISD::CTLZ, VT, Legal);
setOperationAction(ISD::CTTZ_ZERO_UNDEF, VT, Custom);		setOperationAction(ISD::CTTZ_ZERO_UNDEF, VT, Custom);
}		}
▲ Show 20 Lines • Show All 3,669 Lines • ▼ Show 20 Lines
// Useful for operations that are available on SSE2 in 128-bit, on AVX2 in		// Useful for operations that are available on SSE2 in 128-bit, on AVX2 in
// 256-bit and on AVX512BW in 512-bit. The argument VT is the type used for		// 256-bit and on AVX512BW in 512-bit. The argument VT is the type used for
// deciding if/how to split Ops. Ops elements do not have to be of type VT.		// deciding if/how to split Ops. Ops elements do not have to be of type VT.
// The argument Builder is a function that will be applied on each split part:		// The argument Builder is a function that will be applied on each split part:
// SDValue Builder(SelectionDAG&G, SDLoc, ArrayRef<SDValue>)		// SDValue Builder(SelectionDAG&G, SDLoc, ArrayRef<SDValue>)
template <typename F>		template <typename F>
SDValue SplitOpsAndApply(SelectionDAG &DAG, const X86Subtarget &Subtarget,		SDValue SplitOpsAndApply(SelectionDAG &DAG, const X86Subtarget &Subtarget,
const SDLoc &DL, EVT VT, ArrayRef<SDValue> Ops,		const SDLoc &DL, EVT VT, ArrayRef<SDValue> Ops,
F Builder) {		F Builder, bool CheckBWI = true) {
assert(Subtarget.hasSSE2() && "Target assumed to support at least SSE2");		assert(Subtarget.hasSSE2() && "Target assumed to support at least SSE2");
unsigned NumSubs = 1;		unsigned NumSubs = 1;
if (Subtarget.useBWIRegs()) {		if ((CheckBWI && Subtarget.useBWIRegs()) \|\|
		(!CheckBWI && Subtarget.useAVX512Regs())) {
if (VT.getSizeInBits() > 512) {		if (VT.getSizeInBits() > 512) {
NumSubs = VT.getSizeInBits() / 512;		NumSubs = VT.getSizeInBits() / 512;
assert((VT.getSizeInBits() % 512) == 0 && "Illegal vector size");		assert((VT.getSizeInBits() % 512) == 0 && "Illegal vector size");
}		}
} else if (Subtarget.hasAVX2()) {		} else if (Subtarget.hasAVX2()) {
if (VT.getSizeInBits() > 256) {		if (VT.getSizeInBits() > 256) {
NumSubs = VT.getSizeInBits() / 256;		NumSubs = VT.getSizeInBits() / 256;
assert((VT.getSizeInBits() % 256) == 0 && "Illegal vector size");		assert((VT.getSizeInBits() % 256) == 0 && "Illegal vector size");
▲ Show 20 Lines • Show All 17,379 Lines • ▼ Show 20 Lines	if (VT == MVT::v4i32) {
// Merge the two vectors back together with a shuffle. This expands into 2		// Merge the two vectors back together with a shuffle. This expands into 2
// shuffles.		// shuffles.
static const int ShufMask[] = { 0, 4, 2, 6 };		static const int ShufMask[] = { 0, 4, 2, 6 };
return DAG.getVectorShuffle(VT, dl, Evens, Odds, ShufMask);		return DAG.getVectorShuffle(VT, dl, Evens, Odds, ShufMask);
}		}

assert((VT == MVT::v2i64 \|\| VT == MVT::v4i64 \|\| VT == MVT::v8i64) &&		assert((VT == MVT::v2i64 \|\| VT == MVT::v4i64 \|\| VT == MVT::v8i64) &&
"Only know how to lower V2I64/V4I64/V8I64 multiply");		"Only know how to lower V2I64/V4I64/V8I64 multiply");
		assert(!Subtarget.hasDQI() && "DQI should use MULLQ");
// MULDQ returns the 64-bit result of the signed multiplication of the lower
// 32-bits. We can lower with this if the sign bits stretch that far.
if (Subtarget.hasSSE41() && DAG.ComputeNumSignBits(A) > 32 &&
DAG.ComputeNumSignBits(B) > 32) {
return DAG.getNode(X86ISD::PMULDQ, dl, VT, A, B);
}

// Ahi = psrlqi(a, 32);		// Ahi = psrlqi(a, 32);
// Bhi = psrlqi(b, 32);		// Bhi = psrlqi(b, 32);
//		//
// AloBlo = pmuludq(a, b);		// AloBlo = pmuludq(a, b);
// AloBhi = pmuludq(a, Bhi);		// AloBhi = pmuludq(a, Bhi);
// AhiBlo = pmuludq(Ahi, b);		// AhiBlo = pmuludq(Ahi, b);
//		//
// Hi = psllqi(AloBhi + AhiBlo, 32);		// Hi = psllqi(AloBhi + AhiBlo, 32);
// return AloBlo + Hi;		// return AloBlo + Hi;
KnownBits AKnown, BKnown;		KnownBits AKnown, BKnown;
DAG.computeKnownBits(A, AKnown);		DAG.computeKnownBits(A, AKnown);
DAG.computeKnownBits(B, BKnown);		DAG.computeKnownBits(B, BKnown);

APInt LowerBitsMask = APInt::getLowBitsSet(64, 32);		APInt LowerBitsMask = APInt::getLowBitsSet(64, 32);
bool ALoIsZero = LowerBitsMask.isSubsetOf(AKnown.Zero);		bool ALoIsZero = LowerBitsMask.isSubsetOf(AKnown.Zero);
bool BLoIsZero = LowerBitsMask.isSubsetOf(BKnown.Zero);		bool BLoIsZero = LowerBitsMask.isSubsetOf(BKnown.Zero);

APInt UpperBitsMask = APInt::getHighBitsSet(64, 32);		APInt UpperBitsMask = APInt::getHighBitsSet(64, 32);
bool AHiIsZero = UpperBitsMask.isSubsetOf(AKnown.Zero);		bool AHiIsZero = UpperBitsMask.isSubsetOf(AKnown.Zero);
bool BHiIsZero = UpperBitsMask.isSubsetOf(BKnown.Zero);		bool BHiIsZero = UpperBitsMask.isSubsetOf(BKnown.Zero);

// If DQI is supported we can use MULLQ, but MULUDQ is still better if the
// the high bits are known to be zero.
if (Subtarget.hasDQI() && (!AHiIsZero \|\| !BHiIsZero))
return Op;

SDValue Zero = getZeroVector(VT, Subtarget, DAG, dl);		SDValue Zero = getZeroVector(VT, Subtarget, DAG, dl);

// Only multiply lo/hi halves that aren't known to be zero.		// Only multiply lo/hi halves that aren't known to be zero.
SDValue AloBlo = Zero;		SDValue AloBlo = Zero;
if (!ALoIsZero && !BLoIsZero)		if (!ALoIsZero && !BLoIsZero)
AloBlo = DAG.getNode(X86ISD::PMULUDQ, dl, VT, A, B);		AloBlo = DAG.getNode(X86ISD::PMULUDQ, dl, VT, A, B);

SDValue AloBhi = Zero;		SDValue AloBhi = Zero;
▲ Show 20 Lines • Show All 10,615 Lines • ▼ Show 20 Lines	auto PMADDWDBuilder = [](SelectionDAG &DAG, const SDLoc &DL,
MVT VT = MVT::getVectorVT(MVT::i32, Ops[0].getValueSizeInBits() / 32);		MVT VT = MVT::getVectorVT(MVT::i32, Ops[0].getValueSizeInBits() / 32);
return DAG.getNode(X86ISD::VPMADDWD, DL, VT, Ops);		return DAG.getNode(X86ISD::VPMADDWD, DL, VT, Ops);
};		};
return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT,		return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT,
{ DAG.getBitcast(WVT, N0), DAG.getBitcast(WVT, N1) },		{ DAG.getBitcast(WVT, N0), DAG.getBitcast(WVT, N1) },
PMADDWDBuilder);		PMADDWDBuilder);
}		}

		static SDValue combineMulToPMULDQ(SDNode *N, SelectionDAG &DAG,
		const X86Subtarget &Subtarget) {
		if (!Subtarget.hasSSE2())
		return SDValue();

		EVT VT = N->getValueType(0);

		// Only support vXi64 vectors.
		if (!VT.isVector() \|\| VT.getVectorElementType() != MVT::i64 \|\|
		!DAG.getTargetLoweringInfo().isTypeLegal(VT))
		return SDValue();

		SDValue N0 = N->getOperand(0);
		SDValue N1 = N->getOperand(1);

		// MULDQ returns the 64-bit result of the signed multiplication of the lower
		// 32-bits. We can lower with this if the sign bits stretch that far.
		if (Subtarget.hasSSE41() && DAG.ComputeNumSignBits(N0) > 32 &&
		DAG.ComputeNumSignBits(N1) > 32) {
		auto PMULDQBuilder = [](SelectionDAG &DAG, const SDLoc &DL,
		ArrayRef<SDValue> Ops) {
		return DAG.getNode(X86ISD::PMULDQ, DL, Ops[0].getValueType(), Ops);
		};
		return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, { N0, N1 },
		PMULDQBuilder, /CheckBWI/false);
		}

		// If the upper bits are zero we can use a single pmuludq.
		APInt Mask = APInt::getHighBitsSet(64, 32);
		if (DAG.MaskedValueIsZero(N0, Mask) && DAG.MaskedValueIsZero(N1, Mask)) {
		auto PMULDQBuilder = [](SelectionDAG &DAG, const SDLoc &DL,
		RKSimonUnsubmitted Not Done Reply Inline Actions PMULUDQBuilder ? RKSimon: PMULUDQBuilder ?
		RKSimonUnsubmitted Not Done Reply Inline Actions PMULUDQBuilder ? RKSimon: PMULUDQBuilder ?
		ArrayRef<SDValue> Ops) {
		return DAG.getNode(X86ISD::PMULUDQ, DL, Ops[0].getValueType(), Ops);
		};
		return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, { N0, N1 },
		PMULDQBuilder, /CheckBWI/false);
		}

		return SDValue();
		}

/// Optimize a single multiply with constant into two operations in order to		/// Optimize a single multiply with constant into two operations in order to
/// implement it with two cheaper instructions, e.g. LEA + SHL, LEA + LEA.		/// implement it with two cheaper instructions, e.g. LEA + SHL, LEA + LEA.
static SDValue combineMul(SDNode *N, SelectionDAG &DAG,		static SDValue combineMul(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

if (SDValue V = combineMulToPMADDWD(N, DAG, Subtarget))		if (SDValue V = combineMulToPMADDWD(N, DAG, Subtarget))
return V;		return V;

		if (SDValue V = combineMulToPMULDQ(N, DAG, Subtarget))
		return V;

if (DCI.isBeforeLegalize() && VT.isVector())		if (DCI.isBeforeLegalize() && VT.isVector())
return reduceVMULWidth(N, DAG, Subtarget);		return reduceVMULWidth(N, DAG, Subtarget);

if (!MulConstantOptimization)		if (!MulConstantOptimization)
return SDValue();		return SDValue();
// An imul is usually smaller than the alternative sequence.		// An imul is usually smaller than the alternative sequence.
if (DAG.getMachineFunction().getFunction().optForMinSize())		if (DAG.getMachineFunction().getFunction().optForMinSize())
return SDValue();		return SDValue();
▲ Show 20 Lines • Show All 2,586 Lines • ▼ Show 20 Lines	if (TLI.isOperationLegalOrPromote(Opcode, VT) &&
return TruncateArithmetic(Op0, Op1);		return TruncateArithmetic(Op0, Op1);
break;		break;
}		}

case ISD::MUL:		case ISD::MUL:
// X86 is rubbish at scalar and vector i64 multiplies (until AVX512DQ) - its		// X86 is rubbish at scalar and vector i64 multiplies (until AVX512DQ) - its
// better to truncate if we have the chance.		// better to truncate if we have the chance.
if (SrcVT.getScalarType() == MVT::i64 && TLI.isOperationLegal(Opcode, VT) &&		if (SrcVT.getScalarType() == MVT::i64 && TLI.isOperationLegal(Opcode, VT) &&
!Subtarget.hasDQI())		!TLI.isOperationLegal(Opcode, SrcVT))
return TruncateArithmetic(Src.getOperand(0), Src.getOperand(1));		return TruncateArithmetic(Src.getOperand(0), Src.getOperand(1));
LLVM_FALLTHROUGH;		LLVM_FALLTHROUGH;
case ISD::ADD: {		case ISD::ADD: {
// TODO: ISD::SUB should be here but interferes with combineSubToSubus.		// TODO: ISD::SUB should be here but interferes with combineSubToSubus.
SDValue Op0 = Src.getOperand(0);		SDValue Op0 = Src.getOperand(0);
SDValue Op1 = Src.getOperand(1);		SDValue Op1 = Src.getOperand(1);
if (TLI.isOperationLegal(Opcode, VT) &&		if (TLI.isOperationLegal(Opcode, VT) &&
IsRepeatedOpOrFreeTruncation(Op0, Op1))		IsRepeatedOpOrFreeTruncation(Op0, Op1))
▲ Show 20 Lines • Show All 3,973 Lines • Show Last 20 Lines

test/CodeGen/ARM/dagcombine-anyexttozeroext.ll

Show All 30 Lines	define float @g(<4 x i16>* nocapture %in) {

; CHECK: uxth		; CHECK: uxth
%2 = extractelement <4 x i16> %1, i32 0		%2 = extractelement <4 x i16> %1, i32 0
; CHECK: vcvt.f32.u32		; CHECK: vcvt.f32.u32
%3 = uitofp i16 %2 to float		%3 = uitofp i16 %2 to float
ret float %3		ret float %3
}		}

; The backend generates for the following code an		; Make sure we generate zext from <4 x i8> to <4 x 32>.
; (and 0xff (i32 extract_vector_elt (zext load <4 x i8> to 4 x i16)))
;
; The and is not redundant and cannot be removed. Since
; extract_vector_elt is doing an implicit any_ext, the and
; is required to guarantee that the top bits are set to zero.

; Ideally should be a zext from <4 x i8> to <4 x 32>.

; CHECK-LABEL: h:		; CHECK-LABEL: h:
; CHECK: vld1.32		; CHECK: vld1.32
; CHECK: uxtb		; CHECK: vmovl.u8 q8, d16
		; CHECK: vmovl.u16 q8, d16
		; CHECK: vmov r0, r1, d16
		; CHECK: vmov r2, r3, d17
define <4 x i32> @h(<4 x i8> *%in) {		define <4 x i32> @h(<4 x i8> *%in) {
%1 = load <4 x i8>, <4 x i8>* %in, align 4		%1 = load <4 x i8>, <4 x i8>* %in, align 4
%2 = extractelement <4 x i8> %1, i32 0		%2 = extractelement <4 x i8> %1, i32 0
%3 = zext i8 %2 to i32		%3 = zext i8 %2 to i32
%4 = insertelement <4 x i32> undef, i32 %3, i32 0		%4 = insertelement <4 x i32> undef, i32 %3, i32 0
%5 = extractelement <4 x i8> %1, i32 1		%5 = extractelement <4 x i8> %1, i32 1
%6 = zext i8 %5 to i32		%6 = zext i8 %5 to i32
%7 = insertelement <4 x i32> %4, i32 %6, i32 1		%7 = insertelement <4 x i32> %4, i32 %6, i32 1
%8 = extractelement <4 x i8> %1, i32 2		%8 = extractelement <4 x i8> %1, i32 2
%9 = zext i8 %8 to i32		%9 = zext i8 %8 to i32
%10 = insertelement <4 x i32> %7, i32 %9, i32 2		%10 = insertelement <4 x i32> %7, i32 %9, i32 2
%11 = extractelement <4 x i8> %1, i32 3		%11 = extractelement <4 x i8> %1, i32 3
%12 = zext i8 %11 to i32		%12 = zext i8 %11 to i32
%13 = insertelement <4 x i32> %10, i32 %12, i32 3		%13 = insertelement <4 x i32> %10, i32 %12, i32 3
ret <4 x i32> %13		ret <4 x i32> %13
}		}

test/CodeGen/X86/combine-pmuldq.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=SSE			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=SSE
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512VL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512VL
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl,+avx512dq \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512DQVL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl,+avx512dq \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512DQVL

	; TODO - shuffle+sext are superfluous
	define <2 x i64> @combine_shuffle_sext_pmuldq(<4 x i32> %a0, <4 x i32> %a1) {			define <2 x i64> @combine_shuffle_sext_pmuldq(<4 x i32> %a0, <4 x i32> %a1) {
				RKSimonUnsubmitted Not Done Reply Inline Actions This TODO can go RKSimon: This TODO can go
	; SSE-LABEL: combine_shuffle_sext_pmuldq:			; SSE-LABEL: combine_shuffle_sext_pmuldq:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: pmuldq %xmm1, %xmm0
	; SSE-NEXT: pmovsxdq %xmm0, %xmm2
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; SSE-NEXT: pmovsxdq %xmm0, %xmm0
	; SSE-NEXT: pmuldq %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: combine_shuffle_sext_pmuldq:			; AVX-LABEL: combine_shuffle_sext_pmuldq:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX-NEXT: vpmovsxdq %xmm0, %xmm0
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX-NEXT: vpmovsxdq %xmm1, %xmm1
	; AVX-NEXT: vpmuldq %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpmuldq %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = shufflevector <4 x i32> %a0, <4 x i32> undef, <2 x i32> <i32 0, i32 2>			%1 = shufflevector <4 x i32> %a0, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
	%2 = shufflevector <4 x i32> %a1, <4 x i32> undef, <2 x i32> <i32 0, i32 2>			%2 = shufflevector <4 x i32> %a1, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
	%3 = sext <2 x i32> %1 to <2 x i64>			%3 = sext <2 x i32> %1 to <2 x i64>
	%4 = sext <2 x i32> %2 to <2 x i64>			%4 = sext <2 x i32> %2 to <2 x i64>
	%5 = mul nuw <2 x i64> %3, %4			%5 = mul nuw <2 x i64> %3, %4
	ret <2 x i64> %5			ret <2 x i64> %5
	}			}

	; TODO - shuffle+zext are superfluous
	define <2 x i64> @combine_shuffle_zext_pmuludq(<4 x i32> %a0, <4 x i32> %a1) {			define <2 x i64> @combine_shuffle_zext_pmuludq(<4 x i32> %a0, <4 x i32> %a1) {
				RKSimonUnsubmitted Not Done Reply Inline Actions This TODO can go RKSimon: This TODO can go
	; SSE-LABEL: combine_shuffle_zext_pmuludq:			; SSE-LABEL: combine_shuffle_zext_pmuludq:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: pmuludq %xmm1, %xmm0
	; SSE-NEXT: pmovzxdq {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,2,2,3]
	; SSE-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; SSE-NEXT: pmuludq %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: combine_shuffle_zext_pmuludq:			; AVX-LABEL: combine_shuffle_zext_pmuludq:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; AVX-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
	; AVX-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = shufflevector <4 x i32> %a0, <4 x i32> undef, <2 x i32> <i32 0, i32 2>			%1 = shufflevector <4 x i32> %a0, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
	%2 = shufflevector <4 x i32> %a1, <4 x i32> undef, <2 x i32> <i32 0, i32 2>			%2 = shufflevector <4 x i32> %a1, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
	%3 = zext <2 x i32> %1 to <2 x i64>			%3 = zext <2 x i32> %1 to <2 x i64>
	%4 = zext <2 x i32> %2 to <2 x i64>			%4 = zext <2 x i32> %2 to <2 x i64>
	%5 = mul nuw <2 x i64> %3, %4			%5 = mul nuw <2 x i64> %3, %4
	ret <2 x i64> %5			ret <2 x i64> %5
	▲ Show 20 Lines • Show All 129 Lines • Show Last 20 Lines

test/CodeGen/X86/masked_gather_scatter.ll

	Show First 20 Lines • Show All 466 Lines • ▼ Show 20 Lines
	; KNL_64: # %bb.0: # %entry			; KNL_64: # %bb.0: # %entry
	; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2			; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2
	; KNL_64-NEXT: vpbroadcastq {{.*#+}} zmm3 = [824,824,824,824,824,824,824,824]			; KNL_64-NEXT: vpbroadcastq {{.*#+}} zmm3 = [824,824,824,824,824,824,824,824]
	; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4			; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4
	; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0			; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0
	; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0			; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0
	; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0			; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0
	; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0			; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; KNL_64-NEXT: vpmovsxdq %ymm1, %zmm1			; KNL_64-NEXT: vpmovzxdq {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero
	; KNL_64-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1			; KNL_64-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1
	; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0			; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0
	; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1			; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
	; KNL_64-NEXT: kxnorw %k0, %k0, %k1			; KNL_64-NEXT: kxnorw %k0, %k0, %k1
	; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}			; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	Show All 14 Lines
	; KNL_32-NEXT: vpgatherdd (,%zmm1), %zmm0 {%k1}			; KNL_32-NEXT: vpgatherdd (,%zmm1), %zmm0 {%k1}
	; KNL_32-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0			; KNL_32-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX_SMALL-LABEL: test9:			; SKX_SMALL-LABEL: test9:
	; SKX_SMALL: # %bb.0: # %entry			; SKX_SMALL: # %bb.0: # %entry
	; SKX_SMALL-NEXT: vpbroadcastq %rdi, %zmm2			; SKX_SMALL-NEXT: vpbroadcastq %rdi, %zmm2
	; SKX_SMALL-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0			; SKX_SMALL-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0
	; SKX_SMALL-NEXT: vpmovsxdq %ymm1, %zmm1			; SKX_SMALL-NEXT: vpmovzxdq {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero
	; SKX_SMALL-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1			; SKX_SMALL-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1
	; SKX_SMALL-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; SKX_SMALL-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; SKX_SMALL-NEXT: vpaddq %zmm0, %zmm2, %zmm0			; SKX_SMALL-NEXT: vpaddq %zmm0, %zmm2, %zmm0
	; SKX_SMALL-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1			; SKX_SMALL-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
	; SKX_SMALL-NEXT: kxnorw %k0, %k0, %k1			; SKX_SMALL-NEXT: kxnorw %k0, %k0, %k1
	; SKX_SMALL-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}			; SKX_SMALL-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
	; SKX_SMALL-NEXT: retq			; SKX_SMALL-NEXT: retq
	;			;
	; SKX_LARGE-LABEL: test9:			; SKX_LARGE-LABEL: test9:
	; SKX_LARGE: # %bb.0: # %entry			; SKX_LARGE: # %bb.0: # %entry
	; SKX_LARGE-NEXT: vpbroadcastq %rdi, %zmm2			; SKX_LARGE-NEXT: vpbroadcastq %rdi, %zmm2
	; SKX_LARGE-NEXT: vpmovsxdq %ymm1, %zmm1			; SKX_LARGE-NEXT: vpmovzxdq {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero
	; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax			; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax
	; SKX_LARGE-NEXT: vpmuldq (%rax){1to8}, %zmm1, %zmm1			; SKX_LARGE-NEXT: vpmuldq (%rax){1to8}, %zmm1, %zmm1
	; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax			; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax
	; SKX_LARGE-NEXT: vpmullq (%rax){1to8}, %zmm0, %zmm0			; SKX_LARGE-NEXT: vpmullq (%rax){1to8}, %zmm0, %zmm0
	; SKX_LARGE-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; SKX_LARGE-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; SKX_LARGE-NEXT: vpaddq %zmm0, %zmm2, %zmm0			; SKX_LARGE-NEXT: vpaddq %zmm0, %zmm2, %zmm0
	; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax			; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax
	; SKX_LARGE-NEXT: vpaddq (%rax){1to8}, %zmm0, %zmm1			; SKX_LARGE-NEXT: vpaddq (%rax){1to8}, %zmm0, %zmm1
	Show All 26 Lines
	; KNL_64: # %bb.0: # %entry			; KNL_64: # %bb.0: # %entry
	; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2			; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2
	; KNL_64-NEXT: vpbroadcastq {{.*#+}} zmm3 = [824,824,824,824,824,824,824,824]			; KNL_64-NEXT: vpbroadcastq {{.*#+}} zmm3 = [824,824,824,824,824,824,824,824]
	; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4			; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4
	; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0			; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0
	; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0			; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0
	; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0			; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0
	; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0			; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; KNL_64-NEXT: vpmovsxdq %ymm1, %zmm1			; KNL_64-NEXT: vpmovzxdq {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero
	; KNL_64-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1			; KNL_64-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1
	; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0			; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0
	; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1			; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
	; KNL_64-NEXT: kxnorw %k0, %k0, %k1			; KNL_64-NEXT: kxnorw %k0, %k0, %k1
	; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}			; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	Show All 14 Lines
	; KNL_32-NEXT: vpgatherdd (,%zmm1), %zmm0 {%k1}			; KNL_32-NEXT: vpgatherdd (,%zmm1), %zmm0 {%k1}
	; KNL_32-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0			; KNL_32-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX_SMALL-LABEL: test10:			; SKX_SMALL-LABEL: test10:
	; SKX_SMALL: # %bb.0: # %entry			; SKX_SMALL: # %bb.0: # %entry
	; SKX_SMALL-NEXT: vpbroadcastq %rdi, %zmm2			; SKX_SMALL-NEXT: vpbroadcastq %rdi, %zmm2
	; SKX_SMALL-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0			; SKX_SMALL-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0
	; SKX_SMALL-NEXT: vpmovsxdq %ymm1, %zmm1			; SKX_SMALL-NEXT: vpmovzxdq {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero
	; SKX_SMALL-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1			; SKX_SMALL-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1
	; SKX_SMALL-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; SKX_SMALL-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; SKX_SMALL-NEXT: vpaddq %zmm0, %zmm2, %zmm0			; SKX_SMALL-NEXT: vpaddq %zmm0, %zmm2, %zmm0
	; SKX_SMALL-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1			; SKX_SMALL-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
	; SKX_SMALL-NEXT: kxnorw %k0, %k0, %k1			; SKX_SMALL-NEXT: kxnorw %k0, %k0, %k1
	; SKX_SMALL-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}			; SKX_SMALL-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
	; SKX_SMALL-NEXT: retq			; SKX_SMALL-NEXT: retq
	;			;
	; SKX_LARGE-LABEL: test10:			; SKX_LARGE-LABEL: test10:
	; SKX_LARGE: # %bb.0: # %entry			; SKX_LARGE: # %bb.0: # %entry
	; SKX_LARGE-NEXT: vpbroadcastq %rdi, %zmm2			; SKX_LARGE-NEXT: vpbroadcastq %rdi, %zmm2
	; SKX_LARGE-NEXT: vpmovsxdq %ymm1, %zmm1			; SKX_LARGE-NEXT: vpmovzxdq {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero
	; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax			; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax
	; SKX_LARGE-NEXT: vpmuldq (%rax){1to8}, %zmm1, %zmm1			; SKX_LARGE-NEXT: vpmuldq (%rax){1to8}, %zmm1, %zmm1
	; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax			; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax
	; SKX_LARGE-NEXT: vpmullq (%rax){1to8}, %zmm0, %zmm0			; SKX_LARGE-NEXT: vpmullq (%rax){1to8}, %zmm0, %zmm0
	; SKX_LARGE-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; SKX_LARGE-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; SKX_LARGE-NEXT: vpaddq %zmm0, %zmm2, %zmm0			; SKX_LARGE-NEXT: vpaddq %zmm0, %zmm2, %zmm0
	; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax			; SKX_LARGE-NEXT: movabsq ${{\.LCPI.*}}, %rax
	; SKX_LARGE-NEXT: vpaddq (%rax){1to8}, %zmm0, %zmm1			; SKX_LARGE-NEXT: vpaddq (%rax){1to8}, %zmm0, %zmm1
	▲ Show 20 Lines • Show All 2,302 Lines • Show Last 20 Lines

test/CodeGen/X86/mulvi32.ll

	Show First 20 Lines • Show All 161 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pmuludq %xmm4, %xmm2			; SSE2-NEXT: pmuludq %xmm4, %xmm2
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSE2-NEXT: pmuludq %xmm1, %xmm0			; SSE2-NEXT: pmuludq %xmm1, %xmm0
	; SSE2-NEXT: movdqa %xmm2, %xmm1			; SSE2-NEXT: movdqa %xmm2, %xmm1
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: _mul4xi32toi64a:			; SSE42-LABEL: _mul4xi32toi64a:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: pxor %xmm3, %xmm3			; SSE42-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
				; SSE42-NEXT: pmovzxdq {{.*#+}} xmm3 = xmm2[0],zero,xmm2[1],zero
				craig.topperAuthorUnsubmitted Not Done Reply Inline Actions These shuffles are moving the high elements down so we can zero extend. The original code used a punpck with zero instead. craig.topper: These shuffles are moving the high elements down so we can zero extend. The original code used…
	; SSE42-NEXT: pmovzxdq {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero			; SSE42-NEXT: pmovzxdq {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero
	; SSE42-NEXT: punpckhdq {{.*#+}} xmm0 = xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE42-NEXT: pmovzxdq {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero			; SSE42-NEXT: pmovzxdq {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero
	; SSE42-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm3[2],xmm1[3],xmm3[3]			; SSE42-NEXT: pmuludq %xmm3, %xmm2
	; SSE42-NEXT: pmuludq %xmm0, %xmm1			; SSE42-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero
	; SSE42-NEXT: pmuludq %xmm4, %xmm2			; SSE42-NEXT: pmuludq %xmm4, %xmm0
	; SSE42-NEXT: movdqa %xmm2, %xmm0			; SSE42-NEXT: movdqa %xmm2, %xmm1
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: _mul4xi32toi64a:			; AVX1-LABEL: _mul4xi32toi64a:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[2,2,3,3]
	; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,2,3,3]
	; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm2 = xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2
				craig.topperAuthorUnsubmitted Not Done Reply Inline Actions I think this is simplify demanded bits on pmuldq kicking in to remove the zeros going into elements 1 and 3. So they are effectively garbage. craig.topper: I think this is simplify demanded bits on pmuldq kicking in to remove the zeros going into…
	; AVX1-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero			; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
	; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero			; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: _mul4xi32toi64a:			; AVX2-LABEL: _mul4xi32toi64a:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX2-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; AVX2-NEXT: vpunpckhdq {{.*#+}} xmm2 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
	; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%f00 = extractelement <4 x i32> %0, i32 0			%f00 = extractelement <4 x i32> %0, i32 0
	%f01 = extractelement <4 x i32> %0, i32 1			%f01 = extractelement <4 x i32> %0, i32 1
	%f02 = extractelement <4 x i32> %0, i32 2			%f02 = extractelement <4 x i32> %0, i32 2
	%f03 = extractelement <4 x i32> %0, i32 3			%f03 = extractelement <4 x i32> %0, i32 3
	%f10 = extractelement <4 x i32> %1, i32 0			%f10 = extractelement <4 x i32> %1, i32 0
	%f11 = extractelement <4 x i32> %1, i32 1			%f11 = extractelement <4 x i32> %1, i32 1
	▲ Show 20 Lines • Show All 206 Lines • Show Last 20 Lines

test/CodeGen/X86/pmul.ll

	Show First 20 Lines • Show All 1,429 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmovsxdq %xmm1, %ymm1			; AVX2-NEXT: vpmovsxdq %xmm1, %ymm1
	; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa %ymm2, %ymm1			; AVX2-NEXT: vmovdqa %ymm2, %ymm1
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: mul_v8i64_sext:			; AVX512-LABEL: mul_v8i64_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovsxwq %xmm0, %zmm0			; AVX512-NEXT: vpmovsxwq %xmm0, %zmm0
	; AVX512-NEXT: vpmovsxdq %ymm1, %zmm1			; AVX512-NEXT: vpmovzxdq {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero
	; AVX512-NEXT: vpmuldq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmuldq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sext <8 x i16> %val1 to <8 x i64>			%1 = sext <8 x i16> %val1 to <8 x i64>
	%2 = sext <8 x i32> %val2 to <8 x i64>			%2 = sext <8 x i32> %val2 to <8 x i64>
	%3 = mul <8 x i64> %1, %2			%3 = mul <8 x i64> %1, %2
	ret <8 x i64> %3			ret <8 x i64> %3
	}			}

test/CodeGen/X86/xop-ifma.ll

	Show First 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; XOP-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5			; XOP-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5
	; XOP-AVX1-NEXT: vpmacsdql %xmm5, %xmm1, %xmm0, %xmm0			; XOP-AVX1-NEXT: vpmacsdql %xmm5, %xmm1, %xmm0, %xmm0
	; XOP-AVX1-NEXT: vpmacsdql %xmm2, %xmm4, %xmm3, %xmm1			; XOP-AVX1-NEXT: vpmacsdql %xmm2, %xmm4, %xmm3, %xmm1
	; XOP-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; XOP-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOP-AVX1-NEXT: retq			; XOP-AVX1-NEXT: retq
	;			;
	; XOP-AVX2-LABEL: test_mulx_v4i32_add_v4i64:			; XOP-AVX2-LABEL: test_mulx_v4i32_add_v4i64:
	; XOP-AVX2: # %bb.0:			; XOP-AVX2: # %bb.0:
	; XOP-AVX2-NEXT: vpmovsxdq %xmm0, %ymm0			; XOP-AVX2-NEXT: vpmovzxdq {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; XOP-AVX2-NEXT: vpmovsxdq %xmm1, %ymm1			; XOP-AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; XOP-AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm0			; XOP-AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm0
	; XOP-AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; XOP-AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; XOP-AVX2-NEXT: retq			; XOP-AVX2-NEXT: retq
	%1 = sext <4 x i32> %a0 to <4 x i64>			%1 = sext <4 x i32> %a0 to <4 x i64>
	%2 = sext <4 x i32> %a1 to <4 x i64>			%2 = sext <4 x i32> %a1 to <4 x i64>
	%3 = mul <4 x i64> %1, %2			%3 = mul <4 x i64> %1, %2
	%4 = add <4 x i64> %3, %a2			%4 = add <4 x i64> %3, %a2
	ret <4 x i64> %4			ret <4 x i64> %4
	Show All 36 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Combine vXi64 multiplies to MULDQ/MULUDQ during DAG combine instead of lowering.
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 140093

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

lib/Target/X86/X86ISelLowering.cpp

test/CodeGen/ARM/dagcombine-anyexttozeroext.ll

test/CodeGen/X86/combine-pmuldq.ll

test/CodeGen/X86/masked_gather_scatter.ll

test/CodeGen/X86/mulvi32.ll

test/CodeGen/X86/pmul.ll

test/CodeGen/X86/xop-ifma.ll

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Combine vXi64 multiplies to MULDQ/MULUDQ during DAG combine instead of lowering.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 140093

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

lib/Target/X86/X86ISelLowering.cpp

test/CodeGen/ARM/dagcombine-anyexttozeroext.ll

test/CodeGen/X86/combine-pmuldq.ll

test/CodeGen/X86/masked_gather_scatter.ll

test/CodeGen/X86/mulvi32.ll

test/CodeGen/X86/pmul.ll

test/CodeGen/X86/xop-ifma.ll

[X86] Combine vXi64 multiplies to MULDQ/MULUDQ during DAG combine instead of lowering.
ClosedPublic