Diff 521461

llvm/lib/Target/X86/X86.td

Show First 20 Lines • Show All 553 Lines • ▼ Show 20 Lines	def TuningNoDomainDelayShuffle : SubtargetFeature<"no-bypass-delay-shuffle",
"Has no bypass delay when using the 'wrong' shuffle type">;		"Has no bypass delay when using the 'wrong' shuffle type">;

// Prefer lowering shuffles on AVX512 targets (e.g. Skylake Server) to		// Prefer lowering shuffles on AVX512 targets (e.g. Skylake Server) to
// imm shifts/rotate if they can use more ports than regular shuffles.		// imm shifts/rotate if they can use more ports than regular shuffles.
def TuningPreferShiftShuffle : SubtargetFeature<"faster-shift-than-shuffle",		def TuningPreferShiftShuffle : SubtargetFeature<"faster-shift-than-shuffle",
"PreferLowerShuffleAsShift", "true",		"PreferLowerShuffleAsShift", "true",
"Shifts are faster (or as fast) as shuffle">;		"Shifts are faster (or as fast) as shuffle">;

		def TuningFastImmVectorShift : SubtargetFeature<"tuning-fast-imm-vector-shift",
		"FastImmVectorShift", "true",
		"Vector shifts are fast (2/cycle) as opposed to slow (1/cycle)">;
		pengfeiUnsubmitted Not Done Reply Inline Actions Can we get such info from SchedModel rather than put another tuning? pengfei: Can we get such info from SchedModel rather than put another tuning?
		goldstein.w.nAuthorUnsubmitted Done Reply Inline Actions Can we get such info from SchedModel rather than put another tuning? I'm not sure. The transform proposed in this patch works on SDNode which aren't in MachineInst form yet. AFAIK the schedmodel works on MachineInst, not SDNode, but if there is a way to get sched info for an SDNode I agree it would be better to use that. Is there a way? goldstein.w.n: > Can we get such info from SchedModel rather than put another tuning? I'm not sure. The…
		pengfeiUnsubmitted Not Done Reply Inline Actions That's a good point. My suggestion was based on an assumption that if a target has fast shifts, all shift instructions, no matter SSE/AVX/AVX512 MI should have the same port info. So we can choose any one of them to check here. However, I found it is not true, see https://github.com/llvm/llvm-project/blob/main/llvm/lib/Target/X86/X86SchedSkylakeServer.td#L416-L419 Adding a tuning flag has the same problem. One alternative way is to check `WriteVecShiftImm/X/Y/Z` based on type and predicates. It's not always precise and I think it's a big hammer for this. pengfei: That's a good point. My suggestion was based on an assumption that if a target has fast shifts…
		goldstein.w.nAuthorUnsubmitted Done Reply Inline Actions Agreed, although this does highlight that it would be nice to have some scalable way to estimate SDNode cost goldstein.w.n: Agreed, although this does highlight that it would be nice to have some scalable way to…

// On some X86 processors, a vzeroupper instruction should be inserted after		// On some X86 processors, a vzeroupper instruction should be inserted after
// using ymm/zmm registers before executing code that may use SSE instructions.		// using ymm/zmm registers before executing code that may use SSE instructions.
def TuningInsertVZEROUPPER		def TuningInsertVZEROUPPER
: SubtargetFeature<"vzeroupper",		: SubtargetFeature<"vzeroupper",
"InsertVZEROUPPER",		"InsertVZEROUPPER",
"true", "Should insert vzeroupper instructions">;		"true", "Should insert vzeroupper instructions">;

// TuningFastScalarFSQRT should be enabled if scalar FSQRT has shorter latency		// TuningFastScalarFSQRT should be enabled if scalar FSQRT has shorter latency
▲ Show 20 Lines • Show All 360 Lines • ▼ Show 20 Lines	list<SubtargetFeature> SKXTuning = [TuningFastGather,
TuningFastVariablePerLaneShuffle,		TuningFastVariablePerLaneShuffle,
TuningPrefer256Bit,		TuningPrefer256Bit,
TuningPOPCNTFalseDeps,		TuningPOPCNTFalseDeps,
TuningInsertVZEROUPPER,		TuningInsertVZEROUPPER,
TuningAllowLight256Bit,		TuningAllowLight256Bit,
TuningPreferShiftShuffle,		TuningPreferShiftShuffle,
TuningNoDomainDelayMov,		TuningNoDomainDelayMov,
TuningNoDomainDelayShuffle,		TuningNoDomainDelayShuffle,
TuningNoDomainDelayBlend];		TuningNoDomainDelayBlend,
		TuningFastImmVectorShift];
list<SubtargetFeature> SKXFeatures =		list<SubtargetFeature> SKXFeatures =
!listconcat(BDWFeatures, SKXAdditionalFeatures);		!listconcat(BDWFeatures, SKXAdditionalFeatures);

// Cascadelake		// Cascadelake
list<SubtargetFeature> CLXAdditionalFeatures = [FeatureVNNI];		list<SubtargetFeature> CLXAdditionalFeatures = [FeatureVNNI];
list<SubtargetFeature> CLXTuning = SKXTuning;		list<SubtargetFeature> CLXTuning = SKXTuning;
list<SubtargetFeature> CLXFeatures =		list<SubtargetFeature> CLXFeatures =
!listconcat(SKXFeatures, CLXAdditionalFeatures);		!listconcat(SKXFeatures, CLXAdditionalFeatures);
Show All 24 Lines	list<SubtargetFeature> CNLTuning = [TuningFastGather,
TuningFast15ByteNOP,		TuningFast15ByteNOP,
TuningFastVariableCrossLaneShuffle,		TuningFastVariableCrossLaneShuffle,
TuningFastVariablePerLaneShuffle,		TuningFastVariablePerLaneShuffle,
TuningPrefer256Bit,		TuningPrefer256Bit,
TuningInsertVZEROUPPER,		TuningInsertVZEROUPPER,
TuningAllowLight256Bit,		TuningAllowLight256Bit,
TuningNoDomainDelayMov,		TuningNoDomainDelayMov,
TuningNoDomainDelayShuffle,		TuningNoDomainDelayShuffle,
TuningNoDomainDelayBlend];		TuningNoDomainDelayBlend,
		TuningFastImmVectorShift];
list<SubtargetFeature> CNLFeatures =		list<SubtargetFeature> CNLFeatures =
!listconcat(SKLFeatures, CNLAdditionalFeatures);		!listconcat(SKLFeatures, CNLAdditionalFeatures);

// Icelake		// Icelake
list<SubtargetFeature> ICLAdditionalFeatures = [FeatureBITALG,		list<SubtargetFeature> ICLAdditionalFeatures = [FeatureBITALG,
FeatureVAES,		FeatureVAES,
FeatureVBMI2,		FeatureVBMI2,
FeatureVNNI,		FeatureVNNI,
Show All 11 Lines	list<SubtargetFeature> ICLTuning = [TuningFastGather,
TuningFast15ByteNOP,		TuningFast15ByteNOP,
TuningFastVariableCrossLaneShuffle,		TuningFastVariableCrossLaneShuffle,
TuningFastVariablePerLaneShuffle,		TuningFastVariablePerLaneShuffle,
TuningPrefer256Bit,		TuningPrefer256Bit,
TuningInsertVZEROUPPER,		TuningInsertVZEROUPPER,
TuningAllowLight256Bit,		TuningAllowLight256Bit,
TuningNoDomainDelayMov,		TuningNoDomainDelayMov,
TuningNoDomainDelayShuffle,		TuningNoDomainDelayShuffle,
TuningNoDomainDelayBlend];		TuningNoDomainDelayBlend,
		TuningFastImmVectorShift];
list<SubtargetFeature> ICLFeatures =		list<SubtargetFeature> ICLFeatures =
!listconcat(CNLFeatures, ICLAdditionalFeatures);		!listconcat(CNLFeatures, ICLAdditionalFeatures);

// Icelake Server		// Icelake Server
list<SubtargetFeature> ICXAdditionalFeatures = [FeaturePCONFIG,		list<SubtargetFeature> ICXAdditionalFeatures = [FeaturePCONFIG,
FeatureCLWB,		FeatureCLWB,
FeatureWBNOINVD];		FeatureWBNOINVD];
list<SubtargetFeature> ICXTuning = ICLTuning;		list<SubtargetFeature> ICXTuning = ICLTuning;
▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines	list<SubtargetFeature> ADLAdditionalFeatures = [FeatureSERIALIZE,
FeatureLZCNT,		FeatureLZCNT,
FeatureAVXVNNI,		FeatureAVXVNNI,
FeaturePKU,		FeaturePKU,
FeatureHRESET,		FeatureHRESET,
FeatureCLDEMOTE,		FeatureCLDEMOTE,
FeatureMOVDIRI,		FeatureMOVDIRI,
FeatureMOVDIR64B,		FeatureMOVDIR64B,
FeatureWAITPKG];		FeatureWAITPKG];
list<SubtargetFeature> ADLAdditionalTuning = [TuningPERMFalseDeps];		list<SubtargetFeature> ADLAdditionalTuning = [TuningPERMFalseDeps,
		TuningFastImmVectorShift];
list<SubtargetFeature> ADLTuning = !listconcat(SKLTuning, ADLAdditionalTuning);		list<SubtargetFeature> ADLTuning = !listconcat(SKLTuning, ADLAdditionalTuning);
list<SubtargetFeature> ADLFeatures =		list<SubtargetFeature> ADLFeatures =
!listconcat(TRMFeatures, ADLAdditionalFeatures);		!listconcat(TRMFeatures, ADLAdditionalFeatures);

// Sierraforest		// Sierraforest
list<SubtargetFeature> SRFAdditionalFeatures = [FeatureCMPCCXADD,		list<SubtargetFeature> SRFAdditionalFeatures = [FeatureCMPCCXADD,
FeatureAVXIFMA,		FeatureAVXIFMA,
FeatureAVXNECONVERT,		FeatureAVXNECONVERT,
▲ Show 20 Lines • Show All 662 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 32,759 Lines • ▼ Show 20 Lines

	// An imul is usually smaller than the alternative sequence.			// An imul is usually smaller than the alternative sequence.
	if (DAG.getMachineFunction().getFunction().hasMinSize())			if (DAG.getMachineFunction().getFunction().hasMinSize())
	return SDValue();			return SDValue();

	if (DCI.isBeforeLegalize() \|\| DCI.isCalledByLegalizer())			if (DCI.isBeforeLegalize() \|\| DCI.isCalledByLegalizer())
	return SDValue();			return SDValue();

	if (VT != MVT::i64 && VT != MVT::i32)			if (VT != MVT::i64 && VT != MVT::i32) {
	return SDValue();			if (VT.isVector() && VT.isSimple()) {
				EVT EleVT = VT.getVectorElementType();
				if (EleVT != MVT::i8 && EleVT != MVT::i16 && EleVT != MVT::i32 &&
				EleVT != MVT::i64)
				return SDValue();
				} else {
				return SDValue();
				}
				}

	ConstantSDNode *C = dyn_cast<ConstantSDNode>(N->getOperand(1));			ConstantSDNode *CNode = isConstOrConstSplat(
	if (!C)			N->getOperand(1), /AllowUndefs/ true, /AllowTrunc/ false);
	return SDValue();			const APInt *C = nullptr;
	if (isPowerOf2_64(C->getZExtValue()))			if (!CNode) {
				if (VT.isVector())
				if (auto *RawC = getTargetConstantFromNode(N->getOperand(1)))
				if (auto *SplatC = RawC->getSplatValue())
				C = &(SplatC->getUniqueInteger());

				if (!C)
				return SDValue();
				} else {
				C = &(CNode->getAPIntValue());
				}

				if (isPowerOf2_64(C->getZExtValue())) {
	return SDValue();			return SDValue();
				}
				pengfeiUnsubmitted Done Reply Inline Actions Remove parentheses. pengfei: Remove parentheses.

	int64_t SignMulAmt = C->getSExtValue();			int64_t SignMulAmt = C->getSExtValue();
	assert(SignMulAmt != INT64_MIN && "Int min should have been handled!");			assert(SignMulAmt != INT64_MIN && "Int min should have been handled!");
	uint64_t AbsMulAmt = SignMulAmt < 0 ? -SignMulAmt : SignMulAmt;			uint64_t AbsMulAmt = SignMulAmt < 0 ? -SignMulAmt : SignMulAmt;

	SDLoc DL(N);			SDLoc DL(N);
	if (AbsMulAmt == 3 \|\| AbsMulAmt == 5 \|\| AbsMulAmt == 9) {			SDValue NewMul = SDValue();
	SDValue NewMul = DAG.getNode(X86ISD::MUL_IMM, DL, VT, N->getOperand(0),			if (VT == MVT::i64 \|\| VT == MVT::i32) {
	DAG.getConstant(AbsMulAmt, DL, VT));			if (AbsMulAmt == 3 \|\| AbsMulAmt == 5 \|\| AbsMulAmt == 9) {
	if (SignMulAmt < 0)
	NewMul = DAG.getNode(ISD::SUB, DL, VT, DAG.getConstant(0, DL, VT),
	NewMul);

	return NewMul;
	}

	uint64_t MulAmt1 = 0;
	uint64_t MulAmt2 = 0;
	if ((AbsMulAmt % 9) == 0) {
	MulAmt1 = 9;
	MulAmt2 = AbsMulAmt / 9;
	} else if ((AbsMulAmt % 5) == 0) {
	MulAmt1 = 5;
	MulAmt2 = AbsMulAmt / 5;
	} else if ((AbsMulAmt % 3) == 0) {
	MulAmt1 = 3;
	MulAmt2 = AbsMulAmt / 3;
	}

	SDValue NewMul;
	// For negative multiply amounts, only allow MulAmt2 to be a power of 2.
	if (MulAmt2 &&
	(isPowerOf2_64(MulAmt2) \|\|
	(SignMulAmt >= 0 && (MulAmt2 == 3 \|\| MulAmt2 == 5 \|\| MulAmt2 == 9)))) {

	if (isPowerOf2_64(MulAmt2) &&
	!(SignMulAmt >= 0 && N->hasOneUse() &&
	N->use_begin()->getOpcode() == ISD::ADD))
	// If second multiplifer is pow2, issue it first. We want the multiply by
	// 3, 5, or 9 to be folded into the addressing mode unless the lone use
	// is an add. Only do this for positive multiply amounts since the
	// negate would prevent it from being used as an address mode anyway.
	std::swap(MulAmt1, MulAmt2);

	if (isPowerOf2_64(MulAmt1))
	NewMul = DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),
	DAG.getConstant(Log2_64(MulAmt1), DL, MVT::i8));
	else
	NewMul = DAG.getNode(X86ISD::MUL_IMM, DL, VT, N->getOperand(0),			NewMul = DAG.getNode(X86ISD::MUL_IMM, DL, VT, N->getOperand(0),
	DAG.getConstant(MulAmt1, DL, VT));			DAG.getConstant(AbsMulAmt, DL, VT));
				if (SignMulAmt < 0)
	if (isPowerOf2_64(MulAmt2))			NewMul =
	NewMul = DAG.getNode(ISD::SHL, DL, VT, NewMul,			DAG.getNode(ISD::SUB, DL, VT, DAG.getConstant(0, DL, VT), NewMul);
	DAG.getConstant(Log2_64(MulAmt2), DL, MVT::i8));
	else			return NewMul;
	NewMul = DAG.getNode(X86ISD::MUL_IMM, DL, VT, NewMul,			}
	DAG.getConstant(MulAmt2, DL, VT));
				uint64_t MulAmt1 = 0;
				uint64_t MulAmt2 = 0;
				if ((AbsMulAmt % 9) == 0) {
				MulAmt1 = 9;
				MulAmt2 = AbsMulAmt / 9;
				} else if ((AbsMulAmt % 5) == 0) {
				MulAmt1 = 5;
				MulAmt2 = AbsMulAmt / 5;
				} else if ((AbsMulAmt % 3) == 0) {
				MulAmt1 = 3;
				MulAmt2 = AbsMulAmt / 3;
				}

				// For negative multiply amounts, only allow MulAmt2 to be a power of 2.
				if (MulAmt2 &&
				(isPowerOf2_64(MulAmt2) \|\|
				(SignMulAmt >= 0 && (MulAmt2 == 3 \|\| MulAmt2 == 5 \|\| MulAmt2 == 9)))) {

				if (isPowerOf2_64(MulAmt2) && !(SignMulAmt >= 0 && N->hasOneUse() &&
				N->use_begin()->getOpcode() == ISD::ADD))
				// If second multiplifer is pow2, issue it first. We want the multiply
				// by 3, 5, or 9 to be folded into the addressing mode unless the lone
				// use is an add. Only do this for positive multiply amounts since the
				// negate would prevent it from being used as an address mode anyway.
				std::swap(MulAmt1, MulAmt2);

				if (isPowerOf2_64(MulAmt1))
				NewMul = DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),
				DAG.getConstant(Log2_64(MulAmt1), DL, MVT::i8));
				else
				NewMul = DAG.getNode(X86ISD::MUL_IMM, DL, VT, N->getOperand(0),
				DAG.getConstant(MulAmt1, DL, VT));

	// Negate the result.			if (isPowerOf2_64(MulAmt2))
	if (SignMulAmt < 0)			NewMul = DAG.getNode(ISD::SHL, DL, VT, NewMul,
	NewMul = DAG.getNode(ISD::SUB, DL, VT, DAG.getConstant(0, DL, VT),			DAG.getConstant(Log2_64(MulAmt2), DL, MVT::i8));
	NewMul);			else
				pengfeiUnsubmitted Done Reply Inline Actions Maybe just `VT.isVector() && VT.isInteger()` given we made sure it's legal type by line 48691. pengfei: Maybe just `VT.isVector() && VT.isInteger()` given we made sure it's legal type by line 48691.
	} else if (!Subtarget.slowLEA())			NewMul = DAG.getNode(X86ISD::MUL_IMM, DL, VT, NewMul,
	NewMul = combineMulSpecial(C->getZExtValue(), N, DAG, VT, DL);			DAG.getConstant(MulAmt2, DL, VT));

				// Negate the result.
				if (SignMulAmt < 0)
				NewMul =
				DAG.getNode(ISD::SUB, DL, VT, DAG.getConstant(0, DL, VT), NewMul);
				} else if (!Subtarget.slowLEA())
				NewMul = combineMulSpecial(C->getZExtValue(), N, DAG, VT, DL);
				}
	if (!NewMul) {			if (!NewMul) {
				EVT ShiftVT = VT.isVector() ? VT : MVT::i8;
	assert(C->getZExtValue() != 0 &&			assert(C->getZExtValue() != 0 &&
	C->getZExtValue() != (VT == MVT::i64 ? UINT64_MAX : UINT32_MAX) &&			C->getZExtValue() != maxUIntN(VT.getScalarSizeInBits()) &&
				pengfeiUnsubmitted Not Done Reply Inline Actions In which case we need to analyze target constant? pengfei: In which case we need to analyze target constant?
				goldstein.w.nAuthorUnsubmitted Done Reply Inline Actions Some of the tests in vector-mul.ll like: `@mul_v4i32_17(<4 x i32> %a0)`. Not exact sure why, but it does cover some cases. goldstein.w.n: Some of the tests in vector-mul.ll like: `@mul_v4i32_17(<4 x i32> %a0)`. Not exact sure why…
	"Both cases that could cause potential overflows should have "			"Both cases that could cause potential overflows should have "
	"already been handled.");			"already been handled.");
	if (isPowerOf2_64(AbsMulAmt - 1)) {			if (isPowerOf2_64(AbsMulAmt - 1)) {
	// (mul x, 2^N + 1) => (add (shl x, N), x)			// (mul x, 2^N + 1) => (add (shl x, N), x)
	NewMul = DAG.getNode(			NewMul = DAG.getNode(
	ISD::ADD, DL, VT, N->getOperand(0),			ISD::ADD, DL, VT, N->getOperand(0),
	DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),			DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),
	DAG.getConstant(Log2_64(AbsMulAmt - 1), DL,			DAG.getConstant(Log2_64(AbsMulAmt - 1), DL, ShiftVT)));
	MVT::i8)));
	// To negate, subtract the number from zero			// To negate, subtract the number from zero
	if (SignMulAmt < 0)			if (SignMulAmt < 0)
	NewMul = DAG.getNode(ISD::SUB, DL, VT,			NewMul =
	DAG.getConstant(0, DL, VT), NewMul);			DAG.getNode(ISD::SUB, DL, VT, DAG.getConstant(0, DL, VT), NewMul);
	} else if (isPowerOf2_64(AbsMulAmt + 1)) {			} else if (isPowerOf2_64(AbsMulAmt + 1)) {
	// (mul x, 2^N - 1) => (sub (shl x, N), x)			// (mul x, 2^N - 1) => (sub (shl x, N), x)
	NewMul = DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),			NewMul =
	DAG.getConstant(Log2_64(AbsMulAmt + 1),			DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),
	DL, MVT::i8));			DAG.getConstant(Log2_64(AbsMulAmt + 1), DL, ShiftVT));
	// To negate, reverse the operands of the subtract.			// To negate, reverse the operands of the subtract.
	if (SignMulAmt < 0)			if (SignMulAmt < 0)
	NewMul = DAG.getNode(ISD::SUB, DL, VT, N->getOperand(0), NewMul);			NewMul = DAG.getNode(ISD::SUB, DL, VT, N->getOperand(0), NewMul);
	else			else
	NewMul = DAG.getNode(ISD::SUB, DL, VT, NewMul, N->getOperand(0));			NewMul = DAG.getNode(ISD::SUB, DL, VT, NewMul, N->getOperand(0));
	} else if (SignMulAmt >= 0 && isPowerOf2_64(AbsMulAmt - 2)) {			} else if (SignMulAmt >= 0 && isPowerOf2_64(AbsMulAmt - 2)) {
	// (mul x, 2^N + 2) => (add (shl x, N), (add x, x))			// (mul x, 2^N + 2) => (add (shl x, N), (add x, x))
	NewMul = DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),			NewMul =
	DAG.getConstant(Log2_64(AbsMulAmt - 2),			DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),
	DL, MVT::i8));			DAG.getConstant(Log2_64(AbsMulAmt - 2), DL, ShiftVT));
	NewMul = DAG.getNode(			NewMul = DAG.getNode(
	ISD::ADD, DL, VT, NewMul,			ISD::ADD, DL, VT, NewMul,
	DAG.getNode(ISD::ADD, DL, VT, N->getOperand(0), N->getOperand(0)));			DAG.getNode(ISD::ADD, DL, VT, N->getOperand(0), N->getOperand(0)));
	} else if (SignMulAmt >= 0 && isPowerOf2_64(AbsMulAmt + 2)) {			} else if (SignMulAmt >= 0 && isPowerOf2_64(AbsMulAmt + 2)) {
	// (mul x, 2^N - 2) => (sub (shl x, N), (add x, x))			// (mul x, 2^N - 2) => (sub (shl x, N), (add x, x))
	NewMul = DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),			NewMul =
	DAG.getConstant(Log2_64(AbsMulAmt + 2),			DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),
	DL, MVT::i8));			DAG.getConstant(Log2_64(AbsMulAmt + 2), DL, ShiftVT));
	NewMul = DAG.getNode(			NewMul = DAG.getNode(
	ISD::SUB, DL, VT, NewMul,			ISD::SUB, DL, VT, NewMul,
	DAG.getNode(ISD::ADD, DL, VT, N->getOperand(0), N->getOperand(0)));			DAG.getNode(ISD::ADD, DL, VT, N->getOperand(0), N->getOperand(0)));
	}			}

				if (SignMulAmt >= 0 && VT.isVector() && Subtarget.fastImmVectorShift()) {
				uint64_t AbsMulAmtLowBit = AbsMulAmt & (-AbsMulAmt);
				uint64_t ShiftAmt1;
				std::optional<unsigned> Opc;
				if (isPowerOf2_64(AbsMulAmt - AbsMulAmtLowBit)) {
				ShiftAmt1 = AbsMulAmt - AbsMulAmtLowBit;
				Opc = ISD::ADD;
				}
				pengfeiUnsubmitted Done Reply Inline Actions Remove blank line. pengfei: Remove blank line.

				else if (isPowerOf2_64(AbsMulAmt + AbsMulAmtLowBit)) {
				ShiftAmt1 = AbsMulAmt + AbsMulAmtLowBit;
				Opc = ISD::SUB;
				}

				if (Opc) {
				SDValue Shift1 =
				DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),
				DAG.getConstant(Log2_64(ShiftAmt1), DL, ShiftVT));
				SDValue Shift2 =
				DAG.getNode(ISD::SHL, DL, VT, N->getOperand(0),
				DAG.getConstant(Log2_64(AbsMulAmtLowBit), DL, ShiftVT));
				NewMul = DAG.getNode(*Opc, DL, VT, Shift1, Shift2);
				}
				}
	}			}

	return NewMul;			return NewMul;
	}			}

	// Try to form a MULHU or MULHS node by looking for			// Try to form a MULHU or MULHS node by looking for
	// (srl (mul ext, ext), 16)			// (srl (mul ext, ext), 16)
	// TODO: This is X86 specific because we want to be able to handle wide types			// TODO: This is X86 specific because we want to be able to handle wide types
	▲ Show 20 Lines • Show All 10,572 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86TargetTransformInfo.h

Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines	const FeatureBitset InlineFeatureIgnoreList = {
X86::TuningInsertVZEROUPPER,		X86::TuningInsertVZEROUPPER,
X86::TuningUseSLMArithCosts,		X86::TuningUseSLMArithCosts,
X86::TuningUseGLMDivSqrtCosts,		X86::TuningUseGLMDivSqrtCosts,
X86::TuningNoDomainDelay,		X86::TuningNoDomainDelay,
X86::TuningNoDomainDelayMov,		X86::TuningNoDomainDelayMov,
X86::TuningNoDomainDelayShuffle,		X86::TuningNoDomainDelayShuffle,
X86::TuningNoDomainDelayBlend,		X86::TuningNoDomainDelayBlend,
X86::TuningPreferShiftShuffle,		X86::TuningPreferShiftShuffle,
		X86::TuningFastImmVectorShift,

// Perf-tuning flags.		// Perf-tuning flags.
X86::TuningFastGather,		X86::TuningFastGather,
X86::TuningSlowUAMem32,		X86::TuningSlowUAMem32,
X86::TuningAllowLight256Bit,		X86::TuningAllowLight256Bit,

// Based on whether user set the -mprefer-vector-width command line.		// Based on whether user set the -mprefer-vector-width command line.
X86::TuningPrefer128Bit,		X86::TuningPrefer128Bit,
▲ Show 20 Lines • Show All 195 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-broadcast-unfold.ll

	Show First 20 Lines • Show All 204 Lines • ▼ Show 20 Lines
	bb10: ; preds = %bb2			bb10: ; preds = %bb2
	ret void			ret void
	}			}

	define void @bcast_unfold_mul_v16i32(i32* %arg) {			define void @bcast_unfold_mul_v16i32(i32* %arg) {
	; CHECK-LABEL: bcast_unfold_mul_v16i32:			; CHECK-LABEL: bcast_unfold_mul_v16i32:
	; CHECK: # %bb.0: # %bb			; CHECK: # %bb.0: # %bb
	; CHECK-NEXT: movq $-4096, %rax # imm = 0xF000			; CHECK-NEXT: movq $-4096, %rax # imm = 0xF000
	; CHECK-NEXT: vpbroadcastd {{.*#+}} zmm0 = [3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3]
	; CHECK-NEXT: .p2align 4, 0x90			; CHECK-NEXT: .p2align 4, 0x90
	; CHECK-NEXT: .LBB6_1: # %bb2			; CHECK-NEXT: .LBB6_1: # %bb2
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vpmulld 4096(%rdi,%rax), %zmm0, %zmm1			; CHECK-NEXT: vmovdqu64 4096(%rdi,%rax), %zmm0
	; CHECK-NEXT: vmovdqu64 %zmm1, 4096(%rdi,%rax)			; CHECK-NEXT: vpaddd %zmm0, %zmm0, %zmm1
				; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
				; CHECK-NEXT: vmovdqu64 %zmm0, 4096(%rdi,%rax)
	; CHECK-NEXT: addq $64, %rax			; CHECK-NEXT: addq $64, %rax
	; CHECK-NEXT: jne .LBB6_1			; CHECK-NEXT: jne .LBB6_1
	; CHECK-NEXT: # %bb.2: # %bb10			; CHECK-NEXT: # %bb.2: # %bb10
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	bb:			bb:
	br label %bb2			br label %bb2

	Show All 12 Lines
	bb10: ; preds = %bb2			bb10: ; preds = %bb2
	ret void			ret void
	}			}

	define void @bcast_unfold_mul_v8i32(i32* %arg) {			define void @bcast_unfold_mul_v8i32(i32* %arg) {
	; CHECK-LABEL: bcast_unfold_mul_v8i32:			; CHECK-LABEL: bcast_unfold_mul_v8i32:
	; CHECK: # %bb.0: # %bb			; CHECK: # %bb.0: # %bb
	; CHECK-NEXT: movq $-4096, %rax # imm = 0xF000			; CHECK-NEXT: movq $-4096, %rax # imm = 0xF000
	; CHECK-NEXT: vpbroadcastd {{.*#+}} ymm0 = [3,3,3,3,3,3,3,3]
	; CHECK-NEXT: .p2align 4, 0x90			; CHECK-NEXT: .p2align 4, 0x90
	; CHECK-NEXT: .LBB7_1: # %bb2			; CHECK-NEXT: .LBB7_1: # %bb2
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vpmulld 4096(%rdi,%rax), %ymm0, %ymm1			; CHECK-NEXT: vmovdqu 4096(%rdi,%rax), %ymm0
	; CHECK-NEXT: vmovdqu %ymm1, 4096(%rdi,%rax)			; CHECK-NEXT: vpaddd %ymm0, %ymm0, %ymm1
				; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
				; CHECK-NEXT: vmovdqu %ymm0, 4096(%rdi,%rax)
	; CHECK-NEXT: addq $32, %rax			; CHECK-NEXT: addq $32, %rax
	; CHECK-NEXT: jne .LBB7_1			; CHECK-NEXT: jne .LBB7_1
	; CHECK-NEXT: # %bb.2: # %bb10			; CHECK-NEXT: # %bb.2: # %bb10
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	bb:			bb:
	br label %bb2			br label %bb2

	Show All 12 Lines
	bb10: ; preds = %bb2			bb10: ; preds = %bb2
	ret void			ret void
	}			}

	define void @bcast_unfold_mul_v4i32(i32* %arg) {			define void @bcast_unfold_mul_v4i32(i32* %arg) {
	; CHECK-LABEL: bcast_unfold_mul_v4i32:			; CHECK-LABEL: bcast_unfold_mul_v4i32:
	; CHECK: # %bb.0: # %bb			; CHECK: # %bb.0: # %bb
	; CHECK-NEXT: movq $-4096, %rax # imm = 0xF000			; CHECK-NEXT: movq $-4096, %rax # imm = 0xF000
	; CHECK-NEXT: vpbroadcastd {{.*#+}} xmm0 = [3,3,3,3]
	; CHECK-NEXT: .p2align 4, 0x90			; CHECK-NEXT: .p2align 4, 0x90
	; CHECK-NEXT: .LBB8_1: # %bb2			; CHECK-NEXT: .LBB8_1: # %bb2
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vpmulld 4096(%rdi,%rax), %xmm0, %xmm1			; CHECK-NEXT: vmovdqu 4096(%rdi,%rax), %xmm0
	; CHECK-NEXT: vmovdqu %xmm1, 4096(%rdi,%rax)			; CHECK-NEXT: vpaddd %xmm0, %xmm0, %xmm1
				; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: vmovdqu %xmm0, 4096(%rdi,%rax)
	; CHECK-NEXT: addq $16, %rax			; CHECK-NEXT: addq $16, %rax
	; CHECK-NEXT: jne .LBB8_1			; CHECK-NEXT: jne .LBB8_1
	; CHECK-NEXT: # %bb.2: # %bb10			; CHECK-NEXT: # %bb.2: # %bb10
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	bb:			bb:
	br label %bb2			br label %bb2

	bb2: ; preds = %bb2, %bb			bb2: ; preds = %bb2, %bb
	▲ Show 20 Lines • Show All 4,402 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/combine-add.ll

	Show First 20 Lines • Show All 228 Lines • ▼ Show 20 Lines
	; SSE-LABEL: PR52039:			; SSE-LABEL: PR52039:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqu (%rdi), %xmm0			; SSE-NEXT: movdqu (%rdi), %xmm0
	; SSE-NEXT: movdqu 16(%rdi), %xmm1			; SSE-NEXT: movdqu 16(%rdi), %xmm1
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [10,10,10,10]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [10,10,10,10]
	; SSE-NEXT: movdqa %xmm2, %xmm3			; SSE-NEXT: movdqa %xmm2, %xmm3
	; SSE-NEXT: psubd %xmm1, %xmm3			; SSE-NEXT: psubd %xmm1, %xmm3
	; SSE-NEXT: psubd %xmm0, %xmm2			; SSE-NEXT: psubd %xmm0, %xmm2
	; SSE-NEXT: movdqa {{.*#+}} xmm0 = [3,3,3,3]			; SSE-NEXT: movdqa %xmm2, %xmm0
	; SSE-NEXT: movdqu %xmm2, (%rsi)			; SSE-NEXT: paddd %xmm2, %xmm0
	; SSE-NEXT: pmulld %xmm0, %xmm2			; SSE-NEXT: paddd %xmm2, %xmm0
	; SSE-NEXT: pmulld %xmm3, %xmm0			; SSE-NEXT: movdqa %xmm3, %xmm1
				; SSE-NEXT: paddd %xmm3, %xmm1
				; SSE-NEXT: paddd %xmm3, %xmm1
	; SSE-NEXT: movdqu %xmm3, 16(%rsi)			; SSE-NEXT: movdqu %xmm3, 16(%rsi)
	; SSE-NEXT: movdqu %xmm0, 16(%rdi)			; SSE-NEXT: movdqu %xmm2, (%rsi)
	; SSE-NEXT: movdqu %xmm2, (%rdi)			; SSE-NEXT: movdqu %xmm1, 16(%rdi)
				; SSE-NEXT: movdqu %xmm0, (%rdi)
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: PR52039:			; AVX1-LABEL: PR52039:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm0 = [10,10,10,10]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm0 = [10,10,10,10]
	; AVX1-NEXT: vpsubd 16(%rdi), %xmm0, %xmm1			; AVX1-NEXT: vpsubd 16(%rdi), %xmm0, %xmm1
	; AVX1-NEXT: vpsubd (%rdi), %xmm0, %xmm0			; AVX1-NEXT: vpsubd (%rdi), %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm0, %xmm2			; AVX1-NEXT: vpaddd %xmm0, %xmm0, %xmm2
	▲ Show 20 Lines • Show All 311 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/omit-urem-of-power-of-two-or-zero-when-comparing-with-zero.ll

	Show First 20 Lines • Show All 312 Lines • ▼ Show 20 Lines
	; SSE4-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; SSE4-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; SSE4-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE4-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE4-NEXT: movdqa {{.*#+}} xmm2 = [2863311531,2863311531,2863311531,2863311531]			; SSE4-NEXT: movdqa {{.*#+}} xmm2 = [2863311531,2863311531,2863311531,2863311531]
	; SSE4-NEXT: pmuludq %xmm2, %xmm1			; SSE4-NEXT: pmuludq %xmm2, %xmm1
	; SSE4-NEXT: pmuludq %xmm0, %xmm2			; SSE4-NEXT: pmuludq %xmm0, %xmm2
	; SSE4-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; SSE4-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSE4-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]			; SSE4-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; SSE4-NEXT: psrld $2, %xmm2			; SSE4-NEXT: psrld $2, %xmm2
	; SSE4-NEXT: pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2			; SSE4-NEXT: movdqa %xmm2, %xmm1
				; SSE4-NEXT: paddd %xmm2, %xmm1
				; SSE4-NEXT: pslld $2, %xmm2
				pengfeiUnsubmitted Not Done Reply Inline Actions IIRC, the intention is to generate `pslld` for new targets. Why this is affected given it's a general turning? The same for others. I didn't check all, but in most tests we just enable features without specifying a turning target. pengfei: IIRC, the intention is to generate `pslld` for new targets. Why this is affected given it's a…
				goldstein.w.nAuthorUnsubmitted Done Reply Inline Actions IIRC, the intention is to generate `pslld` for new targets. Why this is affected given it's a general turning? The same for others. I didn't check all, but in most tests we just enable features without specifying a turning target. That was the 2x `pslld` case but changed to cover the 1x `pslld` + 2x `padd` case as well. goldstein.w.n: > IIRC, the intention is to generate `pslld` for new targets. Why this is affected given it's a…
				; SSE4-NEXT: paddd %xmm1, %xmm2
	; SSE4-NEXT: psubd %xmm2, %xmm0			; SSE4-NEXT: psubd %xmm2, %xmm0
	; SSE4-NEXT: pxor %xmm1, %xmm1			; SSE4-NEXT: pxor %xmm1, %xmm1
	; SSE4-NEXT: pcmpeqd %xmm1, %xmm0			; SSE4-NEXT: pcmpeqd %xmm1, %xmm0
	; SSE4-NEXT: retq			; SSE4-NEXT: retq
	;			;
	; AVX2-LABEL: p8_vector_urem_by_const__nonsplat_undef3:			; AVX2-LABEL: p8_vector_urem_by_const__nonsplat_undef3:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [128,128,128,128]			; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [128,128,128,128]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2863311531,2863311531,2863311531,2863311531]			; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2863311531,2863311531,2863311531,2863311531]
	; AVX2-NEXT: vpmuludq %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpmuludq %xmm2, %xmm0, %xmm2			; AVX2-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
	; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
	; AVX2-NEXT: vpsrld $2, %xmm1, %xmm1			; AVX2-NEXT: vpsrld $2, %xmm1, %xmm1
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [6,6,6,6]			; AVX2-NEXT: vpaddd %xmm1, %xmm1, %xmm2
	; AVX2-NEXT: vpmulld %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpslld $2, %xmm1, %xmm1
				; AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%t0 = and <4 x i32> %x, <i32 128, i32 128, i32 undef, i32 128>			%t0 = and <4 x i32> %x, <i32 128, i32 128, i32 undef, i32 128>
	%t1 = urem <4 x i32> %t0, <i32 6, i32 6, i32 6, i32 6> ; '6' is clearly not a power of two			%t1 = urem <4 x i32> %t0, <i32 6, i32 6, i32 6, i32 6> ; '6' is clearly not a power of two
	%t2 = icmp eq <4 x i32> %t1, <i32 0, i32 0, i32 undef, i32 0>			%t2 = icmp eq <4 x i32> %t1, <i32 0, i32 0, i32 undef, i32 0>
	ret <4 x i1> %t2			ret <4 x i1> %t2
	Show All 37 Lines

llvm/test/CodeGen/X86/rotate-extract-vector.ll

Show All 30 Lines	; CHECK-NEXT: ret{{[l\|q]}}
%lhs_div = lshr <4 x i64> %i, <i64 40, i64 40, i64 40, i64 40>		%lhs_div = lshr <4 x i64> %i, <i64 40, i64 40, i64 40, i64 40>
%rhs_div = lshr <4 x i64> %i, <i64 5, i64 5, i64 5, i64 5>		%rhs_div = lshr <4 x i64> %i, <i64 5, i64 5, i64 5, i64 5>
%rhs_shift = shl <4 x i64> %rhs_div, <i64 29, i64 29, i64 29, i64 29>		%rhs_shift = shl <4 x i64> %rhs_div, <i64 29, i64 29, i64 29, i64 29>
%out = or <4 x i64> %lhs_div, %rhs_shift		%out = or <4 x i64> %lhs_div, %rhs_shift
ret <4 x i64> %out		ret <4 x i64> %out
}		}

define <8 x i32> @vroll_extract_mul(<8 x i32> %i) nounwind {		define <8 x i32> @vroll_extract_mul(<8 x i32> %i) nounwind {
; X86-LABEL: vroll_extract_mul:		; CHECK-LABEL: vroll_extract_mul:
; X86: # %bb.0:		; CHECK: # %bb.0:
; X86-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}{1to8}, %ymm0, %ymm0		; CHECK-NEXT: vpaddd %ymm0, %ymm0, %ymm1
; X86-NEXT: vprold $6, %ymm0, %ymm0		; CHECK-NEXT: vpslld $3, %ymm0, %ymm0
; X86-NEXT: retl		; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
;		; CHECK-NEXT: vprold $6, %ymm0, %ymm0
; X64-LABEL: vroll_extract_mul:		; CHECK-NEXT: ret{{[l\|q]}}
; X64: # %bb.0:
; X64-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %ymm0, %ymm0
; X64-NEXT: vprold $6, %ymm0, %ymm0
; X64-NEXT: retq
%lhs_mul = mul <8 x i32> %i, <i32 640, i32 640, i32 640, i32 640, i32 640, i32 640, i32 640, i32 640>		%lhs_mul = mul <8 x i32> %i, <i32 640, i32 640, i32 640, i32 640, i32 640, i32 640, i32 640, i32 640>
%rhs_mul = mul <8 x i32> %i, <i32 10, i32 10, i32 10, i32 10, i32 10, i32 10, i32 10, i32 10>		%rhs_mul = mul <8 x i32> %i, <i32 10, i32 10, i32 10, i32 10, i32 10, i32 10, i32 10, i32 10>
%rhs_shift = lshr <8 x i32> %rhs_mul, <i32 26, i32 26, i32 26, i32 26, i32 26, i32 26, i32 26, i32 26>		%rhs_shift = lshr <8 x i32> %rhs_mul, <i32 26, i32 26, i32 26, i32 26, i32 26, i32 26, i32 26, i32 26>
%out = or <8 x i32> %lhs_mul, %rhs_shift		%out = or <8 x i32> %lhs_mul, %rhs_shift
ret <8 x i32> %out		ret <8 x i32> %out
}		}

define <2 x i64> @vrolq_extract_udiv(<2 x i64> %i) nounwind {		define <2 x i64> @vrolq_extract_udiv(<2 x i64> %i) nounwind {
Show All 40 Lines	; X64-NEXT: retq
%lhs_shift = shl <2 x i64> %lhs_div, <i64 57, i64 57>		%lhs_shift = shl <2 x i64> %lhs_div, <i64 57, i64 57>
%out = or <2 x i64> %lhs_shift, %rhs_div		%out = or <2 x i64> %lhs_shift, %rhs_div
ret <2 x i64> %out		ret <2 x i64> %out
}		}

define <4 x i32> @vrolw_extract_mul_with_mask(<4 x i32> %i) nounwind {		define <4 x i32> @vrolw_extract_mul_with_mask(<4 x i32> %i) nounwind {
; X86-LABEL: vrolw_extract_mul_with_mask:		; X86-LABEL: vrolw_extract_mul_with_mask:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}{1to4}, %xmm0, %xmm0		; X86-NEXT: vpslld $3, %xmm0, %xmm1
		; X86-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; X86-NEXT: vprold $7, %xmm0, %xmm0		; X86-NEXT: vprold $7, %xmm0, %xmm0
; X86-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0, %xmm0		; X86-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: vrolw_extract_mul_with_mask:		; X64-LABEL: vrolw_extract_mul_with_mask:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm0		; X64-NEXT: vpslld $3, %xmm0, %xmm1
		; X64-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; X64-NEXT: vprold $7, %xmm0, %xmm0		; X64-NEXT: vprold $7, %xmm0, %xmm0
; X64-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0		; X64-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%lhs_mul = mul <4 x i32> %i, <i32 1152, i32 1152, i32 1152, i32 1152>		%lhs_mul = mul <4 x i32> %i, <i32 1152, i32 1152, i32 1152, i32 1152>
%rhs_mul = mul <4 x i32> %i, <i32 9, i32 9, i32 9, i32 9>		%rhs_mul = mul <4 x i32> %i, <i32 9, i32 9, i32 9, i32 9>
%lhs_and = and <4 x i32> %lhs_mul, <i32 160, i32 160, i32 160, i32 160>		%lhs_and = and <4 x i32> %lhs_mul, <i32 160, i32 160, i32 160, i32 160>
%rhs_shift = lshr <4 x i32> %rhs_mul, <i32 25, i32 25, i32 25, i32 25>		%rhs_shift = lshr <4 x i32> %rhs_mul, <i32 25, i32 25, i32 25, i32 25>
%out = or <4 x i32> %lhs_and, %rhs_shift		%out = or <4 x i32> %lhs_and, %rhs_shift
ret <4 x i32> %out		ret <4 x i32> %out
}		}

define <32 x i16> @illegal_no_extract_mul(<32 x i16> %i) nounwind {		define <32 x i16> @illegal_no_extract_mul(<32 x i16> %i) nounwind {
; X86-LABEL: illegal_no_extract_mul:		; CHECK-LABEL: illegal_no_extract_mul:
; X86: # %bb.0:		; CHECK: # %bb.0:
; X86-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}, %zmm0, %zmm0		; CHECK-NEXT: vpaddw %zmm0, %zmm0, %zmm1
; X86-NEXT: vpsrlw $10, %zmm0, %zmm1		; CHECK-NEXT: vpsllw $3, %zmm0, %zmm0
; X86-NEXT: vpsllw $6, %zmm0, %zmm0		; CHECK-NEXT: vpaddw %zmm1, %zmm0, %zmm0
; X86-NEXT: vporq %zmm1, %zmm0, %zmm0		; CHECK-NEXT: vpsrlw $10, %zmm0, %zmm1
; X86-NEXT: retl		; CHECK-NEXT: vpsllw $6, %zmm0, %zmm0
;		; CHECK-NEXT: vporq %zmm1, %zmm0, %zmm0
; X64-LABEL: illegal_no_extract_mul:		; CHECK-NEXT: ret{{[l\|q]}}
; X64: # %bb.0:
; X64-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
; X64-NEXT: vpsrlw $10, %zmm0, %zmm1
; X64-NEXT: vpsllw $6, %zmm0, %zmm0
; X64-NEXT: vporq %zmm1, %zmm0, %zmm0
; X64-NEXT: retq
%lhs_mul = mul <32 x i16> %i, <i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640>		%lhs_mul = mul <32 x i16> %i, <i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640>
%rhs_mul = mul <32 x i16> %i, <i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10>		%rhs_mul = mul <32 x i16> %i, <i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10>
%rhs_shift = lshr <32 x i16> %rhs_mul, <i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10>		%rhs_shift = lshr <32 x i16> %rhs_mul, <i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10>
%out = or <32 x i16> %lhs_mul, %rhs_shift		%out = or <32 x i16> %lhs_mul, %rhs_shift
ret <32 x i16> %out		ret <32 x i16> %out
}		}

; Result would undershift		; Result would undershift
Show All 40 Lines	; X64-NEXT: retq
ret <4 x i32> %out		ret <4 x i32> %out
}		}

; Can factor 512 from 1536, but result is 3 instead of 9		; Can factor 512 from 1536, but result is 3 instead of 9
define <8 x i32> @no_extract_mul(<8 x i32> %i) nounwind {		define <8 x i32> @no_extract_mul(<8 x i32> %i) nounwind {
; X86-LABEL: no_extract_mul:		; X86-LABEL: no_extract_mul:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}{1to8}, %ymm0, %ymm1		; X86-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}{1to8}, %ymm0, %ymm1
; X86-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}{1to8}, %ymm0, %ymm0		; X86-NEXT: vpslld $3, %ymm0, %ymm2
		; X86-NEXT: vpaddd %ymm2, %ymm0, %ymm0
; X86-NEXT: vpsrld $23, %ymm0, %ymm0		; X86-NEXT: vpsrld $23, %ymm0, %ymm0
; X86-NEXT: vpor %ymm0, %ymm1, %ymm0		; X86-NEXT: vpor %ymm0, %ymm1, %ymm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: no_extract_mul:		; X64-LABEL: no_extract_mul:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %ymm0, %ymm1		; X64-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %ymm0, %ymm1
; X64-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %ymm0, %ymm0		; X64-NEXT: vpslld $3, %ymm0, %ymm2
		; X64-NEXT: vpaddd %ymm2, %ymm0, %ymm0
; X64-NEXT: vpsrld $23, %ymm0, %ymm0		; X64-NEXT: vpsrld $23, %ymm0, %ymm0
; X64-NEXT: vpor %ymm0, %ymm1, %ymm0		; X64-NEXT: vpor %ymm0, %ymm1, %ymm0
; X64-NEXT: retq		; X64-NEXT: retq
%lhs_mul = mul <8 x i32> %i, <i32 1536, i32 1536, i32 1536, i32 1536, i32 1536, i32 1536, i32 1536, i32 1536>		%lhs_mul = mul <8 x i32> %i, <i32 1536, i32 1536, i32 1536, i32 1536, i32 1536, i32 1536, i32 1536, i32 1536>
%rhs_mul = mul <8 x i32> %i, <i32 9, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9>		%rhs_mul = mul <8 x i32> %i, <i32 9, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9, i32 9>
%rhs_shift = lshr <8 x i32> %rhs_mul, <i32 23, i32 23, i32 23, i32 23, i32 23, i32 23, i32 23, i32 23>		%rhs_shift = lshr <8 x i32> %rhs_mul, <i32 23, i32 23, i32 23, i32 23, i32 23, i32 23, i32 23, i32 23>
%out = or <8 x i32> %lhs_mul, %rhs_shift		%out = or <8 x i32> %lhs_mul, %rhs_shift
ret <8 x i32> %out		ret <8 x i32> %out
▲ Show 20 Lines • Show All 114 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/var-permute-128.ll

	Show First 20 Lines • Show All 167 Lines • ▼ Show 20 Lines
	; SSE3-NEXT: movd %eax, %xmm0			; SSE3-NEXT: movd %eax, %xmm0
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]			; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; SSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: var_shuffle_v8i16:			; SSSE3-LABEL: var_shuffle_v8i16:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; SSSE3-NEXT: movdqa %xmm1, %xmm2
				; SSSE3-NEXT: paddw %xmm1, %xmm2
				; SSSE3-NEXT: psllw $9, %xmm1
				; SSSE3-NEXT: paddw %xmm2, %xmm1
	; SSSE3-NEXT: paddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; SSSE3-NEXT: paddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; SSSE3-NEXT: pshufb %xmm1, %xmm0			; SSSE3-NEXT: pshufb %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: var_shuffle_v8i16:			; SSE41-LABEL: var_shuffle_v8i16:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; SSE41-NEXT: movdqa %xmm1, %xmm2
				; SSE41-NEXT: paddw %xmm1, %xmm2
				; SSE41-NEXT: psllw $9, %xmm1
				; SSE41-NEXT: paddw %xmm2, %xmm1
	; SSE41-NEXT: paddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; SSE41-NEXT: paddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; SSE41-NEXT: pshufb %xmm1, %xmm0			; SSE41-NEXT: pshufb %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVXNOVLBW-LABEL: var_shuffle_v8i16:			; AVXNOVLBW-LABEL: var_shuffle_v8i16:
	; AVXNOVLBW: # %bb.0:			; AVXNOVLBW: # %bb.0:
	; AVXNOVLBW-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVXNOVLBW-NEXT: vpaddw %xmm1, %xmm1, %xmm2
				; AVXNOVLBW-NEXT: vpsllw $9, %xmm1, %xmm1
				; AVXNOVLBW-NEXT: vpaddw %xmm2, %xmm1, %xmm1
	; AVXNOVLBW-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVXNOVLBW-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVXNOVLBW-NEXT: vpshufb %xmm1, %xmm0, %xmm0			; AVXNOVLBW-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVXNOVLBW-NEXT: retq			; AVXNOVLBW-NEXT: retq
	;			;
	; AVX512VL-LABEL: var_shuffle_v8i16:			; AVX512VL-LABEL: var_shuffle_v8i16:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpermw %xmm0, %xmm1, %xmm0			; AVX512VL-NEXT: vpermw %xmm0, %xmm1, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	▲ Show 20 Lines • Show All 1,028 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/var-permute-256.ll

Show First 20 Lines • Show All 127 Lines • ▼ Show 20 Lines	; INT256-NEXT: retq
%ret6 = insertelement <8 x i32> %ret5, i32 %v6, i32 6		%ret6 = insertelement <8 x i32> %ret5, i32 %v6, i32 6
%ret7 = insertelement <8 x i32> %ret6, i32 %v7, i32 7		%ret7 = insertelement <8 x i32> %ret6, i32 %v7, i32 7
ret <8 x i32> %ret7		ret <8 x i32> %ret7
}		}

define <16 x i16> @var_shuffle_v16i16(<16 x i16> %v, <16 x i16> %indices) nounwind {		define <16 x i16> @var_shuffle_v16i16(<16 x i16> %v, <16 x i16> %indices) nounwind {
; XOP-LABEL: var_shuffle_v16i16:		; XOP-LABEL: var_shuffle_v16i16:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [256,256,256,256,256,256,256,256]		; XOP-NEXT: vpaddw %xmm1, %xmm1, %xmm2
; XOP-NEXT: vmovdqa {{.*#+}} xmm3 = [514,514,514,514,514,514,514,514]		; XOP-NEXT: vpsllw $9, %xmm1, %xmm3
; XOP-NEXT: vpmacsww %xmm2, %xmm3, %xmm1, %xmm4		; XOP-NEXT: vpaddw %xmm2, %xmm3, %xmm2
		; XOP-NEXT: vmovdqa {{.*#+}} xmm3 = [256,256,256,256,256,256,256,256]
		; XOP-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; XOP-NEXT: vextractf128 $1, %ymm1, %xmm1		; XOP-NEXT: vextractf128 $1, %ymm1, %xmm1
; XOP-NEXT: vpmacsww %xmm2, %xmm3, %xmm1, %xmm1		; XOP-NEXT: vpaddw %xmm1, %xmm1, %xmm4
; XOP-NEXT: vextractf128 $1, %ymm0, %xmm2		; XOP-NEXT: vpsllw $9, %xmm1, %xmm1
; XOP-NEXT: vpperm %xmm1, %xmm2, %xmm0, %xmm1		; XOP-NEXT: vpaddw %xmm4, %xmm1, %xmm1
; XOP-NEXT: vpperm %xmm4, %xmm2, %xmm0, %xmm0		; XOP-NEXT: vpaddw %xmm3, %xmm1, %xmm1
		; XOP-NEXT: vextractf128 $1, %ymm0, %xmm3
		; XOP-NEXT: vpperm %xmm1, %xmm3, %xmm0, %xmm1
		; XOP-NEXT: vpperm %xmm2, %xmm3, %xmm0, %xmm0
; XOP-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; XOP-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; AVX1-LABEL: var_shuffle_v16i16:		; AVX1-LABEL: var_shuffle_v16i16:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [514,514,514,514,514,514,514,514]		; AVX1-NEXT: vpaddw %xmm1, %xmm1, %xmm2
; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm3		; AVX1-NEXT: vpsllw $9, %xmm1, %xmm3
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [256,256,256,256,256,256,256,256]		; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpaddw %xmm4, %xmm3, %xmm3		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [256,256,256,256,256,256,256,256]
		; AVX1-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpaddw %xmm1, %xmm1, %xmm4
		; AVX1-NEXT: vpsllw $9, %xmm1, %xmm1
; AVX1-NEXT: vpaddw %xmm4, %xmm1, %xmm1		; AVX1-NEXT: vpaddw %xmm4, %xmm1, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; AVX1-NEXT: vpaddw %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vpcmpgtb %xmm2, %xmm1, %xmm4		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
		; AVX1-NEXT: vpcmpgtb %xmm3, %xmm1, %xmm4
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
; AVX1-NEXT: vpshufb %xmm1, %xmm5, %xmm6		; AVX1-NEXT: vpshufb %xmm1, %xmm5, %xmm6
; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
; AVX1-NEXT: vpblendvb %xmm4, %xmm6, %xmm1, %xmm1		; AVX1-NEXT: vpblendvb %xmm4, %xmm6, %xmm1, %xmm1
; AVX1-NEXT: vpcmpgtb %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpcmpgtb %xmm3, %xmm2, %xmm3
; AVX1-NEXT: vpshufb %xmm3, %xmm5, %xmm4		; AVX1-NEXT: vpshufb %xmm2, %xmm5, %xmm4
; AVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vpblendvb %xmm2, %xmm4, %xmm0, %xmm0		; AVX1-NEXT: vpblendvb %xmm3, %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v16i16:		; AVX2-LABEL: var_shuffle_v16i16:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX2-NEXT: vpaddw %ymm1, %ymm1, %ymm2
		; AVX2-NEXT: vpsllw $9, %ymm1, %ymm1
		; AVX2-NEXT: vpaddw %ymm2, %ymm1, %ymm1
; AVX2-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX2-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm0[2,3,2,3]		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm2
; AVX2-NEXT: vpshufb %ymm1, %ymm2, %ymm2		; AVX2-NEXT: vpshufb %ymm1, %ymm2, %ymm2
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,2,3]
; AVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX2-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
; AVX2-NEXT: vpblendvb %ymm1, %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpblendvb %ymm1, %ymm0, %ymm2, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: var_shuffle_v16i16:		; AVX512-LABEL: var_shuffle_v16i16:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX512-NEXT: vpaddw %ymm1, %ymm1, %ymm2
		; AVX512-NEXT: vpsllw $9, %ymm1, %ymm1
		; AVX512-NEXT: vpaddw %ymm2, %ymm1, %ymm1
; AVX512-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX512-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
; AVX512-NEXT: vpermq {{.*#+}} ymm2 = ymm0[2,3,2,3]		; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm2
; AVX512-NEXT: vpshufb %ymm1, %ymm2, %ymm2		; AVX512-NEXT: vpshufb %ymm1, %ymm2, %ymm2
; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0		; AVX512-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,2,3]
; AVX512-NEXT: vpshufb %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpshufb %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX512-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
; AVX512-NEXT: vpblendvb %ymm1, %ymm2, %ymm0, %ymm0		; AVX512-NEXT: vpblendvb %ymm1, %ymm0, %ymm2, %ymm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
;		;
; AVX512VLDQ-LABEL: var_shuffle_v16i16:		; AVX512VLDQ-LABEL: var_shuffle_v16i16:
; AVX512VLDQ: # %bb.0:		; AVX512VLDQ: # %bb.0:
; AVX512VLDQ-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX512VLDQ-NEXT: vpaddw %ymm1, %ymm1, %ymm2
		; AVX512VLDQ-NEXT: vpsllw $9, %ymm1, %ymm1
		; AVX512VLDQ-NEXT: vpaddw %ymm2, %ymm1, %ymm1
; AVX512VLDQ-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX512VLDQ-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm2		; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm2
; AVX512VLDQ-NEXT: vpshufb %ymm1, %ymm2, %ymm2		; AVX512VLDQ-NEXT: vpshufb %ymm1, %ymm2, %ymm2
; AVX512VLDQ-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,2,3]		; AVX512VLDQ-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,2,3]
; AVX512VLDQ-NEXT: vpshufb %ymm1, %ymm0, %ymm3		; AVX512VLDQ-NEXT: vpshufb %ymm1, %ymm0, %ymm3
; AVX512VLDQ-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0		; AVX512VLDQ-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0
; AVX512VLDQ-NEXT: vpternlogq $202, %ymm2, %ymm3, %ymm0		; AVX512VLDQ-NEXT: vpternlogq $202, %ymm2, %ymm3, %ymm0
; AVX512VLDQ-NEXT: retq		; AVX512VLDQ-NEXT: retq
▲ Show 20 Lines • Show All 470 Lines • ▼ Show 20 Lines	entry:
%tmp15 = insertelement <8 x i32> %tmp14, i32 %vecext2.14, i32 6		%tmp15 = insertelement <8 x i32> %tmp14, i32 %vecext2.14, i32 6
%tmp16 = insertelement <8 x i32> %tmp15, i32 %vecext2.15, i32 7		%tmp16 = insertelement <8 x i32> %tmp15, i32 %vecext2.15, i32 7
ret <8 x i32> %tmp16		ret <8 x i32> %tmp16
}		}

define <16 x i16> @var_shuffle_v16i16_from_v8i16(<8 x i16> %v, <16 x i16> %indices) nounwind {		define <16 x i16> @var_shuffle_v16i16_from_v8i16(<8 x i16> %v, <16 x i16> %indices) nounwind {
; XOP-LABEL: var_shuffle_v16i16_from_v8i16:		; XOP-LABEL: var_shuffle_v16i16_from_v8i16:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [256,256,256,256,256,256,256,256]		; XOP-NEXT: vpaddw %xmm1, %xmm1, %xmm2
; XOP-NEXT: vmovdqa {{.*#+}} xmm3 = [514,514,514,514,514,514,514,514]		; XOP-NEXT: vpsllw $9, %xmm1, %xmm3
; XOP-NEXT: vpmacsww %xmm2, %xmm3, %xmm1, %xmm4		; XOP-NEXT: vpaddw %xmm2, %xmm3, %xmm2
		; XOP-NEXT: vmovdqa {{.*#+}} xmm3 = [256,256,256,256,256,256,256,256]
		; XOP-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; XOP-NEXT: vextractf128 $1, %ymm1, %xmm1		; XOP-NEXT: vextractf128 $1, %ymm1, %xmm1
; XOP-NEXT: vpmacsww %xmm2, %xmm3, %xmm1, %xmm1		; XOP-NEXT: vpaddw %xmm1, %xmm1, %xmm4
		; XOP-NEXT: vpsllw $9, %xmm1, %xmm1
		; XOP-NEXT: vpaddw %xmm4, %xmm1, %xmm1
		; XOP-NEXT: vpaddw %xmm3, %xmm1, %xmm1
; XOP-NEXT: vpperm %xmm1, %xmm0, %xmm0, %xmm1		; XOP-NEXT: vpperm %xmm1, %xmm0, %xmm0, %xmm1
; XOP-NEXT: vpperm %xmm4, %xmm0, %xmm0, %xmm0		; XOP-NEXT: vpperm %xmm2, %xmm0, %xmm0, %xmm0
; XOP-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; XOP-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; AVX1-LABEL: var_shuffle_v16i16_from_v8i16:		; AVX1-LABEL: var_shuffle_v16i16_from_v8i16:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [514,514,514,514,514,514,514,514]		; AVX1-NEXT: vpaddw %xmm1, %xmm1, %xmm2
; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm3		; AVX1-NEXT: vpsllw $9, %xmm1, %xmm3
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [256,256,256,256,256,256,256,256]		; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpaddw %xmm4, %xmm3, %xmm3		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [256,256,256,256,256,256,256,256]
		; AVX1-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpaddw %xmm1, %xmm1, %xmm4
		; AVX1-NEXT: vpsllw $9, %xmm1, %xmm1
; AVX1-NEXT: vpaddw %xmm4, %xmm1, %xmm1		; AVX1-NEXT: vpaddw %xmm4, %xmm1, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; AVX1-NEXT: vpaddw %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vpcmpgtb %xmm2, %xmm1, %xmm4		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
		; AVX1-NEXT: vpcmpgtb %xmm3, %xmm1, %xmm4
; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm5		; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm5
; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm1
; AVX1-NEXT: vpblendvb %xmm4, %xmm5, %xmm1, %xmm1		; AVX1-NEXT: vpblendvb %xmm4, %xmm5, %xmm1, %xmm1
; AVX1-NEXT: vpcmpgtb %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpcmpgtb %xmm3, %xmm2, %xmm3
; AVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm4		; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm4
; AVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vpblendvb %xmm2, %xmm4, %xmm0, %xmm0		; AVX1-NEXT: vpblendvb %xmm3, %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v16i16_from_v8i16:		; AVX2-LABEL: var_shuffle_v16i16_from_v8i16:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0		; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; AVX2-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX2-NEXT: vpaddw %ymm1, %ymm1, %ymm2
		; AVX2-NEXT: vpsllw $9, %ymm1, %ymm1
		; AVX2-NEXT: vpaddw %ymm2, %ymm1, %ymm1
; AVX2-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX2-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
; AVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm2
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
; AVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm0
		; AVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm2
; AVX2-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX2-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
; AVX2-NEXT: vpblendvb %ymm1, %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpblendvb %ymm1, %ymm2, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: var_shuffle_v16i16_from_v8i16:		; AVX512-LABEL: var_shuffle_v16i16_from_v8i16:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; AVX512-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX512-NEXT: vpaddw %ymm1, %ymm1, %ymm2
		; AVX512-NEXT: vpsllw $9, %ymm1, %ymm1
		; AVX512-NEXT: vpaddw %ymm2, %ymm1, %ymm1
; AVX512-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX512-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
; AVX512-NEXT: vpshufb %ymm1, %ymm0, %ymm2
; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0		; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
; AVX512-NEXT: vpshufb %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpshufb %ymm1, %ymm0, %ymm0
		; AVX512-NEXT: vpshufb %ymm1, %ymm0, %ymm2
; AVX512-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX512-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
; AVX512-NEXT: vpblendvb %ymm1, %ymm2, %ymm0, %ymm0		; AVX512-NEXT: vpblendvb %ymm1, %ymm2, %ymm0, %ymm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
;		;
; AVX512VLDQ-LABEL: var_shuffle_v16i16_from_v8i16:		; AVX512VLDQ-LABEL: var_shuffle_v16i16_from_v8i16:
; AVX512VLDQ: # %bb.0:		; AVX512VLDQ: # %bb.0:
; AVX512VLDQ-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0		; AVX512VLDQ-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; AVX512VLDQ-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX512VLDQ-NEXT: vpaddw %ymm1, %ymm1, %ymm2
		; AVX512VLDQ-NEXT: vpsllw $9, %ymm1, %ymm1
		; AVX512VLDQ-NEXT: vpaddw %ymm2, %ymm1, %ymm1
; AVX512VLDQ-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1		; AVX512VLDQ-NEXT: vpaddw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0		; AVX512VLDQ-NEXT: vinserti128 $1, %xmm0, %ymm0, %ymm0
; AVX512VLDQ-NEXT: vpshufb %ymm1, %ymm0, %ymm2		; AVX512VLDQ-NEXT: vpshufb %ymm1, %ymm0, %ymm2
; AVX512VLDQ-NEXT: vpshufb %ymm1, %ymm0, %ymm3		; AVX512VLDQ-NEXT: vpshufb %ymm1, %ymm0, %ymm3
; AVX512VLDQ-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0		; AVX512VLDQ-NEXT: vpcmpgtb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0
; AVX512VLDQ-NEXT: vpternlogq $202, %ymm2, %ymm3, %ymm0		; AVX512VLDQ-NEXT: vpternlogq $202, %ymm2, %ymm3, %ymm0
; AVX512VLDQ-NEXT: retq		; AVX512VLDQ-NEXT: retq
;		;
▲ Show 20 Lines • Show All 581 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-idiv-sdiv-128.ll

	Show First 20 Lines • Show All 481 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pmuldq %xmm0, %xmm2			; SSE41-NEXT: pmuldq %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; SSE41-NEXT: paddd %xmm0, %xmm2			; SSE41-NEXT: paddd %xmm0, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: psrld $31, %xmm1			; SSE41-NEXT: psrld $31, %xmm1
	; SSE41-NEXT: psrad $2, %xmm2			; SSE41-NEXT: psrad $2, %xmm2
	; SSE41-NEXT: paddd %xmm1, %xmm2			; SSE41-NEXT: paddd %xmm1, %xmm2
	; SSE41-NEXT: pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: psubd %xmm2, %xmm0			; SSE41-NEXT: pslld $3, %xmm1
				; SSE41-NEXT: psubd %xmm1, %xmm2
				; SSE41-NEXT: paddd %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_rem7_4i32:			; AVX1-LABEL: test_rem7_4i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [2454267027,2454267027,2454267027,2454267027]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [2454267027,2454267027,2454267027,2454267027]
	; AVX1-NEXT: vpmuldq %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmuldq %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpmuldq %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpmuldq %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm1
	; AVX1-NEXT: vpsrld $31, %xmm1, %xmm2			; AVX1-NEXT: vpsrld $31, %xmm1, %xmm2
	; AVX1-NEXT: vpsrad $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrad $2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpslld $3, %xmm1, %xmm2
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm2, %xmm1, %xmm1
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_rem7_4i32:			; AVX2-LABEL: test_rem7_4i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2454267027,2454267027,2454267027,2454267027]			; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2454267027,2454267027,2454267027,2454267027]
	; AVX2-NEXT: vpmuldq %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpmuldq %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpmuldq %xmm2, %xmm0, %xmm2			; AVX2-NEXT: vpmuldq %xmm2, %xmm0, %xmm2
	; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
	; AVX2-NEXT: vpaddd %xmm0, %xmm1, %xmm1			; AVX2-NEXT: vpaddd %xmm0, %xmm1, %xmm1
	; AVX2-NEXT: vpsrld $31, %xmm1, %xmm2			; AVX2-NEXT: vpsrld $31, %xmm1, %xmm2
	; AVX2-NEXT: vpsrad $2, %xmm1, %xmm1			; AVX2-NEXT: vpsrad $2, %xmm1, %xmm1
	; AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [7,7,7,7]			; AVX2-NEXT: vpslld $3, %xmm1, %xmm2
	; AVX2-NEXT: vpmulld %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpsubd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = srem <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>			%res = srem <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}

	define <8 x i16> @test_rem7_8i16(<8 x i16> %a) nounwind {			define <8 x i16> @test_rem7_8i16(<8 x i16> %a) nounwind {
	; SSE-LABEL: test_rem7_8i16:			; SSE-LABEL: test_rem7_8i16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm1 = [18725,18725,18725,18725,18725,18725,18725,18725]			; SSE-NEXT: movdqa {{.*#+}} xmm1 = [18725,18725,18725,18725,18725,18725,18725,18725]
	; SSE-NEXT: pmulhw %xmm0, %xmm1			; SSE-NEXT: pmulhw %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm1, %xmm2			; SSE-NEXT: movdqa %xmm1, %xmm2
	; SSE-NEXT: psrlw $15, %xmm2			; SSE-NEXT: psrlw $15, %xmm2
	; SSE-NEXT: psraw $1, %xmm1			; SSE-NEXT: psraw $1, %xmm1
	; SSE-NEXT: paddw %xmm2, %xmm1			; SSE-NEXT: paddw %xmm2, %xmm1
	; SSE-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; SSE-NEXT: movdqa %xmm1, %xmm2
	; SSE-NEXT: psubw %xmm1, %xmm0			; SSE-NEXT: psllw $3, %xmm2
				; SSE-NEXT: psubw %xmm2, %xmm1
				; SSE-NEXT: paddw %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_rem7_8i16:			; AVX-LABEL: test_rem7_8i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpmulhw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1			; AVX-NEXT: vpmulhw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1
	; AVX-NEXT: vpsrlw $15, %xmm1, %xmm2			; AVX-NEXT: vpsrlw $15, %xmm1, %xmm2
	; AVX-NEXT: vpsraw $1, %xmm1, %xmm1			; AVX-NEXT: vpsraw $1, %xmm1, %xmm1
	; AVX-NEXT: vpaddw %xmm2, %xmm1, %xmm1			; AVX-NEXT: vpaddw %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpsubw %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%res = srem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = srem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}

	define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {			define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {
	; SSE-LABEL: test_rem7_16i8:			; SSE-LABEL: test_rem7_16i8:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 561 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-idiv-sdiv-256.ll

	Show First 20 Lines • Show All 491 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmuldq %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpmuldq %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpmuldq %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpmuldq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpsrld $31, %ymm1, %ymm2			; AVX2-NEXT: vpsrld $31, %ymm1, %ymm2
	; AVX2-NEXT: vpsrad $2, %ymm1, %ymm1			; AVX2-NEXT: vpsrad $2, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [7,7,7,7,7,7,7,7]			; AVX2-NEXT: vpslld $3, %ymm1, %ymm2
	; AVX2-NEXT: vpmulld %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpsubd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = srem <8 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>			%res = srem <8 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>
	ret <8 x i32> %res			ret <8 x i32> %res
	}			}

	define <16 x i16> @test_rem7_16i16(<16 x i16> %a) nounwind {			define <16 x i16> @test_rem7_16i16(<16 x i16> %a) nounwind {
	; AVX1-LABEL: test_rem7_16i16:			; AVX1-LABEL: test_rem7_16i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	Show All 17 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_rem7_16i16:			; AVX2-LABEL: test_rem7_16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulhw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1			; AVX2-NEXT: vpmulhw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1
	; AVX2-NEXT: vpsrlw $15, %ymm1, %ymm2			; AVX2-NEXT: vpsrlw $15, %ymm1, %ymm2
	; AVX2-NEXT: vpsraw $1, %ymm1, %ymm1			; AVX2-NEXT: vpsraw $1, %ymm1, %ymm1
	; AVX2-NEXT: vpaddw %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddw %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1			; AVX2-NEXT: vpsllw $3, %ymm1, %ymm2
	; AVX2-NEXT: vpsubw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsubw %ymm2, %ymm1, %ymm1
				; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = srem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = srem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <16 x i16> %res			ret <16 x i16> %res
	}			}

	define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {			define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {
	; AVX1-LABEL: test_rem7_32i8:			; AVX1-LABEL: test_rem7_32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 227 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-idiv-sdiv-512.ll

	Show First 20 Lines • Show All 394 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpshufd {{.*#+}} zmm3 = zmm0[1,1,3,3,5,5,7,7,9,9,11,11,13,13,15,15]			; AVX-NEXT: vpshufd {{.*#+}} zmm3 = zmm0[1,1,3,3,5,5,7,7,9,9,11,11,13,13,15,15]
	; AVX-NEXT: vpmuldq %zmm1, %zmm3, %zmm1			; AVX-NEXT: vpmuldq %zmm1, %zmm3, %zmm1
	; AVX-NEXT: vmovdqa64 {{.*#+}} zmm3 = [1,17,3,19,5,21,7,23,9,25,11,27,13,29,15,31]			; AVX-NEXT: vmovdqa64 {{.*#+}} zmm3 = [1,17,3,19,5,21,7,23,9,25,11,27,13,29,15,31]
	; AVX-NEXT: vpermi2d %zmm1, %zmm2, %zmm3			; AVX-NEXT: vpermi2d %zmm1, %zmm2, %zmm3
	; AVX-NEXT: vpaddd %zmm0, %zmm3, %zmm1			; AVX-NEXT: vpaddd %zmm0, %zmm3, %zmm1
	; AVX-NEXT: vpsrld $31, %zmm1, %zmm2			; AVX-NEXT: vpsrld $31, %zmm1, %zmm2
	; AVX-NEXT: vpsrad $2, %zmm1, %zmm1			; AVX-NEXT: vpsrad $2, %zmm1, %zmm1
	; AVX-NEXT: vpaddd %zmm2, %zmm1, %zmm1			; AVX-NEXT: vpaddd %zmm2, %zmm1, %zmm1
	; AVX-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to16}, %zmm1, %zmm1			; AVX-NEXT: vpslld $3, %zmm1, %zmm2
	; AVX-NEXT: vpsubd %zmm1, %zmm0, %zmm0			; AVX-NEXT: vpsubd %zmm2, %zmm1, %zmm1
				; AVX-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%res = srem <16 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>			%res = srem <16 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>
	ret <16 x i32> %res			ret <16 x i32> %res
	}			}

	define <32 x i16> @test_rem7_32i16(<32 x i16> %a) nounwind {			define <32 x i16> @test_rem7_32i16(<32 x i16> %a) nounwind {
	; AVX512F-LABEL: test_rem7_32i16:			; AVX512F-LABEL: test_rem7_32i16:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	Show All 17 Lines
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_32i16:			; AVX512BW-LABEL: test_rem7_32i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmulhw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1			; AVX512BW-NEXT: vpmulhw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1
	; AVX512BW-NEXT: vpsrlw $15, %zmm1, %zmm2			; AVX512BW-NEXT: vpsrlw $15, %zmm1, %zmm2
	; AVX512BW-NEXT: vpsraw $1, %zmm1, %zmm1			; AVX512BW-NEXT: vpsraw $1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddw %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddw %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpsllw $3, %zmm1, %zmm2
	; AVX512BW-NEXT: vpsubw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpsubw %zmm2, %zmm1, %zmm1
				; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = srem <32 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = srem <32 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <32 x i16> %res			ret <32 x i16> %res
	}			}

	define <64 x i8> @test_rem7_64i8(<64 x i8> %a) nounwind {			define <64 x i8> @test_rem7_64i8(<64 x i8> %a) nounwind {
	; AVX512F-LABEL: test_rem7_64i8:			; AVX512F-LABEL: test_rem7_64i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	▲ Show 20 Lines • Show All 185 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-idiv-udiv-128.ll

	Show First 20 Lines • Show All 552 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pmuludq %xmm0, %xmm2			; SSE41-NEXT: pmuludq %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psubd %xmm2, %xmm1			; SSE41-NEXT: psubd %xmm2, %xmm1
	; SSE41-NEXT: psrld $1, %xmm1			; SSE41-NEXT: psrld $1, %xmm1
	; SSE41-NEXT: paddd %xmm2, %xmm1			; SSE41-NEXT: paddd %xmm2, %xmm1
	; SSE41-NEXT: psrld $2, %xmm1			; SSE41-NEXT: psrld $2, %xmm1
	; SSE41-NEXT: pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psubd %xmm1, %xmm0			; SSE41-NEXT: pslld $3, %xmm2
				; SSE41-NEXT: psubd %xmm2, %xmm1
				; SSE41-NEXT: paddd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_rem7_4i32:			; AVX1-LABEL: test_rem7_4i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
	; AVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3],xmm2[4,5],xmm1[6,7]
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vpsrld $1, %xmm2, %xmm2			; AVX1-NEXT: vpsrld $1, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsrld $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrld $2, %xmm1, %xmm1
	; AVX1-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpslld $3, %xmm1, %xmm2
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm2, %xmm1, %xmm1
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_rem7_4i32:			; AVX2-LABEL: test_rem7_4i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]			; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [613566757,613566757,613566757,613566757]
	; AVX2-NEXT: vpmuludq %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpmuludq %xmm2, %xmm0, %xmm2			; AVX2-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
	; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0],xmm1[1],xmm2[2],xmm1[3]
	; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm2			; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm2
	; AVX2-NEXT: vpsrld $1, %xmm2, %xmm2			; AVX2-NEXT: vpsrld $1, %xmm2, %xmm2
	; AVX2-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; AVX2-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; AVX2-NEXT: vpsrld $2, %xmm1, %xmm1			; AVX2-NEXT: vpsrld $2, %xmm1, %xmm1
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [7,7,7,7]			; AVX2-NEXT: vpslld $3, %xmm1, %xmm2
	; AVX2-NEXT: vpmulld %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpsubd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = urem <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>			%res = urem <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}

	define <8 x i16> @test_rem7_8i16(<8 x i16> %a) nounwind {			define <8 x i16> @test_rem7_8i16(<8 x i16> %a) nounwind {
	; SSE-LABEL: test_rem7_8i16:			; SSE-LABEL: test_rem7_8i16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm1 = [9363,9363,9363,9363,9363,9363,9363,9363]			; SSE-NEXT: movdqa {{.*#+}} xmm1 = [9363,9363,9363,9363,9363,9363,9363,9363]
	; SSE-NEXT: pmulhuw %xmm0, %xmm1			; SSE-NEXT: pmulhuw %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psubw %xmm1, %xmm2			; SSE-NEXT: psubw %xmm1, %xmm2
	; SSE-NEXT: psrlw $1, %xmm2			; SSE-NEXT: psrlw $1, %xmm2
	; SSE-NEXT: paddw %xmm1, %xmm2			; SSE-NEXT: paddw %xmm1, %xmm2
	; SSE-NEXT: psrlw $2, %xmm2			; SSE-NEXT: psrlw $2, %xmm2
	; SSE-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2			; SSE-NEXT: movdqa %xmm2, %xmm1
	; SSE-NEXT: psubw %xmm2, %xmm0			; SSE-NEXT: psllw $3, %xmm1
				; SSE-NEXT: psubw %xmm1, %xmm2
				; SSE-NEXT: paddw %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_rem7_8i16:			; AVX-LABEL: test_rem7_8i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpmulhuw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1			; AVX-NEXT: vpmulhuw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1
	; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm2			; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm2
	; AVX-NEXT: vpsrlw $1, %xmm2, %xmm2			; AVX-NEXT: vpsrlw $1, %xmm2, %xmm2
	; AVX-NEXT: vpaddw %xmm1, %xmm2, %xmm1			; AVX-NEXT: vpaddw %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpsubw %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%res = urem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = urem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}

	define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {			define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {
	; SSE2-LABEL: test_rem7_16i8:			; SSE2-LABEL: test_rem7_16i8:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	▲ Show 20 Lines • Show All 304 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-idiv-udiv-256.ll

	Show First 20 Lines • Show All 522 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmuludq %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpmuludq %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm2[0],ymm1[1],ymm2[2],ymm1[3],ymm2[4],ymm1[5],ymm2[6],ymm1[7]
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrld $1, %ymm2, %ymm2			; AVX2-NEXT: vpsrld $1, %ymm2, %ymm2
	; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpsrld $2, %ymm1, %ymm1			; AVX2-NEXT: vpsrld $2, %ymm1, %ymm1
	; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [7,7,7,7,7,7,7,7]			; AVX2-NEXT: vpslld $3, %ymm1, %ymm2
	; AVX2-NEXT: vpmulld %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpsubd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = urem <8 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>			%res = urem <8 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>
	ret <8 x i32> %res			ret <8 x i32> %res
	}			}

	define <16 x i16> @test_rem7_16i16(<16 x i16> %a) nounwind {			define <16 x i16> @test_rem7_16i16(<16 x i16> %a) nounwind {
	; AVX1-LABEL: test_rem7_16i16:			; AVX1-LABEL: test_rem7_16i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	Show All 20 Lines
	;			;
	; AVX2-LABEL: test_rem7_16i16:			; AVX2-LABEL: test_rem7_16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulhuw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1			; AVX2-NEXT: vpmulhuw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1
	; AVX2-NEXT: vpsubw %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpsubw %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlw $1, %ymm2, %ymm2			; AVX2-NEXT: vpsrlw $1, %ymm2, %ymm2
	; AVX2-NEXT: vpaddw %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddw %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpsrlw $2, %ymm1, %ymm1			; AVX2-NEXT: vpsrlw $2, %ymm1, %ymm1
	; AVX2-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1			; AVX2-NEXT: vpsllw $3, %ymm1, %ymm2
	; AVX2-NEXT: vpsubw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsubw %ymm2, %ymm1, %ymm1
				; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = urem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = urem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <16 x i16> %res			ret <16 x i16> %res
	}			}

	define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {			define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {
	; AVX1-LABEL: test_rem7_32i8:			; AVX1-LABEL: test_rem7_32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 233 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-idiv-udiv-512.ll

	Show First 20 Lines • Show All 414 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpshufd {{.*#+}} zmm3 = zmm0[1,1,3,3,5,5,7,7,9,9,11,11,13,13,15,15]			; AVX-NEXT: vpshufd {{.*#+}} zmm3 = zmm0[1,1,3,3,5,5,7,7,9,9,11,11,13,13,15,15]
	; AVX-NEXT: vpmuludq %zmm1, %zmm3, %zmm1			; AVX-NEXT: vpmuludq %zmm1, %zmm3, %zmm1
	; AVX-NEXT: vmovdqa64 {{.*#+}} zmm3 = [1,17,3,19,5,21,7,23,9,25,11,27,13,29,15,31]			; AVX-NEXT: vmovdqa64 {{.*#+}} zmm3 = [1,17,3,19,5,21,7,23,9,25,11,27,13,29,15,31]
	; AVX-NEXT: vpermi2d %zmm1, %zmm2, %zmm3			; AVX-NEXT: vpermi2d %zmm1, %zmm2, %zmm3
	; AVX-NEXT: vpsubd %zmm3, %zmm0, %zmm1			; AVX-NEXT: vpsubd %zmm3, %zmm0, %zmm1
	; AVX-NEXT: vpsrld $1, %zmm1, %zmm1			; AVX-NEXT: vpsrld $1, %zmm1, %zmm1
	; AVX-NEXT: vpaddd %zmm3, %zmm1, %zmm1			; AVX-NEXT: vpaddd %zmm3, %zmm1, %zmm1
	; AVX-NEXT: vpsrld $2, %zmm1, %zmm1			; AVX-NEXT: vpsrld $2, %zmm1, %zmm1
	; AVX-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to16}, %zmm1, %zmm1			; AVX-NEXT: vpslld $3, %zmm1, %zmm2
	; AVX-NEXT: vpsubd %zmm1, %zmm0, %zmm0			; AVX-NEXT: vpsubd %zmm2, %zmm1, %zmm1
				; AVX-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%res = urem <16 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>			%res = urem <16 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>
	ret <16 x i32> %res			ret <16 x i32> %res
	}			}

	define <32 x i16> @test_rem7_32i16(<32 x i16> %a) nounwind {			define <32 x i16> @test_rem7_32i16(<32 x i16> %a) nounwind {
	; AVX512F-LABEL: test_rem7_32i16:			; AVX512F-LABEL: test_rem7_32i16:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	Show All 20 Lines
	;			;
	; AVX512BW-LABEL: test_rem7_32i16:			; AVX512BW-LABEL: test_rem7_32i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmulhuw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1			; AVX512BW-NEXT: vpmulhuw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1
	; AVX512BW-NEXT: vpsubw %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpsubw %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vpsrlw $1, %zmm2, %zmm2			; AVX512BW-NEXT: vpsrlw $1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpaddw %zmm1, %zmm2, %zmm1			; AVX512BW-NEXT: vpaddw %zmm1, %zmm2, %zmm1
	; AVX512BW-NEXT: vpsrlw $2, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpsllw $3, %zmm1, %zmm2
	; AVX512BW-NEXT: vpsubw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpsubw %zmm2, %zmm1, %zmm1
				; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = urem <32 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = urem <32 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <32 x i16> %res			ret <32 x i16> %res
	}			}

	define <64 x i8> @test_rem7_64i8(<64 x i8> %a) nounwind {			define <64 x i8> @test_rem7_64i8(<64 x i8> %a) nounwind {
	; AVX512F-LABEL: test_rem7_64i8:			; AVX512F-LABEL: test_rem7_64i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	▲ Show 20 Lines • Show All 186 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-mul.ll

Show First 20 Lines • Show All 316 Lines • ▼ Show 20 Lines
; X64-AVX-NEXT: vpsllq $4, %xmm0, %xmm1		; X64-AVX-NEXT: vpsllq $4, %xmm0, %xmm1
; X64-AVX-NEXT: vpaddq %xmm0, %xmm1, %xmm0		; X64-AVX-NEXT: vpaddq %xmm0, %xmm1, %xmm0
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%1 = mul <2 x i64> %a0, <i64 17, i64 17>		%1 = mul <2 x i64> %a0, <i64 17, i64 17>
ret <2 x i64> %1		ret <2 x i64> %1
}		}

define <4 x i32> @mul_v4i32_17(<4 x i32> %a0) nounwind {		define <4 x i32> @mul_v4i32_17(<4 x i32> %a0) nounwind {
; SSE2-LABEL: mul_v4i32_17:		; SSE-LABEL: mul_v4i32_17:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: pslld $4, %xmm1		; SSE-NEXT: pslld $4, %xmm1
; SSE2-NEXT: paddd %xmm1, %xmm0		; SSE-NEXT: paddd %xmm1, %xmm0
; SSE2-NEXT: ret{{[l\|q]}}		; SSE-NEXT: ret{{[l\|q]}}
;
; X86-SSE4-LABEL: mul_v4i32_17:
; X86-SSE4: # %bb.0:
; X86-SSE4-NEXT: pmulld {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
; X86-SSE4-NEXT: retl
;
; X64-SSE4-FAST-LABEL: mul_v4i32_17:
; X64-SSE4-FAST: # %bb.0:
; X64-SSE4-FAST-NEXT: pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; X64-SSE4-FAST-NEXT: retq
;
; X64-SSE4-SLOW-LABEL: mul_v4i32_17:
; X64-SSE4-SLOW: # %bb.0:
; X64-SSE4-SLOW-NEXT: movdqa %xmm0, %xmm1
; X64-SSE4-SLOW-NEXT: pslld $4, %xmm1
; X64-SSE4-SLOW-NEXT: paddd %xmm1, %xmm0
; X64-SSE4-SLOW-NEXT: retq
;		;
; X64-XOP-LABEL: mul_v4i32_17:		; X64-XOP-LABEL: mul_v4i32_17:
; X64-XOP: # %bb.0:		; X64-XOP: # %bb.0:
; X64-XOP-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0		; X64-XOP-NEXT: vpslld $4, %xmm0, %xmm1
		; X64-XOP-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; X64-XOP-NEXT: retq		; X64-XOP-NEXT: retq
;		;
; X64-AVX2-LABEL: mul_v4i32_17:		; X64-AVX2-LABEL: mul_v4i32_17:
; X64-AVX2: # %bb.0:		; X64-AVX2: # %bb.0:
; X64-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [17,17,17,17]		; X64-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [17,17,17,17]
; X64-AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0		; X64-AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
; X64-AVX2-NEXT: retq		; X64-AVX2-NEXT: retq
;		;
; X64-AVX512DQ-LABEL: mul_v4i32_17:		; X64-AVX512DQ-LABEL: mul_v4i32_17:
; X64-AVX512DQ: # %bb.0:		; X64-AVX512DQ: # %bb.0:
; X64-AVX512DQ-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm0		; X64-AVX512DQ-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm0
; X64-AVX512DQ-NEXT: retq		; X64-AVX512DQ-NEXT: retq
%1 = mul <4 x i32> %a0, <i32 17, i32 17, i32 17, i32 17>		%1 = mul <4 x i32> %a0, <i32 17, i32 17, i32 17, i32 17>
ret <4 x i32> %1		ret <4 x i32> %1
}		}

define <8 x i16> @mul_v8i16_17(<8 x i16> %a0) nounwind {		define <8 x i16> @mul_v8i16_17(<8 x i16> %a0) nounwind {
; X86-SSE-LABEL: mul_v8i16_17:		; SSE-LABEL: mul_v8i16_17:
; X86-SSE: # %bb.0:		; SSE: # %bb.0:
; X86-SSE-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0		; SSE-NEXT: movdqa %xmm0, %xmm1
; X86-SSE-NEXT: retl		; SSE-NEXT: psllw $4, %xmm1
;		; SSE-NEXT: paddw %xmm1, %xmm0
; X64-SSE-LABEL: mul_v8i16_17:		; SSE-NEXT: ret{{[l\|q]}}
; X64-SSE: # %bb.0:
; X64-SSE-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; X64-SSE-NEXT: retq
;		;
; X64-AVX-LABEL: mul_v8i16_17:		; X64-AVX-LABEL: mul_v8i16_17:
; X64-AVX: # %bb.0:		; X64-AVX: # %bb.0:
; X64-AVX-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0		; X64-AVX-NEXT: vpsllw $4, %xmm0, %xmm1
		; X64-AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%1 = mul <8 x i16> %a0, <i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17>		%1 = mul <8 x i16> %a0, <i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17>
ret <8 x i16> %1		ret <8 x i16> %1
}		}

define <16 x i8> @mul_v16i8_17(<16 x i8> %a0) nounwind {		define <16 x i8> @mul_v16i8_17(<16 x i8> %a0) nounwind {
; X86-SSE-LABEL: mul_v16i8_17:		; X86-SSE-LABEL: mul_v16i8_17:
; X86-SSE: # %bb.0:		; X86-SSE: # %bb.0:
▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
; X64-AVX512DQ-NEXT: vpsllq $4, %ymm0, %ymm1		; X64-AVX512DQ-NEXT: vpsllq $4, %ymm0, %ymm1
; X64-AVX512DQ-NEXT: vpaddq %ymm0, %ymm1, %ymm0		; X64-AVX512DQ-NEXT: vpaddq %ymm0, %ymm1, %ymm0
; X64-AVX512DQ-NEXT: retq		; X64-AVX512DQ-NEXT: retq
%1 = mul <4 x i64> %a0, <i64 17, i64 17, i64 17, i64 17>		%1 = mul <4 x i64> %a0, <i64 17, i64 17, i64 17, i64 17>
ret <4 x i64> %1		ret <4 x i64> %1
}		}

define <8 x i32> @mul_v8i32_17(<8 x i32> %a0) nounwind {		define <8 x i32> @mul_v8i32_17(<8 x i32> %a0) nounwind {
; SSE2-LABEL: mul_v8i32_17:		; SSE-LABEL: mul_v8i32_17:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm2		; SSE-NEXT: movdqa %xmm0, %xmm2
; SSE2-NEXT: pslld $4, %xmm2		; SSE-NEXT: pslld $4, %xmm2
; SSE2-NEXT: paddd %xmm2, %xmm0		; SSE-NEXT: paddd %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm1, %xmm2		; SSE-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: pslld $4, %xmm2		; SSE-NEXT: pslld $4, %xmm2
; SSE2-NEXT: paddd %xmm2, %xmm1		; SSE-NEXT: paddd %xmm2, %xmm1
; SSE2-NEXT: ret{{[l\|q]}}		; SSE-NEXT: ret{{[l\|q]}}
;
; X86-SSE4-LABEL: mul_v8i32_17:
; X86-SSE4: # %bb.0:
; X86-SSE4-NEXT: movdqa {{.*#+}} xmm2 = [17,17,17,17]
; X86-SSE4-NEXT: pmulld %xmm2, %xmm0
; X86-SSE4-NEXT: pmulld %xmm2, %xmm1
; X86-SSE4-NEXT: retl
;
; X64-SSE4-FAST-LABEL: mul_v8i32_17:
; X64-SSE4-FAST: # %bb.0:
; X64-SSE4-FAST-NEXT: movdqa {{.*#+}} xmm2 = [17,17,17,17]
; X64-SSE4-FAST-NEXT: pmulld %xmm2, %xmm0
; X64-SSE4-FAST-NEXT: pmulld %xmm2, %xmm1
; X64-SSE4-FAST-NEXT: retq
;
; X64-SSE4-SLOW-LABEL: mul_v8i32_17:
; X64-SSE4-SLOW: # %bb.0:
; X64-SSE4-SLOW-NEXT: movdqa %xmm0, %xmm2
; X64-SSE4-SLOW-NEXT: pslld $4, %xmm2
; X64-SSE4-SLOW-NEXT: paddd %xmm2, %xmm0
; X64-SSE4-SLOW-NEXT: movdqa %xmm1, %xmm2
; X64-SSE4-SLOW-NEXT: pslld $4, %xmm2
; X64-SSE4-SLOW-NEXT: paddd %xmm2, %xmm1
; X64-SSE4-SLOW-NEXT: retq
;		;
; X64-XOP-LABEL: mul_v8i32_17:		; X64-XOP-LABEL: mul_v8i32_17:
; X64-XOP: # %bb.0:		; X64-XOP: # %bb.0:
; X64-XOP-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-XOP-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-XOP-NEXT: vpslld $4, %xmm1, %xmm2		; X64-XOP-NEXT: vpslld $4, %xmm1, %xmm2
; X64-XOP-NEXT: vpaddd %xmm1, %xmm2, %xmm1		; X64-XOP-NEXT: vpaddd %xmm1, %xmm2, %xmm1
; X64-XOP-NEXT: vpslld $4, %xmm0, %xmm2		; X64-XOP-NEXT: vpslld $4, %xmm0, %xmm2
; X64-XOP-NEXT: vpaddd %xmm0, %xmm2, %xmm0		; X64-XOP-NEXT: vpaddd %xmm0, %xmm2, %xmm0
Show All 12 Lines
; X64-AVX512DQ-NEXT: retq		; X64-AVX512DQ-NEXT: retq
%1 = mul <8 x i32> %a0, <i32 17, i32 17, i32 17, i32 17, i32 17, i32 17, i32 17, i32 17>		%1 = mul <8 x i32> %a0, <i32 17, i32 17, i32 17, i32 17, i32 17, i32 17, i32 17, i32 17>
ret <8 x i32> %1		ret <8 x i32> %1
}		}

define <16 x i16> @mul_v16i16_17(<16 x i16> %a0) nounwind {		define <16 x i16> @mul_v16i16_17(<16 x i16> %a0) nounwind {
; SSE-LABEL: mul_v16i16_17:		; SSE-LABEL: mul_v16i16_17:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [17,17,17,17,17,17,17,17]		; SSE-NEXT: movdqa %xmm0, %xmm2
; SSE-NEXT: pmullw %xmm2, %xmm0		; SSE-NEXT: psllw $4, %xmm2
; SSE-NEXT: pmullw %xmm2, %xmm1		; SSE-NEXT: paddw %xmm2, %xmm0
		; SSE-NEXT: movdqa %xmm1, %xmm2
		; SSE-NEXT: psllw $4, %xmm2
		; SSE-NEXT: paddw %xmm2, %xmm1
; SSE-NEXT: ret{{[l\|q]}}		; SSE-NEXT: ret{{[l\|q]}}
;		;
; X64-XOP-LABEL: mul_v16i16_17:		; X64-XOP-LABEL: mul_v16i16_17:
; X64-XOP: # %bb.0:		; X64-XOP: # %bb.0:
; X64-XOP-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-XOP-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-XOP-NEXT: vpsllw $4, %xmm1, %xmm2		; X64-XOP-NEXT: vpsllw $4, %xmm1, %xmm2
; X64-XOP-NEXT: vpaddw %xmm1, %xmm2, %xmm1		; X64-XOP-NEXT: vpaddw %xmm1, %xmm2, %xmm1
; X64-XOP-NEXT: vpsllw $4, %xmm0, %xmm2		; X64-XOP-NEXT: vpsllw $4, %xmm0, %xmm2
; X64-XOP-NEXT: vpaddw %xmm0, %xmm2, %xmm0		; X64-XOP-NEXT: vpaddw %xmm0, %xmm2, %xmm0
; X64-XOP-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; X64-XOP-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; X64-XOP-NEXT: retq		; X64-XOP-NEXT: retq
;		;
; X64-AVX2-LABEL: mul_v16i16_17:		; X64-AVX2-LABEL: mul_v16i16_17:
; X64-AVX2: # %bb.0:		; X64-AVX2: # %bb.0:
; X64-AVX2-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0		; X64-AVX2-NEXT: vpsllw $4, %ymm0, %ymm1
		; X64-AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; X64-AVX2-NEXT: retq		; X64-AVX2-NEXT: retq
;		;
; X64-AVX512DQ-LABEL: mul_v16i16_17:		; X64-AVX512DQ-LABEL: mul_v16i16_17:
; X64-AVX512DQ: # %bb.0:		; X64-AVX512DQ: # %bb.0:
; X64-AVX512DQ-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0		; X64-AVX512DQ-NEXT: vpsllw $4, %ymm0, %ymm1
		; X64-AVX512DQ-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; X64-AVX512DQ-NEXT: retq		; X64-AVX512DQ-NEXT: retq
%1 = mul <16 x i16> %a0, <i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17>		%1 = mul <16 x i16> %a0, <i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17, i16 17>
ret <16 x i16> %1		ret <16 x i16> %1
}		}

define <32 x i8> @mul_v32i8_17(<32 x i8> %a0) nounwind {		define <32 x i8> @mul_v32i8_17(<32 x i8> %a0) nounwind {
; SSE-LABEL: mul_v32i8_17:		; SSE-LABEL: mul_v32i8_17:
; SSE: # %bb.0:		; SSE: # %bb.0:
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
; X64-AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1		; X64-AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
; X64-AVX-NEXT: vpsubq %xmm0, %xmm1, %xmm0		; X64-AVX-NEXT: vpsubq %xmm0, %xmm1, %xmm0
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%1 = mul <2 x i64> %a0, <i64 -1025, i64 -1025>		%1 = mul <2 x i64> %a0, <i64 -1025, i64 -1025>
ret <2 x i64> %1		ret <2 x i64> %1
}		}

define <4 x i32> @mul_v4i32_neg33(<4 x i32> %a0) nounwind {		define <4 x i32> @mul_v4i32_neg33(<4 x i32> %a0) nounwind {
; SSE2-LABEL: mul_v4i32_neg33:		; SSE-LABEL: mul_v4i32_neg33:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: pslld $5, %xmm1		; SSE-NEXT: pslld $5, %xmm1
; SSE2-NEXT: paddd %xmm0, %xmm1		; SSE-NEXT: paddd %xmm0, %xmm1
; SSE2-NEXT: pxor %xmm0, %xmm0		; SSE-NEXT: pxor %xmm0, %xmm0
; SSE2-NEXT: psubd %xmm1, %xmm0		; SSE-NEXT: psubd %xmm1, %xmm0
; SSE2-NEXT: ret{{[l\|q]}}		; SSE-NEXT: ret{{[l\|q]}}
;
; X86-SSE4-LABEL: mul_v4i32_neg33:
; X86-SSE4: # %bb.0:
; X86-SSE4-NEXT: pmulld {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
; X86-SSE4-NEXT: retl
;
; X64-SSE4-FAST-LABEL: mul_v4i32_neg33:
; X64-SSE4-FAST: # %bb.0:
; X64-SSE4-FAST-NEXT: pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; X64-SSE4-FAST-NEXT: retq
;
; X64-SSE4-SLOW-LABEL: mul_v4i32_neg33:
; X64-SSE4-SLOW: # %bb.0:
; X64-SSE4-SLOW-NEXT: movdqa %xmm0, %xmm1
; X64-SSE4-SLOW-NEXT: pslld $5, %xmm1
; X64-SSE4-SLOW-NEXT: paddd %xmm0, %xmm1
; X64-SSE4-SLOW-NEXT: pxor %xmm0, %xmm0
; X64-SSE4-SLOW-NEXT: psubd %xmm1, %xmm0
; X64-SSE4-SLOW-NEXT: retq
;		;
; X64-XOP-LABEL: mul_v4i32_neg33:		; X64-XOP-LABEL: mul_v4i32_neg33:
; X64-XOP: # %bb.0:		; X64-XOP: # %bb.0:
; X64-XOP-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0		; X64-XOP-NEXT: vpslld $5, %xmm0, %xmm1
		; X64-XOP-NEXT: vpaddd %xmm1, %xmm0, %xmm0
		; X64-XOP-NEXT: vpxor %xmm1, %xmm1, %xmm1
		; X64-XOP-NEXT: vpsubd %xmm0, %xmm1, %xmm0
; X64-XOP-NEXT: retq		; X64-XOP-NEXT: retq
;		;
; X64-AVX2-LABEL: mul_v4i32_neg33:		; X64-AVX2-LABEL: mul_v4i32_neg33:
; X64-AVX2: # %bb.0:		; X64-AVX2: # %bb.0:
; X64-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [4294967263,4294967263,4294967263,4294967263]		; X64-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [4294967263,4294967263,4294967263,4294967263]
; X64-AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0		; X64-AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
; X64-AVX2-NEXT: retq		; X64-AVX2-NEXT: retq
;		;
; X64-AVX512DQ-LABEL: mul_v4i32_neg33:		; X64-AVX512DQ-LABEL: mul_v4i32_neg33:
; X64-AVX512DQ: # %bb.0:		; X64-AVX512DQ: # %bb.0:
; X64-AVX512DQ-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm0		; X64-AVX512DQ-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm0
; X64-AVX512DQ-NEXT: retq		; X64-AVX512DQ-NEXT: retq
%1 = mul <4 x i32> %a0, <i32 -33, i32 -33, i32 -33, i32 -33>		%1 = mul <4 x i32> %a0, <i32 -33, i32 -33, i32 -33, i32 -33>
ret <4 x i32> %1		ret <4 x i32> %1
}		}

define <8 x i16> @mul_v8i16_neg9(<8 x i16> %a0) nounwind {		define <8 x i16> @mul_v8i16_neg9(<8 x i16> %a0) nounwind {
; X86-SSE-LABEL: mul_v8i16_neg9:		; SSE-LABEL: mul_v8i16_neg9:
; X86-SSE: # %bb.0:		; SSE: # %bb.0:
; X86-SSE-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0		; SSE-NEXT: movdqa %xmm0, %xmm1
; X86-SSE-NEXT: retl		; SSE-NEXT: psllw $3, %xmm1
;		; SSE-NEXT: paddw %xmm0, %xmm1
; X64-SSE-LABEL: mul_v8i16_neg9:		; SSE-NEXT: pxor %xmm0, %xmm0
; X64-SSE: # %bb.0:		; SSE-NEXT: psubw %xmm1, %xmm0
; X64-SSE-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; SSE-NEXT: ret{{[l\|q]}}
; X64-SSE-NEXT: retq
;		;
; X64-AVX-LABEL: mul_v8i16_neg9:		; X64-AVX-LABEL: mul_v8i16_neg9:
; X64-AVX: # %bb.0:		; X64-AVX: # %bb.0:
; X64-AVX-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0		; X64-AVX-NEXT: vpsllw $3, %xmm0, %xmm1
		; X64-AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0
		; X64-AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
		; X64-AVX-NEXT: vpsubw %xmm0, %xmm1, %xmm0
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%1 = mul <8 x i16> %a0, <i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9>		%1 = mul <8 x i16> %a0, <i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9>
ret <8 x i16> %1		ret <8 x i16> %1
}		}

define <16 x i8> @mul_v16i8_neg5(<16 x i8> %a0) nounwind {		define <16 x i8> @mul_v16i8_neg5(<16 x i8> %a0) nounwind {
; X86-SSE-LABEL: mul_v16i8_neg5:		; X86-SSE-LABEL: mul_v16i8_neg5:
; X86-SSE: # %bb.0:		; X86-SSE: # %bb.0:
▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
; X64-AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1		; X64-AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1
; X64-AVX512DQ-NEXT: vpsubq %ymm0, %ymm1, %ymm0		; X64-AVX512DQ-NEXT: vpsubq %ymm0, %ymm1, %ymm0
; X64-AVX512DQ-NEXT: retq		; X64-AVX512DQ-NEXT: retq
%1 = mul <4 x i64> %a0, <i64 -1025, i64 -1025, i64 -1025, i64 -1025>		%1 = mul <4 x i64> %a0, <i64 -1025, i64 -1025, i64 -1025, i64 -1025>
ret <4 x i64> %1		ret <4 x i64> %1
}		}

define <8 x i32> @mul_v8i32_neg33(<8 x i32> %a0) nounwind {		define <8 x i32> @mul_v8i32_neg33(<8 x i32> %a0) nounwind {
; SSE2-LABEL: mul_v8i32_neg33:		; SSE-LABEL: mul_v8i32_neg33:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm3		; SSE-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: pslld $5, %xmm3		; SSE-NEXT: pslld $5, %xmm3
; SSE2-NEXT: paddd %xmm0, %xmm3		; SSE-NEXT: paddd %xmm0, %xmm3
; SSE2-NEXT: pxor %xmm2, %xmm2		; SSE-NEXT: pxor %xmm2, %xmm2
; SSE2-NEXT: pxor %xmm0, %xmm0		; SSE-NEXT: pxor %xmm0, %xmm0
; SSE2-NEXT: psubd %xmm3, %xmm0		; SSE-NEXT: psubd %xmm3, %xmm0
; SSE2-NEXT: movdqa %xmm1, %xmm3		; SSE-NEXT: movdqa %xmm1, %xmm3
; SSE2-NEXT: pslld $5, %xmm3		; SSE-NEXT: pslld $5, %xmm3
; SSE2-NEXT: paddd %xmm1, %xmm3		; SSE-NEXT: paddd %xmm1, %xmm3
; SSE2-NEXT: psubd %xmm3, %xmm2		; SSE-NEXT: psubd %xmm3, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm1		; SSE-NEXT: movdqa %xmm2, %xmm1
; SSE2-NEXT: ret{{[l\|q]}}		; SSE-NEXT: ret{{[l\|q]}}
;
; X86-SSE4-LABEL: mul_v8i32_neg33:
; X86-SSE4: # %bb.0:
; X86-SSE4-NEXT: movdqa {{.*#+}} xmm2 = [4294967263,4294967263,4294967263,4294967263]
; X86-SSE4-NEXT: pmulld %xmm2, %xmm0
; X86-SSE4-NEXT: pmulld %xmm2, %xmm1
; X86-SSE4-NEXT: retl
;
; X64-SSE4-FAST-LABEL: mul_v8i32_neg33:
; X64-SSE4-FAST: # %bb.0:
; X64-SSE4-FAST-NEXT: movdqa {{.*#+}} xmm2 = [4294967263,4294967263,4294967263,4294967263]
; X64-SSE4-FAST-NEXT: pmulld %xmm2, %xmm0
; X64-SSE4-FAST-NEXT: pmulld %xmm2, %xmm1
; X64-SSE4-FAST-NEXT: retq
;
; X64-SSE4-SLOW-LABEL: mul_v8i32_neg33:
; X64-SSE4-SLOW: # %bb.0:
; X64-SSE4-SLOW-NEXT: movdqa %xmm0, %xmm3
; X64-SSE4-SLOW-NEXT: pslld $5, %xmm3
; X64-SSE4-SLOW-NEXT: paddd %xmm0, %xmm3
; X64-SSE4-SLOW-NEXT: pxor %xmm2, %xmm2
; X64-SSE4-SLOW-NEXT: pxor %xmm0, %xmm0
; X64-SSE4-SLOW-NEXT: psubd %xmm3, %xmm0
; X64-SSE4-SLOW-NEXT: movdqa %xmm1, %xmm3
; X64-SSE4-SLOW-NEXT: pslld $5, %xmm3
; X64-SSE4-SLOW-NEXT: paddd %xmm1, %xmm3
; X64-SSE4-SLOW-NEXT: psubd %xmm3, %xmm2
; X64-SSE4-SLOW-NEXT: movdqa %xmm2, %xmm1
; X64-SSE4-SLOW-NEXT: retq
;		;
; X64-XOP-LABEL: mul_v8i32_neg33:		; X64-XOP-LABEL: mul_v8i32_neg33:
; X64-XOP: # %bb.0:		; X64-XOP: # %bb.0:
; X64-XOP-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-XOP-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-XOP-NEXT: vpslld $5, %xmm1, %xmm2		; X64-XOP-NEXT: vpslld $5, %xmm1, %xmm2
; X64-XOP-NEXT: vpaddd %xmm1, %xmm2, %xmm1		; X64-XOP-NEXT: vpaddd %xmm1, %xmm2, %xmm1
; X64-XOP-NEXT: vpxor %xmm2, %xmm2, %xmm2		; X64-XOP-NEXT: vpxor %xmm2, %xmm2, %xmm2
; X64-XOP-NEXT: vpsubd %xmm1, %xmm2, %xmm1		; X64-XOP-NEXT: vpsubd %xmm1, %xmm2, %xmm1
Show All 15 Lines
; X64-AVX512DQ-NEXT: retq		; X64-AVX512DQ-NEXT: retq
%1 = mul <8 x i32> %a0, <i32 -33, i32 -33, i32 -33, i32 -33, i32 -33, i32 -33, i32 -33, i32 -33>		%1 = mul <8 x i32> %a0, <i32 -33, i32 -33, i32 -33, i32 -33, i32 -33, i32 -33, i32 -33, i32 -33>
ret <8 x i32> %1		ret <8 x i32> %1
}		}

define <16 x i16> @mul_v16i16_neg9(<16 x i16> %a0) nounwind {		define <16 x i16> @mul_v16i16_neg9(<16 x i16> %a0) nounwind {
; SSE-LABEL: mul_v16i16_neg9:		; SSE-LABEL: mul_v16i16_neg9:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [65527,65527,65527,65527,65527,65527,65527,65527]		; SSE-NEXT: movdqa %xmm0, %xmm3
; SSE-NEXT: pmullw %xmm2, %xmm0		; SSE-NEXT: psllw $3, %xmm3
; SSE-NEXT: pmullw %xmm2, %xmm1		; SSE-NEXT: paddw %xmm0, %xmm3
		; SSE-NEXT: pxor %xmm2, %xmm2
		; SSE-NEXT: pxor %xmm0, %xmm0
		; SSE-NEXT: psubw %xmm3, %xmm0
		; SSE-NEXT: movdqa %xmm1, %xmm3
		; SSE-NEXT: psllw $3, %xmm3
		; SSE-NEXT: paddw %xmm1, %xmm3
		; SSE-NEXT: psubw %xmm3, %xmm2
		; SSE-NEXT: movdqa %xmm2, %xmm1
; SSE-NEXT: ret{{[l\|q]}}		; SSE-NEXT: ret{{[l\|q]}}
;		;
; X64-XOP-LABEL: mul_v16i16_neg9:		; X64-XOP-LABEL: mul_v16i16_neg9:
; X64-XOP: # %bb.0:		; X64-XOP: # %bb.0:
; X64-XOP-NEXT: vextractf128 $1, %ymm0, %xmm1		; X64-XOP-NEXT: vextractf128 $1, %ymm0, %xmm1
; X64-XOP-NEXT: vpsllw $3, %xmm1, %xmm2		; X64-XOP-NEXT: vpsllw $3, %xmm1, %xmm2
; X64-XOP-NEXT: vpaddw %xmm1, %xmm2, %xmm1		; X64-XOP-NEXT: vpaddw %xmm1, %xmm2, %xmm1
; X64-XOP-NEXT: vpxor %xmm2, %xmm2, %xmm2		; X64-XOP-NEXT: vpxor %xmm2, %xmm2, %xmm2
; X64-XOP-NEXT: vpsubw %xmm1, %xmm2, %xmm1		; X64-XOP-NEXT: vpsubw %xmm1, %xmm2, %xmm1
; X64-XOP-NEXT: vpsllw $3, %xmm0, %xmm3		; X64-XOP-NEXT: vpsllw $3, %xmm0, %xmm3
; X64-XOP-NEXT: vpaddw %xmm0, %xmm3, %xmm0		; X64-XOP-NEXT: vpaddw %xmm0, %xmm3, %xmm0
; X64-XOP-NEXT: vpsubw %xmm0, %xmm2, %xmm0		; X64-XOP-NEXT: vpsubw %xmm0, %xmm2, %xmm0
; X64-XOP-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; X64-XOP-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; X64-XOP-NEXT: retq		; X64-XOP-NEXT: retq
;		;
; X64-AVX2-LABEL: mul_v16i16_neg9:		; X64-AVX2-LABEL: mul_v16i16_neg9:
; X64-AVX2: # %bb.0:		; X64-AVX2: # %bb.0:
; X64-AVX2-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0		; X64-AVX2-NEXT: vpsllw $3, %ymm0, %ymm1
		; X64-AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
		; X64-AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
		; X64-AVX2-NEXT: vpsubw %ymm0, %ymm1, %ymm0
; X64-AVX2-NEXT: retq		; X64-AVX2-NEXT: retq
;		;
; X64-AVX512DQ-LABEL: mul_v16i16_neg9:		; X64-AVX512DQ-LABEL: mul_v16i16_neg9:
; X64-AVX512DQ: # %bb.0:		; X64-AVX512DQ: # %bb.0:
; X64-AVX512DQ-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0		; X64-AVX512DQ-NEXT: vpsllw $3, %ymm0, %ymm1
		; X64-AVX512DQ-NEXT: vpaddw %ymm1, %ymm0, %ymm0
		; X64-AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1
		; X64-AVX512DQ-NEXT: vpsubw %ymm0, %ymm1, %ymm0
; X64-AVX512DQ-NEXT: retq		; X64-AVX512DQ-NEXT: retq
%1 = mul <16 x i16> %a0, <i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9>		%1 = mul <16 x i16> %a0, <i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9, i16 -9>
ret <16 x i16> %1		ret <16 x i16> %1
}		}

define <32 x i8> @mul_v32i8_neg5(<32 x i8> %a0) nounwind {		define <32 x i8> @mul_v32i8_neg5(<32 x i8> %a0) nounwind {
; SSE-LABEL: mul_v32i8_neg5:		; SSE-LABEL: mul_v32i8_neg5:
; SSE: # %bb.0:		; SSE: # %bb.0:
▲ Show 20 Lines • Show All 263 Lines • ▼ Show 20 Lines
; X64-AVX-NEXT: vpsllq $3, %xmm0, %xmm1		; X64-AVX-NEXT: vpsllq $3, %xmm0, %xmm1
; X64-AVX-NEXT: vpsubq %xmm0, %xmm1, %xmm0		; X64-AVX-NEXT: vpsubq %xmm0, %xmm1, %xmm0
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%1 = mul <2 x i64> %a0, <i64 7, i64 7>		%1 = mul <2 x i64> %a0, <i64 7, i64 7>
ret <2 x i64> %1		ret <2 x i64> %1
}		}

define <4 x i32> @mul_v4i32_7(<4 x i32> %a0) nounwind {		define <4 x i32> @mul_v4i32_7(<4 x i32> %a0) nounwind {
; SSE2-LABEL: mul_v4i32_7:		; SSE-LABEL: mul_v4i32_7:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: pslld $3, %xmm1		; SSE-NEXT: pslld $3, %xmm1
; SSE2-NEXT: psubd %xmm0, %xmm1		; SSE-NEXT: psubd %xmm0, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm0		; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE2-NEXT: ret{{[l\|q]}}		; SSE-NEXT: ret{{[l\|q]}}
;
; X86-SSE4-LABEL: mul_v4i32_7:
; X86-SSE4: # %bb.0:
; X86-SSE4-NEXT: pmulld {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
; X86-SSE4-NEXT: retl
;
; X64-SSE4-FAST-LABEL: mul_v4i32_7:
; X64-SSE4-FAST: # %bb.0:
; X64-SSE4-FAST-NEXT: pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; X64-SSE4-FAST-NEXT: retq
;
; X64-SSE4-SLOW-LABEL: mul_v4i32_7:
; X64-SSE4-SLOW: # %bb.0:
; X64-SSE4-SLOW-NEXT: movdqa %xmm0, %xmm1
; X64-SSE4-SLOW-NEXT: pslld $3, %xmm1
; X64-SSE4-SLOW-NEXT: psubd %xmm0, %xmm1
; X64-SSE4-SLOW-NEXT: movdqa %xmm1, %xmm0
; X64-SSE4-SLOW-NEXT: retq
;		;
; X64-XOP-LABEL: mul_v4i32_7:		; X64-XOP-LABEL: mul_v4i32_7:
; X64-XOP: # %bb.0:		; X64-XOP: # %bb.0:
; X64-XOP-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0		; X64-XOP-NEXT: vpslld $3, %xmm0, %xmm1
		; X64-XOP-NEXT: vpsubd %xmm0, %xmm1, %xmm0
; X64-XOP-NEXT: retq		; X64-XOP-NEXT: retq
;		;
; X64-AVX2-LABEL: mul_v4i32_7:		; X64-AVX2-LABEL: mul_v4i32_7:
; X64-AVX2: # %bb.0:		; X64-AVX2: # %bb.0:
; X64-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [7,7,7,7]		; X64-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [7,7,7,7]
; X64-AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0		; X64-AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
; X64-AVX2-NEXT: retq		; X64-AVX2-NEXT: retq
;		;
; X64-AVX512DQ-LABEL: mul_v4i32_7:		; X64-AVX512DQ-LABEL: mul_v4i32_7:
; X64-AVX512DQ: # %bb.0:		; X64-AVX512DQ: # %bb.0:
; X64-AVX512DQ-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm0		; X64-AVX512DQ-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm0
; X64-AVX512DQ-NEXT: retq		; X64-AVX512DQ-NEXT: retq
%1 = mul <4 x i32> %a0, <i32 7, i32 7, i32 7, i32 7>		%1 = mul <4 x i32> %a0, <i32 7, i32 7, i32 7, i32 7>
ret <4 x i32> %1		ret <4 x i32> %1
}		}

define <8 x i16> @mul_v8i16_7(<8 x i16> %a0) nounwind {		define <8 x i16> @mul_v8i16_7(<8 x i16> %a0) nounwind {
; X86-SSE-LABEL: mul_v8i16_7:		; SSE-LABEL: mul_v8i16_7:
; X86-SSE: # %bb.0:		; SSE: # %bb.0:
; X86-SSE-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0		; SSE-NEXT: movdqa %xmm0, %xmm1
; X86-SSE-NEXT: retl		; SSE-NEXT: psllw $3, %xmm1
;		; SSE-NEXT: psubw %xmm0, %xmm1
; X64-SSE-LABEL: mul_v8i16_7:		; SSE-NEXT: movdqa %xmm1, %xmm0
; X64-SSE: # %bb.0:		; SSE-NEXT: ret{{[l\|q]}}
; X64-SSE-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; X64-SSE-NEXT: retq
;		;
; X64-AVX-LABEL: mul_v8i16_7:		; X64-AVX-LABEL: mul_v8i16_7:
; X64-AVX: # %bb.0:		; X64-AVX: # %bb.0:
; X64-AVX-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0		; X64-AVX-NEXT: vpsllw $3, %xmm0, %xmm1
		; X64-AVX-NEXT: vpsubw %xmm0, %xmm1, %xmm0
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%1 = mul <8 x i16> %a0, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>		%1 = mul <8 x i16> %a0, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
ret <8 x i16> %1		ret <8 x i16> %1
}		}

define <16 x i8> @mul_v16i8_31(<16 x i8> %a0) nounwind {		define <16 x i8> @mul_v16i8_31(<16 x i8> %a0) nounwind {
; X86-SSE-LABEL: mul_v16i8_31:		; X86-SSE-LABEL: mul_v16i8_31:
; X86-SSE: # %bb.0:		; X86-SSE: # %bb.0:
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
; X64-AVX-NEXT: vpsllq $3, %xmm0, %xmm1		; X64-AVX-NEXT: vpsllq $3, %xmm0, %xmm1
; X64-AVX-NEXT: vpsubq %xmm1, %xmm0, %xmm0		; X64-AVX-NEXT: vpsubq %xmm1, %xmm0, %xmm0
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%1 = mul <2 x i64> %a0, <i64 -7, i64 -7>		%1 = mul <2 x i64> %a0, <i64 -7, i64 -7>
ret <2 x i64> %1		ret <2 x i64> %1
}		}

define <4 x i32> @mul_v4i32_neg63(<4 x i32> %a0) nounwind {		define <4 x i32> @mul_v4i32_neg63(<4 x i32> %a0) nounwind {
; SSE2-LABEL: mul_v4i32_neg63:		; SSE-LABEL: mul_v4i32_neg63:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: pslld $6, %xmm1		; SSE-NEXT: pslld $6, %xmm1
; SSE2-NEXT: psubd %xmm1, %xmm0		; SSE-NEXT: psubd %xmm1, %xmm0
; SSE2-NEXT: ret{{[l\|q]}}		; SSE-NEXT: ret{{[l\|q]}}
;
; X86-SSE4-LABEL: mul_v4i32_neg63:
; X86-SSE4: # %bb.0:
; X86-SSE4-NEXT: pmulld {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
; X86-SSE4-NEXT: retl
;
; X64-SSE4-FAST-LABEL: mul_v4i32_neg63:
; X64-SSE4-FAST: # %bb.0:
; X64-SSE4-FAST-NEXT: pmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; X64-SSE4-FAST-NEXT: retq
;
; X64-SSE4-SLOW-LABEL: mul_v4i32_neg63:
; X64-SSE4-SLOW: # %bb.0:
; X64-SSE4-SLOW-NEXT: movdqa %xmm0, %xmm1
; X64-SSE4-SLOW-NEXT: pslld $6, %xmm1
; X64-SSE4-SLOW-NEXT: psubd %xmm1, %xmm0
; X64-SSE4-SLOW-NEXT: retq
;		;
; X64-XOP-LABEL: mul_v4i32_neg63:		; X64-XOP-LABEL: mul_v4i32_neg63:
; X64-XOP: # %bb.0:		; X64-XOP: # %bb.0:
; X64-XOP-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0		; X64-XOP-NEXT: vpslld $6, %xmm0, %xmm1
		; X64-XOP-NEXT: vpsubd %xmm1, %xmm0, %xmm0
; X64-XOP-NEXT: retq		; X64-XOP-NEXT: retq
;		;
; X64-AVX2-LABEL: mul_v4i32_neg63:		; X64-AVX2-LABEL: mul_v4i32_neg63:
; X64-AVX2: # %bb.0:		; X64-AVX2: # %bb.0:
; X64-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [4294967233,4294967233,4294967233,4294967233]		; X64-AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [4294967233,4294967233,4294967233,4294967233]
; X64-AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0		; X64-AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
; X64-AVX2-NEXT: retq		; X64-AVX2-NEXT: retq
;		;
; X64-AVX512DQ-LABEL: mul_v4i32_neg63:		; X64-AVX512DQ-LABEL: mul_v4i32_neg63:
; X64-AVX512DQ: # %bb.0:		; X64-AVX512DQ: # %bb.0:
; X64-AVX512DQ-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm0		; X64-AVX512DQ-NEXT: vpmulld {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm0
; X64-AVX512DQ-NEXT: retq		; X64-AVX512DQ-NEXT: retq
%1 = mul <4 x i32> %a0, <i32 -63, i32 -63, i32 -63, i32 -63>		%1 = mul <4 x i32> %a0, <i32 -63, i32 -63, i32 -63, i32 -63>
ret <4 x i32> %1		ret <4 x i32> %1
}		}

define <8 x i16> @mul_v8i16_neg31(<8 x i16> %a0) nounwind {		define <8 x i16> @mul_v8i16_neg31(<8 x i16> %a0) nounwind {
; X86-SSE-LABEL: mul_v8i16_neg31:		; SSE-LABEL: mul_v8i16_neg31:
; X86-SSE: # %bb.0:		; SSE: # %bb.0:
; X86-SSE-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0		; SSE-NEXT: movdqa %xmm0, %xmm1
; X86-SSE-NEXT: retl		; SSE-NEXT: psllw $5, %xmm1
;		; SSE-NEXT: psubw %xmm1, %xmm0
; X64-SSE-LABEL: mul_v8i16_neg31:		; SSE-NEXT: ret{{[l\|q]}}
; X64-SSE: # %bb.0:
; X64-SSE-NEXT: pmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; X64-SSE-NEXT: retq
;		;
; X64-AVX-LABEL: mul_v8i16_neg31:		; X64-AVX-LABEL: mul_v8i16_neg31:
; X64-AVX: # %bb.0:		; X64-AVX: # %bb.0:
; X64-AVX-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0		; X64-AVX-NEXT: vpsllw $5, %xmm0, %xmm1
		; X64-AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm0
; X64-AVX-NEXT: retq		; X64-AVX-NEXT: retq
%1 = mul <8 x i16> %a0, <i16 -31, i16 -31, i16 -31, i16 -31, i16 -31, i16 -31, i16 -31, i16 -31>		%1 = mul <8 x i16> %a0, <i16 -31, i16 -31, i16 -31, i16 -31, i16 -31, i16 -31, i16 -31, i16 -31>
ret <8 x i16> %1		ret <8 x i16> %1
}		}

define <16 x i8> @mul_v16i8_neg15(<16 x i8> %a0) nounwind {		define <16 x i8> @mul_v16i8_neg15(<16 x i8> %a0) nounwind {
; X86-SSE-LABEL: mul_v16i8_neg15:		; X86-SSE-LABEL: mul_v16i8_neg15:
; X86-SSE: # %bb.0:		; X86-SSE: # %bb.0:
▲ Show 20 Lines • Show All 727 Lines • ▼ Show 20 Lines	; X64-AVX512DQ-NEXT: retq
br label %foo		br label %foo

foo:		foo:
%c = load <4 x i32>, ptr %y		%c = load <4 x i32>, ptr %y
%d = zext <4 x i32> %c to <4 x i64>		%d = zext <4 x i32> %c to <4 x i64>
%e = mul <4 x i64> %b, %d		%e = mul <4 x i64> %b, %d
ret <4 x i64> %e		ret <4 x i64> %e
}		}
		;; NOTE: These prefixes are unused and the list is autogenerated. Do not add tests below this line:
		; X64-SSE4-FAST: {{.*}}
		; X64-SSE4-SLOW: {{.*}}

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Make constant `mul` -> `shl` + `add`/`sub` work for vector types
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 521461

llvm/lib/Target/X86/X86.td

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86TargetTransformInfo.h

llvm/test/CodeGen/X86/avx512-broadcast-unfold.ll

llvm/test/CodeGen/X86/combine-add.ll

llvm/test/CodeGen/X86/omit-urem-of-power-of-two-or-zero-when-comparing-with-zero.ll

llvm/test/CodeGen/X86/rotate-extract-vector.ll

llvm/test/CodeGen/X86/var-permute-128.ll

llvm/test/CodeGen/X86/var-permute-256.ll

llvm/test/CodeGen/X86/vector-idiv-sdiv-128.ll

llvm/test/CodeGen/X86/vector-idiv-sdiv-256.ll

llvm/test/CodeGen/X86/vector-idiv-sdiv-512.ll

llvm/test/CodeGen/X86/vector-idiv-udiv-128.ll

llvm/test/CodeGen/X86/vector-idiv-udiv-256.ll

llvm/test/CodeGen/X86/vector-idiv-udiv-512.ll

llvm/test/CodeGen/X86/vector-mul.ll

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Make constant `mul` -> `shl` + `add`/`sub` work for vector typesClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 521461

llvm/lib/Target/X86/X86.td

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86TargetTransformInfo.h

llvm/test/CodeGen/X86/avx512-broadcast-unfold.ll

llvm/test/CodeGen/X86/combine-add.ll

llvm/test/CodeGen/X86/omit-urem-of-power-of-two-or-zero-when-comparing-with-zero.ll

llvm/test/CodeGen/X86/rotate-extract-vector.ll

llvm/test/CodeGen/X86/var-permute-128.ll

llvm/test/CodeGen/X86/var-permute-256.ll

llvm/test/CodeGen/X86/vector-idiv-sdiv-128.ll

llvm/test/CodeGen/X86/vector-idiv-sdiv-256.ll

llvm/test/CodeGen/X86/vector-idiv-sdiv-512.ll

llvm/test/CodeGen/X86/vector-idiv-udiv-128.ll

llvm/test/CodeGen/X86/vector-idiv-udiv-256.ll

llvm/test/CodeGen/X86/vector-idiv-udiv-512.ll

llvm/test/CodeGen/X86/vector-mul.ll

[X86] Make constant `mul` -> `shl` + `add`/`sub` work for vector types
ClosedPublic