Diff 119577

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 538 Lines • ▼ Show 20 Lines	private:
/// \brief Try to transform a truncation where C is a constant:		/// \brief Try to transform a truncation where C is a constant:
/// (trunc (and X, C)) -> (and (trunc X), (trunc C))		/// (trunc (and X, C)) -> (and (trunc X), (trunc C))
///		///
/// \p N needs to be a truncation and its first operand an AND. Other		/// \p N needs to be a truncation and its first operand an AND. Other
/// requirements are checked by the function (e.g. that trunc is		/// requirements are checked by the function (e.g. that trunc is
/// single-use) and if missed an empty SDValue is returned.		/// single-use) and if missed an empty SDValue is returned.
SDValue distributeTruncateThroughAnd(SDNode *N);		SDValue distributeTruncateThroughAnd(SDNode *N);

		/// \brief Try to transform a multiplication of shape:
		/// (mul x, (2^N + 1)) => (add (shl x, N), x)
		/// (mul x, (2^N - 1)) => (sub (shl x, N), x)
		/// (mul x, -(2^N - 1)) => (sub x, (shl x, N))
		/// (mul x, -(2^N + 1)) => -(add (shl x, N), x)
		/// (mul x, (2^N + 1) * 2^M) => (shl (add (shl x, N), x), M)
		SDValue TransformMulWithPow2DisplacedBy1(SDNode* N);

public:		public:
/// Runs the dag combiner on all nodes in the work list		/// Runs the dag combiner on all nodes in the work list
void Run(CombineLevel AtLevel);		void Run(CombineLevel AtLevel);

SelectionDAG &getDAG() const { return DAG; }		SelectionDAG &getDAG() const { return DAG; }

/// Returns a type large enough to hold any valid shift amount - before type		/// Returns a type large enough to hold any valid shift amount - before type
/// legalization these can be huge.		/// legalization these can be huge.
▲ Show 20 Lines • Show All 2,045 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitSUBCARRY(SDNode *N) {

// fold (subcarry x, y, false) -> (usubo x, y)		// fold (subcarry x, y, false) -> (usubo x, y)
if (isNullConstant(CarryIn))		if (isNullConstant(CarryIn))
return DAG.getNode(ISD::USUBO, SDLoc(N), N->getVTList(), N0, N1);		return DAG.getNode(ISD::USUBO, SDLoc(N), N->getVTList(), N0, N1);

return SDValue();		return SDValue();
}		}

		SDValue DAGCombiner::TransformMulWithPow2DisplacedBy1(SDNode *N) {
		SDValue N0 = N->getOperand(0);
		SDValue N1 = N->getOperand(1);
		EVT VT = N0.getValueType();
		// Perform transformation only for legal types to
		// avoid problems with backends like Hexagon.

		// FIXME: There is a possible regression in x86.
		// lea-3.ll test fails because RDI is used instead RCX.
		RKSimonUnsubmitted Not Done Reply Inline Actions This should be an early-out if (!TLI.isTypeLegal(VT)) return SDValue(); RKSimon: This should be an early-out ``` if (!TLI.isTypeLegal(VT)) return SDValue(); ```
		// So we do nothing for non-vector types for now.
		if (!TLI.isTypeLegal(VT) \|\| !VT.isVector())
		RKSimonUnsubmitted Not Done Reply Inline Actions Your reference to a broken lea-3.ll test is down right suspicious, do you have any more information? RKSimon: Your reference to a broken lea-3.ll test is down right suspicious, do you have any more…
		return SDValue();

		// AllArePow2 holds the amount of lanes which are:
		// 1) constant
		// 2) of value (2^C) +/- 1
		// 3) have equal sign to the first lane
		// AllArePow2 > 0 indicates that constants are (2^C) + 1
		// AllArePow2 < 0 indicates taht constants are (2^C) - 1
		int AllArePow2 = 0;
		// SignDirection indeciates that constants are:
		// positive if SignDirection > 0
		// negative if SignDirection < 0
		int SignDirection = 0;
		// TrailingZeros holds the number of trailing zeros if
		// constants are (+/-(2^N) +/- 1) * (2^M)
		unsigned TrailingZeroes = 0;
		bool Match = matchUnaryPredicate(N1, [&](ConstantSDNode *C) {
		const APInt &ConstantValue = C->getAPIntValue();
		RKSimonUnsubmitted Not Done Reply Inline Actions bool Match RKSimon: bool Match
		if (!TrailingZeroes && ConstantValue.getSExtValue() != 0) {
		TrailingZeroes = ConstantValue.countTrailingZeros();
		} else {
		// Trailing zeros does not match for all constants in a vector.
		if (TrailingZeroes != ConstantValue.countTrailingZeros())
		return false;
		}

		APInt Plus1 = ConstantValue.ashr(TrailingZeroes).abs() + 1;
		APInt Minus1 = ConstantValue.ashr(TrailingZeroes).abs() - 1;

		int IsPow2 = Plus1.isPowerOf2() ? 1 : Minus1.isPowerOf2() ? -1 : 0;
		if (!SignDirection)
		SignDirection = ConstantValue.isNonNegative() ? 1 : -1;
		RKSimonUnsubmitted Not Done Reply Inline Actions What happens when different lanes require different SignDirection values? RKSimon: What happens when different lanes require different SignDirection values?
		// Avoid getting poisoned through shifts > bitsize.
		if (IsPow2 && VT.getScalarSizeInBits() > (ConstantValue + IsPow2).logBase2()) {
		RKSimonUnsubmitted Not Done Reply Inline Actions (style) Remove braces around single lines RKSimon: (style) Remove braces around single lines
		// Only match values which have equal sign bits.
		if ((ConstantValue.getSExtValue() < 0) == (SignDirection < 0)) {
		AllArePow2 += IsPow2;
		return true;
		}
		}
		return false;
		});

		if (!Match \|\| static_cast<unsigned>(abs(AllArePow2)) != (VT.isVector() ? VT.getVectorNumElements() : 1))
		return SDValue();
		RKSimonUnsubmitted Not Done Reply Inline Actions if (!Match) return SDValue(); RKSimon: ``` if (!Match) return SDValue(); ```

		RKSimonUnsubmitted Not Done Reply Inline Actions Isn't VT is guaranteed to be a vector? RKSimon: Isn't VT is guaranteed to be a vector?
		SDLoc DL(N);
		SDValue Const0 = DAG.getConstant(0, DL, VT);

		RKSimonUnsubmitted Done Reply Inline Actions Please don't use a reference on a SDValue like this, its makes the code a lot more confusing. RKSimon: Please don't use a reference on a SDValue like this, its makes the code a lot more confusing.
		if (SignDirection < 0) {
		// Clear the sign bits of the constant vector.
		N1 = DAG.FoldConstantArithmetic(ISD::SUB, DL, VT,
		Const0.getNode(),
		N1.getNode());
		}
		if (TrailingZeroes) {
		N1 = DAG.FoldConstantArithmetic(ISD::SRA, DL, VT,
		N1.getNode(),
		DAG.getConstant(TrailingZeroes, DL, VT).getNode());
		}

		SDValue LogBase2 = BuildLogBase2(
		DAG.FoldConstantArithmetic(ISD::ADD, DL, VT, N1.getNode(),
		DAG.getConstant((AllArePow2 > 0 ? 1 : -1), DL, VT).getNode()), DL);
		AddToWorklist(LogBase2.getNode());

		SDValue Shl = DAG.getNode(ISD::SHL, DL, VT, N0, LogBase2);
		Shl.getNode()->setFlags(N->getFlags());
		RKSimonUnsubmitted Not Done Reply Inline Actions Won't this work? SDValue Shl = DAG.getNode(ISD::SHL, DL, VT, N0, LogBase2, N->getFlags()); RKSimon: Won't this work? ``` SDValue Shl = DAG.getNode(ISD::SHL, DL, VT, N0, LogBase2, N->getFlags())…
		AddToWorklist(Shl.getNode());

		SDValue &LHS = Shl, &RHS = N0;
		RKSimonUnsubmitted Not Done Reply Inline Actions Is there a need for these to be pointers? RKSimon: Is there a need for these to be pointers?
		if (SignDirection < 0)
		std::swap(LHS, RHS);

		RKSimonUnsubmitted Not Done Reply Inline Actions braces RKSimon: braces
		auto Res = DAG.getNode(AllArePow2 > 0 ? ISD::SUB : ISD::ADD, DL, VT, LHS, RHS);

		if (SignDirection < 0 && AllArePow2 < 0) {
		AddToWorklist(Res.getNode());
		Res = DAG.getNode(ISD::SUB, DL, VT, Const0, Res);
		}
		if (TrailingZeroes) {
		AddToWorklist(Res.getNode());
		return DAG.getNode(ISD::SHL, DL, VT, Res,
		DAG.getConstant(TrailingZeroes, DL, VT));
		}

		return Res;
		}
		RKSimonUnsubmitted Not Done Reply Inline Actions Can you clang-format the whole of TransformMulWithPow2DisplacedBy1 - its seems a bit off. RKSimon: Can you clang-format the whole of TransformMulWithPow2DisplacedBy1 - its seems a bit off.

SDValue DAGCombiner::visitMUL(SDNode *N) {		SDValue DAGCombiner::visitMUL(SDNode *N) {
SDValue N0 = N->getOperand(0);		SDValue N0 = N->getOperand(0);
SDValue N1 = N->getOperand(1);		SDValue N1 = N->getOperand(1);
EVT VT = N0.getValueType();		EVT VT = N0.getValueType();

// fold (mul x, undef) -> 0		// fold (mul x, undef) -> 0
if (N0.isUndef() \|\| N1.isUndef())		if (N0.isUndef() \|\| N1.isUndef())
return DAG.getConstant(0, SDLoc(N), VT);		return DAG.getConstant(0, SDLoc(N), VT);
▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines	if (N1IsConst && !N1IsOpaqueConst && (-ConstValue1).isPowerOf2()) {
// FIXME: If the input is something that is easily negated (e.g. a		// FIXME: If the input is something that is easily negated (e.g. a
// single-use add), we should put the negate there.		// single-use add), we should put the negate there.
return DAG.getNode(ISD::SUB, DL, VT,		return DAG.getNode(ISD::SUB, DL, VT,
DAG.getConstant(0, DL, VT),		DAG.getConstant(0, DL, VT),
DAG.getNode(ISD::SHL, DL, VT, N0,		DAG.getNode(ISD::SHL, DL, VT, N0,
DAG.getConstant(Log2Val, DL,		DAG.getConstant(Log2Val, DL,
getShiftAmountTy(N0.getValueType()))));		getShiftAmountTy(N0.getValueType()))));
}		}
		// Transform (mul X, +/-(1 << c) +/- 1) to appropriate shift patterns.
		if (isConstantOrConstantVector(N1)) {
		if (SDValue Res = TransformMulWithPow2DisplacedBy1(N))
		return Res;
		}
// (mul (shl X, c1), c2) -> (mul X, c2 << c1)		// (mul (shl X, c1), c2) -> (mul X, c2 << c1)
if (N0.getOpcode() == ISD::SHL &&		if (N0.getOpcode() == ISD::SHL &&
isConstantOrConstantVector(N1, /* NoOpaques */ true) &&		isConstantOrConstantVector(N1, /* NoOpaques */ true) &&
isConstantOrConstantVector(N0.getOperand(1), /* NoOpaques */ true)) {		isConstantOrConstantVector(N0.getOperand(1), /* NoOpaques */ true)) {
SDValue C3 = DAG.getNode(ISD::SHL, SDLoc(N), VT, N1, N0.getOperand(1));		SDValue C3 = DAG.getNode(ISD::SHL, SDLoc(N), VT, N1, N0.getOperand(1));
if (isConstantOrConstantVector(C3))		if (isConstantOrConstantVector(C3))
return DAG.getNode(ISD::MUL, SDLoc(N), VT, N0.getOperand(0), C3);		return DAG.getNode(ISD::MUL, SDLoc(N), VT, N0.getOperand(0), C3);
}		}

// Change (mul (shl X, C), Y) -> (shl (mul X, Y), C) when the shift has one		// Change (mul (shl X, C), Y) -> (shl (mul X, Y), C) when the shift has one
		mcrosierUnsubmitted Not Done Reply Inline Actions Comments should be in English prose, which means they should use proper capitalization, punctuation, etc. mcrosier: Comments should be in English prose, which means they should use proper capitalization…
// use.		// use.
		mcrosierUnsubmitted Not Done Reply Inline Actions Would it be interesting to handle negative constants? // (mul x, -(2^N - 1)) => (sub x, (shl x, N)) // (mul x, -(2^N + 1)) => - (add (shl x, N), x) mcrosier: Would it be interesting to handle negative constants? // (mul x, -(2^N - 1)) => (sub x…
{		{
SDValue Sh(nullptr, 0), Y(nullptr, 0);		SDValue Sh(nullptr, 0), Y(nullptr, 0);

// Check for both (mul (shl X, C), Y) and (mul Y, (shl X, C)).		// Check for both (mul (shl X, C), Y) and (mul Y, (shl X, C)).
		RKSimonUnsubmitted Not Done Reply Inline Actions You should be able to match non-uniform constant vectors with matchUnaryPredicate RKSimon: You should be able to match non-uniform constant vectors with matchUnaryPredicate
if (N0.getOpcode() == ISD::SHL &&		if (N0.getOpcode() == ISD::SHL &&
isConstantOrConstantVector(N0.getOperand(1)) &&		isConstantOrConstantVector(N0.getOperand(1)) &&
N0.getNode()->hasOneUse()) {		N0.getNode()->hasOneUse()) {
Sh = N0; Y = N1;		Sh = N0; Y = N1;
} else if (N1.getOpcode() == ISD::SHL &&		} else if (N1.getOpcode() == ISD::SHL &&
isConstantOrConstantVector(N1.getOperand(1)) &&		isConstantOrConstantVector(N1.getOperand(1)) &&
N1.getNode()->hasOneUse()) {		N1.getNode()->hasOneUse()) {
Sh = N1; Y = N0;		Sh = N1; Y = N0;
}		}

if (Sh.getNode()) {		if (Sh.getNode()) {
SDValue Mul = DAG.getNode(ISD::MUL, SDLoc(N), VT, Sh.getOperand(0), Y);		SDValue Mul = DAG.getNode(ISD::MUL, SDLoc(N), VT, Sh.getOperand(0), Y);
		RKSimonUnsubmitted Not Done Reply Inline Actions The other pow2 combines are before the mul (shl X, c1), c2 case - put this there with them? RKSimon: The other pow2 combines are before the mul (shl X, c1), c2 case - put this there with them?
return DAG.getNode(ISD::SHL, SDLoc(N), VT, Mul, Sh.getOperand(1));		return DAG.getNode(ISD::SHL, SDLoc(N), VT, Mul, Sh.getOperand(1));
}		}
}		}

// fold (mul (add x, c1), c2) -> (add (mul x, c2), c1*c2)		// fold (mul (add x, c1), c2) -> (add (mul x, c2), c1*c2)
if (DAG.isConstantIntBuildVectorOrConstantInt(N1) &&		if (DAG.isConstantIntBuildVectorOrConstantInt(N1) &&
N0.getOpcode() == ISD::ADD &&		N0.getOpcode() == ISD::ADD &&
DAG.isConstantIntBuildVectorOrConstantInt(N0.getOperand(1)) &&		DAG.isConstantIntBuildVectorOrConstantInt(N0.getOperand(1)) &&
▲ Show 20 Lines • Show All 14,771 Lines • Show Last 20 Lines

test/CodeGen/AArch64/aarch64-smull.ll

Show First 20 Lines • Show All 221 Lines • ▼ Show 20 Lines	; CHECK: umlsl {{v[0-9]+}}.2d, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s
ret <2 x i64> %tmp7		ret <2 x i64> %tmp7
}		}

; SMULL recognizing BUILD_VECTORs with sign/zero-extended elements.		; SMULL recognizing BUILD_VECTORs with sign/zero-extended elements.
define <8 x i16> @smull_extvec_v8i8_v8i16(<8 x i8> %arg) nounwind {		define <8 x i16> @smull_extvec_v8i8_v8i16(<8 x i8> %arg) nounwind {
; CHECK-LABEL: smull_extvec_v8i8_v8i16:		; CHECK-LABEL: smull_extvec_v8i8_v8i16:
; CHECK: smull {{v[0-9]+}}.8h, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b		; CHECK: smull {{v[0-9]+}}.8h, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b
%tmp3 = sext <8 x i8> %arg to <8 x i16>		%tmp3 = sext <8 x i8> %arg to <8 x i16>
%tmp4 = mul <8 x i16> %tmp3, <i16 -12, i16 -12, i16 -12, i16 -12, i16 -12, i16 -12, i16 -12, i16 -12>		%tmp4 = mul <8 x i16> %tmp3, <i16 -13, i16 -13, i16 -13, i16 -13, i16 -13, i16 -13, i16 -13, i16 -13>
ret <8 x i16> %tmp4		ret <8 x i16> %tmp4
}		}

define <8 x i16> @smull_noextvec_v8i8_v8i16(<8 x i8> %arg) nounwind {		define <8 x i16> @smull_noextvec_v8i8_v8i16(<8 x i8> %arg) nounwind {
; Do not use SMULL if the BUILD_VECTOR element values are too big.		; Do not use SMULL if the BUILD_VECTOR element values are too big.
; CHECK-LABEL: smull_noextvec_v8i8_v8i16:		; CHECK-LABEL: smull_noextvec_v8i8_v8i16:
; CHECK: mov		; CHECK: mov
; CHECK: mul {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h		; CHECK: mul {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h
%tmp3 = sext <8 x i8> %arg to <8 x i16>		%tmp3 = sext <8 x i8> %arg to <8 x i16>
%tmp4 = mul <8 x i16> %tmp3, <i16 -999, i16 -999, i16 -999, i16 -999, i16 -999, i16 -999, i16 -999, i16 -999>		%tmp4 = mul <8 x i16> %tmp3, <i16 -999, i16 -999, i16 -999, i16 -999, i16 -999, i16 -999, i16 -999, i16 -999>
ret <8 x i16> %tmp4		ret <8 x i16> %tmp4
}		}

define <4 x i32> @smull_extvec_v4i16_v4i32(<4 x i16> %arg) nounwind {		define <4 x i32> @smull_extvec_v4i16_v4i32(<4 x i16> %arg) nounwind {
; CHECK-LABEL: smull_extvec_v4i16_v4i32:		; CHECK-LABEL: smull_extvec_v4i16_v4i32:
; CHECK: smull {{v[0-9]+}}.4s, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h		; CHECK: smull {{v[0-9]+}}.4s, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h
%tmp3 = sext <4 x i16> %arg to <4 x i32>		%tmp3 = sext <4 x i16> %arg to <4 x i32>
%tmp4 = mul <4 x i32> %tmp3, <i32 -12, i32 -12, i32 -12, i32 -12>		%tmp4 = mul <4 x i32> %tmp3, <i32 -13, i32 -13, i32 -13, i32 -13>
ret <4 x i32> %tmp4		ret <4 x i32> %tmp4
}		}

define <2 x i64> @smull_extvec_v2i32_v2i64(<2 x i32> %arg) nounwind {		define <2 x i64> @smull_extvec_v2i32_v2i64(<2 x i32> %arg) nounwind {
; CHECK: smull_extvec_v2i32_v2i64		; CHECK: smull_extvec_v2i32_v2i64
; CHECK: smull {{v[0-9]+}}.2d, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s		; CHECK: smull {{v[0-9]+}}.2d, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s
%tmp3 = sext <2 x i32> %arg to <2 x i64>		%tmp3 = sext <2 x i32> %arg to <2 x i64>
%tmp4 = mul <2 x i64> %tmp3, <i64 -1234, i64 -1234>		%tmp4 = mul <2 x i64> %tmp3, <i64 -1234, i64 -1234>
ret <2 x i64> %tmp4		ret <2 x i64> %tmp4
}		}

define <8 x i16> @umull_extvec_v8i8_v8i16(<8 x i8> %arg) nounwind {		define <8 x i16> @umull_extvec_v8i8_v8i16(<8 x i8> %arg) nounwind {
; CHECK-LABEL: umull_extvec_v8i8_v8i16:		; CHECK-LABEL: umull_extvec_v8i8_v8i16:
; CHECK: umull {{v[0-9]+}}.8h, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b		; CHECK: umull {{v[0-9]+}}.8h, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b
%tmp3 = zext <8 x i8> %arg to <8 x i16>		%tmp3 = zext <8 x i8> %arg to <8 x i16>
%tmp4 = mul <8 x i16> %tmp3, <i16 12, i16 12, i16 12, i16 12, i16 12, i16 12, i16 12, i16 12>		%tmp4 = mul <8 x i16> %tmp3, <i16 13, i16 13, i16 13, i16 13, i16 13, i16 13, i16 13, i16 13>
ret <8 x i16> %tmp4		ret <8 x i16> %tmp4
}		}

define <8 x i16> @umull_noextvec_v8i8_v8i16(<8 x i8> %arg) nounwind {		define <8 x i16> @umull_noextvec_v8i8_v8i16(<8 x i8> %arg) nounwind {
; Do not use SMULL if the BUILD_VECTOR element values are too big.		; Do not use SMULL if the BUILD_VECTOR element values are too big.
; CHECK-LABEL: umull_noextvec_v8i8_v8i16:		; CHECK-LABEL: umull_noextvec_v8i8_v8i16:
; CHECK: mov		; CHECK: mov
; CHECK: mul {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h		; CHECK: mul {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h
Show All 19 Lines
}		}

define i16 @smullWithInconsistentExtensions(<8 x i8> %vec) {		define i16 @smullWithInconsistentExtensions(<8 x i8> %vec) {
; If one operand has a zero-extend and the other a sign-extend, smull		; If one operand has a zero-extend and the other a sign-extend, smull
; cannot be used.		; cannot be used.
; CHECK-LABEL: smullWithInconsistentExtensions:		; CHECK-LABEL: smullWithInconsistentExtensions:
; CHECK: mul {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h		; CHECK: mul {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h
%1 = sext <8 x i8> %vec to <8 x i16>		%1 = sext <8 x i8> %vec to <8 x i16>
%2 = mul <8 x i16> %1, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>		%2 = mul <8 x i16> %1, <i16 253, i16 253, i16 253, i16 253, i16 253, i16 253, i16 253, i16 253>
%3 = extractelement <8 x i16> %2, i32 0		%3 = extractelement <8 x i16> %2, i32 0
ret i16 %3		ret i16 %3
}		}

define void @distribute(i16* %dst, i8* %src, i32 %mul) nounwind {		define void @distribute(i16* %dst, i8* %src, i32 %mul) nounwind {
entry:		entry:
; CHECK-LABEL: distribute:		; CHECK-LABEL: distribute:
; CHECK: umull [[REG1:(v[0-9]+.8h)]], {{v[0-9]+}}.8b, [[REG2:(v[0-9]+.8b)]]		; CHECK: umull [[REG1:(v[0-9]+.8h)]], {{v[0-9]+}}.8b, [[REG2:(v[0-9]+.8b)]]
Show All 24 Lines

test/CodeGen/ARM/2012-08-23-legalize-vmull.ll

	Show All 12 Lines
	; v4i8			; v4i8
	;			;
	define void @sextload_v4i8_c(<4 x i8>* %v) nounwind {			define void @sextload_v4i8_c(<4 x i8>* %v) nounwind {
	;CHECK-LABEL: sextload_v4i8_c:			;CHECK-LABEL: sextload_v4i8_c:
	entry:			entry:
	%0 = load <4 x i8>, <4 x i8>* %v, align 8			%0 = load <4 x i8>, <4 x i8>* %v, align 8
	%v0 = sext <4 x i8> %0 to <4 x i32>			%v0 = sext <4 x i8> %0 to <4 x i32>
	;CHECK: vmull			;CHECK: vmull
	%v1 = mul <4 x i32> %v0, <i32 3, i32 3, i32 3, i32 3>			%v1 = mul <4 x i32> %v0, <i32 11, i32 11, i32 11, i32 11>
	store <4 x i32> %v1, <4 x i32>* undef, align 8			store <4 x i32> %v1, <4 x i32>* undef, align 8
	ret void;			ret void;
	}			}

	; v2i8			; v2i8
	;			;
	define void @sextload_v2i8_c(<2 x i8>* %v) nounwind {			define void @sextload_v2i8_c(<2 x i8>* %v) nounwind {
	;CHECK-LABEL: sextload_v2i8_c:			;CHECK-LABEL: sextload_v2i8_c:
	entry:			entry:
	%0 = load <2 x i8>, <2 x i8>* %v, align 8			%0 = load <2 x i8>, <2 x i8>* %v, align 8
	%v0 = sext <2 x i8> %0 to <2 x i64>			%v0 = sext <2 x i8> %0 to <2 x i64>
	;CHECK: vmull			;CHECK: vmull
	%v1 = mul <2 x i64> %v0, <i64 3, i64 3>			%v1 = mul <2 x i64> %v0, <i64 11, i64 11>
	store <2 x i64> %v1, <2 x i64>* undef, align 8			store <2 x i64> %v1, <2 x i64>* undef, align 8
	ret void;			ret void;
	}			}

	; v2i16			; v2i16
	;			;
	define void @sextload_v2i16_c(<2 x i16>* %v) nounwind {			define void @sextload_v2i16_c(<2 x i16>* %v) nounwind {
	;CHECK-LABEL: sextload_v2i16_c:			;CHECK-LABEL: sextload_v2i16_c:
	entry:			entry:
	%0 = load <2 x i16>, <2 x i16>* %v, align 8			%0 = load <2 x i16>, <2 x i16>* %v, align 8
	%v0 = sext <2 x i16> %0 to <2 x i64>			%v0 = sext <2 x i16> %0 to <2 x i64>
	;CHECK: vmull			;CHECK: vmull
	%v1 = mul <2 x i64> %v0, <i64 3, i64 3>			%v1 = mul <2 x i64> %v0, <i64 11, i64 11>
	store <2 x i64> %v1, <2 x i64>* undef, align 8			store <2 x i64> %v1, <2 x i64>* undef, align 8
	ret void;			ret void;
	}			}


	; Vector x Vector			; Vector x Vector
	; v4i8			; v4i8
	;			;
	▲ Show 20 Lines • Show All 95 Lines • Show Last 20 Lines

test/CodeGen/ARM/vmul.ll

Show First 20 Lines • Show All 368 Lines • ▼ Show 20 Lines

; Radar 8687140		; Radar 8687140
; VMULL needs to recognize BUILD_VECTORs with sign/zero-extended elements.		; VMULL needs to recognize BUILD_VECTORs with sign/zero-extended elements.

define <8 x i16> @vmull_extvec_s8(<8 x i8> %arg) nounwind {		define <8 x i16> @vmull_extvec_s8(<8 x i8> %arg) nounwind {
; CHECK: vmull_extvec_s8		; CHECK: vmull_extvec_s8
; CHECK: vmull.s8		; CHECK: vmull.s8
%tmp3 = sext <8 x i8> %arg to <8 x i16>		%tmp3 = sext <8 x i8> %arg to <8 x i16>
%tmp4 = mul <8 x i16> %tmp3, <i16 -12, i16 -12, i16 -12, i16 -12, i16 -12, i16 -12, i16 -12, i16 -12>		%tmp4 = mul <8 x i16> %tmp3, <i16 -13, i16 -13, i16 -13, i16 -13, i16 -13, i16 -13, i16 -13, i16 -13>
ret <8 x i16> %tmp4		ret <8 x i16> %tmp4
}		}

define <8 x i16> @vmull_extvec_u8(<8 x i8> %arg) nounwind {		define <8 x i16> @vmull_extvec_u8(<8 x i8> %arg) nounwind {
; CHECK: vmull_extvec_u8		; CHECK: vmull_extvec_u8
; CHECK: vmull.u8		; CHECK: vmull.u8
%tmp3 = zext <8 x i8> %arg to <8 x i16>		%tmp3 = zext <8 x i8> %arg to <8 x i16>
%tmp4 = mul <8 x i16> %tmp3, <i16 12, i16 12, i16 12, i16 12, i16 12, i16 12, i16 12, i16 12>		%tmp4 = mul <8 x i16> %tmp3, <i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11, i16 11>
ret <8 x i16> %tmp4		ret <8 x i16> %tmp4
}		}

define <8 x i16> @vmull_noextvec_s8(<8 x i8> %arg) nounwind {		define <8 x i16> @vmull_noextvec_s8(<8 x i8> %arg) nounwind {
; Do not use VMULL if the BUILD_VECTOR element values are too big.		; Do not use VMULL if the BUILD_VECTOR element values are too big.
; CHECK: vmull_noextvec_s8		; CHECK: vmull_noextvec_s8
; CHECK: vmovl.s8		; CHECK: vmovl.s8
; CHECK: vmul.i16		; CHECK: vmul.i16
Show All 11 Lines	; CHECK: vmul.i16
%tmp4 = mul <8 x i16> %tmp3, <i16 999, i16 999, i16 999, i16 999, i16 999, i16 999, i16 999, i16 999>		%tmp4 = mul <8 x i16> %tmp3, <i16 999, i16 999, i16 999, i16 999, i16 999, i16 999, i16 999, i16 999>
ret <8 x i16> %tmp4		ret <8 x i16> %tmp4
}		}

define <4 x i32> @vmull_extvec_s16(<4 x i16> %arg) nounwind {		define <4 x i32> @vmull_extvec_s16(<4 x i16> %arg) nounwind {
; CHECK: vmull_extvec_s16		; CHECK: vmull_extvec_s16
; CHECK: vmull.s16		; CHECK: vmull.s16
%tmp3 = sext <4 x i16> %arg to <4 x i32>		%tmp3 = sext <4 x i16> %arg to <4 x i32>
%tmp4 = mul <4 x i32> %tmp3, <i32 -12, i32 -12, i32 -12, i32 -12>		%tmp4 = mul <4 x i32> %tmp3, <i32 -13, i32 -13, i32 -13, i32 -13>
ret <4 x i32> %tmp4		ret <4 x i32> %tmp4
}		}

define <4 x i32> @vmull_extvec_u16(<4 x i16> %arg) nounwind {		define <4 x i32> @vmull_extvec_u16(<4 x i16> %arg) nounwind {
; CHECK: vmull_extvec_u16		; CHECK: vmull_extvec_u16
; CHECK: vmull.u16		; CHECK: vmull.u16
%tmp3 = zext <4 x i16> %arg to <4 x i32>		%tmp3 = zext <4 x i16> %arg to <4 x i32>
%tmp4 = mul <4 x i32> %tmp3, <i32 1234, i32 1234, i32 1234, i32 1234>		%tmp4 = mul <4 x i32> %tmp3, <i32 1234, i32 1234, i32 1234, i32 1234>
▲ Show 20 Lines • Show All 246 Lines • Show Last 20 Lines

test/CodeGen/Hexagon/vect/vect-cst-v4i32.ll

	; RUN: llc -march=hexagon -mcpu=hexagonv5 -disable-hsdr < %s \| FileCheck %s			; RUN: llc -march=hexagon -mcpu=hexagonv5 -disable-hsdr < %s \| FileCheck %s
	; This one should generate a combine with two immediates.			; This one should generate a combine with two immediates.
	; CHECK: combine(#7,#7)			; CHECK: combine(#11,#11)
	@B = common global [400 x i32] zeroinitializer, align 8			@B = common global [400 x i32] zeroinitializer, align 8
	@A = common global [400 x i32] zeroinitializer, align 8			@A = common global [400 x i32] zeroinitializer, align 8
	@C = common global [400 x i32] zeroinitializer, align 8			@C = common global [400 x i32] zeroinitializer, align 8

	define void @run() nounwind {			define void @run() nounwind {
	entry:			entry:
	br label %polly.loop_body			br label %polly.loop_body

	polly.loop_after: ; preds = %polly.loop_body			polly.loop_after: ; preds = %polly.loop_body
	ret void			ret void

	polly.loop_body: ; preds = %entry, %polly.loop_body			polly.loop_body: ; preds = %entry, %polly.loop_body
	%polly.loopiv23 = phi i32 [ 0, %entry ], [ %polly.next_loopiv, %polly.loop_body ]			%polly.loopiv23 = phi i32 [ 0, %entry ], [ %polly.next_loopiv, %polly.loop_body ]
	%polly.next_loopiv = add nsw i32 %polly.loopiv23, 4			%polly.next_loopiv = add nsw i32 %polly.loopiv23, 4
	%p_arrayidx1 = getelementptr [400 x i32], [400 x i32]* @A, i32 0, i32 %polly.loopiv23			%p_arrayidx1 = getelementptr [400 x i32], [400 x i32]* @A, i32 0, i32 %polly.loopiv23
	%p_arrayidx = getelementptr [400 x i32], [400 x i32]* @B, i32 0, i32 %polly.loopiv23			%p_arrayidx = getelementptr [400 x i32], [400 x i32]* @B, i32 0, i32 %polly.loopiv23
	%vector_ptr = bitcast i32* %p_arrayidx to <4 x i32>*			%vector_ptr = bitcast i32* %p_arrayidx to <4 x i32>*
	%_p_vec_full = load <4 x i32>, <4 x i32>* %vector_ptr, align 8			%_p_vec_full = load <4 x i32>, <4 x i32>* %vector_ptr, align 8
	%mulp_vec = mul <4 x i32> %_p_vec_full, <i32 7, i32 7, i32 7, i32 7>			%mulp_vec = mul <4 x i32> %_p_vec_full, <i32 11, i32 11, i32 11, i32 11>
	%vector_ptr12 = bitcast i32* %p_arrayidx1 to <4 x i32>*			%vector_ptr12 = bitcast i32* %p_arrayidx1 to <4 x i32>*
	%_p_vec_full13 = load <4 x i32>, <4 x i32>* %vector_ptr12, align 8			%_p_vec_full13 = load <4 x i32>, <4 x i32>* %vector_ptr12, align 8
	%addp_vec = add <4 x i32> %_p_vec_full13, %mulp_vec			%addp_vec = add <4 x i32> %_p_vec_full13, %mulp_vec
	store <4 x i32> %addp_vec, <4 x i32>* %vector_ptr12, align 8			store <4 x i32> %addp_vec, <4 x i32>* %vector_ptr12, align 8
	%0 = icmp slt i32 %polly.next_loopiv, 400			%0 = icmp slt i32 %polly.next_loopiv, 400
	br i1 %0, label %polly.loop_body, label %polly.loop_after			br i1 %0, label %polly.loop_body, label %polly.loop_after
	}			}

test/CodeGen/Hexagon/vect/vect-vsplatb.ll

	; RUN: llc -march=hexagon -disable-hcp < %s \| FileCheck %s			; RUN: llc -march=hexagon -disable-hcp < %s \| FileCheck %s
	; Make sure we build the constant vector <7, 7, 7, 7> with a vsplatb.			; Make sure we build the constant vector <11, 11, 11, 11> with a vsplatb.
	; CHECK: vsplatb			; CHECK: vsplatb
	@B = common global [400 x i8] zeroinitializer, align 8			@B = common global [400 x i8] zeroinitializer, align 8
	@A = common global [400 x i8] zeroinitializer, align 8			@A = common global [400 x i8] zeroinitializer, align 8
	@C = common global [400 x i8] zeroinitializer, align 8			@C = common global [400 x i8] zeroinitializer, align 8

	define void @run() nounwind {			define void @run() nounwind {
	entry:			entry:
	br label %polly.loop_body			br label %polly.loop_body

	polly.loop_after: ; preds = %polly.loop_body			polly.loop_after: ; preds = %polly.loop_body
	ret void			ret void

	polly.loop_body: ; preds = %entry, %polly.loop_body			polly.loop_body: ; preds = %entry, %polly.loop_body
	%polly.loopiv25 = phi i32 [ 0, %entry ], [ %polly.next_loopiv, %polly.loop_body ]			%polly.loopiv25 = phi i32 [ 0, %entry ], [ %polly.next_loopiv, %polly.loop_body ]
	%polly.next_loopiv = add i32 %polly.loopiv25, 4			%polly.next_loopiv = add i32 %polly.loopiv25, 4
	%p_arrayidx1 = getelementptr [400 x i8], [400 x i8]* @A, i32 0, i32 %polly.loopiv25			%p_arrayidx1 = getelementptr [400 x i8], [400 x i8]* @A, i32 0, i32 %polly.loopiv25
	%p_arrayidx = getelementptr [400 x i8], [400 x i8]* @B, i32 0, i32 %polly.loopiv25			%p_arrayidx = getelementptr [400 x i8], [400 x i8]* @B, i32 0, i32 %polly.loopiv25
	%vector_ptr = bitcast i8* %p_arrayidx to <4 x i8>*			%vector_ptr = bitcast i8* %p_arrayidx to <4 x i8>*
	%_p_vec_full = load <4 x i8>, <4 x i8>* %vector_ptr, align 8			%_p_vec_full = load <4 x i8>, <4 x i8>* %vector_ptr, align 8
	%mulp_vec = mul <4 x i8> %_p_vec_full, <i8 7, i8 7, i8 7, i8 7>			%mulp_vec = mul <4 x i8> %_p_vec_full, <i8 11, i8 11, i8 11, i8 11>
	%vector_ptr14 = bitcast i8* %p_arrayidx1 to <4 x i8>*			%vector_ptr14 = bitcast i8* %p_arrayidx1 to <4 x i8>*
	%_p_vec_full15 = load <4 x i8>, <4 x i8>* %vector_ptr14, align 8			%_p_vec_full15 = load <4 x i8>, <4 x i8>* %vector_ptr14, align 8
	%addp_vec = add <4 x i8> %_p_vec_full15, %mulp_vec			%addp_vec = add <4 x i8> %_p_vec_full15, %mulp_vec
	store <4 x i8> %addp_vec, <4 x i8>* %vector_ptr14, align 8			store <4 x i8> %addp_vec, <4 x i8>* %vector_ptr14, align 8
	%0 = icmp slt i32 %polly.next_loopiv, 400			%0 = icmp slt i32 %polly.next_loopiv, 400
	br i1 %0, label %polly.loop_body, label %polly.loop_after			br i1 %0, label %polly.loop_body, label %polly.loop_after
	}			}

test/CodeGen/Hexagon/vect/vect-vsplath.ll

	; RUN: llc -march=hexagon -disable-hcp < %s \| FileCheck %s			; RUN: llc -march=hexagon -disable-hcp < %s \| FileCheck %s
	; Make sure we build the constant vector <7, 7, 7, 7> with a vsplath.			; Make sure we build the constant vector <11, 11, 11, 11> with a vsplath.
	; CHECK: vsplath			; CHECK: vsplath
	@B = common global [400 x i16] zeroinitializer, align 8			@B = common global [400 x i16] zeroinitializer, align 8
	@A = common global [400 x i16] zeroinitializer, align 8			@A = common global [400 x i16] zeroinitializer, align 8
	@C = common global [400 x i16] zeroinitializer, align 8			@C = common global [400 x i16] zeroinitializer, align 8

	define void @run() nounwind {			define void @run() nounwind {
	entry:			entry:
	br label %polly.loop_body			br label %polly.loop_body

	polly.loop_after: ; preds = %polly.loop_body			polly.loop_after: ; preds = %polly.loop_body
	ret void			ret void

	polly.loop_body: ; preds = %entry, %polly.loop_body			polly.loop_body: ; preds = %entry, %polly.loop_body
	%polly.loopiv26 = phi i32 [ 0, %entry ], [ %polly.next_loopiv, %polly.loop_body ]			%polly.loopiv26 = phi i32 [ 0, %entry ], [ %polly.next_loopiv, %polly.loop_body ]
	%polly.next_loopiv = add nsw i32 %polly.loopiv26, 4			%polly.next_loopiv = add nsw i32 %polly.loopiv26, 4
	%p_arrayidx1 = getelementptr [400 x i16], [400 x i16]* @A, i32 0, i32 %polly.loopiv26			%p_arrayidx1 = getelementptr [400 x i16], [400 x i16]* @A, i32 0, i32 %polly.loopiv26
	%p_arrayidx = getelementptr [400 x i16], [400 x i16]* @B, i32 0, i32 %polly.loopiv26			%p_arrayidx = getelementptr [400 x i16], [400 x i16]* @B, i32 0, i32 %polly.loopiv26
	%vector_ptr = bitcast i16* %p_arrayidx to <4 x i16>*			%vector_ptr = bitcast i16* %p_arrayidx to <4 x i16>*
	%_p_vec_full = load <4 x i16>, <4 x i16>* %vector_ptr, align 8			%_p_vec_full = load <4 x i16>, <4 x i16>* %vector_ptr, align 8
	%mulp_vec = mul <4 x i16> %_p_vec_full, <i16 7, i16 7, i16 7, i16 7>			%mulp_vec = mul <4 x i16> %_p_vec_full, <i16 11, i16 11, i16 11, i16 11>
	%vector_ptr15 = bitcast i16* %p_arrayidx1 to <4 x i16>*			%vector_ptr15 = bitcast i16* %p_arrayidx1 to <4 x i16>*
	%_p_vec_full16 = load <4 x i16>, <4 x i16>* %vector_ptr15, align 8			%_p_vec_full16 = load <4 x i16>, <4 x i16>* %vector_ptr15, align 8
	%addp_vec = add <4 x i16> %_p_vec_full16, %mulp_vec			%addp_vec = add <4 x i16> %_p_vec_full16, %mulp_vec
	store <4 x i16> %addp_vec, <4 x i16>* %vector_ptr15, align 8			store <4 x i16> %addp_vec, <4 x i16>* %vector_ptr15, align 8
	%0 = icmp slt i32 %polly.next_loopiv, 400			%0 = icmp slt i32 %polly.next_loopiv, 400
	br i1 %0, label %polly.loop_body, label %polly.loop_after			br i1 %0, label %polly.loop_body, label %polly.loop_after
	}			}

test/CodeGen/X86/combine-shl.ll

	Show First 20 Lines • Show All 575 Lines • ▼ Show 20 Lines
	define <4 x i32> @combine_vec_shl_mul0(<4 x i32> %x) {			define <4 x i32> @combine_vec_shl_mul0(<4 x i32> %x) {
	; SSE-LABEL: combine_vec_shl_mul0:			; SSE-LABEL: combine_vec_shl_mul0:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: pmulld {{.*}}(%rip), %xmm0			; SSE-NEXT: pmulld {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: combine_vec_shl_mul0:			; AVX-LABEL: combine_vec_shl_mul0:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpbroadcastd {{.*#+}} xmm1 = [20,20,20,20]			; AVX-NEXT: vpbroadcastd {{.*#+}} xmm1 = [44,44,44,44]
	; AVX-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%1 = mul <4 x i32> %x, <i32 5, i32 5, i32 5, i32 5>			%1 = mul <4 x i32> %x, <i32 11, i32 11, i32 11, i32 11>
	%2 = shl <4 x i32> %1, <i32 2, i32 2, i32 2, i32 2>			%2 = shl <4 x i32> %1, <i32 2, i32 2, i32 2, i32 2>
	ret <4 x i32> %2			ret <4 x i32> %2
	}			}

	define <4 x i32> @combine_vec_shl_mul1(<4 x i32> %x) {			define <4 x i32> @combine_vec_shl_mul1(<4 x i32> %x) {
	; SSE-LABEL: combine_vec_shl_mul1:			; SSE-LABEL: combine_vec_shl_mul1:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: pmulld {{.*}}(%rip), %xmm0			; SSE-NEXT: pmulld {{.*}}(%rip), %xmm0
	Show All 10 Lines

test/CodeGen/X86/masked_gather_scatter.ll

Show First 20 Lines • Show All 458 Lines • ▼ Show 20 Lines
; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2		; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2
; KNL_64-NEXT: vpbroadcastq {{.*#+}} zmm3 = [824,824,824,824,824,824,824,824]		; KNL_64-NEXT: vpbroadcastq {{.*#+}} zmm3 = [824,824,824,824,824,824,824,824]
; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4		; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4
; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0		; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0
; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0		; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0
; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0		; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0
; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0		; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0
; KNL_64-NEXT: vpmovsxdq %ymm1, %zmm1		; KNL_64-NEXT: vpmovsxdq %ymm1, %zmm1
; KNL_64-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1		; KNL_64-NEXT: vpsllq $2, %zmm1, %zmm2
		; KNL_64-NEXT: vpaddq %zmm1, %zmm2, %zmm1
		; KNL_64-NEXT: vpsllq $4, %zmm1, %zmm1
; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0		; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0
; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0		; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0
; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1		; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
; KNL_64-NEXT: kxnorw %k0, %k0, %k1		; KNL_64-NEXT: kxnorw %k0, %k0, %k1
; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}		; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test9:		; KNL_32-LABEL: test9:
; KNL_32: # BB#0: # %entry		; KNL_32: # BB#0: # %entry
; KNL_32-NEXT: vpbroadcastd {{[0-9]+}}(%esp), %ymm2		; KNL_32-NEXT: vpbroadcastd {{[0-9]+}}(%esp), %ymm2
; KNL_32-NEXT: vpbroadcastd {{.*#+}} ymm3 = [80,80,80,80,80,80,80,80]
; KNL_32-NEXT: vpmulld %ymm3, %ymm1, %ymm1
; KNL_32-NEXT: vpmovqd %zmm0, %ymm0		; KNL_32-NEXT: vpmovqd %zmm0, %ymm0
; KNL_32-NEXT: vpbroadcastd {{.*#+}} ymm3 = [820,820,820,820,820,820,820,820]		; KNL_32-NEXT: vpbroadcastd {{.*#+}} ymm3 = [820,820,820,820,820,820,820,820]
; KNL_32-NEXT: vpmulld %ymm3, %ymm0, %ymm0		; KNL_32-NEXT: vpmulld %ymm3, %ymm0, %ymm0
		; KNL_32-NEXT: vpslld $2, %ymm1, %ymm3
		; KNL_32-NEXT: vpaddd %ymm1, %ymm3, %ymm1
		; KNL_32-NEXT: vpslld $4, %ymm1, %ymm1
; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; KNL_32-NEXT: vpbroadcastd {{.*#+}} ymm1 = [68,68,68,68,68,68,68,68]		; KNL_32-NEXT: vpbroadcastd {{.*#+}} ymm1 = [68,68,68,68,68,68,68,68]
; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; KNL_32-NEXT: vpaddd %ymm0, %ymm2, %ymm0		; KNL_32-NEXT: vpaddd %ymm0, %ymm2, %ymm0
; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm1		; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm1
; KNL_32-NEXT: kxnorw %k0, %k0, %k1		; KNL_32-NEXT: kxnorw %k0, %k0, %k1
; KNL_32-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}		; KNL_32-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test9:		; SKX-LABEL: test9:
; SKX: # BB#0: # %entry		; SKX: # BB#0: # %entry
; SKX-NEXT: vpbroadcastq %rdi, %zmm2		; SKX-NEXT: vpbroadcastq %rdi, %zmm2
; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0		; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0
; SKX-NEXT: vpmovsxdq %ymm1, %zmm1		; SKX-NEXT: vpmovsxdq %ymm1, %zmm1
; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm1, %zmm1		; SKX-NEXT: vpsllq $2, %zmm1, %zmm3
		; SKX-NEXT: vpaddq %zmm1, %zmm3, %zmm1
		; SKX-NEXT: vpsllq $4, %zmm1, %zmm1
; SKX-NEXT: vpaddq %zmm1, %zmm0, %zmm0		; SKX-NEXT: vpaddq %zmm1, %zmm0, %zmm0
; SKX-NEXT: vpaddq %zmm0, %zmm2, %zmm0		; SKX-NEXT: vpaddq %zmm0, %zmm2, %zmm0
; SKX-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1		; SKX-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
; SKX-NEXT: kxnorw %k0, %k0, %k1		; SKX-NEXT: kxnorw %k0, %k0, %k1
; SKX-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}		; SKX-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test9:		; SKX_32-LABEL: test9:
; SKX_32: # BB#0: # %entry		; SKX_32: # BB#0: # %entry
; SKX_32-NEXT: vpmulld {{\.LCPI.*}}{1to8}, %ymm1, %ymm1		; SKX_32-NEXT: vpslld $2, %ymm1, %ymm2
		; SKX_32-NEXT: vpaddd %ymm1, %ymm2, %ymm1
		; SKX_32-NEXT: vpslld $4, %ymm1, %ymm1
; SKX_32-NEXT: vpmovqd %zmm0, %ymm0		; SKX_32-NEXT: vpmovqd %zmm0, %ymm0
; SKX_32-NEXT: vpmulld {{\.LCPI.*}}{1to8}, %ymm0, %ymm0		; SKX_32-NEXT: vpmulld {{\.LCPI.*}}{1to8}, %ymm0, %ymm0
; SKX_32-NEXT: vpaddd {{[0-9]+}}(%esp){1to8}, %ymm0, %ymm0		; SKX_32-NEXT: vpaddd {{[0-9]+}}(%esp){1to8}, %ymm0, %ymm0
; SKX_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; SKX_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; SKX_32-NEXT: vpaddd {{\.LCPI.*}}{1to8}, %ymm0, %ymm1		; SKX_32-NEXT: vpaddd {{\.LCPI.*}}{1to8}, %ymm0, %ymm1
; SKX_32-NEXT: kxnorw %k0, %k0, %k1		; SKX_32-NEXT: kxnorw %k0, %k0, %k1
; SKX_32-NEXT: vpgatherdd (,%ymm1), %ymm0 {%k1}		; SKX_32-NEXT: vpgatherdd (,%ymm1), %ymm0 {%k1}
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
Show All 12 Lines
; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2		; KNL_64-NEXT: vpbroadcastq %rdi, %zmm2
; KNL_64-NEXT: vpbroadcastq {{.*#+}} zmm3 = [824,824,824,824,824,824,824,824]		; KNL_64-NEXT: vpbroadcastq {{.*#+}} zmm3 = [824,824,824,824,824,824,824,824]
; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4		; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4
; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0		; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0
; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0		; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0
; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0		; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0
; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0		; KNL_64-NEXT: vpaddq %zmm2, %zmm0, %zmm0
; KNL_64-NEXT: vpmovsxdq %ymm1, %zmm1		; KNL_64-NEXT: vpmovsxdq %ymm1, %zmm1
; KNL_64-NEXT: vpmuldq {{.*}}(%rip){1to8}, %zmm1, %zmm1		; KNL_64-NEXT: vpsllq $2, %zmm1, %zmm2
		; KNL_64-NEXT: vpaddq %zmm1, %zmm2, %zmm1
		; KNL_64-NEXT: vpsllq $4, %zmm1, %zmm1
; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0		; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0
; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0		; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0
; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1		; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
; KNL_64-NEXT: kxnorw %k0, %k0, %k1		; KNL_64-NEXT: kxnorw %k0, %k0, %k1
; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}		; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
; KNL_64-NEXT: retq		; KNL_64-NEXT: retq
;		;
; KNL_32-LABEL: test10:		; KNL_32-LABEL: test10:
; KNL_32: # BB#0: # %entry		; KNL_32: # BB#0: # %entry
; KNL_32-NEXT: vpbroadcastd {{[0-9]+}}(%esp), %ymm2		; KNL_32-NEXT: vpbroadcastd {{[0-9]+}}(%esp), %ymm2
; KNL_32-NEXT: vpbroadcastd {{.*#+}} ymm3 = [80,80,80,80,80,80,80,80]
; KNL_32-NEXT: vpmulld %ymm3, %ymm1, %ymm1
; KNL_32-NEXT: vpmovqd %zmm0, %ymm0		; KNL_32-NEXT: vpmovqd %zmm0, %ymm0
; KNL_32-NEXT: vpbroadcastd {{.*#+}} ymm3 = [820,820,820,820,820,820,820,820]		; KNL_32-NEXT: vpbroadcastd {{.*#+}} ymm3 = [820,820,820,820,820,820,820,820]
; KNL_32-NEXT: vpmulld %ymm3, %ymm0, %ymm0		; KNL_32-NEXT: vpmulld %ymm3, %ymm0, %ymm0
		; KNL_32-NEXT: vpslld $2, %ymm1, %ymm3
		; KNL_32-NEXT: vpaddd %ymm1, %ymm3, %ymm1
		; KNL_32-NEXT: vpslld $4, %ymm1, %ymm1
; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; KNL_32-NEXT: vpbroadcastd {{.*#+}} ymm1 = [68,68,68,68,68,68,68,68]		; KNL_32-NEXT: vpbroadcastd {{.*#+}} ymm1 = [68,68,68,68,68,68,68,68]
; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; KNL_32-NEXT: vpaddd %ymm0, %ymm2, %ymm0		; KNL_32-NEXT: vpaddd %ymm0, %ymm2, %ymm0
; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm1		; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm1
; KNL_32-NEXT: kxnorw %k0, %k0, %k1		; KNL_32-NEXT: kxnorw %k0, %k0, %k1
; KNL_32-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}		; KNL_32-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
; KNL_32-NEXT: retl		; KNL_32-NEXT: retl
;		;
; SKX-LABEL: test10:		; SKX-LABEL: test10:
; SKX: # BB#0: # %entry		; SKX: # BB#0: # %entry
; SKX-NEXT: vpbroadcastq %rdi, %zmm2		; SKX-NEXT: vpbroadcastq %rdi, %zmm2
; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0		; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0
; SKX-NEXT: vpmovsxdq %ymm1, %zmm1		; SKX-NEXT: vpmovsxdq %ymm1, %zmm1
; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm1, %zmm1		; SKX-NEXT: vpsllq $2, %zmm1, %zmm3
		; SKX-NEXT: vpaddq %zmm1, %zmm3, %zmm1
		; SKX-NEXT: vpsllq $4, %zmm1, %zmm1
; SKX-NEXT: vpaddq %zmm1, %zmm0, %zmm0		; SKX-NEXT: vpaddq %zmm1, %zmm0, %zmm0
; SKX-NEXT: vpaddq %zmm0, %zmm2, %zmm0		; SKX-NEXT: vpaddq %zmm0, %zmm2, %zmm0
; SKX-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1		; SKX-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
; SKX-NEXT: kxnorw %k0, %k0, %k1		; SKX-NEXT: kxnorw %k0, %k0, %k1
; SKX-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}		; SKX-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; SKX_32-LABEL: test10:		; SKX_32-LABEL: test10:
; SKX_32: # BB#0: # %entry		; SKX_32: # BB#0: # %entry
; SKX_32-NEXT: vpmulld {{\.LCPI.*}}{1to8}, %ymm1, %ymm1		; SKX_32-NEXT: vpslld $2, %ymm1, %ymm2
		; SKX_32-NEXT: vpaddd %ymm1, %ymm2, %ymm1
		; SKX_32-NEXT: vpslld $4, %ymm1, %ymm1
; SKX_32-NEXT: vpmovqd %zmm0, %ymm0		; SKX_32-NEXT: vpmovqd %zmm0, %ymm0
; SKX_32-NEXT: vpmulld {{\.LCPI.*}}{1to8}, %ymm0, %ymm0		; SKX_32-NEXT: vpmulld {{\.LCPI.*}}{1to8}, %ymm0, %ymm0
; SKX_32-NEXT: vpaddd {{[0-9]+}}(%esp){1to8}, %ymm0, %ymm0		; SKX_32-NEXT: vpaddd {{[0-9]+}}(%esp){1to8}, %ymm0, %ymm0
; SKX_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; SKX_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; SKX_32-NEXT: vpaddd {{\.LCPI.*}}{1to8}, %ymm0, %ymm1		; SKX_32-NEXT: vpaddd {{\.LCPI.*}}{1to8}, %ymm0, %ymm1
; SKX_32-NEXT: kxnorw %k0, %k0, %k1		; SKX_32-NEXT: kxnorw %k0, %k0, %k1
; SKX_32-NEXT: vpgatherdd (,%ymm1), %ymm0 {%k1}		; SKX_32-NEXT: vpgatherdd (,%ymm1), %ymm0 {%k1}
; SKX_32-NEXT: retl		; SKX_32-NEXT: retl
▲ Show 20 Lines • Show All 985 Lines • ▼ Show 20 Lines	; SKX_32-NEXT: retl

%res = call <16 x float> @llvm.masked.gather.v16f32.v16p0f32(<16 x float*> %gep.random, i32 4, <16 x i1> <i1 false, i1 false, i1 true, i1 true, i1 false, i1 true, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false>, <16 x float> undef)		%res = call <16 x float> @llvm.masked.gather.v16f32.v16p0f32(<16 x float*> %gep.random, i32 4, <16 x i1> <i1 false, i1 false, i1 true, i1 true, i1 false, i1 true, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false, i1 false>, <16 x float> undef)
ret <16 x float>%res		ret <16 x float>%res
}		}

; Check non-power-of-2 case. It should be scalarized.		; Check non-power-of-2 case. It should be scalarized.
declare <3 x i32> @llvm.masked.gather.v3i32.v3p0i32(<3 x i32*>, i32, <3 x i1>, <3 x i32>)		declare <3 x i32> @llvm.masked.gather.v3i32.v3p0i32(<3 x i32*>, i32, <3 x i1>, <3 x i32>)
define <3 x i32> @test30(<3 x i32*> %base, <3 x i32> %ind, <3 x i1> %mask, <3 x i32> %src0) {		define <3 x i32> @test30(<3 x i32*> %base, <3 x i32> %ind, <3 x i1> %mask, <3 x i32> %src0) {
; ALL-LABEL: test30		; KNL_64-LABEL: test30:
; ALL-NOT: gather		; KNL_64: # BB#0:
		; KNL_64-NEXT: kmovw %edx, %k0
		; KNL_64-NEXT: kmovw %esi, %k2
		; KNL_64-NEXT: vpmovsxdq %xmm1, %ymm1
		; KNL_64-NEXT: vpsllq $2, %ymm1, %ymm1
		; KNL_64-NEXT: vpaddq %ymm1, %ymm0, %ymm1
		; KNL_64-NEXT: testb $1, %dil
		; KNL_64-NEXT: # implicit-def: %XMM0
		; KNL_64-NEXT: je .LBB30_2
		; KNL_64-NEXT: # BB#1: # %cond.load
		; KNL_64-NEXT: vmovq %xmm1, %rax
		; KNL_64-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; KNL_64-NEXT: .LBB30_2: # %else
		; KNL_64-NEXT: kmovw %edi, %k1
		; KNL_64-NEXT: kshiftlw $15, %k2, %k2
		; KNL_64-NEXT: kshiftrw $15, %k2, %k2
		; KNL_64-NEXT: kmovw %k2, %eax
		; KNL_64-NEXT: testb $1, %al
		; KNL_64-NEXT: je .LBB30_4
		; KNL_64-NEXT: # BB#3: # %cond.load1
		; KNL_64-NEXT: vpextrq $1, %xmm1, %rax
		; KNL_64-NEXT: vpinsrd $1, (%rax), %xmm0, %xmm0
		; KNL_64-NEXT: .LBB30_4: # %else2
		; KNL_64-NEXT: kshiftlw $15, %k0, %k0
		; KNL_64-NEXT: kshiftrw $15, %k0, %k0
		; KNL_64-NEXT: kmovw %k0, %eax
		; KNL_64-NEXT: testb $1, %al
		; KNL_64-NEXT: je .LBB30_6
		; KNL_64-NEXT: # BB#5: # %cond.load4
		; KNL_64-NEXT: vextracti128 $1, %ymm1, %xmm1
		; KNL_64-NEXT: vmovq %xmm1, %rax
		; KNL_64-NEXT: vpinsrd $2, (%rax), %xmm0, %xmm0
		; KNL_64-NEXT: .LBB30_6: # %else5
		; KNL_64-NEXT: kmovw %k2, %eax
		; KNL_64-NEXT: kshiftlw $15, %k1, %k1
		; KNL_64-NEXT: kshiftrw $15, %k1, %k1
		; KNL_64-NEXT: kmovw %k1, %ecx
		; KNL_64-NEXT: vmovd %ecx, %xmm1
		; KNL_64-NEXT: vpinsrb $4, %eax, %xmm1, %xmm1
		; KNL_64-NEXT: kmovw %k0, %eax
		; KNL_64-NEXT: vpinsrb $8, %eax, %xmm1, %xmm1
		; KNL_64-NEXT: vpslld $31, %xmm1, %xmm1
		; KNL_64-NEXT: vblendvps %xmm1, %xmm0, %xmm2, %xmm0
		; KNL_64-NEXT: vzeroupper
		; KNL_64-NEXT: retq
		;
		; KNL_32-LABEL: test30:
		; KNL_32: # BB#0:
		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
		; KNL_32-NEXT: kmovw %eax, %k0
		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
		; KNL_32-NEXT: kmovw %eax, %k2
		; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
		; KNL_32-NEXT: vpslld $2, %xmm1, %xmm1
		; KNL_32-NEXT: vpaddd %xmm1, %xmm0, %xmm1
		; KNL_32-NEXT: testb $1, %al
		; KNL_32-NEXT: # implicit-def: %XMM0
		; KNL_32-NEXT: je .LBB30_2
		; KNL_32-NEXT: # BB#1: # %cond.load
		; KNL_32-NEXT: vmovd %xmm1, %ecx
		; KNL_32-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; KNL_32-NEXT: .LBB30_2: # %else
		; KNL_32-NEXT: kmovw %eax, %k1
		; KNL_32-NEXT: kshiftlw $15, %k2, %k2
		; KNL_32-NEXT: kshiftrw $15, %k2, %k2
		; KNL_32-NEXT: kmovw %k2, %eax
		; KNL_32-NEXT: testb $1, %al
		; KNL_32-NEXT: je .LBB30_4
		; KNL_32-NEXT: # BB#3: # %cond.load1
		; KNL_32-NEXT: vpextrd $1, %xmm1, %eax
		; KNL_32-NEXT: vpinsrd $1, (%eax), %xmm0, %xmm0
		; KNL_32-NEXT: .LBB30_4: # %else2
		; KNL_32-NEXT: kshiftlw $15, %k0, %k0
		; KNL_32-NEXT: kshiftrw $15, %k0, %k0
		; KNL_32-NEXT: kmovw %k0, %eax
		; KNL_32-NEXT: testb $1, %al
		; KNL_32-NEXT: je .LBB30_6
		; KNL_32-NEXT: # BB#5: # %cond.load4
		; KNL_32-NEXT: vpextrd $2, %xmm1, %eax
		; KNL_32-NEXT: vpinsrd $2, (%eax), %xmm0, %xmm0
		; KNL_32-NEXT: .LBB30_6: # %else5
		; KNL_32-NEXT: kmovw %k2, %eax
		; KNL_32-NEXT: kshiftlw $15, %k1, %k1
		; KNL_32-NEXT: kshiftrw $15, %k1, %k1
		; KNL_32-NEXT: kmovw %k1, %ecx
		; KNL_32-NEXT: vmovd %ecx, %xmm1
		; KNL_32-NEXT: vpinsrb $4, %eax, %xmm1, %xmm1
		; KNL_32-NEXT: kmovw %k0, %eax
		; KNL_32-NEXT: vpinsrb $8, %eax, %xmm1, %xmm1
		; KNL_32-NEXT: vpslld $31, %xmm1, %xmm1
		; KNL_32-NEXT: vblendvps %xmm1, %xmm0, %xmm2, %xmm0
		; KNL_32-NEXT: retl
		;
		; SKX-LABEL: test30:
		; SKX: # BB#0:
		; SKX-NEXT: vpslld $31, %xmm2, %xmm2
		; SKX-NEXT: vptestmd %xmm2, %xmm2, %k1
		; SKX-NEXT: kshiftlw $15, %k1, %k0
		; SKX-NEXT: kshiftrw $15, %k0, %k0
		; SKX-NEXT: kmovw %k0, %eax
		; SKX-NEXT: vpmovsxdq %xmm1, %ymm1
		; SKX-NEXT: vpsllq $2, %ymm1, %ymm1
		; SKX-NEXT: vpaddq %ymm1, %ymm0, %ymm1
		; SKX-NEXT: testb $1, %al
		; SKX-NEXT: # implicit-def: %XMM0
		; SKX-NEXT: je .LBB30_2
		; SKX-NEXT: # BB#1: # %cond.load
		; SKX-NEXT: vmovq %xmm1, %rax
		; SKX-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; SKX-NEXT: .LBB30_2: # %else
		; SKX-NEXT: kshiftlw $14, %k1, %k0
		; SKX-NEXT: kshiftrw $15, %k0, %k0
		; SKX-NEXT: kmovw %k0, %eax
		; SKX-NEXT: testb $1, %al
		; SKX-NEXT: je .LBB30_4
		; SKX-NEXT: # BB#3: # %cond.load1
		; SKX-NEXT: vpextrq $1, %xmm1, %rax
		; SKX-NEXT: vpinsrd $1, (%rax), %xmm0, %xmm0
		; SKX-NEXT: .LBB30_4: # %else2
		; SKX-NEXT: kshiftlw $13, %k1, %k0
		; SKX-NEXT: kshiftrw $15, %k0, %k0
		; SKX-NEXT: kmovw %k0, %eax
		; SKX-NEXT: testb $1, %al
		; SKX-NEXT: je .LBB30_6
		; SKX-NEXT: # BB#5: # %cond.load4
		; SKX-NEXT: vextracti128 $1, %ymm1, %xmm1
		; SKX-NEXT: vmovq %xmm1, %rax
		; SKX-NEXT: vpinsrd $2, (%rax), %xmm0, %xmm0
		; SKX-NEXT: .LBB30_6: # %else5
		; SKX-NEXT: vmovdqa32 %xmm0, %xmm3 {%k1}
		; SKX-NEXT: vmovdqa %xmm3, %xmm0
		; SKX-NEXT: vzeroupper
		; SKX-NEXT: retq
		;
		; SKX_32-LABEL: test30:
		; SKX_32: # BB#0:
		; SKX_32-NEXT: subl $12, %esp
		; SKX_32-NEXT: .Lcfi0:
		; SKX_32-NEXT: .cfi_def_cfa_offset 16
		; SKX_32-NEXT: vpslld $31, %xmm2, %xmm2
		; SKX_32-NEXT: vptestmd %xmm2, %xmm2, %k1
		; SKX_32-NEXT: kshiftlw $15, %k1, %k0
		; SKX_32-NEXT: kshiftrw $15, %k0, %k0
		; SKX_32-NEXT: kmovw %k0, %eax
		; SKX_32-NEXT: vpslld $2, %xmm1, %xmm1
		; SKX_32-NEXT: vpaddd %xmm1, %xmm0, %xmm2
		; SKX_32-NEXT: testb $1, %al
		; SKX_32-NEXT: # implicit-def: %XMM1
		; SKX_32-NEXT: je .LBB30_2
		; SKX_32-NEXT: # BB#1: # %cond.load
		; SKX_32-NEXT: vmovd %xmm2, %eax
		; SKX_32-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SKX_32-NEXT: .LBB30_2: # %else
		; SKX_32-NEXT: kshiftlw $14, %k1, %k0
		; SKX_32-NEXT: kshiftrw $15, %k0, %k0
		; SKX_32-NEXT: kmovw %k0, %eax
		; SKX_32-NEXT: testb $1, %al
		; SKX_32-NEXT: je .LBB30_4
		; SKX_32-NEXT: # BB#3: # %cond.load1
		; SKX_32-NEXT: vpextrd $1, %xmm2, %eax
		; SKX_32-NEXT: vpinsrd $1, (%eax), %xmm1, %xmm1
		; SKX_32-NEXT: .LBB30_4: # %else2
		; SKX_32-NEXT: vmovdqa {{[0-9]+}}(%esp), %xmm0
		; SKX_32-NEXT: kshiftlw $13, %k1, %k0
		; SKX_32-NEXT: kshiftrw $15, %k0, %k0
		; SKX_32-NEXT: kmovw %k0, %eax
		; SKX_32-NEXT: testb $1, %al
		; SKX_32-NEXT: je .LBB30_6
		; SKX_32-NEXT: # BB#5: # %cond.load4
		; SKX_32-NEXT: vpextrd $2, %xmm2, %eax
		; SKX_32-NEXT: vpinsrd $2, (%eax), %xmm1, %xmm1
		; SKX_32-NEXT: .LBB30_6: # %else5
		; SKX_32-NEXT: vmovdqa32 %xmm1, %xmm0 {%k1}
		; SKX_32-NEXT: addl $12, %esp
		; SKX_32-NEXT: retl

%sext_ind = sext <3 x i32> %ind to <3 x i64>		%sext_ind = sext <3 x i32> %ind to <3 x i64>
%gep.random = getelementptr i32, <3 x i32*> %base, <3 x i64> %sext_ind		%gep.random = getelementptr i32, <3 x i32*> %base, <3 x i64> %sext_ind
%res = call <3 x i32> @llvm.masked.gather.v3i32.v3p0i32(<3 x i32*> %gep.random, i32 4, <3 x i1> %mask, <3 x i32> %src0)		%res = call <3 x i32> @llvm.masked.gather.v3i32.v3p0i32(<3 x i32*> %gep.random, i32 4, <3 x i1> %mask, <3 x i32> %src0)
ret <3 x i32>%res		ret <3 x i32>%res
}		}

declare <16 x float> @llvm.masked.gather.v16p0f32.v16p0p0f32(<16 x float>, i32, <16 x i1>, <16 x float>)		declare <16 x float> @llvm.masked.gather.v16p0f32.v16p0p0f32(<16 x float>, i32, <16 x i1>, <16 x float>)
▲ Show 20 Lines • Show All 578 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-idiv-sdiv-128.ll

	Show First 20 Lines • Show All 399 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,3,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
	; SSE2-NEXT: psubd %xmm2, %xmm1			; SSE2-NEXT: psubd %xmm2, %xmm1
	; SSE2-NEXT: paddd %xmm0, %xmm1			; SSE2-NEXT: paddd %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm2			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: psrld $31, %xmm2			; SSE2-NEXT: psrld $31, %xmm2
	; SSE2-NEXT: psrad $2, %xmm1			; SSE2-NEXT: psrad $2, %xmm1
	; SSE2-NEXT: paddd %xmm2, %xmm1			; SSE2-NEXT: paddd %xmm2, %xmm1
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [7,7,7,7]			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]			; SSE2-NEXT: pslld $3, %xmm2
	; SSE2-NEXT: pmuludq %xmm2, %xmm1			; SSE2-NEXT: psubd %xmm1, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: psubd %xmm2, %xmm0
	; SSE2-NEXT: pmuludq %xmm2, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: psubd %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_rem7_4i32:			; SSE41-LABEL: test_rem7_4i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [2454267027,2454267027,2454267027,2454267027]			; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [2454267027,2454267027,2454267027,2454267027]
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; SSE41-NEXT: pmuldq %xmm2, %xmm3			; SSE41-NEXT: pmuldq %xmm2, %xmm3
	; SSE41-NEXT: pmuldq %xmm0, %xmm1			; SSE41-NEXT: pmuldq %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
	; SSE41-NEXT: paddd %xmm0, %xmm1			; SSE41-NEXT: paddd %xmm0, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psrld $31, %xmm2			; SSE41-NEXT: psrld $31, %xmm2
	; SSE41-NEXT: psrad $2, %xmm1			; SSE41-NEXT: psrad $2, %xmm1
	; SSE41-NEXT: paddd %xmm2, %xmm1			; SSE41-NEXT: paddd %xmm2, %xmm1
	; SSE41-NEXT: pmulld {{.*}}(%rip), %xmm1			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psubd %xmm1, %xmm0			; SSE41-NEXT: pslld $3, %xmm2
				; SSE41-NEXT: psubd %xmm1, %xmm2
				; SSE41-NEXT: psubd %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_rem7_4i32:			; AVX1-LABEL: test_rem7_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [2454267027,2454267027,2454267027,2454267027]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [2454267027,2454267027,2454267027,2454267027]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpmuldq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmuldq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm1
	; AVX1-NEXT: vpsrld $31, %xmm1, %xmm2			; AVX1-NEXT: vpsrld $31, %xmm1, %xmm2
	; AVX1-NEXT: vpsrad $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrad $2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpslld $3, %xmm1, %xmm2
				; AVX1-NEXT: vpsubd %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_rem7_4i32:			; AVX2-LABEL: test_rem7_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [2454267027,2454267027,2454267027,2454267027]			; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [2454267027,2454267027,2454267027,2454267027]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX2-NEXT: vpmuldq %xmm2, %xmm3, %xmm2			; AVX2-NEXT: vpmuldq %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vpmuldq %xmm1, %xmm0, %xmm1			; AVX2-NEXT: vpmuldq %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; AVX2-NEXT: vpaddd %xmm0, %xmm1, %xmm1			; AVX2-NEXT: vpaddd %xmm0, %xmm1, %xmm1
	; AVX2-NEXT: vpsrld $31, %xmm1, %xmm2			; AVX2-NEXT: vpsrld $31, %xmm1, %xmm2
	; AVX2-NEXT: vpsrad $2, %xmm1, %xmm1			; AVX2-NEXT: vpsrad $2, %xmm1, %xmm1
	; AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [7,7,7,7]			; AVX2-NEXT: vpslld $3, %xmm1, %xmm2
	; AVX2-NEXT: vpmulld %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpsubd %xmm1, %xmm2, %xmm1
	; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = srem <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>			%res = srem <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}

	define <8 x i16> @test_rem7_8i16(<8 x i16> %a) nounwind {			define <8 x i16> @test_rem7_8i16(<8 x i16> %a) nounwind {
	; SSE-LABEL: test_rem7_8i16:			; SSE-LABEL: test_rem7_8i16:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movdqa {{.*#+}} xmm1 = [18725,18725,18725,18725,18725,18725,18725,18725]			; SSE-NEXT: movdqa {{.*#+}} xmm1 = [18725,18725,18725,18725,18725,18725,18725,18725]
	; SSE-NEXT: pmulhw %xmm0, %xmm1			; SSE-NEXT: pmulhw %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm1, %xmm2			; SSE-NEXT: movdqa %xmm1, %xmm2
	; SSE-NEXT: psrlw $15, %xmm2			; SSE-NEXT: psrlw $15, %xmm2
	; SSE-NEXT: psraw $1, %xmm1			; SSE-NEXT: psraw $1, %xmm1
	; SSE-NEXT: paddw %xmm2, %xmm1			; SSE-NEXT: paddw %xmm2, %xmm1
	; SSE-NEXT: pmullw {{.*}}(%rip), %xmm1			; SSE-NEXT: movdqa %xmm1, %xmm2
	; SSE-NEXT: psubw %xmm1, %xmm0			; SSE-NEXT: psllw $3, %xmm2
				; SSE-NEXT: psubw %xmm1, %xmm2
				; SSE-NEXT: psubw %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_rem7_8i16:			; AVX-LABEL: test_rem7_8i16:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1			; AVX-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1
	; AVX-NEXT: vpsrlw $15, %xmm1, %xmm2			; AVX-NEXT: vpsrlw $15, %xmm1, %xmm2
	; AVX-NEXT: vpsraw $1, %xmm1, %xmm1			; AVX-NEXT: vpsraw $1, %xmm1, %xmm1
	; AVX-NEXT: vpaddw %xmm2, %xmm1, %xmm1			; AVX-NEXT: vpaddw %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vpsllw $3, %xmm1, %xmm2
				; AVX-NEXT: vpsubw %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%res = srem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = srem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}

	define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {			define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {
	; SSE2-LABEL: test_rem7_16i8:			; SSE2-LABEL: test_rem7_16i8:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE2-NEXT: psraw $8, %xmm2
	; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; SSE2-NEXT: pmullw %xmm3, %xmm2
	; SSE2-NEXT: psrlw $8, %xmm2
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; SSE2-NEXT: psraw $8, %xmm1			; SSE2-NEXT: psraw $8, %xmm1
	; SSE2-NEXT: pmullw %xmm3, %xmm1			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
				; SSE2-NEXT: pmullw %xmm2, %xmm1
	; SSE2-NEXT: psrlw $8, %xmm1			; SSE2-NEXT: psrlw $8, %xmm1
	; SSE2-NEXT: packuswb %xmm2, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: paddb %xmm0, %xmm1			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: movdqa %xmm1, %xmm2			; SSE2-NEXT: psraw $8, %xmm3
	; SSE2-NEXT: psrlw $2, %xmm2			; SSE2-NEXT: pmullw %xmm2, %xmm3
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm2			; SSE2-NEXT: psrlw $8, %xmm3
	; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; SSE2-NEXT: packuswb %xmm1, %xmm3
	; SSE2-NEXT: pxor %xmm3, %xmm2			; SSE2-NEXT: paddb %xmm0, %xmm3
	; SSE2-NEXT: psubb %xmm3, %xmm2			; SSE2-NEXT: movdqa %xmm3, %xmm1
	; SSE2-NEXT: psrlw $7, %xmm1			; SSE2-NEXT: psrlw $2, %xmm1
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm1			; SSE2-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE2-NEXT: paddb %xmm2, %xmm1			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; SSE2-NEXT: movdqa %xmm1, %xmm2			; SSE2-NEXT: pxor %xmm2, %xmm1
	; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; SSE2-NEXT: psubb %xmm2, %xmm1
	; SSE2-NEXT: psraw $8, %xmm2			; SSE2-NEXT: psrlw $7, %xmm3
	; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7]			; SSE2-NEXT: pand {{.*}}(%rip), %xmm3
	; SSE2-NEXT: pmullw %xmm3, %xmm2			; SSE2-NEXT: paddb %xmm1, %xmm3
	; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; SSE2-NEXT: movdqa %xmm3, %xmm1
	; SSE2-NEXT: pand %xmm4, %xmm2			; SSE2-NEXT: psllw $3, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE2-NEXT: psraw $8, %xmm1			; SSE2-NEXT: psubb %xmm3, %xmm1
	; SSE2-NEXT: pmullw %xmm3, %xmm1
	; SSE2-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: packuswb %xmm2, %xmm1
	; SSE2-NEXT: psubb %xmm1, %xmm0			; SSE2-NEXT: psubb %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_rem7_16i8:			; SSE41-LABEL: test_rem7_16i8:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm1			; SSE41-NEXT: pmovsxbw %xmm0, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; SSE41-NEXT: pmullw %xmm2, %xmm1			; SSE41-NEXT: pmullw %xmm2, %xmm1
	; SSE41-NEXT: psrlw $8, %xmm1			; SSE41-NEXT: psrlw $8, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm3, %xmm3			; SSE41-NEXT: pmovsxbw %xmm3, %xmm3
	; SSE41-NEXT: pmullw %xmm2, %xmm3			; SSE41-NEXT: pmullw %xmm2, %xmm3
	; SSE41-NEXT: psrlw $8, %xmm3			; SSE41-NEXT: psrlw $8, %xmm3
	; SSE41-NEXT: packuswb %xmm3, %xmm1			; SSE41-NEXT: packuswb %xmm3, %xmm1
	; SSE41-NEXT: paddb %xmm0, %xmm1			; SSE41-NEXT: paddb %xmm0, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psrlw $2, %xmm2			; SSE41-NEXT: psrlw $2, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; SSE41-NEXT: pxor %xmm3, %xmm2			; SSE41-NEXT: pxor %xmm3, %xmm2
	; SSE41-NEXT: psubb %xmm3, %xmm2			; SSE41-NEXT: psubb %xmm3, %xmm2
	; SSE41-NEXT: psrlw $7, %xmm1			; SSE41-NEXT: psrlw $7, %xmm1
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm1			; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE41-NEXT: paddb %xmm2, %xmm1			; SSE41-NEXT: paddb %xmm2, %xmm1
	; SSE41-NEXT: pmovsxbw %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7]			; SSE41-NEXT: psllw $3, %xmm2
	; SSE41-NEXT: pmullw %xmm3, %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; SSE41-NEXT: psubb %xmm1, %xmm2
	; SSE41-NEXT: pand %xmm4, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm1, %xmm1
	; SSE41-NEXT: pmullw %xmm3, %xmm1
	; SSE41-NEXT: pand %xmm4, %xmm1
	; SSE41-NEXT: packuswb %xmm1, %xmm2
	; SSE41-NEXT: psubb %xmm2, %xmm0			; SSE41-NEXT: psubb %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_rem7_16i8:			; AVX1-LABEL: test_rem7_16i8:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3			; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm2			; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm2
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm1
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm2			; AVX1-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7]			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsubb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm1
	; AVX1-NEXT: vpmullw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_16i8:			; AVX2NOBW-LABEL: test_rem7_16i8:
	; AVX2NOBW: # BB#0:			; AVX2NOBW: # BB#0:
	; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1
	; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpsrlw $2, %xmm1, %xmm2			; AVX2NOBW-NEXT: vpsrlw $2, %xmm1, %xmm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX2NOBW-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX2NOBW-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX2NOBW-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpsrlw $7, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpsrlw $7, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX2NOBW-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm2, %xmm1
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm3 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX2NOBW-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX2NOBW-NEXT: vzeroupper			; AVX2NOBW-NEXT: vzeroupper
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_16i8:			; AVX512BW-LABEL: test_rem7_16i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpmovsxbw %xmm0, %ymm1			; AVX512BW-NEXT: vpmovsxbw %xmm0, %ymm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm1
	; AVX512BW-NEXT: vpsrlw $2, %xmm1, %xmm2			; AVX512BW-NEXT: vpsrlw $2, %xmm1, %xmm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512BW-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX512BW-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX512BW-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX512BW-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX512BW-NEXT: vpsrlw $7, %xmm1, %xmm1			; AVX512BW-NEXT: vpsrlw $7, %xmm1, %xmm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX512BW-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX512BW-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX512BW-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpsubb %xmm1, %xmm2, %xmm1
	; AVX512BW-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = srem <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = srem <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

test/CodeGen/X86/vector-idiv-sdiv-256.ll

	Show First 20 Lines • Show All 370 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuldq %xmm3, %xmm5, %xmm3			; AVX1-NEXT: vpmuldq %xmm3, %xmm5, %xmm3
	; AVX1-NEXT: vpmuldq %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpmuldq %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
	; AVX1-NEXT: vpaddd %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $31, %xmm2, %xmm3			; AVX1-NEXT: vpsrld $31, %xmm2, %xmm3
	; AVX1-NEXT: vpsrad $2, %xmm2, %xmm2			; AVX1-NEXT: vpsrad $2, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [7,7,7,7]			; AVX1-NEXT: vpslld $3, %xmm2, %xmm3
	; AVX1-NEXT: vpmulld %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsubd %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsubd %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpsubd %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpmuldq %xmm4, %xmm5, %xmm4			; AVX1-NEXT: vpmuldq %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpmuldq %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm4[2,3],xmm1[4,5],xmm4[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm1
	; AVX1-NEXT: vpsrld $31, %xmm1, %xmm4			; AVX1-NEXT: vpsrld $31, %xmm1, %xmm3
	; AVX1-NEXT: vpsrad $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrad $2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpmulld %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpslld $3, %xmm1, %xmm3
				; AVX1-NEXT: vpsubd %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_rem7_8i32:			; AVX2-LABEL: test_rem7_8i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm1 = [2454267027,2454267027,2454267027,2454267027,2454267027,2454267027,2454267027,2454267027]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm1 = [2454267027,2454267027,2454267027,2454267027,2454267027,2454267027,2454267027,2454267027]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpmuldq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpmuldq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpmuldq %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0],ymm2[1],ymm1[2],ymm2[3],ymm1[4],ymm2[5],ymm1[6],ymm2[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0],ymm2[1],ymm1[2],ymm2[3],ymm1[4],ymm2[5],ymm1[6],ymm2[7]
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpsrld $31, %ymm1, %ymm2			; AVX2-NEXT: vpsrld $31, %ymm1, %ymm2
	; AVX2-NEXT: vpsrad $2, %ymm1, %ymm1			; AVX2-NEXT: vpsrad $2, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [7,7,7,7,7,7,7,7]			; AVX2-NEXT: vpslld $3, %ymm1, %ymm2
	; AVX2-NEXT: vpmulld %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpsubd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = srem <8 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>			%res = srem <8 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>
	ret <8 x i32> %res			ret <8 x i32> %res
	}			}

	define <16 x i16> @test_rem7_16i16(<16 x i16> %a) nounwind {			define <16 x i16> @test_rem7_16i16(<16 x i16> %a) nounwind {
	; AVX1-LABEL: test_rem7_16i16:			; AVX1-LABEL: test_rem7_16i16:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [18725,18725,18725,18725,18725,18725,18725,18725]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [18725,18725,18725,18725,18725,18725,18725,18725]
	; AVX1-NEXT: vpmulhw %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpmulhw %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vpsrlw $15, %xmm3, %xmm4			; AVX1-NEXT: vpsrlw $15, %xmm3, %xmm4
	; AVX1-NEXT: vpsraw $1, %xmm3, %xmm3			; AVX1-NEXT: vpsraw $1, %xmm3, %xmm3
	; AVX1-NEXT: vpaddw %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpaddw %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [7,7,7,7,7,7,7,7]			; AVX1-NEXT: vpsllw $3, %xmm3, %xmm4
	; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpsubw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsubw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpsubw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpmulhw %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpmulhw %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpsrlw $15, %xmm2, %xmm3			; AVX1-NEXT: vpsrlw $15, %xmm2, %xmm3
	; AVX1-NEXT: vpsraw $1, %xmm2, %xmm2			; AVX1-NEXT: vpsraw $1, %xmm2, %xmm2
	; AVX1-NEXT: vpaddw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpmullw %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpsllw $3, %xmm2, %xmm3
				; AVX1-NEXT: vpsubw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsubw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpsubw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_rem7_16i16:			; AVX2-LABEL: test_rem7_16i16:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpmulhw {{.*}}(%rip), %ymm0, %ymm1			; AVX2-NEXT: vpmulhw {{.*}}(%rip), %ymm0, %ymm1
	; AVX2-NEXT: vpsrlw $15, %ymm1, %ymm2			; AVX2-NEXT: vpsrlw $15, %ymm1, %ymm2
	; AVX2-NEXT: vpsraw $1, %ymm1, %ymm1			; AVX2-NEXT: vpsraw $1, %ymm1, %ymm1
	; AVX2-NEXT: vpaddw %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddw %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2-NEXT: vpsllw $3, %ymm1, %ymm2
				; AVX2-NEXT: vpsubw %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpsubw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsubw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = srem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = srem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <16 x i16> %res			ret <16 x i16> %res
	}			}

	define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {			define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {
	; AVX1-LABEL: test_rem7_32i8:			; AVX1-LABEL: test_rem7_32i8:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpmovsxbw %xmm2, %xmm3			; AVX1-NEXT: vpmovsxbw %xmm1, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [65427,65427,65427,65427,65427,65427,65427,65427]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX1-NEXT: vpmullw %xmm1, %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm2[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4
	; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm4			; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4			; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
	; AVX1-NEXT: vpackuswb %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpackuswb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm2, %xmm3, %xmm3			; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $7, %xmm3, %xmm4			; AVX1-NEXT: vpsrlw $7, %xmm2, %xmm4
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX1-NEXT: vpand %xmm8, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm8, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlw $2, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm9 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX1-NEXT: vpand %xmm9, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX1-NEXT: vpxor %xmm7, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm7, %xmm3, %xmm3			; AVX1-NEXT: vpsubb %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpaddb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm4			; AVX1-NEXT: vpsllw $3, %xmm2, %xmm4
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [7,7,7,7,7,7,7,7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
	; AVX1-NEXT: vpmullw %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vpsubb %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm4			; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm2
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpmullw %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm3
	; AVX1-NEXT: vpackuswb %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm3
	; AVX1-NEXT: vpmullw %xmm1, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4
	; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm1			; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpackuswb %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm3			; AVX1-NEXT: vpsrlw $7, %xmm2, %xmm3
	; AVX1-NEXT: vpand %xmm8, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm8, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm9, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm7, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm7, %xmm1, %xmm1			; AVX1-NEXT: vpsubb %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm3			; AVX1-NEXT: vpsllw $3, %xmm2, %xmm3
	; AVX1-NEXT: vpmullw %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpsubb %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vpmullw %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_32i8:			; AVX2NOBW-LABEL: test_rem7_32i8:
	; AVX2NOBW: # BB#0:			; AVX2NOBW: # BB#0:
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm3			; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm3
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vperm2i128 {{.*#+}} ymm3 = ymm2[2,3],ymm1[2,3]			; AVX2NOBW-NEXT: vperm2i128 {{.*#+}} ymm3 = ymm2[2,3],ymm1[2,3]
	; AVX2NOBW-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1			; AVX2NOBW-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1
	; AVX2NOBW-NEXT: vpackuswb %ymm3, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpackuswb %ymm3, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $2, %ymm1, %ymm2			; AVX2NOBW-NEXT: vpsrlw $2, %ymm1, %ymm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX2NOBW-NEXT: vpxor %ymm3, %ymm2, %ymm2			; AVX2NOBW-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpsubb %ymm3, %ymm2, %ymm2			; AVX2NOBW-NEXT: vpsubb %ymm3, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpsrlw $7, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $7, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2NOBW-NEXT: vpsllw $3, %ymm1, %ymm2
	; AVX2NOBW-NEXT: vpmovsxbw %xmm2, %ymm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm3 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]			; AVX2NOBW-NEXT: vpsubb %ymm1, %ymm2, %ymm1
	; AVX2NOBW-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm2, %xmm4
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm5 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX2NOBW-NEXT: vpshufb %xmm5, %xmm4, %xmm4
	; AVX2NOBW-NEXT: vpshufb %xmm5, %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm4[0]
	; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1
	; AVX2NOBW-NEXT: vpmullw %ymm3, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm3
	; AVX2NOBW-NEXT: vpshufb %xmm5, %xmm3, %xmm3
	; AVX2NOBW-NEXT: vpshufb %xmm5, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
	; AVX2NOBW-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsubb %ymm1, %ymm0, %ymm0			; AVX2NOBW-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_32i8:			; AVX512BW-LABEL: test_rem7_32i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm1			; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $2, %ymm1, %ymm2			; AVX512BW-NEXT: vpsrlw $2, %ymm1, %ymm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512BW-NEXT: vpxor %ymm3, %ymm2, %ymm2			; AVX512BW-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsubb %ymm3, %ymm2, %ymm2			; AVX512BW-NEXT: vpsubb %ymm3, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsrlw $7, %ymm1, %ymm1			; AVX512BW-NEXT: vpsrlw $7, %ymm1, %ymm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512BW-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	; AVX512BW-NEXT: vpmovsxbw %ymm1, %zmm1			; AVX512BW-NEXT: vpsllw $3, %ymm1, %ymm2
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpsubb %ymm1, %ymm2, %ymm1
	; AVX512BW-NEXT: vpsubb %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = srem <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = srem <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}

test/CodeGen/X86/vector-idiv-sdiv-512.ll

	Show First 20 Lines • Show All 316 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpshufd {{.*#+}} zmm3 = zmm0[1,1,3,3,5,5,7,7,9,9,11,11,13,13,15,15]			; AVX-NEXT: vpshufd {{.*#+}} zmm3 = zmm0[1,1,3,3,5,5,7,7,9,9,11,11,13,13,15,15]
	; AVX-NEXT: vpmuldq %zmm1, %zmm3, %zmm1			; AVX-NEXT: vpmuldq %zmm1, %zmm3, %zmm1
	; AVX-NEXT: vmovdqa32 {{.*#+}} zmm3 = [1,17,3,19,5,21,7,23,9,25,11,27,13,29,15,31]			; AVX-NEXT: vmovdqa32 {{.*#+}} zmm3 = [1,17,3,19,5,21,7,23,9,25,11,27,13,29,15,31]
	; AVX-NEXT: vpermi2d %zmm1, %zmm2, %zmm3			; AVX-NEXT: vpermi2d %zmm1, %zmm2, %zmm3
	; AVX-NEXT: vpaddd %zmm0, %zmm3, %zmm1			; AVX-NEXT: vpaddd %zmm0, %zmm3, %zmm1
	; AVX-NEXT: vpsrld $31, %zmm1, %zmm2			; AVX-NEXT: vpsrld $31, %zmm1, %zmm2
	; AVX-NEXT: vpsrad $2, %zmm1, %zmm1			; AVX-NEXT: vpsrad $2, %zmm1, %zmm1
	; AVX-NEXT: vpaddd %zmm2, %zmm1, %zmm1			; AVX-NEXT: vpaddd %zmm2, %zmm1, %zmm1
	; AVX-NEXT: vpmulld {{.*}}(%rip){1to16}, %zmm1, %zmm1			; AVX-NEXT: vpslld $3, %zmm1, %zmm2
				; AVX-NEXT: vpsubd %zmm1, %zmm2, %zmm1
	; AVX-NEXT: vpsubd %zmm1, %zmm0, %zmm0			; AVX-NEXT: vpsubd %zmm1, %zmm0, %zmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%res = srem <16 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>			%res = srem <16 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>
	ret <16 x i32> %res			ret <16 x i32> %res
	}			}

	define <32 x i16> @test_rem7_32i16(<32 x i16> %a) nounwind {			define <32 x i16> @test_rem7_32i16(<32 x i16> %a) nounwind {
	; AVX512F-LABEL: test_rem7_32i16:			; AVX512F-LABEL: test_rem7_32i16:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm2 = [18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm2 = [18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725,18725]
	; AVX512F-NEXT: vpmulhw %ymm2, %ymm0, %ymm3			; AVX512F-NEXT: vpmulhw %ymm2, %ymm0, %ymm3
	; AVX512F-NEXT: vpsrlw $15, %ymm3, %ymm4			; AVX512F-NEXT: vpsrlw $15, %ymm3, %ymm4
	; AVX512F-NEXT: vpsraw $1, %ymm3, %ymm3			; AVX512F-NEXT: vpsraw $1, %ymm3, %ymm3
	; AVX512F-NEXT: vpaddw %ymm4, %ymm3, %ymm3			; AVX512F-NEXT: vpaddw %ymm4, %ymm3, %ymm3
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm4 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]			; AVX512F-NEXT: vpsllw $3, %ymm3, %ymm4
	; AVX512F-NEXT: vpmullw %ymm4, %ymm3, %ymm3			; AVX512F-NEXT: vpsubw %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpsubw %ymm3, %ymm0, %ymm0			; AVX512F-NEXT: vpsubw %ymm3, %ymm0, %ymm0
	; AVX512F-NEXT: vpmulhw %ymm2, %ymm1, %ymm2			; AVX512F-NEXT: vpmulhw %ymm2, %ymm1, %ymm2
	; AVX512F-NEXT: vpsrlw $15, %ymm2, %ymm3			; AVX512F-NEXT: vpsrlw $15, %ymm2, %ymm3
	; AVX512F-NEXT: vpsraw $1, %ymm2, %ymm2			; AVX512F-NEXT: vpsraw $1, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddw %ymm3, %ymm2, %ymm2			; AVX512F-NEXT: vpaddw %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpmullw %ymm4, %ymm2, %ymm2			; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm3
				; AVX512F-NEXT: vpsubw %ymm2, %ymm3, %ymm2
	; AVX512F-NEXT: vpsubw %ymm2, %ymm1, %ymm1			; AVX512F-NEXT: vpsubw %ymm2, %ymm1, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_32i16:			; AVX512BW-LABEL: test_rem7_32i16:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpmulhw {{.*}}(%rip), %zmm0, %zmm1			; AVX512BW-NEXT: vpmulhw {{.*}}(%rip), %zmm0, %zmm1
	; AVX512BW-NEXT: vpsrlw $15, %zmm1, %zmm2			; AVX512BW-NEXT: vpsrlw $15, %zmm1, %zmm2
	; AVX512BW-NEXT: vpsraw $1, %zmm1, %zmm1			; AVX512BW-NEXT: vpsraw $1, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddw %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddw %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpsllw $3, %zmm1, %zmm2
				; AVX512BW-NEXT: vpsubw %zmm1, %zmm2, %zmm1
	; AVX512BW-NEXT: vpsubw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpsubw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = srem <32 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = srem <32 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <32 x i16> %res			ret <32 x i16> %res
	}			}

	define <64 x i8> @test_rem7_64i8(<64 x i8> %a) nounwind {			define <64 x i8> @test_rem7_64i8(<64 x i8> %a) nounwind {
	; AVX512F-LABEL: test_rem7_64i8:			; AVX512F-LABEL: test_rem7_64i8:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm3			; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm3
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX512F-NEXT: vpmullw %ymm2, %ymm3, %ymm3			; AVX512F-NEXT: vpmullw %ymm2, %ymm3, %ymm3
	; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3			; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3
	; AVX512F-NEXT: vpmovsxbw %xmm0, %ymm4			; AVX512F-NEXT: vpmovsxbw %xmm0, %ymm4
	; AVX512F-NEXT: vpmullw %ymm2, %ymm4, %ymm4			; AVX512F-NEXT: vpmullw %ymm2, %ymm4, %ymm4
	; AVX512F-NEXT: vpsrlw $8, %ymm4, %ymm4			; AVX512F-NEXT: vpsrlw $8, %ymm4, %ymm4
	; AVX512F-NEXT: vperm2i128 {{.*#+}} ymm5 = ymm4[2,3],ymm3[2,3]			; AVX512F-NEXT: vperm2i128 {{.*#+}} ymm5 = ymm4[2,3],ymm3[2,3]
	; AVX512F-NEXT: vinserti128 $1, %xmm3, %ymm4, %ymm3			; AVX512F-NEXT: vinserti128 $1, %xmm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpackuswb %ymm5, %ymm3, %ymm3			; AVX512F-NEXT: vpackuswb %ymm5, %ymm3, %ymm3
	; AVX512F-NEXT: vpaddb %ymm0, %ymm3, %ymm3			; AVX512F-NEXT: vpaddb %ymm0, %ymm3, %ymm3
	; AVX512F-NEXT: vpsrlw $7, %ymm3, %ymm5			; AVX512F-NEXT: vpsrlw $7, %ymm3, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX512F-NEXT: vpand %ymm4, %ymm5, %ymm7			; AVX512F-NEXT: vpand %ymm5, %ymm4, %ymm4
	; AVX512F-NEXT: vpsrlw $2, %ymm3, %ymm3			; AVX512F-NEXT: vpsrlw $2, %ymm3, %ymm3
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX512F-NEXT: vpand %ymm5, %ymm3, %ymm3			; AVX512F-NEXT: vpand %ymm6, %ymm3, %ymm3
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512F-NEXT: vpxor %ymm6, %ymm3, %ymm3			; AVX512F-NEXT: vpxor %ymm7, %ymm3, %ymm3
	; AVX512F-NEXT: vpsubb %ymm6, %ymm3, %ymm3			; AVX512F-NEXT: vpsubb %ymm7, %ymm3, %ymm3
	; AVX512F-NEXT: vpaddb %ymm7, %ymm3, %ymm7			; AVX512F-NEXT: vpaddb %ymm4, %ymm3, %ymm3
	; AVX512F-NEXT: vpmovsxbw %xmm7, %ymm8			; AVX512F-NEXT: vpsllw $3, %ymm3, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm3 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm8 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
	; AVX512F-NEXT: vpmullw %ymm3, %ymm8, %ymm8			; AVX512F-NEXT: vpand %ymm8, %ymm4, %ymm4
	; AVX512F-NEXT: vpmovsxwd %ymm8, %zmm8			; AVX512F-NEXT: vpsubb %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpmovdb %zmm8, %xmm8			; AVX512F-NEXT: vpsubb %ymm3, %ymm0, %ymm0
	; AVX512F-NEXT: vextracti128 $1, %ymm7, %xmm7			; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm3
	; AVX512F-NEXT: vpmovsxbw %xmm7, %ymm7			; AVX512F-NEXT: vpmovsxbw %xmm3, %ymm3
	; AVX512F-NEXT: vpmullw %ymm3, %ymm7, %ymm7			; AVX512F-NEXT: vpmullw %ymm2, %ymm3, %ymm3
	; AVX512F-NEXT: vpmovsxwd %ymm7, %zmm7			; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3
	; AVX512F-NEXT: vpmovdb %zmm7, %xmm7			; AVX512F-NEXT: vpmovsxbw %xmm1, %ymm4
	; AVX512F-NEXT: vinserti128 $1, %xmm7, %ymm8, %ymm7			; AVX512F-NEXT: vpmullw %ymm2, %ymm4, %ymm2
	; AVX512F-NEXT: vpsubb %ymm7, %ymm0, %ymm0
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm7
	; AVX512F-NEXT: vpmovsxbw %xmm7, %ymm7
	; AVX512F-NEXT: vpmullw %ymm2, %ymm7, %ymm7
	; AVX512F-NEXT: vpsrlw $8, %ymm7, %ymm7
	; AVX512F-NEXT: vpmovsxbw %xmm1, %ymm8
	; AVX512F-NEXT: vpmullw %ymm2, %ymm8, %ymm2
	; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX512F-NEXT: vperm2i128 {{.*#+}} ymm8 = ymm2[2,3],ymm7[2,3]			; AVX512F-NEXT: vperm2i128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]
	; AVX512F-NEXT: vinserti128 $1, %xmm7, %ymm2, %ymm2			; AVX512F-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpackuswb %ymm8, %ymm2, %ymm2			; AVX512F-NEXT: vpackuswb %ymm4, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $7, %ymm2, %ymm7			; AVX512F-NEXT: vpsrlw $7, %ymm2, %ymm3
	; AVX512F-NEXT: vpand %ymm4, %ymm7, %ymm4			; AVX512F-NEXT: vpand %ymm5, %ymm3, %ymm3
	; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2
	; AVX512F-NEXT: vpand %ymm5, %ymm2, %ymm2			; AVX512F-NEXT: vpand %ymm6, %ymm2, %ymm2
	; AVX512F-NEXT: vpxor %ymm6, %ymm2, %ymm2			; AVX512F-NEXT: vpxor %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpsubb %ymm6, %ymm2, %ymm2			; AVX512F-NEXT: vpsubb %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddb %ymm4, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm4			; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm3
	; AVX512F-NEXT: vpmullw %ymm3, %ymm4, %ymm4			; AVX512F-NEXT: vpand %ymm8, %ymm3, %ymm3
	; AVX512F-NEXT: vpmovsxwd %ymm4, %zmm4			; AVX512F-NEXT: vpsubb %ymm2, %ymm3, %ymm2
	; AVX512F-NEXT: vpmovdb %zmm4, %xmm4
	; AVX512F-NEXT: vextracti128 $1, %ymm2, %xmm2
	; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm2
	; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpmovsxwd %ymm2, %zmm2
	; AVX512F-NEXT: vpmovdb %zmm2, %xmm2
	; AVX512F-NEXT: vinserti128 $1, %xmm2, %ymm4, %ymm2
	; AVX512F-NEXT: vpsubb %ymm2, %ymm1, %ymm1			; AVX512F-NEXT: vpsubb %ymm2, %ymm1, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_64i8:			; AVX512BW-LABEL: test_rem7_64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1
	Show All 31 Lines

test/CodeGen/X86/vector-idiv-udiv-128.ll

	Show First 20 Lines • Show All 375 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pmuludq %xmm1, %xmm3			; SSE2-NEXT: pmuludq %xmm1, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,3,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psubd %xmm2, %xmm1			; SSE2-NEXT: psubd %xmm2, %xmm1
	; SSE2-NEXT: psrld $1, %xmm1			; SSE2-NEXT: psrld $1, %xmm1
	; SSE2-NEXT: paddd %xmm2, %xmm1			; SSE2-NEXT: paddd %xmm2, %xmm1
	; SSE2-NEXT: psrld $2, %xmm1			; SSE2-NEXT: psrld $2, %xmm1
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [7,7,7,7]			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]			; SSE2-NEXT: pslld $3, %xmm2
	; SSE2-NEXT: pmuludq %xmm2, %xmm1			; SSE2-NEXT: psubd %xmm1, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE2-NEXT: psubd %xmm2, %xmm0
	; SSE2-NEXT: pmuludq %xmm2, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,2,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE2-NEXT: psubd %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_rem7_4i32:			; SSE41-LABEL: test_rem7_4i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [613566757,613566757,613566757,613566757]			; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [613566757,613566757,613566757,613566757]
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; SSE41-NEXT: pmuludq %xmm2, %xmm3			; SSE41-NEXT: pmuludq %xmm2, %xmm3
	; SSE41-NEXT: pmuludq %xmm0, %xmm1			; SSE41-NEXT: pmuludq %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: psubd %xmm1, %xmm2			; SSE41-NEXT: psubd %xmm1, %xmm2
	; SSE41-NEXT: psrld $1, %xmm2			; SSE41-NEXT: psrld $1, %xmm2
	; SSE41-NEXT: paddd %xmm1, %xmm2			; SSE41-NEXT: paddd %xmm1, %xmm2
	; SSE41-NEXT: psrld $2, %xmm2			; SSE41-NEXT: psrld $2, %xmm2
	; SSE41-NEXT: pmulld {{.*}}(%rip), %xmm2			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: psubd %xmm2, %xmm0			; SSE41-NEXT: pslld $3, %xmm1
				; SSE41-NEXT: psubd %xmm2, %xmm1
				; SSE41-NEXT: psubd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_rem7_4i32:			; AVX1-LABEL: test_rem7_4i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [613566757,613566757,613566757,613566757]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [613566757,613566757,613566757,613566757]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmuludq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vpsrld $1, %xmm2, %xmm2			; AVX1-NEXT: vpsrld $1, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsrld $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrld $2, %xmm1, %xmm1
	; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpslld $3, %xmm1, %xmm2
				; AVX1-NEXT: vpsubd %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_rem7_4i32:			; AVX2-LABEL: test_rem7_4i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [613566757,613566757,613566757,613566757]			; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm1 = [613566757,613566757,613566757,613566757]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX2-NEXT: vpmuludq %xmm2, %xmm3, %xmm2			; AVX2-NEXT: vpmuludq %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm1			; AVX2-NEXT: vpmuludq %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm2			; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm2
	; AVX2-NEXT: vpsrld $1, %xmm2, %xmm2			; AVX2-NEXT: vpsrld $1, %xmm2, %xmm2
	; AVX2-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; AVX2-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; AVX2-NEXT: vpsrld $2, %xmm1, %xmm1			; AVX2-NEXT: vpsrld $2, %xmm1, %xmm1
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [7,7,7,7]			; AVX2-NEXT: vpslld $3, %xmm1, %xmm2
	; AVX2-NEXT: vpmulld %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpsubd %xmm1, %xmm2, %xmm1
	; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = urem <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>			%res = urem <4 x i32> %a, <i32 7, i32 7, i32 7, i32 7>
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}

	define <8 x i16> @test_rem7_8i16(<8 x i16> %a) nounwind {			define <8 x i16> @test_rem7_8i16(<8 x i16> %a) nounwind {
	; SSE-LABEL: test_rem7_8i16:			; SSE-LABEL: test_rem7_8i16:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movdqa {{.*#+}} xmm1 = [9363,9363,9363,9363,9363,9363,9363,9363]			; SSE-NEXT: movdqa {{.*#+}} xmm1 = [9363,9363,9363,9363,9363,9363,9363,9363]
	; SSE-NEXT: pmulhuw %xmm0, %xmm1			; SSE-NEXT: pmulhuw %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm0, %xmm2			; SSE-NEXT: movdqa %xmm0, %xmm2
	; SSE-NEXT: psubw %xmm1, %xmm2			; SSE-NEXT: psubw %xmm1, %xmm2
	; SSE-NEXT: psrlw $1, %xmm2			; SSE-NEXT: psrlw $1, %xmm2
	; SSE-NEXT: paddw %xmm1, %xmm2			; SSE-NEXT: paddw %xmm1, %xmm2
	; SSE-NEXT: psrlw $2, %xmm2			; SSE-NEXT: psrlw $2, %xmm2
	; SSE-NEXT: pmullw {{.*}}(%rip), %xmm2			; SSE-NEXT: movdqa %xmm2, %xmm1
	; SSE-NEXT: psubw %xmm2, %xmm0			; SSE-NEXT: psllw $3, %xmm1
				; SSE-NEXT: psubw %xmm2, %xmm1
				; SSE-NEXT: psubw %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_rem7_8i16:			; AVX-LABEL: test_rem7_8i16:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm1			; AVX-NEXT: vpmulhuw {{.*}}(%rip), %xmm0, %xmm1
	; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm2			; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm2
	; AVX-NEXT: vpsrlw $1, %xmm2, %xmm2			; AVX-NEXT: vpsrlw $1, %xmm2, %xmm2
	; AVX-NEXT: vpaddw %xmm1, %xmm2, %xmm1			; AVX-NEXT: vpaddw %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vpsllw $3, %xmm1, %xmm2
				; AVX-NEXT: vpsubw %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpsubw %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%res = urem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = urem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}

	define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {			define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {
	; SSE2-LABEL: test_rem7_16i8:			; SSE2-LABEL: test_rem7_16i8:
	Show All 12 Lines
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psubb %xmm4, %xmm1			; SSE2-NEXT: psubb %xmm4, %xmm1
	; SSE2-NEXT: psrlw $1, %xmm1			; SSE2-NEXT: psrlw $1, %xmm1
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm1			; SSE2-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE2-NEXT: paddb %xmm4, %xmm1			; SSE2-NEXT: paddb %xmm4, %xmm1
	; SSE2-NEXT: psrlw $2, %xmm1			; SSE2-NEXT: psrlw $2, %xmm1
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm1			; SSE2-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm2			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; SSE2-NEXT: psllw $3, %xmm2
	; SSE2-NEXT: psraw $8, %xmm2			; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7]			; SSE2-NEXT: psubb %xmm1, %xmm2
	; SSE2-NEXT: pmullw %xmm3, %xmm2			; SSE2-NEXT: psubb %xmm2, %xmm0
	; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; SSE2-NEXT: pand %xmm4, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: psraw $8, %xmm1
	; SSE2-NEXT: pmullw %xmm3, %xmm1
	; SSE2-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: packuswb %xmm2, %xmm1
	; SSE2-NEXT: psubb %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_rem7_16i8:			; SSE41-LABEL: test_rem7_16i8:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]
	; SSE41-NEXT: pmullw %xmm2, %xmm1			; SSE41-NEXT: pmullw %xmm2, %xmm1
	; SSE41-NEXT: psrlw $8, %xmm1			; SSE41-NEXT: psrlw $8, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; SSE41-NEXT: pmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; SSE41-NEXT: pmullw %xmm2, %xmm3			; SSE41-NEXT: pmullw %xmm2, %xmm3
	; SSE41-NEXT: psrlw $8, %xmm3			; SSE41-NEXT: psrlw $8, %xmm3
	; SSE41-NEXT: packuswb %xmm3, %xmm1			; SSE41-NEXT: packuswb %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: psubb %xmm1, %xmm2			; SSE41-NEXT: psubb %xmm1, %xmm2
	; SSE41-NEXT: psrlw $1, %xmm2			; SSE41-NEXT: psrlw $1, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: paddb %xmm1, %xmm2			; SSE41-NEXT: paddb %xmm1, %xmm2
	; SSE41-NEXT: psrlw $2, %xmm2			; SSE41-NEXT: psrlw $2, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7]			; SSE41-NEXT: psllw $3, %xmm1
	; SSE41-NEXT: pmullw %xmm3, %xmm1			; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; SSE41-NEXT: psubb %xmm2, %xmm1
	; SSE41-NEXT: pand %xmm4, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm2, %xmm2
	; SSE41-NEXT: pmullw %xmm3, %xmm2
	; SSE41-NEXT: pand %xmm4, %xmm2
	; SSE41-NEXT: packuswb %xmm2, %xmm1
	; SSE41-NEXT: psubb %xmm1, %xmm0			; SSE41-NEXT: psubb %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_rem7_16i8:			; AVX1-LABEL: test_rem7_16i8:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [37,37,37,37,37,37,37,37]
	; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vpsrlw $1, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $1, %xmm2, %xmm2
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm2			; AVX1-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [7,7,7,7,7,7,7,7]			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsubb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm1
	; AVX1-NEXT: vpmullw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_16i8:			; AVX2NOBW-LABEL: test_rem7_16i8:
	; AVX2NOBW: # BB#0:			; AVX2NOBW: # BB#0:
	; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero			; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
	; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm0, %xmm2			; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm0, %xmm2
	; AVX2NOBW-NEXT: vpsrlw $1, %xmm2, %xmm2			; AVX2NOBW-NEXT: vpsrlw $1, %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX2NOBW-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX2NOBW-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm2, %xmm1
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm3 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX2NOBW-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX2NOBW-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX2NOBW-NEXT: vzeroupper			; AVX2NOBW-NEXT: vzeroupper
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_16i8:			; AVX512BW-LABEL: test_rem7_16i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpsubb %xmm1, %xmm0, %xmm2			; AVX512BW-NEXT: vpsubb %xmm1, %xmm0, %xmm2
	; AVX512BW-NEXT: vpsrlw $1, %xmm2, %xmm2			; AVX512BW-NEXT: vpsrlw $1, %xmm2, %xmm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX512BW-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX512BW-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX512BW-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX512BW-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX512BW-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpsubb %xmm1, %xmm2, %xmm1
	; AVX512BW-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = urem <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = urem <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

test/CodeGen/X86/vector-idiv-udiv-256.ll

	Show First 20 Lines • Show All 378 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuludq %xmm3, %xmm5, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm5, %xmm3
	; AVX1-NEXT: vpmuludq %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpmuludq %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
	; AVX1-NEXT: vpsubd %xmm2, %xmm4, %xmm3			; AVX1-NEXT: vpsubd %xmm2, %xmm4, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm3, %xmm3			; AVX1-NEXT: vpsrld $1, %xmm3, %xmm3
	; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrld $2, %xmm2, %xmm2			; AVX1-NEXT: vpsrld $2, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [7,7,7,7]			; AVX1-NEXT: vpslld $3, %xmm2, %xmm3
	; AVX1-NEXT: vpmulld %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsubd %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsubd %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpsubd %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpmuludq %xmm4, %xmm5, %xmm4			; AVX1-NEXT: vpmuludq %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm4[2,3],xmm1[4,5],xmm4[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm3[2,3],xmm1[4,5],xmm3[6,7]
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm4			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm4, %xmm4			; AVX1-NEXT: vpsrld $1, %xmm3, %xmm3
	; AVX1-NEXT: vpaddd %xmm1, %xmm4, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsrld $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrld $2, %xmm1, %xmm1
	; AVX1-NEXT: vpmulld %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpslld $3, %xmm1, %xmm3
				; AVX1-NEXT: vpsubd %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_rem7_8i32:			; AVX2-LABEL: test_rem7_8i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm1 = [613566757,613566757,613566757,613566757,613566757,613566757,613566757,613566757]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm1 = [613566757,613566757,613566757,613566757,613566757,613566757,613566757,613566757]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm2 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm3 = ymm0[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpmuludq %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[1,1,3,3,5,5,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[1,1,3,3,5,5,7,7]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0],ymm2[1],ymm1[2],ymm2[3],ymm1[4],ymm2[5],ymm1[6],ymm2[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0],ymm2[1],ymm1[2],ymm2[3],ymm1[4],ymm2[5],ymm1[6],ymm2[7]
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrld $1, %ymm2, %ymm2			; AVX2-NEXT: vpsrld $1, %ymm2, %ymm2
	; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpsrld $2, %ymm1, %ymm1			; AVX2-NEXT: vpsrld $2, %ymm1, %ymm1
	; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [7,7,7,7,7,7,7,7]			; AVX2-NEXT: vpslld $3, %ymm1, %ymm2
	; AVX2-NEXT: vpmulld %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpsubd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = urem <8 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>			%res = urem <8 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>
	ret <8 x i32> %res			ret <8 x i32> %res
	}			}

	define <16 x i16> @test_rem7_16i16(<16 x i16> %a) nounwind {			define <16 x i16> @test_rem7_16i16(<16 x i16> %a) nounwind {
	; AVX1-LABEL: test_rem7_16i16:			; AVX1-LABEL: test_rem7_16i16:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9363,9363,9363,9363,9363,9363,9363,9363]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9363,9363,9363,9363,9363,9363,9363,9363]
	; AVX1-NEXT: vpmulhuw %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpmulhuw %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vpsubw %xmm3, %xmm1, %xmm4			; AVX1-NEXT: vpsubw %xmm3, %xmm1, %xmm4
	; AVX1-NEXT: vpsrlw $1, %xmm4, %xmm4			; AVX1-NEXT: vpsrlw $1, %xmm4, %xmm4
	; AVX1-NEXT: vpaddw %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpaddw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsrlw $2, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $2, %xmm3, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [7,7,7,7,7,7,7,7]			; AVX1-NEXT: vpsllw $3, %xmm3, %xmm4
	; AVX1-NEXT: vpmullw %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpsubw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsubw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpsubw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpmulhuw %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpmulhuw %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpsubw %xmm2, %xmm0, %xmm3			; AVX1-NEXT: vpsubw %xmm2, %xmm0, %xmm3
	; AVX1-NEXT: vpsrlw $1, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $1, %xmm3, %xmm3
	; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; AVX1-NEXT: vpmullw %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpsllw $3, %xmm2, %xmm3
				; AVX1-NEXT: vpsubw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsubw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpsubw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_rem7_16i16:			; AVX2-LABEL: test_rem7_16i16:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpmulhuw {{.*}}(%rip), %ymm0, %ymm1			; AVX2-NEXT: vpmulhuw {{.*}}(%rip), %ymm0, %ymm1
	; AVX2-NEXT: vpsubw %ymm1, %ymm0, %ymm2			; AVX2-NEXT: vpsubw %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlw $1, %ymm2, %ymm2			; AVX2-NEXT: vpsrlw $1, %ymm2, %ymm2
	; AVX2-NEXT: vpaddw %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddw %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpsrlw $2, %ymm1, %ymm1			; AVX2-NEXT: vpsrlw $2, %ymm1, %ymm1
	; AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2-NEXT: vpsllw $3, %ymm1, %ymm2
				; AVX2-NEXT: vpsubw %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpsubw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsubw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%res = urem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = urem <16 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <16 x i16> %res			ret <16 x i16> %res
	}			}

	define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {			define <32 x i8> @test_rem7_32i8(<32 x i8> %a) nounwind {
	; AVX1-LABEL: test_rem7_32i8:			; AVX1-LABEL: test_rem7_32i8:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [37,37,37,37,37,37,37,37]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [37,37,37,37,37,37,37,37]
	; AVX1-NEXT: vpmullw %xmm1, %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm2[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm4			; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4			; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
	; AVX1-NEXT: vpackuswb %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpackuswb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm4			; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm4
	; AVX1-NEXT: vpsrlw $1, %xmm4, %xmm4			; AVX1-NEXT: vpsrlw $1, %xmm4, %xmm4
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
	; AVX1-NEXT: vpand %xmm8, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpaddb %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpaddb %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpsrlw $2, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX1-NEXT: vpand %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm6			; AVX1-NEXT: vpsllw $3, %xmm2, %xmm6
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [7,7,7,7,7,7,7,7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
	; AVX1-NEXT: vpmullw %xmm7, %xmm6, %xmm6			; AVX1-NEXT: vpand %xmm7, %xmm6, %xmm6
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vpsubb %xmm2, %xmm6, %xmm2
	; AVX1-NEXT: vpand %xmm5, %xmm6, %xmm6			; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpmullw %xmm7, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpackuswb %xmm3, %xmm6, %xmm3
	; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm6, %xmm1			; AVX1-NEXT: vpmullw %xmm3, %xmm6, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpackuswb %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm3			; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm3
	; AVX1-NEXT: vpsrlw $1, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $1, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm8, %xmm3, %xmm3
	; AVX1-NEXT: vpaddb %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm3
	; AVX1-NEXT: vpmullw %xmm7, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; AVX1-NEXT: vpaddb %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpmovsxbw %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; AVX1-NEXT: vpmullw %xmm7, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpsllw $3, %xmm2, %xmm3
	; AVX1-NEXT: vpackuswb %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpand %xmm7, %xmm3, %xmm3
	; AVX1-NEXT: vpsubb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubb %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm0
				; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_32i8:			; AVX2NOBW-LABEL: test_rem7_32i8:
	; AVX2NOBW: # BB#0:			; AVX2NOBW: # BB#0:
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero			; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37]
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero			; AVX2NOBW-NEXT: vpmovzxbw {{.*#+}} ymm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vperm2i128 {{.*#+}} ymm3 = ymm2[2,3],ymm1[2,3]			; AVX2NOBW-NEXT: vperm2i128 {{.*#+}} ymm3 = ymm2[2,3],ymm1[2,3]
	; AVX2NOBW-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1			; AVX2NOBW-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1
	; AVX2NOBW-NEXT: vpackuswb %ymm3, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpackuswb %ymm3, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsubb %ymm1, %ymm0, %ymm2			; AVX2NOBW-NEXT: vpsubb %ymm1, %ymm0, %ymm2
	; AVX2NOBW-NEXT: vpsrlw $1, %ymm2, %ymm2			; AVX2NOBW-NEXT: vpsrlw $1, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $2, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2NOBW-NEXT: vpsllw $3, %ymm1, %ymm2
	; AVX2NOBW-NEXT: vpmovsxbw %xmm2, %ymm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm3 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]			; AVX2NOBW-NEXT: vpsubb %ymm1, %ymm2, %ymm1
	; AVX2NOBW-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm2, %xmm4
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm5 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX2NOBW-NEXT: vpshufb %xmm5, %xmm4, %xmm4
	; AVX2NOBW-NEXT: vpshufb %xmm5, %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm4[0]
	; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1
	; AVX2NOBW-NEXT: vpmullw %ymm3, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm3
	; AVX2NOBW-NEXT: vpshufb %xmm5, %xmm3, %xmm3
	; AVX2NOBW-NEXT: vpshufb %xmm5, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
	; AVX2NOBW-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsubb %ymm1, %ymm0, %ymm0			; AVX2NOBW-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_32i8:			; AVX512BW-LABEL: test_rem7_32i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm1 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm1 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpsubb %ymm1, %ymm0, %ymm2			; AVX512BW-NEXT: vpsubb %ymm1, %ymm0, %ymm2
	; AVX512BW-NEXT: vpsrlw $1, %ymm2, %ymm2			; AVX512BW-NEXT: vpsrlw $1, %ymm2, %ymm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX512BW-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512BW-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	; AVX512BW-NEXT: vpsrlw $2, %ymm1, %ymm1			; AVX512BW-NEXT: vpsrlw $2, %ymm1, %ymm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpmovsxbw %ymm1, %zmm1			; AVX512BW-NEXT: vpsllw $3, %ymm1, %ymm2
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpsubb %ymm1, %ymm2, %ymm1
	; AVX512BW-NEXT: vpsubb %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = urem <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = urem <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}

test/CodeGen/X86/vector-idiv-udiv-512.ll

	Show First 20 Lines • Show All 327 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpshufd {{.*#+}} zmm3 = zmm0[1,1,3,3,5,5,7,7,9,9,11,11,13,13,15,15]			; AVX-NEXT: vpshufd {{.*#+}} zmm3 = zmm0[1,1,3,3,5,5,7,7,9,9,11,11,13,13,15,15]
	; AVX-NEXT: vpmuludq %zmm1, %zmm3, %zmm1			; AVX-NEXT: vpmuludq %zmm1, %zmm3, %zmm1
	; AVX-NEXT: vmovdqa32 {{.*#+}} zmm3 = [1,17,3,19,5,21,7,23,9,25,11,27,13,29,15,31]			; AVX-NEXT: vmovdqa32 {{.*#+}} zmm3 = [1,17,3,19,5,21,7,23,9,25,11,27,13,29,15,31]
	; AVX-NEXT: vpermi2d %zmm1, %zmm2, %zmm3			; AVX-NEXT: vpermi2d %zmm1, %zmm2, %zmm3
	; AVX-NEXT: vpsubd %zmm3, %zmm0, %zmm1			; AVX-NEXT: vpsubd %zmm3, %zmm0, %zmm1
	; AVX-NEXT: vpsrld $1, %zmm1, %zmm1			; AVX-NEXT: vpsrld $1, %zmm1, %zmm1
	; AVX-NEXT: vpaddd %zmm3, %zmm1, %zmm1			; AVX-NEXT: vpaddd %zmm3, %zmm1, %zmm1
	; AVX-NEXT: vpsrld $2, %zmm1, %zmm1			; AVX-NEXT: vpsrld $2, %zmm1, %zmm1
	; AVX-NEXT: vpmulld {{.*}}(%rip){1to16}, %zmm1, %zmm1			; AVX-NEXT: vpslld $3, %zmm1, %zmm2
				; AVX-NEXT: vpsubd %zmm1, %zmm2, %zmm1
	; AVX-NEXT: vpsubd %zmm1, %zmm0, %zmm0			; AVX-NEXT: vpsubd %zmm1, %zmm0, %zmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%res = urem <16 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>			%res = urem <16 x i32> %a, <i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7, i32 7>
	ret <16 x i32> %res			ret <16 x i32> %res
	}			}

	define <32 x i16> @test_rem7_32i16(<32 x i16> %a) nounwind {			define <32 x i16> @test_rem7_32i16(<32 x i16> %a) nounwind {
	; AVX512F-LABEL: test_rem7_32i16:			; AVX512F-LABEL: test_rem7_32i16:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm2 = [9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm2 = [9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363,9363]
	; AVX512F-NEXT: vpmulhuw %ymm2, %ymm0, %ymm3			; AVX512F-NEXT: vpmulhuw %ymm2, %ymm0, %ymm3
	; AVX512F-NEXT: vpsubw %ymm3, %ymm0, %ymm4			; AVX512F-NEXT: vpsubw %ymm3, %ymm0, %ymm4
	; AVX512F-NEXT: vpsrlw $1, %ymm4, %ymm4			; AVX512F-NEXT: vpsrlw $1, %ymm4, %ymm4
	; AVX512F-NEXT: vpaddw %ymm3, %ymm4, %ymm3			; AVX512F-NEXT: vpaddw %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpsrlw $2, %ymm3, %ymm3			; AVX512F-NEXT: vpsrlw $2, %ymm3, %ymm3
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm4 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]			; AVX512F-NEXT: vpsllw $3, %ymm3, %ymm4
	; AVX512F-NEXT: vpmullw %ymm4, %ymm3, %ymm3			; AVX512F-NEXT: vpsubw %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpsubw %ymm3, %ymm0, %ymm0			; AVX512F-NEXT: vpsubw %ymm3, %ymm0, %ymm0
	; AVX512F-NEXT: vpmulhuw %ymm2, %ymm1, %ymm2			; AVX512F-NEXT: vpmulhuw %ymm2, %ymm1, %ymm2
	; AVX512F-NEXT: vpsubw %ymm2, %ymm1, %ymm3			; AVX512F-NEXT: vpsubw %ymm2, %ymm1, %ymm3
	; AVX512F-NEXT: vpsrlw $1, %ymm3, %ymm3			; AVX512F-NEXT: vpsrlw $1, %ymm3, %ymm3
	; AVX512F-NEXT: vpaddw %ymm2, %ymm3, %ymm2			; AVX512F-NEXT: vpaddw %ymm2, %ymm3, %ymm2
	; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2
	; AVX512F-NEXT: vpmullw %ymm4, %ymm2, %ymm2			; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm3
				; AVX512F-NEXT: vpsubw %ymm2, %ymm3, %ymm2
	; AVX512F-NEXT: vpsubw %ymm2, %ymm1, %ymm1			; AVX512F-NEXT: vpsubw %ymm2, %ymm1, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_32i16:			; AVX512BW-LABEL: test_rem7_32i16:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpmulhuw {{.*}}(%rip), %zmm0, %zmm1			; AVX512BW-NEXT: vpmulhuw {{.*}}(%rip), %zmm0, %zmm1
	; AVX512BW-NEXT: vpsubw %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpsubw %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vpsrlw $1, %zmm2, %zmm2			; AVX512BW-NEXT: vpsrlw $1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpaddw %zmm1, %zmm2, %zmm1			; AVX512BW-NEXT: vpaddw %zmm1, %zmm2, %zmm1
	; AVX512BW-NEXT: vpsrlw $2, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpsllw $3, %zmm1, %zmm2
				; AVX512BW-NEXT: vpsubw %zmm1, %zmm2, %zmm1
	; AVX512BW-NEXT: vpsubw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpsubw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = urem <32 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = urem <32 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <32 x i16> %res			ret <32 x i16> %res
	}			}

	define <64 x i8> @test_rem7_64i8(<64 x i8> %a) nounwind {			define <64 x i8> @test_rem7_64i8(<64 x i8> %a) nounwind {
	; AVX512F-LABEL: test_rem7_64i8:			; AVX512F-LABEL: test_rem7_64i8:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512F-NEXT: vpmovzxbw {{.*#+}} ymm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero,xmm2[8],zero,xmm2[9],zero,xmm2[10],zero,xmm2[11],zero,xmm2[12],zero,xmm2[13],zero,xmm2[14],zero,xmm2[15],zero			; AVX512F-NEXT: vpmovzxbw {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero,xmm2[8],zero,xmm2[9],zero,xmm2[10],zero,xmm2[11],zero,xmm2[12],zero,xmm2[13],zero,xmm2[14],zero,xmm2[15],zero
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm2 = [37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm3 = [37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37]
	; AVX512F-NEXT: vpmullw %ymm2, %ymm3, %ymm3			; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3			; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX512F-NEXT: vpmovzxbw {{.*#+}} ymm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero			; AVX512F-NEXT: vpmovzxbw {{.*#+}} ymm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
	; AVX512F-NEXT: vpmullw %ymm2, %ymm4, %ymm4			; AVX512F-NEXT: vpmullw %ymm3, %ymm4, %ymm4
	; AVX512F-NEXT: vpsrlw $8, %ymm4, %ymm4			; AVX512F-NEXT: vpsrlw $8, %ymm4, %ymm4
	; AVX512F-NEXT: vperm2i128 {{.*#+}} ymm5 = ymm4[2,3],ymm3[2,3]			; AVX512F-NEXT: vperm2i128 {{.*#+}} ymm5 = ymm4[2,3],ymm2[2,3]
	; AVX512F-NEXT: vinserti128 $1, %xmm3, %ymm4, %ymm3			; AVX512F-NEXT: vinserti128 $1, %xmm2, %ymm4, %ymm2
	; AVX512F-NEXT: vpackuswb %ymm5, %ymm3, %ymm3			; AVX512F-NEXT: vpackuswb %ymm5, %ymm2, %ymm2
	; AVX512F-NEXT: vpsubb %ymm3, %ymm0, %ymm4			; AVX512F-NEXT: vpsubb %ymm2, %ymm0, %ymm4
	; AVX512F-NEXT: vpsrlw $1, %ymm4, %ymm5			; AVX512F-NEXT: vpsrlw $1, %ymm4, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm4 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
	; AVX512F-NEXT: vpand %ymm4, %ymm5, %ymm5			; AVX512F-NEXT: vpand %ymm5, %ymm4, %ymm4
	; AVX512F-NEXT: vpaddb %ymm3, %ymm5, %ymm3
	; AVX512F-NEXT: vpsrlw $2, %ymm3, %ymm3
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX512F-NEXT: vpand %ymm5, %ymm3, %ymm6
	; AVX512F-NEXT: vpmovsxbw %xmm6, %ymm7
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm3 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]
	; AVX512F-NEXT: vpmullw %ymm3, %ymm7, %ymm7
	; AVX512F-NEXT: vpmovsxwd %ymm7, %zmm7
	; AVX512F-NEXT: vpmovdb %zmm7, %xmm7
	; AVX512F-NEXT: vextracti128 $1, %ymm6, %xmm6
	; AVX512F-NEXT: vpmovsxbw %xmm6, %ymm6
	; AVX512F-NEXT: vpmullw %ymm3, %ymm6, %ymm6
	; AVX512F-NEXT: vpmovsxwd %ymm6, %zmm6
	; AVX512F-NEXT: vpmovdb %zmm6, %xmm6
	; AVX512F-NEXT: vinserti128 $1, %xmm6, %ymm7, %ymm6
	; AVX512F-NEXT: vpsubb %ymm6, %ymm0, %ymm0
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm6
	; AVX512F-NEXT: vpmovzxbw {{.*#+}} ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero,xmm6[8],zero,xmm6[9],zero,xmm6[10],zero,xmm6[11],zero,xmm6[12],zero,xmm6[13],zero,xmm6[14],zero,xmm6[15],zero
	; AVX512F-NEXT: vpmullw %ymm2, %ymm6, %ymm6
	; AVX512F-NEXT: vpsrlw $8, %ymm6, %ymm6
	; AVX512F-NEXT: vpmovzxbw {{.*#+}} ymm7 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero
	; AVX512F-NEXT: vpmullw %ymm2, %ymm7, %ymm2
	; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX512F-NEXT: vperm2i128 {{.*#+}} ymm7 = ymm2[2,3],ymm6[2,3]
	; AVX512F-NEXT: vinserti128 $1, %xmm6, %ymm2, %ymm2
	; AVX512F-NEXT: vpackuswb %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpsubb %ymm2, %ymm1, %ymm6
	; AVX512F-NEXT: vpsrlw $1, %ymm6, %ymm6
	; AVX512F-NEXT: vpand %ymm4, %ymm6, %ymm4
	; AVX512F-NEXT: vpaddb %ymm2, %ymm4, %ymm2			; AVX512F-NEXT: vpaddb %ymm2, %ymm4, %ymm2
	; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2
	; AVX512F-NEXT: vpand %ymm5, %ymm2, %ymm2			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm4 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm4			; AVX512F-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX512F-NEXT: vpmullw %ymm3, %ymm4, %ymm4			; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm6
	; AVX512F-NEXT: vpmovsxwd %ymm4, %zmm4			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm7 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
	; AVX512F-NEXT: vpmovdb %zmm4, %xmm4			; AVX512F-NEXT: vpand %ymm7, %ymm6, %ymm6
	; AVX512F-NEXT: vextracti128 $1, %ymm2, %xmm2			; AVX512F-NEXT: vpsubb %ymm2, %ymm6, %ymm2
	; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm2			; AVX512F-NEXT: vpsubb %ymm2, %ymm0, %ymm0
				; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm2
				; AVX512F-NEXT: vpmovzxbw {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero,xmm2[8],zero,xmm2[9],zero,xmm2[10],zero,xmm2[11],zero,xmm2[12],zero,xmm2[13],zero,xmm2[14],zero,xmm2[15],zero
	; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpmovsxwd %ymm2, %zmm2			; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX512F-NEXT: vpmovdb %zmm2, %xmm2			; AVX512F-NEXT: vpmovzxbw {{.*#+}} ymm6 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero,xmm1[8],zero,xmm1[9],zero,xmm1[10],zero,xmm1[11],zero,xmm1[12],zero,xmm1[13],zero,xmm1[14],zero,xmm1[15],zero
	; AVX512F-NEXT: vinserti128 $1, %xmm2, %ymm4, %ymm2			; AVX512F-NEXT: vpmullw %ymm3, %ymm6, %ymm3
				; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3
				; AVX512F-NEXT: vperm2i128 {{.*#+}} ymm6 = ymm3[2,3],ymm2[2,3]
				; AVX512F-NEXT: vinserti128 $1, %xmm2, %ymm3, %ymm2
				; AVX512F-NEXT: vpackuswb %ymm6, %ymm2, %ymm2
				; AVX512F-NEXT: vpsubb %ymm2, %ymm1, %ymm3
				; AVX512F-NEXT: vpsrlw $1, %ymm3, %ymm3
				; AVX512F-NEXT: vpand %ymm5, %ymm3, %ymm3
				; AVX512F-NEXT: vpaddb %ymm2, %ymm3, %ymm2
				; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2
				; AVX512F-NEXT: vpand %ymm4, %ymm2, %ymm2
				; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm3
				; AVX512F-NEXT: vpand %ymm7, %ymm3, %ymm3
				; AVX512F-NEXT: vpsubb %ymm2, %ymm3, %ymm2
	; AVX512F-NEXT: vpsubb %ymm2, %ymm1, %ymm1			; AVX512F-NEXT: vpsubb %ymm2, %ymm1, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_64i8:			; AVX512BW-LABEL: test_rem7_64i8:
	; AVX512BW: # BB#0:			; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm1 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm1 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37,37]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1
	Show All 28 Lines

test/CodeGen/X86/vector-mul.ll

	Show First 20 Lines • Show All 349 Lines • ▼ Show 20 Lines
	; X64-NEXT: pmullw %xmm2, %xmm0			; X64-NEXT: pmullw %xmm2, %xmm0
	; X64-NEXT: pand %xmm3, %xmm0			; X64-NEXT: pand %xmm3, %xmm0
	; X64-NEXT: packuswb %xmm0, %xmm1			; X64-NEXT: packuswb %xmm0, %xmm1
	; X64-NEXT: movdqa %xmm1, %xmm0			; X64-NEXT: movdqa %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X64-XOP-LABEL: mul_v16i8_17:			; X64-XOP-LABEL: mul_v16i8_17:
	; X64-XOP: # BB#0:			; X64-XOP: # BB#0:
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm1			; X64-XOP-NEXT: vpshlb {{.*}}(%rip), %xmm0, %xmm1
	; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [17,17,17,17,17,17,17,17]			; X64-XOP-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; X64-XOP-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm0
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm1[0,2,4,6,8,10,12,14],xmm0[0,2,4,6,8,10,12,14]
	; X64-XOP-NEXT: retq			; X64-XOP-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_v16i8_17:			; X64-AVX2-LABEL: mul_v16i8_17:
	; X64-AVX2: # BB#0:			; X64-AVX2: # BB#0:
	; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0			; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0
	; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0			; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
	; X64-NEXT: packuswb %xmm0, %xmm1			; X64-NEXT: packuswb %xmm0, %xmm1
	; X64-NEXT: movdqa %xmm1, %xmm0			; X64-NEXT: movdqa %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X64-XOP-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:			; X64-XOP-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:
	; X64-XOP: # BB#0:			; X64-XOP: # BB#0:
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm1			; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm1
	; X64-XOP-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1			; X64-XOP-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1
				; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
				; X64-XOP-NEXT: vpand %xmm2, %xmm1, %xmm1
	; X64-XOP-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; X64-XOP-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm0			; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm0
	; X64-XOP-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0			; X64-XOP-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm1[0,2,4,6,8,10,12,14],xmm0[0,2,4,6,8,10,12,14]			; X64-XOP-NEXT: vpand %xmm2, %xmm0, %xmm0
				; X64-XOP-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; X64-XOP-NEXT: retq			; X64-XOP-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:			; X64-AVX2-LABEL: mul_v16i8_2_3_9_17_33_65_129_2_3_9_17_33_65_129_2_3:
	; X64-AVX2: # BB#0:			; X64-AVX2: # BB#0:
	; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0			; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0
	; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0			; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	▲ Show 20 Lines • Show All 118 Lines • ▼ Show 20 Lines
	; X64-NEXT: pmullw %xmm2, %xmm0			; X64-NEXT: pmullw %xmm2, %xmm0
	; X64-NEXT: pand %xmm3, %xmm0			; X64-NEXT: pand %xmm3, %xmm0
	; X64-NEXT: packuswb %xmm0, %xmm1			; X64-NEXT: packuswb %xmm0, %xmm1
	; X64-NEXT: movdqa %xmm1, %xmm0			; X64-NEXT: movdqa %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X64-XOP-LABEL: mul_v16i8_31:			; X64-XOP-LABEL: mul_v16i8_31:
	; X64-XOP: # BB#0:			; X64-XOP: # BB#0:
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm1			; X64-XOP-NEXT: vpshlb {{.*}}(%rip), %xmm0, %xmm1
	; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [31,31,31,31,31,31,31,31]			; X64-XOP-NEXT: vpsubb %xmm0, %xmm1, %xmm0
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; X64-XOP-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm0
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm1[0,2,4,6,8,10,12,14],xmm0[0,2,4,6,8,10,12,14]
	; X64-XOP-NEXT: retq			; X64-XOP-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_v16i8_31:			; X64-AVX2-LABEL: mul_v16i8_31:
	; X64-AVX2: # BB#0:			; X64-AVX2: # BB#0:
	; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0			; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0
	; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0			; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	▲ Show 20 Lines • Show All 345 Lines • ▼ Show 20 Lines
	; X64-NEXT: movdqa %xmm1, %xmm0			; X64-NEXT: movdqa %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X64-XOP-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:			; X64-XOP-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:
	; X64-XOP: # BB#0:			; X64-XOP: # BB#0:
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm1			; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm1
	; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,3,7,15,31,63,127]			; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,3,7,15,31,63,127]
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; X64-XOP-NEXT: vpmullw %xmm2, %xmm1, %xmm1
				; X64-XOP-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
				; X64-XOP-NEXT: vpand %xmm3, %xmm1, %xmm1
	; X64-XOP-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; X64-XOP-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm0			; X64-XOP-NEXT: vpmovsxbw %xmm0, %xmm0
	; X64-XOP-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; X64-XOP-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; X64-XOP-NEXT: vpperm {{.*#+}} xmm0 = xmm1[0,2,4,6,8,10,12,14],xmm0[0,2,4,6,8,10,12,14]			; X64-XOP-NEXT: vpand %xmm3, %xmm0, %xmm0
				; X64-XOP-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; X64-XOP-NEXT: retq			; X64-XOP-NEXT: retq
	;			;
	; X64-AVX2-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:			; X64-AVX2-LABEL: mul_v16i8_0_1_3_7_15_31_63_127_0_1_3_7_15_31_63_127:
	; X64-AVX2: # BB#0:			; X64-AVX2: # BB#0:
	; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0			; X64-AVX2-NEXT: vpmovsxbw %xmm0, %ymm0
	; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0			; X64-AVX2-NEXT: vpmullw {{.*}}(%rip), %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	▲ Show 20 Lines • Show All 80 Lines • Show Last 20 Lines

test/CodeGen/X86/vselect-avx.ll

	Show First 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpmuldq %xmm4, %xmm5, %xmm4			; AVX1-NEXT: vpmuldq %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpmuldq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuldq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]
	; AVX1-NEXT: vpsrld $31, %xmm3, %xmm4			; AVX1-NEXT: vpsrld $31, %xmm3, %xmm4
	; AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm3, %xmm3			; AVX1-NEXT: vpslld $2, %xmm3, %xmm4
				; AVX1-NEXT: vpsubd %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsubd %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpackssdw %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpackssdw %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, (%rdi)			; AVX1-NEXT: vmovq %xmm0, (%rdi)
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX1-NEXT: vmovq %xmm0, (%rsi)			; AVX1-NEXT: vmovq %xmm0, (%rsi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test3:			; AVX2-LABEL: test3:
	; AVX2: ## BB#0:			; AVX2: ## BB#0:
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [1431655766,1431655766,1431655766,1431655766]			; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [1431655766,1431655766,1431655766,1431655766]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]
	; AVX2-NEXT: vpmuldq %xmm4, %xmm5, %xmm4			; AVX2-NEXT: vpmuldq %xmm4, %xmm5, %xmm4
	; AVX2-NEXT: vpmuldq %xmm3, %xmm0, %xmm3			; AVX2-NEXT: vpmuldq %xmm3, %xmm0, %xmm3
	; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm3 = xmm3[0],xmm4[1],xmm3[2],xmm4[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm3 = xmm3[0],xmm4[1],xmm3[2],xmm4[3]
	; AVX2-NEXT: vpsrld $31, %xmm3, %xmm4			; AVX2-NEXT: vpsrld $31, %xmm3, %xmm4
	; AVX2-NEXT: vpaddd %xmm4, %xmm3, %xmm3			; AVX2-NEXT: vpaddd %xmm4, %xmm3, %xmm3
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm4 = [3,3,3,3]			; AVX2-NEXT: vpslld $2, %xmm3, %xmm4
	; AVX2-NEXT: vpmulld %xmm4, %xmm3, %xmm3			; AVX2-NEXT: vpsubd %xmm3, %xmm4, %xmm3
	; AVX2-NEXT: vpsubd %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpsubd %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm1			; AVX2-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm1
	; AVX2-NEXT: vpackssdw %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpackssdw %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, (%rdi)			; AVX2-NEXT: vmovq %xmm0, (%rdi)
	; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX2-NEXT: vmovq %xmm0, (%rsi)			; AVX2-NEXT: vmovq %xmm0, (%rsi)
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombine] Resolving PR34474 by transforming mul(x, 2^c +/- 1) -> sub/add(shl(x, c) x) for any type including vector types
Changes PlannedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 119577

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

test/CodeGen/AArch64/aarch64-smull.ll

test/CodeGen/ARM/2012-08-23-legalize-vmull.ll

test/CodeGen/ARM/vmul.ll

test/CodeGen/Hexagon/vect/vect-cst-v4i32.ll

test/CodeGen/Hexagon/vect/vect-vsplatb.ll

test/CodeGen/Hexagon/vect/vect-vsplath.ll

test/CodeGen/X86/combine-shl.ll

test/CodeGen/X86/masked_gather_scatter.ll

test/CodeGen/X86/vector-idiv-sdiv-128.ll

test/CodeGen/X86/vector-idiv-sdiv-256.ll

test/CodeGen/X86/vector-idiv-sdiv-512.ll

test/CodeGen/X86/vector-idiv-udiv-128.ll

test/CodeGen/X86/vector-idiv-udiv-256.ll

test/CodeGen/X86/vector-idiv-udiv-512.ll

test/CodeGen/X86/vector-mul.ll

test/CodeGen/X86/vselect-avx.ll

This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombine] Resolving PR34474 by transforming mul(x, 2^c +/- 1) -> sub/add(shl(x, c) x) for any type including vector typesChanges PlannedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 119577

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

test/CodeGen/AArch64/aarch64-smull.ll

test/CodeGen/ARM/2012-08-23-legalize-vmull.ll

test/CodeGen/ARM/vmul.ll

test/CodeGen/Hexagon/vect/vect-cst-v4i32.ll

test/CodeGen/Hexagon/vect/vect-vsplatb.ll

test/CodeGen/Hexagon/vect/vect-vsplath.ll

test/CodeGen/X86/combine-shl.ll

test/CodeGen/X86/masked_gather_scatter.ll

test/CodeGen/X86/vector-idiv-sdiv-128.ll

test/CodeGen/X86/vector-idiv-sdiv-256.ll

test/CodeGen/X86/vector-idiv-sdiv-512.ll

test/CodeGen/X86/vector-idiv-udiv-128.ll

test/CodeGen/X86/vector-idiv-udiv-256.ll

test/CodeGen/X86/vector-idiv-udiv-512.ll

test/CodeGen/X86/vector-mul.ll

test/CodeGen/X86/vselect-avx.ll

[DAGCombine] Resolving PR34474 by transforming mul(x, 2^c +/- 1) -> sub/add(shl(x, c) x) for any type including vector types
Changes PlannedPublic