Diff 171317

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 9,876 Lines • ▼ Show 20 Lines	static SDValue lowerVectorShuffleAsBitBlend(const SDLoc &DL, MVT VT, SDValue V1,
for (int i = 0, Size = Mask.size(); i < Size; ++i) {		for (int i = 0, Size = Mask.size(); i < Size; ++i) {
if (Mask[i] >= 0 && Mask[i] != i && Mask[i] != i + Size)		if (Mask[i] >= 0 && Mask[i] != i && Mask[i] != i + Size)
return SDValue(); // Shuffled input!		return SDValue(); // Shuffled input!
MaskOps.push_back(Mask[i] < Size ? AllOnes : Zero);		MaskOps.push_back(Mask[i] < Size ? AllOnes : Zero);
}		}

SDValue V1Mask = DAG.getBuildVector(VT, DL, MaskOps);		SDValue V1Mask = DAG.getBuildVector(VT, DL, MaskOps);
V1 = DAG.getNode(ISD::AND, DL, VT, V1, V1Mask);		V1 = DAG.getNode(ISD::AND, DL, VT, V1, V1Mask);
// We have to cast V2 around.		V2 = DAG.getNode(X86ISD::ANDNP, DL, VT, V1Mask, V2);
MVT MaskVT = MVT::getVectorVT(MVT::i64, VT.getSizeInBits() / 64);
V2 = DAG.getBitcast(VT, DAG.getNode(X86ISD::ANDNP, DL, MaskVT,
DAG.getBitcast(MaskVT, V1Mask),
DAG.getBitcast(MaskVT, V2)));
return DAG.getNode(ISD::OR, DL, VT, V1, V2);		return DAG.getNode(ISD::OR, DL, VT, V1, V2);
}		}

static SDValue getVectorMaskingNode(SDValue Op, SDValue Mask,		static SDValue getVectorMaskingNode(SDValue Op, SDValue Mask,
SDValue PreservedSrc,		SDValue PreservedSrc,
const X86Subtarget &Subtarget,		const X86Subtarget &Subtarget,
SelectionDAG &DAG);		SelectionDAG &DAG);

▲ Show 20 Lines • Show All 25,152 Lines • ▼ Show 20 Lines	static SDValue combineCompareEqual(SDNode *N, SelectionDAG &DAG,
}		}
return SDValue();		return SDValue();
}		}

/// Try to fold: (and (xor X, -1), Y) -> (andnp X, Y).		/// Try to fold: (and (xor X, -1), Y) -> (andnp X, Y).
static SDValue combineANDXORWithAllOnesIntoANDNP(SDNode *N, SelectionDAG &DAG) {		static SDValue combineANDXORWithAllOnesIntoANDNP(SDNode *N, SelectionDAG &DAG) {
assert(N->getOpcode() == ISD::AND);		assert(N->getOpcode() == ISD::AND);

EVT VT = N->getValueType(0);		MVT VT = N->getSimpleValueType(0);
if (VT != MVT::v2i64 && VT != MVT::v4i64 && VT != MVT::v8i64)		if (!VT.is128BitVector() && !VT.is256BitVector() && !VT.is512BitVector())
return SDValue();		return SDValue();

SDValue X, Y;		SDValue X, Y;
SDValue N0 = N->getOperand(0);		SDValue N0 = peekThroughBitcasts(N->getOperand(0));
SDValue N1 = N->getOperand(1);		SDValue N1 = peekThroughBitcasts(N->getOperand(1));
if (N0.getOpcode() == ISD::XOR &&		if (N0.getOpcode() == ISD::XOR &&
ISD::isBuildVectorAllOnes(N0.getOperand(1).getNode())) {		ISD::isBuildVectorAllOnes(N0.getOperand(1).getNode())) {
X = N0.getOperand(0);		X = N0.getOperand(0);
Y = N1;		Y = N1;
} else if (N1.getOpcode() == ISD::XOR &&		} else if (N1.getOpcode() == ISD::XOR &&
ISD::isBuildVectorAllOnes(N1.getOperand(1).getNode())) {		ISD::isBuildVectorAllOnes(N1.getOperand(1).getNode())) {
X = N1.getOperand(0);		X = N1.getOperand(0);
Y = N0;		Y = N0;
} else		} else
return SDValue();		return SDValue();

		X = DAG.getBitcast(VT, X);
		Y = DAG.getBitcast(VT, Y);
return DAG.getNode(X86ISD::ANDNP, SDLoc(N), VT, X, Y);		return DAG.getNode(X86ISD::ANDNP, SDLoc(N), VT, X, Y);
}		}

// On AVX/AVX2 the type v8i1 is legalized to v8i16, which is an XMM sized		// On AVX/AVX2 the type v8i1 is legalized to v8i16, which is an XMM sized
// register. In most cases we actually compare or select YMM-sized registers		// register. In most cases we actually compare or select YMM-sized registers
// and mixing the two types creates horrible code. This method optimizes		// and mixing the two types creates horrible code. This method optimizes
// some of the transition sequences.		// some of the transition sequences.
// Even with AVX-512 this is still useful for removing casts around logical		// Even with AVX-512 this is still useful for removing casts around logical
▲ Show 20 Lines • Show All 313 Lines • ▼ Show 20 Lines	static SDValue combineParity(SDNode *N, SelectionDAG &DAG,
SDValue Flags = DAG.getNode(X86ISD::XOR, DL, VTs, Lo, Hi).getValue(1);		SDValue Flags = DAG.getNode(X86ISD::XOR, DL, VTs, Lo, Hi).getValue(1);

// Copy the inverse of the parity flag into a register with setcc.		// Copy the inverse of the parity flag into a register with setcc.
SDValue Setnp = getSETCC(X86::COND_NP, Flags, DL, DAG);		SDValue Setnp = getSETCC(X86::COND_NP, Flags, DL, DAG);
// Zero extend to original type.		// Zero extend to original type.
return DAG.getNode(ISD::ZERO_EXTEND, DL, N->getValueType(0), Setnp);		return DAG.getNode(ISD::ZERO_EXTEND, DL, N->getValueType(0), Setnp);
}		}

// This promotes vectors and/or/xor to a vXi64 type. We used to do this during
// op legalization, but DAG combine yields better results.
// TODO: This is largely just to reduce the number of isel patterns. Maybe we
// can just add all the patterns or do C++ based selection in X86ISelDAGToDAG?
static SDValue promoteVecLogicOp(SDNode *N, SelectionDAG &DAG) {
MVT VT = N->getSimpleValueType(0);

if (!VT.is128BitVector() && !VT.is256BitVector() && !VT.is512BitVector())
return SDValue();

// Already correct type.
if (VT.getVectorElementType() == MVT::i64)
return SDValue();

MVT NewVT = MVT::getVectorVT(MVT::i64, VT.getSizeInBits() / 64);
SDValue Op0 = DAG.getBitcast(NewVT, N->getOperand(0));
SDValue Op1 = DAG.getBitcast(NewVT, N->getOperand(1));
return DAG.getBitcast(VT, DAG.getNode(N->getOpcode(), SDLoc(N), NewVT,
Op0, Op1));
}

static SDValue combineAnd(SDNode *N, SelectionDAG &DAG,		static SDValue combineAnd(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

// If this is SSE1 only convert to FAND to avoid scalarization.		// If this is SSE1 only convert to FAND to avoid scalarization.
if (Subtarget.hasSSE1() && !Subtarget.hasSSE2() && VT == MVT::v4i32) {		if (Subtarget.hasSSE1() && !Subtarget.hasSSE2() && VT == MVT::v4i32) {
return DAG.getBitcast(		return DAG.getBitcast(
Show All 18 Lines	static SDValue combineAnd(SDNode *N, SelectionDAG &DAG,

// This must be done before legalization has expanded the ctpop.		// This must be done before legalization has expanded the ctpop.
if (SDValue V = combineParity(N, DAG, Subtarget))		if (SDValue V = combineParity(N, DAG, Subtarget))
return V;		return V;

if (DCI.isBeforeLegalizeOps())		if (DCI.isBeforeLegalizeOps())
return SDValue();		return SDValue();

if (SDValue V = promoteVecLogicOp(N, DAG))
return V;

if (SDValue R = combineCompareEqual(N, DAG, DCI, Subtarget))		if (SDValue R = combineCompareEqual(N, DAG, DCI, Subtarget))
return R;		return R;

if (SDValue FPLogic = convertIntLogicToFPLogic(N, DAG, Subtarget))		if (SDValue FPLogic = convertIntLogicToFPLogic(N, DAG, Subtarget))
return FPLogic;		return FPLogic;

if (SDValue R = combineANDXORWithAllOnesIntoANDNP(N, DAG))		if (SDValue R = combineANDXORWithAllOnesIntoANDNP(N, DAG))
return R;		return R;
▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines	if (V) {
return DAG.getBitcast(VT, Res);		return DAG.getBitcast(VT, Res);
}		}
}		}

// PBLENDVB is only available on SSE 4.1.		// PBLENDVB is only available on SSE 4.1.
if (!Subtarget.hasSSE41())		if (!Subtarget.hasSSE41())
return SDValue();		return SDValue();

MVT BlendVT = (VT == MVT::v4i64) ? MVT::v32i8 : MVT::v16i8;		MVT BlendVT = VT.is256BitVector() ? MVT::v32i8 : MVT::v16i8;

X = DAG.getBitcast(BlendVT, X);		X = DAG.getBitcast(BlendVT, X);
Y = DAG.getBitcast(BlendVT, Y);		Y = DAG.getBitcast(BlendVT, Y);
Mask = DAG.getBitcast(BlendVT, Mask);		Mask = DAG.getBitcast(BlendVT, Mask);
Mask = DAG.getSelect(DL, BlendVT, Mask, Y, X);		Mask = DAG.getSelect(DL, BlendVT, Mask, Y, X);
return DAG.getBitcast(VT, Mask);		return DAG.getBitcast(VT, Mask);
}		}

▲ Show 20 Lines • Show All 118 Lines • ▼ Show 20 Lines	return DAG.getBitcast(MVT::v4i32,
DAG.getNode(X86ISD::FOR, SDLoc(N), MVT::v4f32,		DAG.getNode(X86ISD::FOR, SDLoc(N), MVT::v4f32,
DAG.getBitcast(MVT::v4f32, N0),		DAG.getBitcast(MVT::v4f32, N0),
DAG.getBitcast(MVT::v4f32, N1)));		DAG.getBitcast(MVT::v4f32, N1)));
}		}

if (DCI.isBeforeLegalizeOps())		if (DCI.isBeforeLegalizeOps())
return SDValue();		return SDValue();

if (SDValue V = promoteVecLogicOp(N, DAG))
return V;

if (SDValue R = combineCompareEqual(N, DAG, DCI, Subtarget))		if (SDValue R = combineCompareEqual(N, DAG, DCI, Subtarget))
return R;		return R;

if (SDValue FPLogic = convertIntLogicToFPLogic(N, DAG, Subtarget))		if (SDValue FPLogic = convertIntLogicToFPLogic(N, DAG, Subtarget))
return FPLogic;		return FPLogic;

if (SDValue R = combineLogicBlendIntoPBLENDV(N, DAG, Subtarget))		if (SDValue R = combineLogicBlendIntoPBLENDV(N, DAG, Subtarget))
return R;		return R;
▲ Show 20 Lines • Show All 1,959 Lines • ▼ Show 20 Lines

static SDValue lowerX86FPLogicOp(SDNode *N, SelectionDAG &DAG,		static SDValue lowerX86FPLogicOp(SDNode *N, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
MVT VT = N->getSimpleValueType(0);		MVT VT = N->getSimpleValueType(0);
// If we have integer vector types available, use the integer opcodes.		// If we have integer vector types available, use the integer opcodes.
if ((VT.isVector() \|\| VT == MVT::f128) && Subtarget.hasSSE2()) {		if ((VT.isVector() \|\| VT == MVT::f128) && Subtarget.hasSSE2()) {
SDLoc dl(N);		SDLoc dl(N);

MVT IntVT = MVT::getVectorVT(MVT::i64, VT.getSizeInBits() / 64);		unsigned IntBits = std::min(VT.getScalarSizeInBits(), 64U);
		MVT IntSVT = MVT::getIntegerVT(IntBits);
		MVT IntVT = MVT::getVectorVT(IntSVT, VT.getSizeInBits() / IntBits);

SDValue Op0 = DAG.getBitcast(IntVT, N->getOperand(0));		SDValue Op0 = DAG.getBitcast(IntVT, N->getOperand(0));
SDValue Op1 = DAG.getBitcast(IntVT, N->getOperand(1));		SDValue Op1 = DAG.getBitcast(IntVT, N->getOperand(1));
unsigned IntOpcode;		unsigned IntOpcode;
switch (N->getOpcode()) {		switch (N->getOpcode()) {
default: llvm_unreachable("Unexpected FP logic op");		default: llvm_unreachable("Unexpected FP logic op");
case X86ISD::FOR: IntOpcode = ISD::OR; break;		case X86ISD::FOR: IntOpcode = ISD::OR; break;
case X86ISD::FXOR: IntOpcode = ISD::XOR; break;		case X86ISD::FXOR: IntOpcode = ISD::XOR; break;
Show All 36 Lines	static SDValue combineXor(SDNode *N, SelectionDAG &DAG,
}		}

if (SDValue Cmp = foldVectorXorShiftIntoCmp(N, DAG, Subtarget))		if (SDValue Cmp = foldVectorXorShiftIntoCmp(N, DAG, Subtarget))
return Cmp;		return Cmp;

if (DCI.isBeforeLegalizeOps())		if (DCI.isBeforeLegalizeOps())
return SDValue();		return SDValue();

if (SDValue V = promoteVecLogicOp(N, DAG))
return V;

if (SDValue SetCC = foldXor1SetCC(N, DAG))		if (SDValue SetCC = foldXor1SetCC(N, DAG))
return SetCC;		return SetCC;

if (SDValue RV = foldXorTruncShiftIntoCmp(N, DAG))		if (SDValue RV = foldXorTruncShiftIntoCmp(N, DAG))
return RV;		return RV;

if (SDValue FPLogic = convertIntLogicToFPLogic(N, DAG, Subtarget))		if (SDValue FPLogic = convertIntLogicToFPLogic(N, DAG, Subtarget))
return FPLogic;		return FPLogic;
▲ Show 20 Lines • Show All 211 Lines • ▼ Show 20 Lines	static SDValue combineFMinNumFMaxNum(SDNode *N, SelectionDAG &DAG,
// are NaN, the NaN value of Op1 is the result.		// are NaN, the NaN value of Op1 is the result.
return DAG.getSelect(DL, VT, IsOp0Nan, Op1, MinOrMax);		return DAG.getSelect(DL, VT, IsOp0Nan, Op1, MinOrMax);
}		}

/// Do target-specific dag combines on X86ISD::ANDNP nodes.		/// Do target-specific dag combines on X86ISD::ANDNP nodes.
static SDValue combineAndnp(SDNode *N, SelectionDAG &DAG,		static SDValue combineAndnp(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
		MVT VT = N->getSimpleValueType(0);

// ANDNP(0, x) -> x		// ANDNP(0, x) -> x
if (ISD::isBuildVectorAllZeros(N->getOperand(0).getNode()))		if (ISD::isBuildVectorAllZeros(N->getOperand(0).getNode()))
return N->getOperand(1);		return N->getOperand(1);

// ANDNP(x, 0) -> 0		// ANDNP(x, 0) -> 0
if (ISD::isBuildVectorAllZeros(N->getOperand(1).getNode()))		if (ISD::isBuildVectorAllZeros(N->getOperand(1).getNode()))
return getZeroVector(N->getSimpleValueType(0), Subtarget, DAG, SDLoc(N));		return getZeroVector(VT, Subtarget, DAG, SDLoc(N));

EVT VT = N->getValueType(0);		// Turn ANDNP back to AND if input is inverted.
		if (VT.isVector() && N->getOperand(0).getOpcode() == ISD::XOR &&
		ISD::isBuildVectorAllOnes(N->getOperand(0).getOperand(1).getNode())) {
		return DAG.getNode(ISD::AND, SDLoc(N), VT,
		N->getOperand(0).getOperand(0), N->getOperand(1));
		}

// Attempt to recursively combine a bitmask ANDNP with shuffles.		// Attempt to recursively combine a bitmask ANDNP with shuffles.
if (VT.isVector() && (VT.getScalarSizeInBits() % 8) == 0) {		if (VT.isVector() && (VT.getScalarSizeInBits() % 8) == 0) {
SDValue Op(N, 0);		SDValue Op(N, 0);
if (SDValue Res = combineX86ShufflesRecursively(		if (SDValue Res = combineX86ShufflesRecursively(
{Op}, 0, Op, {0}, {}, /Depth/ 1,		{Op}, 0, Op, {0}, {}, /Depth/ 1,
/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))		/HasVarMask/ false, /AllowVarMask/ true, DAG, Subtarget))
return Res;		return Res;
▲ Show 20 Lines • Show All 3,566 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 62 Lines • ▼ Show 20 Lines	class X86VectorVTInfo<int numelts, ValueType eltvt, RegisterClass rc,
X86MemOperand ScalarMemOp = !cast<X86MemOperand>(EltVT # "mem");		X86MemOperand ScalarMemOp = !cast<X86MemOperand>(EltVT # "mem");
// FP scalar memory operand for intrinsics - ssmem/sdmem.		// FP scalar memory operand for intrinsics - ssmem/sdmem.
Operand IntScalarMemOp = !if (!eq (EltTypeName, "f32"), !cast<Operand>("ssmem"),		Operand IntScalarMemOp = !if (!eq (EltTypeName, "f32"), !cast<Operand>("ssmem"),
!if (!eq (EltTypeName, "f64"), !cast<Operand>("sdmem"), ?));		!if (!eq (EltTypeName, "f64"), !cast<Operand>("sdmem"), ?));

// Load patterns		// Load patterns
PatFrag LdFrag = !cast<PatFrag>("load" # VTName);		PatFrag LdFrag = !cast<PatFrag>("load" # VTName);

PatFrag i64LdFrag = !cast<PatFrag>("load" #
!if (!eq (TypeVariantName, "i"),
!if (!eq (Size, 128), "v2i64",
!if (!eq (Size, 256), "v4i64",
!if (!eq (Size, 512), "v8i64",
VTName))), VTName));

PatFrag AlignedLdFrag = !cast<PatFrag>("alignedload" # VTName);		PatFrag AlignedLdFrag = !cast<PatFrag>("alignedload" # VTName);

PatFrag ScalarLdFrag = !cast<PatFrag>("load" # EltVT);		PatFrag ScalarLdFrag = !cast<PatFrag>("load" # EltVT);

ComplexPattern ScalarIntMemCPat = !if (!eq (EltTypeName, "f32"),		ComplexPattern ScalarIntMemCPat = !if (!eq (EltTypeName, "f32"),
!cast<ComplexPattern>("sse_load_f32"),		!cast<ComplexPattern>("sse_load_f32"),
!if (!eq (EltTypeName, "f64"),		!if (!eq (EltTypeName, "f64"),
!cast<ComplexPattern>("sse_load_f64"),		!cast<ComplexPattern>("sse_load_f64"),
Show All 11 Lines	SubRegIndex SubRegIdx = !if (!eq (Size, 128), sub_xmm,
!if (!eq (Size, 256), sub_ymm, ?));		!if (!eq (Size, 256), sub_ymm, ?));

Domain ExeDomain = !if (!eq (EltTypeName, "f32"), SSEPackedSingle,		Domain ExeDomain = !if (!eq (EltTypeName, "f32"), SSEPackedSingle,
!if (!eq (EltTypeName, "f64"), SSEPackedDouble,		!if (!eq (EltTypeName, "f64"), SSEPackedDouble,
SSEPackedInt));		SSEPackedInt));

RegisterClass FRC = !if (!eq (EltTypeName, "f32"), FR32X, FR64X);		RegisterClass FRC = !if (!eq (EltTypeName, "f32"), FR32X, FR64X);

// A vector tye of the same width with element type i64. This is used to
// create patterns for logic ops.
ValueType i64VT = !cast<ValueType>("v" # !srl(Size, 6) # "i64");

// A vector type of the same width with element type i32. This is used to		// A vector type of the same width with element type i32. This is used to
// create the canonical constant zero node ImmAllZerosV.		// create the canonical constant zero node ImmAllZerosV.
ValueType i32VT = !cast<ValueType>("v" # !srl(Size, 5) # "i32");		ValueType i32VT = !cast<ValueType>("v" # !srl(Size, 5) # "i32");
dag ImmAllZerosV = (VT (bitconvert (i32VT immAllZerosV)));		dag ImmAllZerosV = (VT (bitconvert (i32VT immAllZerosV)));

string ZSuffix = !if (!eq (Size, 128), "Z128",		string ZSuffix = !if (!eq (Size, 128), "Z128",
!if (!eq (Size, 256), "Z256", "Z"));		!if (!eq (Size, 256), "Z256", "Z"));
}		}
▲ Show 20 Lines • Show All 4,972 Lines • ▼ Show 20 Lines	let Predicates = [HasAVX512, NoVLX] in {
defm : avx512_min_max_lowering<VPMAXSQZrr, smax>;		defm : avx512_min_max_lowering<VPMAXSQZrr, smax>;
defm : avx512_min_max_lowering<VPMINSQZrr, smin>;		defm : avx512_min_max_lowering<VPMINSQZrr, smin>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// AVX-512 Logical Instructions		// AVX-512 Logical Instructions
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

// OpNodeMsk is the OpNode to use when element size is important. OpNode will		defm VPAND : avx512_binop_rm_vl_dq<0xDB, 0xDB, "vpand", and,
// be set to null_frag for 32-bit elements.		SchedWriteVecLogic, HasAVX512, 1>;
multiclass avx512_logic_rm<bits<8> opc, string OpcodeStr,		defm VPOR : avx512_binop_rm_vl_dq<0xEB, 0xEB, "vpor", or,
SDPatternOperator OpNode,		SchedWriteVecLogic, HasAVX512, 1>;
SDNode OpNodeMsk, X86FoldableSchedWrite sched,		defm VPXOR : avx512_binop_rm_vl_dq<0xEF, 0xEF, "vpxor", xor,
X86VectorVTInfo _, bit IsCommutable = 0> {		SchedWriteVecLogic, HasAVX512, 1>;
let hasSideEffects = 0 in		defm VPANDN : avx512_binop_rm_vl_dq<0xDF, 0xDF, "vpandn", X86andnp,
defm rr : AVX512_maskable_logic<opc, MRMSrcReg, _, (outs _.RC:$dst),		SchedWriteVecLogic, HasAVX512>;
(ins _.RC:$src1, _.RC:$src2), OpcodeStr,
"$src2, $src1", "$src1, $src2",
(_.i64VT (OpNode (bitconvert (_.VT _.RC:$src1)),
(bitconvert (_.VT _.RC:$src2)))),
(_.VT (bitconvert (_.i64VT (OpNodeMsk _.RC:$src1,
_.RC:$src2)))),
IsCommutable>, AVX512BIBase, EVEX_4V,
Sched<[sched]>;

let hasSideEffects = 0, mayLoad = 1 in
defm rm : AVX512_maskable_logic<opc, MRMSrcMem, _, (outs _.RC:$dst),
(ins _.RC:$src1, _.MemOp:$src2), OpcodeStr,
"$src2, $src1", "$src1, $src2",
(_.i64VT (OpNode (bitconvert (_.VT _.RC:$src1)),
(bitconvert (_.LdFrag addr:$src2)))),
(_.VT (bitconvert (_.i64VT (OpNodeMsk _.RC:$src1,
(_.i64LdFrag addr:$src2)))))>,
AVX512BIBase, EVEX_4V,
Sched<[sched.Folded, sched.ReadAfterFold]>;
}

// OpNodeMsk is the OpNode to use where element size is important. So use
// for all of the broadcast patterns.
multiclass avx512_logic_rmb<bits<8> opc, string OpcodeStr,
SDPatternOperator OpNode,
SDNode OpNodeMsk, X86FoldableSchedWrite sched, X86VectorVTInfo _,
bit IsCommutable = 0> :
avx512_logic_rm<opc, OpcodeStr, OpNode, OpNodeMsk, sched, _,
IsCommutable> {
defm rmb : AVX512_maskable_logic<opc, MRMSrcMem, _, (outs _.RC:$dst),
(ins _.RC:$src1, _.ScalarMemOp:$src2), OpcodeStr,
"${src2}"##_.BroadcastStr##", $src1",
"$src1, ${src2}"##_.BroadcastStr,
(_.i64VT (OpNodeMsk _.RC:$src1,
(bitconvert
(_.VT (X86VBroadcast
(_.ScalarLdFrag addr:$src2)))))),
(_.VT (bitconvert (_.i64VT (OpNodeMsk _.RC:$src1,
(bitconvert
(_.VT (X86VBroadcast
(_.ScalarLdFrag addr:$src2))))))))>,
AVX512BIBase, EVEX_4V, EVEX_B,
Sched<[sched.Folded, sched.ReadAfterFold]>;
}

multiclass avx512_logic_rmb_vl<bits<8> opc, string OpcodeStr,
SDPatternOperator OpNode,
SDNode OpNodeMsk, X86SchedWriteWidths sched,
AVX512VLVectorVTInfo VTInfo,
bit IsCommutable = 0> {
let Predicates = [HasAVX512] in
defm Z : avx512_logic_rmb<opc, OpcodeStr, OpNode, OpNodeMsk, sched.ZMM,
VTInfo.info512, IsCommutable>, EVEX_V512;

let Predicates = [HasAVX512, HasVLX] in {
defm Z256 : avx512_logic_rmb<opc, OpcodeStr, OpNode, OpNodeMsk, sched.YMM,
VTInfo.info256, IsCommutable>, EVEX_V256;
defm Z128 : avx512_logic_rmb<opc, OpcodeStr, OpNode, OpNodeMsk, sched.XMM,
VTInfo.info128, IsCommutable>, EVEX_V128;
}
}

multiclass avx512_logic_rm_vl_dq<bits<8> opc_d, bits<8> opc_q, string OpcodeStr,
SDNode OpNode, X86SchedWriteWidths sched,
bit IsCommutable = 0> {
defm Q : avx512_logic_rmb_vl<opc_q, OpcodeStr#"q", OpNode, OpNode, sched,
avx512vl_i64_info, IsCommutable>,
VEX_W, EVEX_CD8<64, CD8VF>;
defm D : avx512_logic_rmb_vl<opc_d, OpcodeStr#"d", null_frag, OpNode, sched,
avx512vl_i32_info, IsCommutable>,
EVEX_CD8<32, CD8VF>;
}

defm VPAND : avx512_logic_rm_vl_dq<0xDB, 0xDB, "vpand", and,
SchedWriteVecLogic, 1>;
defm VPOR : avx512_logic_rm_vl_dq<0xEB, 0xEB, "vpor", or,
SchedWriteVecLogic, 1>;
defm VPXOR : avx512_logic_rm_vl_dq<0xEF, 0xEF, "vpxor", xor,
SchedWriteVecLogic, 1>;
defm VPANDN : avx512_logic_rm_vl_dq<0xDF, 0xDF, "vpandn", X86andnp,
SchedWriteVecLogic>;

let Predicates = [HasVLX] in {		let Predicates = [HasVLX] in {
def : Pat<(v16i8 (and VR128X:$src1, VR128X:$src2)),		def : Pat<(v16i8 (and VR128X:$src1, VR128X:$src2)),
(VPANDQZ128rr VR128X:$src1, VR128X:$src2)>;		(VPANDQZ128rr VR128X:$src1, VR128X:$src2)>;
def : Pat<(v8i16 (and VR128X:$src1, VR128X:$src2)),		def : Pat<(v8i16 (and VR128X:$src1, VR128X:$src2)),
(VPANDQZ128rr VR128X:$src1, VR128X:$src2)>;		(VPANDQZ128rr VR128X:$src1, VR128X:$src2)>;
def : Pat<(v4i32 (and VR128X:$src1, VR128X:$src2)),
(VPANDQZ128rr VR128X:$src1, VR128X:$src2)>;

def : Pat<(v16i8 (or VR128X:$src1, VR128X:$src2)),		def : Pat<(v16i8 (or VR128X:$src1, VR128X:$src2)),
(VPORQZ128rr VR128X:$src1, VR128X:$src2)>;		(VPORQZ128rr VR128X:$src1, VR128X:$src2)>;
def : Pat<(v8i16 (or VR128X:$src1, VR128X:$src2)),		def : Pat<(v8i16 (or VR128X:$src1, VR128X:$src2)),
(VPORQZ128rr VR128X:$src1, VR128X:$src2)>;		(VPORQZ128rr VR128X:$src1, VR128X:$src2)>;
def : Pat<(v4i32 (or VR128X:$src1, VR128X:$src2)),
(VPORQZ128rr VR128X:$src1, VR128X:$src2)>;

def : Pat<(v16i8 (xor VR128X:$src1, VR128X:$src2)),		def : Pat<(v16i8 (xor VR128X:$src1, VR128X:$src2)),
(VPXORQZ128rr VR128X:$src1, VR128X:$src2)>;		(VPXORQZ128rr VR128X:$src1, VR128X:$src2)>;
def : Pat<(v8i16 (xor VR128X:$src1, VR128X:$src2)),		def : Pat<(v8i16 (xor VR128X:$src1, VR128X:$src2)),
(VPXORQZ128rr VR128X:$src1, VR128X:$src2)>;		(VPXORQZ128rr VR128X:$src1, VR128X:$src2)>;
def : Pat<(v4i32 (xor VR128X:$src1, VR128X:$src2)),
(VPXORQZ128rr VR128X:$src1, VR128X:$src2)>;

def : Pat<(v16i8 (X86andnp VR128X:$src1, VR128X:$src2)),		def : Pat<(v16i8 (X86andnp VR128X:$src1, VR128X:$src2)),
(VPANDNQZ128rr VR128X:$src1, VR128X:$src2)>;		(VPANDNQZ128rr VR128X:$src1, VR128X:$src2)>;
def : Pat<(v8i16 (X86andnp VR128X:$src1, VR128X:$src2)),		def : Pat<(v8i16 (X86andnp VR128X:$src1, VR128X:$src2)),
(VPANDNQZ128rr VR128X:$src1, VR128X:$src2)>;		(VPANDNQZ128rr VR128X:$src1, VR128X:$src2)>;
def : Pat<(v4i32 (X86andnp VR128X:$src1, VR128X:$src2)),
(VPANDNQZ128rr VR128X:$src1, VR128X:$src2)>;		def : Pat<(and VR128X:$src1, (loadv16i8 addr:$src2)),
		(VPANDQZ128rm VR128X:$src1, addr:$src2)>;
		def : Pat<(and VR128X:$src1, (loadv8i16 addr:$src2)),
		(VPANDQZ128rm VR128X:$src1, addr:$src2)>;

		def : Pat<(or VR128X:$src1, (loadv16i8 addr:$src2)),
		(VPORQZ128rm VR128X:$src1, addr:$src2)>;
		def : Pat<(or VR128X:$src1, (loadv8i16 addr:$src2)),
		(VPORQZ128rm VR128X:$src1, addr:$src2)>;

		def : Pat<(xor VR128X:$src1, (loadv16i8 addr:$src2)),
		(VPXORQZ128rm VR128X:$src1, addr:$src2)>;
		def : Pat<(xor VR128X:$src1, (loadv8i16 addr:$src2)),
		(VPXORQZ128rm VR128X:$src1, addr:$src2)>;

		def : Pat<(X86andnp VR128X:$src1, (loadv16i8 addr:$src2)),
		(VPANDNQZ128rm VR128X:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR128X:$src1, (loadv8i16 addr:$src2)),
		(VPANDNQZ128rm VR128X:$src1, addr:$src2)>;

		def : Pat<(and VR128X:$src1,
		(bc_v4i32 (v4f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPANDDZ128rmb VR128X:$src1, addr:$src2)>;
		def : Pat<(or VR128X:$src1,
		(bc_v4i32 (v4f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPORDZ128rmb VR128X:$src1, addr:$src2)>;
		def : Pat<(xor VR128X:$src1,
		(bc_v4i32 (v4f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPXORDZ128rmb VR128X:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR128X:$src1,
		(bc_v4i32 (v4f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPANDNDZ128rmb VR128X:$src1, addr:$src2)>;

		def : Pat<(and VR128X:$src1,
		(bc_v2i64 (v2f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPANDQZ128rmb VR128X:$src1, addr:$src2)>;
		def : Pat<(or VR128X:$src1,
		(bc_v2i64 (v2f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPORQZ128rmb VR128X:$src1, addr:$src2)>;
		def : Pat<(xor VR128X:$src1,
		(bc_v2i64 (v2f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPXORQZ128rmb VR128X:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR128X:$src1,
		(bc_v2i64 (v2f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPANDNQZ128rmb VR128X:$src1, addr:$src2)>;

def : Pat<(v32i8 (and VR256X:$src1, VR256X:$src2)),		def : Pat<(v32i8 (and VR256X:$src1, VR256X:$src2)),
(VPANDQZ256rr VR256X:$src1, VR256X:$src2)>;		(VPANDQZ256rr VR256X:$src1, VR256X:$src2)>;
def : Pat<(v16i16 (and VR256X:$src1, VR256X:$src2)),		def : Pat<(v16i16 (and VR256X:$src1, VR256X:$src2)),
(VPANDQZ256rr VR256X:$src1, VR256X:$src2)>;		(VPANDQZ256rr VR256X:$src1, VR256X:$src2)>;
def : Pat<(v8i32 (and VR256X:$src1, VR256X:$src2)),
(VPANDQZ256rr VR256X:$src1, VR256X:$src2)>;

def : Pat<(v32i8 (or VR256X:$src1, VR256X:$src2)),		def : Pat<(v32i8 (or VR256X:$src1, VR256X:$src2)),
(VPORQZ256rr VR256X:$src1, VR256X:$src2)>;		(VPORQZ256rr VR256X:$src1, VR256X:$src2)>;
def : Pat<(v16i16 (or VR256X:$src1, VR256X:$src2)),		def : Pat<(v16i16 (or VR256X:$src1, VR256X:$src2)),
(VPORQZ256rr VR256X:$src1, VR256X:$src2)>;		(VPORQZ256rr VR256X:$src1, VR256X:$src2)>;
def : Pat<(v8i32 (or VR256X:$src1, VR256X:$src2)),
(VPORQZ256rr VR256X:$src1, VR256X:$src2)>;

def : Pat<(v32i8 (xor VR256X:$src1, VR256X:$src2)),		def : Pat<(v32i8 (xor VR256X:$src1, VR256X:$src2)),
(VPXORQZ256rr VR256X:$src1, VR256X:$src2)>;		(VPXORQZ256rr VR256X:$src1, VR256X:$src2)>;
def : Pat<(v16i16 (xor VR256X:$src1, VR256X:$src2)),		def : Pat<(v16i16 (xor VR256X:$src1, VR256X:$src2)),
(VPXORQZ256rr VR256X:$src1, VR256X:$src2)>;		(VPXORQZ256rr VR256X:$src1, VR256X:$src2)>;
def : Pat<(v8i32 (xor VR256X:$src1, VR256X:$src2)),
(VPXORQZ256rr VR256X:$src1, VR256X:$src2)>;

def : Pat<(v32i8 (X86andnp VR256X:$src1, VR256X:$src2)),		def : Pat<(v32i8 (X86andnp VR256X:$src1, VR256X:$src2)),
(VPANDNQZ256rr VR256X:$src1, VR256X:$src2)>;		(VPANDNQZ256rr VR256X:$src1, VR256X:$src2)>;
def : Pat<(v16i16 (X86andnp VR256X:$src1, VR256X:$src2)),		def : Pat<(v16i16 (X86andnp VR256X:$src1, VR256X:$src2)),
(VPANDNQZ256rr VR256X:$src1, VR256X:$src2)>;		(VPANDNQZ256rr VR256X:$src1, VR256X:$src2)>;
def : Pat<(v8i32 (X86andnp VR256X:$src1, VR256X:$src2)),
(VPANDNQZ256rr VR256X:$src1, VR256X:$src2)>;		def : Pat<(and VR256X:$src1, (loadv32i8 addr:$src2)),
		(VPANDQZ256rm VR256X:$src1, addr:$src2)>;
		def : Pat<(and VR256X:$src1, (loadv16i16 addr:$src2)),
		(VPANDQZ256rm VR256X:$src1, addr:$src2)>;

		def : Pat<(or VR256X:$src1, (loadv32i8 addr:$src2)),
		(VPORQZ256rm VR256X:$src1, addr:$src2)>;
		def : Pat<(or VR256X:$src1, (loadv16i16 addr:$src2)),
		(VPORQZ256rm VR256X:$src1, addr:$src2)>;

		def : Pat<(xor VR256X:$src1, (loadv32i8 addr:$src2)),
		(VPXORQZ256rm VR256X:$src1, addr:$src2)>;
		def : Pat<(xor VR256X:$src1, (loadv16i16 addr:$src2)),
		(VPXORQZ256rm VR256X:$src1, addr:$src2)>;

		def : Pat<(X86andnp VR256X:$src1, (loadv32i8 addr:$src2)),
		(VPANDNQZ256rm VR256X:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR256X:$src1, (loadv16i16 addr:$src2)),
		(VPANDNQZ256rm VR256X:$src1, addr:$src2)>;

		def : Pat<(and VR256X:$src1,
		(bc_v8i32 (v8f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPANDDZ256rmb VR256X:$src1, addr:$src2)>;
		def : Pat<(or VR256X:$src1,
		(bc_v8i32 (v8f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPORDZ256rmb VR256X:$src1, addr:$src2)>;
		def : Pat<(xor VR256X:$src1,
		(bc_v8i32 (v8f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPXORDZ256rmb VR256X:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR256X:$src1,
		(bc_v8i32 (v8f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPANDNDZ256rmb VR256X:$src1, addr:$src2)>;

		def : Pat<(and VR256X:$src1,
		(bc_v4i64 (v4f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPANDQZ256rmb VR256X:$src1, addr:$src2)>;
		def : Pat<(or VR256X:$src1,
		(bc_v4i64 (v4f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPORQZ256rmb VR256X:$src1, addr:$src2)>;
		def : Pat<(xor VR256X:$src1,
		(bc_v4i64 (v4f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPXORQZ256rmb VR256X:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR256X:$src1,
		(bc_v4i64 (v4f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPANDNQZ256rmb VR256X:$src1, addr:$src2)>;
}		}

let Predicates = [HasAVX512] in {		let Predicates = [HasAVX512] in {
def : Pat<(v64i8 (and VR512:$src1, VR512:$src2)),		def : Pat<(v64i8 (and VR512:$src1, VR512:$src2)),
(VPANDQZrr VR512:$src1, VR512:$src2)>;		(VPANDQZrr VR512:$src1, VR512:$src2)>;
def : Pat<(v32i16 (and VR512:$src1, VR512:$src2)),		def : Pat<(v32i16 (and VR512:$src1, VR512:$src2)),
(VPANDQZrr VR512:$src1, VR512:$src2)>;		(VPANDQZrr VR512:$src1, VR512:$src2)>;
def : Pat<(v16i32 (and VR512:$src1, VR512:$src2)),
(VPANDQZrr VR512:$src1, VR512:$src2)>;

def : Pat<(v64i8 (or VR512:$src1, VR512:$src2)),		def : Pat<(v64i8 (or VR512:$src1, VR512:$src2)),
(VPORQZrr VR512:$src1, VR512:$src2)>;		(VPORQZrr VR512:$src1, VR512:$src2)>;
def : Pat<(v32i16 (or VR512:$src1, VR512:$src2)),		def : Pat<(v32i16 (or VR512:$src1, VR512:$src2)),
(VPORQZrr VR512:$src1, VR512:$src2)>;		(VPORQZrr VR512:$src1, VR512:$src2)>;
def : Pat<(v16i32 (or VR512:$src1, VR512:$src2)),
(VPORQZrr VR512:$src1, VR512:$src2)>;

def : Pat<(v64i8 (xor VR512:$src1, VR512:$src2)),		def : Pat<(v64i8 (xor VR512:$src1, VR512:$src2)),
(VPXORQZrr VR512:$src1, VR512:$src2)>;		(VPXORQZrr VR512:$src1, VR512:$src2)>;
def : Pat<(v32i16 (xor VR512:$src1, VR512:$src2)),		def : Pat<(v32i16 (xor VR512:$src1, VR512:$src2)),
(VPXORQZrr VR512:$src1, VR512:$src2)>;		(VPXORQZrr VR512:$src1, VR512:$src2)>;
def : Pat<(v16i32 (xor VR512:$src1, VR512:$src2)),
(VPXORQZrr VR512:$src1, VR512:$src2)>;

def : Pat<(v64i8 (X86andnp VR512:$src1, VR512:$src2)),		def : Pat<(v64i8 (X86andnp VR512:$src1, VR512:$src2)),
(VPANDNQZrr VR512:$src1, VR512:$src2)>;		(VPANDNQZrr VR512:$src1, VR512:$src2)>;
def : Pat<(v32i16 (X86andnp VR512:$src1, VR512:$src2)),		def : Pat<(v32i16 (X86andnp VR512:$src1, VR512:$src2)),
(VPANDNQZrr VR512:$src1, VR512:$src2)>;		(VPANDNQZrr VR512:$src1, VR512:$src2)>;
def : Pat<(v16i32 (X86andnp VR512:$src1, VR512:$src2)),
(VPANDNQZrr VR512:$src1, VR512:$src2)>;		def : Pat<(and VR512:$src1, (loadv64i8 addr:$src2)),
		(VPANDQZrm VR512:$src1, addr:$src2)>;
		def : Pat<(and VR512:$src1, (loadv32i16 addr:$src2)),
		(VPANDQZrm VR512:$src1, addr:$src2)>;

		def : Pat<(or VR512:$src1, (loadv64i8 addr:$src2)),
		(VPORQZrm VR512:$src1, addr:$src2)>;
		def : Pat<(or VR512:$src1, (loadv32i16 addr:$src2)),
		(VPORQZrm VR512:$src1, addr:$src2)>;

		def : Pat<(xor VR512:$src1, (loadv64i8 addr:$src2)),
		(VPXORQZrm VR512:$src1, addr:$src2)>;
		def : Pat<(xor VR512:$src1, (loadv32i16 addr:$src2)),
		(VPXORQZrm VR512:$src1, addr:$src2)>;

		def : Pat<(X86andnp VR512:$src1, (loadv64i8 addr:$src2)),
		(VPANDNQZrm VR512:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR512:$src1, (loadv32i16 addr:$src2)),
		(VPANDNQZrm VR512:$src1, addr:$src2)>;

		def : Pat<(and VR512:$src1,
		(bc_v16i32 (v16f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPANDDZrmb VR512:$src1, addr:$src2)>;
		def : Pat<(or VR512:$src1,
		(bc_v16i32 (v16f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPORDZrmb VR512:$src1, addr:$src2)>;
		def : Pat<(xor VR512:$src1,
		(bc_v16i32 (v16f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPXORDZrmb VR512:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR512:$src1,
		(bc_v16i32 (v16f32 (X86VBroadcast (loadf32 addr:$src2))))),
		(VPANDNDZrmb VR512:$src1, addr:$src2)>;

		def : Pat<(and VR512:$src1,
		(bc_v8i64 (v8f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPANDQZrmb VR512:$src1, addr:$src2)>;
		def : Pat<(or VR512:$src1,
		(bc_v8i64 (v8f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPORQZrmb VR512:$src1, addr:$src2)>;
		def : Pat<(xor VR512:$src1,
		(bc_v8i64 (v8f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPXORQZrmb VR512:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR512:$src1,
		(bc_v8i64 (v8f64 (X86VBroadcast (loadf64 addr:$src2))))),
		(VPANDNQZrmb VR512:$src1, addr:$src2)>;
}		}

		// Patterns to catch vselect with different type than logic op.
		multiclass avx512_logical_lowering<string InstrStr, SDNode OpNode,
		X86VectorVTInfo _,
		X86VectorVTInfo IntInfo> {
		// Masked register-register logical operations.
		def : Pat<(_.VT (vselect _.KRCWM:$mask,
		(bitconvert (IntInfo.VT (OpNode _.RC:$src1, _.RC:$src2))),
		_.RC:$src0)),
		(!cast<Instruction>(InstrStr#rrk) _.RC:$src0, _.KRCWM:$mask,
		_.RC:$src1, _.RC:$src2)>;

		def : Pat<(_.VT (vselect _.KRCWM:$mask,
		(bitconvert (IntInfo.VT (OpNode _.RC:$src1, _.RC:$src2))),
		_.ImmAllZerosV)),
		(!cast<Instruction>(InstrStr#rrkz) _.KRCWM:$mask, _.RC:$src1,
		_.RC:$src2)>;

		// Masked register-memory logical operations.
		def : Pat<(_.VT (vselect _.KRCWM:$mask,
		(bitconvert (IntInfo.VT (OpNode _.RC:$src1,
		(load addr:$src2)))),
		_.RC:$src0)),
		(!cast<Instruction>(InstrStr#rmk) _.RC:$src0, _.KRCWM:$mask,
		_.RC:$src1, addr:$src2)>;
		def : Pat<(_.VT (vselect _.KRCWM:$mask,
		(bitconvert (IntInfo.VT (OpNode _.RC:$src1,
		(load addr:$src2)))),
		_.ImmAllZerosV)),
		(!cast<Instruction>(InstrStr#rmkz) _.KRCWM:$mask, _.RC:$src1,
		addr:$src2)>;
		}

		multiclass avx512_logical_lowering_bcast<string InstrStr, SDNode OpNode,
		X86VectorVTInfo _,
		X86VectorVTInfo IntInfo> {
		// Register-broadcast logical operations.
		def : Pat<(IntInfo.VT (OpNode _.RC:$src1,
		(bitconvert (_.VT (X86VBroadcast
		(_.ScalarLdFrag addr:$src2)))))),
		(!cast<Instruction>(InstrStr#rmb) _.RC:$src1, addr:$src2)>;
		def : Pat<(_.VT (vselect _.KRCWM:$mask,
		(bitconvert
		(IntInfo.VT (OpNode _.RC:$src1,
		(bitconvert (_.VT
		(X86VBroadcast
		(_.ScalarLdFrag addr:$src2))))))),
		_.RC:$src0)),
		(!cast<Instruction>(InstrStr#rmbk) _.RC:$src0, _.KRCWM:$mask,
		_.RC:$src1, addr:$src2)>;
		def : Pat<(_.VT (vselect _.KRCWM:$mask,
		(bitconvert
		(IntInfo.VT (OpNode _.RC:$src1,
		(bitconvert (_.VT
		(X86VBroadcast
		(_.ScalarLdFrag addr:$src2))))))),
		_.ImmAllZerosV)),
		(!cast<Instruction>(InstrStr#rmbkz) _.KRCWM:$mask,
		_.RC:$src1, addr:$src2)>;
		}

		multiclass avx512_logical_lowering_sizes<string InstrStr, SDNode OpNode,
		AVX512VLVectorVTInfo SelectInfo,
		AVX512VLVectorVTInfo IntInfo> {
		let Predicates = [HasVLX] in {
		defm : avx512_logical_lowering<InstrStr#"Z128", OpNode, SelectInfo.info128,
		IntInfo.info128>;
		defm : avx512_logical_lowering<InstrStr#"Z256", OpNode, SelectInfo.info256,
		IntInfo.info256>;
		}
		let Predicates = [HasAVX512] in {
		defm : avx512_logical_lowering<InstrStr#"Z", OpNode, SelectInfo.info512,
		IntInfo.info512>;
		}
		}

		multiclass avx512_logical_lowering_sizes_bcast<string InstrStr, SDNode OpNode,
		AVX512VLVectorVTInfo SelectInfo,
		AVX512VLVectorVTInfo IntInfo> {
		let Predicates = [HasVLX] in {
		defm : avx512_logical_lowering_bcast<InstrStr#"Z128", OpNode,
		SelectInfo.info128, IntInfo.info128>;
		defm : avx512_logical_lowering_bcast<InstrStr#"Z256", OpNode,
		SelectInfo.info256, IntInfo.info256>;
		}
		let Predicates = [HasAVX512] in {
		defm : avx512_logical_lowering_bcast<InstrStr#"Z", OpNode,
		SelectInfo.info512, IntInfo.info512>;
		}
		}

		multiclass avx512_logical_lowering_types<string InstrStr, SDNode OpNode> {
		// i64 vselect with i32/i16/i8 logic op
		defm : avx512_logical_lowering_sizes<InstrStr#"Q", OpNode, avx512vl_i64_info,
		avx512vl_i32_info>;
		defm : avx512_logical_lowering_sizes<InstrStr#"Q", OpNode, avx512vl_i64_info,
		avx512vl_i16_info>;
		defm : avx512_logical_lowering_sizes<InstrStr#"Q", OpNode, avx512vl_i64_info,
		avx512vl_i8_info>;

		// i32 vselect with i64/i16/i8 logic op
		defm : avx512_logical_lowering_sizes<InstrStr#"D", OpNode, avx512vl_i32_info,
		avx512vl_i64_info>;
		defm : avx512_logical_lowering_sizes<InstrStr#"D", OpNode, avx512vl_i32_info,
		avx512vl_i16_info>;
		defm : avx512_logical_lowering_sizes<InstrStr#"D", OpNode, avx512vl_i32_info,
		avx512vl_i8_info>;

		// f32 vselect with i64/i32/i16/i8 logic op
		defm : avx512_logical_lowering_sizes<InstrStr#"D", OpNode, avx512vl_f32_info,
		avx512vl_i64_info>;
		defm : avx512_logical_lowering_sizes<InstrStr#"D", OpNode, avx512vl_f32_info,
		avx512vl_i32_info>;
		defm : avx512_logical_lowering_sizes<InstrStr#"D", OpNode, avx512vl_f32_info,
		avx512vl_i16_info>;
		defm : avx512_logical_lowering_sizes<InstrStr#"D", OpNode, avx512vl_f32_info,
		avx512vl_i8_info>;

		// f64 vselect with i64/i32/i16/i8 logic op
		defm : avx512_logical_lowering_sizes<InstrStr#"Q", OpNode, avx512vl_f64_info,
		avx512vl_i64_info>;
		defm : avx512_logical_lowering_sizes<InstrStr#"Q", OpNode, avx512vl_f64_info,
		avx512vl_i32_info>;
		defm : avx512_logical_lowering_sizes<InstrStr#"Q", OpNode, avx512vl_f64_info,
		avx512vl_i16_info>;
		defm : avx512_logical_lowering_sizes<InstrStr#"Q", OpNode, avx512vl_f64_info,
		avx512vl_i8_info>;

		defm : avx512_logical_lowering_sizes_bcast<InstrStr#"D", OpNode,
		avx512vl_f32_info,
		avx512vl_i32_info>;
		defm : avx512_logical_lowering_sizes_bcast<InstrStr#"Q", OpNode,
		avx512vl_f64_info,
		avx512vl_i64_info>;
		}

		defm : avx512_logical_lowering_types<"VPAND", and>;
		defm : avx512_logical_lowering_types<"VPOR", or>;
		defm : avx512_logical_lowering_types<"VPXOR", xor>;
		defm : avx512_logical_lowering_types<"VPANDN", X86andnp>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// AVX-512 FP arithmetic		// AVX-512 FP arithmetic
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

multiclass avx512_fp_scalar<bits<8> opc, string OpcodeStr,X86VectorVTInfo _,		multiclass avx512_fp_scalar<bits<8> opc, string OpcodeStr,X86VectorVTInfo _,
SDNode OpNode, SDNode VecNode,		SDNode OpNode, SDNode VecNode,
X86FoldableSchedWrite sched, bit IsCommutable> {		X86FoldableSchedWrite sched, bit IsCommutable> {
let ExeDomain = _.ExeDomain in {		let ExeDomain = _.ExeDomain in {
▲ Show 20 Lines • Show All 287 Lines • ▼ Show 20 Lines	defm VAND : avx512_fp_binop_p<0x54, "vand", null_frag, HasDQI,
SchedWriteFLogicSizes, 1>;		SchedWriteFLogicSizes, 1>;
defm VANDN : avx512_fp_binop_p<0x55, "vandn", null_frag, HasDQI,		defm VANDN : avx512_fp_binop_p<0x55, "vandn", null_frag, HasDQI,
SchedWriteFLogicSizes, 0>;		SchedWriteFLogicSizes, 0>;
defm VOR : avx512_fp_binop_p<0x56, "vor", null_frag, HasDQI,		defm VOR : avx512_fp_binop_p<0x56, "vor", null_frag, HasDQI,
SchedWriteFLogicSizes, 1>;		SchedWriteFLogicSizes, 1>;
defm VXOR : avx512_fp_binop_p<0x57, "vxor", null_frag, HasDQI,		defm VXOR : avx512_fp_binop_p<0x57, "vxor", null_frag, HasDQI,
SchedWriteFLogicSizes, 1>;		SchedWriteFLogicSizes, 1>;

// Patterns catch floating point selects with bitcasted integer logic ops.
multiclass avx512_fp_logical_lowering<string InstrStr, SDNode OpNode,
X86VectorVTInfo _, Predicate prd> {
let Predicates = [prd] in {
// Masked register-register logical operations.
def : Pat<(_.VT (vselect _.KRCWM:$mask,
(bitconvert (_.i64VT (OpNode _.RC:$src1, _.RC:$src2))),
_.RC:$src0)),
(!cast<Instruction>(InstrStr#rrk) _.RC:$src0, _.KRCWM:$mask,
_.RC:$src1, _.RC:$src2)>;
def : Pat<(_.VT (vselect _.KRCWM:$mask,
(bitconvert (_.i64VT (OpNode _.RC:$src1, _.RC:$src2))),
_.ImmAllZerosV)),
(!cast<Instruction>(InstrStr#rrkz) _.KRCWM:$mask, _.RC:$src1,
_.RC:$src2)>;
// Masked register-memory logical operations.
def : Pat<(_.VT (vselect _.KRCWM:$mask,
(bitconvert (_.i64VT (OpNode _.RC:$src1,
(load addr:$src2)))),
_.RC:$src0)),
(!cast<Instruction>(InstrStr#rmk) _.RC:$src0, _.KRCWM:$mask,
_.RC:$src1, addr:$src2)>;
def : Pat<(_.VT (vselect _.KRCWM:$mask,
(bitconvert (_.i64VT (OpNode _.RC:$src1, (load addr:$src2)))),
_.ImmAllZerosV)),
(!cast<Instruction>(InstrStr#rmkz) _.KRCWM:$mask, _.RC:$src1,
addr:$src2)>;
// Register-broadcast logical operations.
def : Pat<(_.i64VT (OpNode _.RC:$src1,
(bitconvert (_.VT (X86VBroadcast
(_.ScalarLdFrag addr:$src2)))))),
(!cast<Instruction>(InstrStr#rmb) _.RC:$src1, addr:$src2)>;
def : Pat<(_.VT (vselect _.KRCWM:$mask,
(bitconvert
(_.i64VT (OpNode _.RC:$src1,
(bitconvert (_.VT
(X86VBroadcast
(_.ScalarLdFrag addr:$src2))))))),
_.RC:$src0)),
(!cast<Instruction>(InstrStr#rmbk) _.RC:$src0, _.KRCWM:$mask,
_.RC:$src1, addr:$src2)>;
def : Pat<(_.VT (vselect _.KRCWM:$mask,
(bitconvert
(_.i64VT (OpNode _.RC:$src1,
(bitconvert (_.VT
(X86VBroadcast
(_.ScalarLdFrag addr:$src2))))))),
_.ImmAllZerosV)),
(!cast<Instruction>(InstrStr#rmbkz) _.KRCWM:$mask,
_.RC:$src1, addr:$src2)>;
}
}

multiclass avx512_fp_logical_lowering_sizes<string InstrStr, SDNode OpNode> {
defm : avx512_fp_logical_lowering<InstrStr#DZ128, OpNode, v4f32x_info, HasVLX>;
defm : avx512_fp_logical_lowering<InstrStr#QZ128, OpNode, v2f64x_info, HasVLX>;
defm : avx512_fp_logical_lowering<InstrStr#DZ256, OpNode, v8f32x_info, HasVLX>;
defm : avx512_fp_logical_lowering<InstrStr#QZ256, OpNode, v4f64x_info, HasVLX>;
defm : avx512_fp_logical_lowering<InstrStr#DZ, OpNode, v16f32_info, HasAVX512>;
defm : avx512_fp_logical_lowering<InstrStr#QZ, OpNode, v8f64_info, HasAVX512>;
}

defm : avx512_fp_logical_lowering_sizes<"VPAND", and>;
defm : avx512_fp_logical_lowering_sizes<"VPOR", or>;
defm : avx512_fp_logical_lowering_sizes<"VPXOR", xor>;
defm : avx512_fp_logical_lowering_sizes<"VPANDN", X86andnp>;

let Predicates = [HasVLX,HasDQI] in {		let Predicates = [HasVLX,HasDQI] in {
// Use packed logical operations for scalar ops.		// Use packed logical operations for scalar ops.
def : Pat<(f64 (X86fand FR64X:$src1, FR64X:$src2)),		def : Pat<(f64 (X86fand FR64X:$src1, FR64X:$src2)),
(COPY_TO_REGCLASS		(COPY_TO_REGCLASS
(v2f64 (VANDPDZ128rr (v2f64 (COPY_TO_REGCLASS FR64X:$src1, VR128X)),		(v2f64 (VANDPDZ128rr (v2f64 (COPY_TO_REGCLASS FR64X:$src1, VR128X)),
(v2f64 (COPY_TO_REGCLASS FR64X:$src2, VR128X)))),		(v2f64 (COPY_TO_REGCLASS FR64X:$src2, VR128X)))),
FR64X)>;		FR64X)>;
def : Pat<(f64 (X86for FR64X:$src1, FR64X:$src2)),		def : Pat<(f64 (X86for FR64X:$src1, FR64X:$src2)),
▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
multiclass avx512_vptest<bits<8> opc, string OpcodeStr, PatFrag OpNode,		multiclass avx512_vptest<bits<8> opc, string OpcodeStr, PatFrag OpNode,
X86FoldableSchedWrite sched, X86VectorVTInfo _,		X86FoldableSchedWrite sched, X86VectorVTInfo _,
string Name> {		string Name> {
let ExeDomain = _.ExeDomain in {		let ExeDomain = _.ExeDomain in {
let isCommutable = 1 in		let isCommutable = 1 in
defm rr : AVX512_maskable_cmp<opc, MRMSrcReg, _, (outs _.KRC:$dst),		defm rr : AVX512_maskable_cmp<opc, MRMSrcReg, _, (outs _.KRC:$dst),
(ins _.RC:$src1, _.RC:$src2), OpcodeStr,		(ins _.RC:$src1, _.RC:$src2), OpcodeStr,
"$src2, $src1", "$src1, $src2",		"$src2, $src1", "$src1, $src2",
(OpNode (bitconvert (_.i64VT (and _.RC:$src1, _.RC:$src2))),		(OpNode (and _.RC:$src1, _.RC:$src2), _.ImmAllZerosV)>,
_.ImmAllZerosV)>,
EVEX_4V, Sched<[sched]>;		EVEX_4V, Sched<[sched]>;
defm rm : AVX512_maskable_cmp<opc, MRMSrcMem, _, (outs _.KRC:$dst),		defm rm : AVX512_maskable_cmp<opc, MRMSrcMem, _, (outs _.KRC:$dst),
(ins _.RC:$src1, _.MemOp:$src2), OpcodeStr,		(ins _.RC:$src1, _.MemOp:$src2), OpcodeStr,
"$src2, $src1", "$src1, $src2",		"$src2, $src1", "$src1, $src2",
(OpNode (bitconvert		(OpNode (and _.RC:$src1, (_.LdFrag addr:$src2)),
(_.i64VT (and _.RC:$src1,
(_.i64LdFrag addr:$src2)))),
_.ImmAllZerosV)>,		_.ImmAllZerosV)>,
EVEX_4V, EVEX_CD8<_.EltSize, CD8VF>,		EVEX_4V, EVEX_CD8<_.EltSize, CD8VF>,
Sched<[sched.Folded, sched.ReadAfterFold]>;		Sched<[sched.Folded, sched.ReadAfterFold]>;
}		}

// Patterns for compare with 0 that just use the same source twice.		// Patterns for compare with 0 that just use the same source twice.
def : Pat<(_.KVT (OpNode _.RC:$src, _.ImmAllZerosV)),		def : Pat<(_.KVT (OpNode _.RC:$src, _.ImmAllZerosV)),
(_.KVT (!cast<Instruction>(Name # _.ZSuffix # "rr")		(_.KVT (!cast<Instruction>(Name # _.ZSuffix # "rr")
Show All 17 Lines	defm rmb : AVX512_maskable_cmp<opc, MRMSrcMem, _, (outs _.KRC:$dst),
_.ImmAllZerosV)>,		_.ImmAllZerosV)>,
EVEX_B, EVEX_4V, EVEX_CD8<_.EltSize, CD8VF>,		EVEX_B, EVEX_4V, EVEX_CD8<_.EltSize, CD8VF>,
Sched<[sched.Folded, sched.ReadAfterFold]>;		Sched<[sched.Folded, sched.ReadAfterFold]>;
}		}

// Use 512bit version to implement 128/256 bit in case NoVLX.		// Use 512bit version to implement 128/256 bit in case NoVLX.
multiclass avx512_vptest_lowering<PatFrag OpNode, X86VectorVTInfo ExtendInfo,		multiclass avx512_vptest_lowering<PatFrag OpNode, X86VectorVTInfo ExtendInfo,
X86VectorVTInfo _, string Name> {		X86VectorVTInfo _, string Name> {
def : Pat<(_.KVT (OpNode (bitconvert (_.i64VT (and _.RC:$src1, _.RC:$src2))),		def : Pat<(_.KVT (OpNode (and _.RC:$src1, _.RC:$src2),
_.ImmAllZerosV)),		_.ImmAllZerosV)),
(_.KVT (COPY_TO_REGCLASS		(_.KVT (COPY_TO_REGCLASS
(!cast<Instruction>(Name # "Zrr")		(!cast<Instruction>(Name # "Zrr")
(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),		(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),
_.RC:$src1, _.SubRegIdx),		_.RC:$src1, _.SubRegIdx),
(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),		(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),
_.RC:$src2, _.SubRegIdx)),		_.RC:$src2, _.SubRegIdx)),
_.KRC))>;		_.KRC))>;

def : Pat<(_.KVT (and _.KRC:$mask,		def : Pat<(_.KVT (and _.KRC:$mask,
(OpNode (bitconvert (_.i64VT (and _.RC:$src1, _.RC:$src2))),		(OpNode (and _.RC:$src1, _.RC:$src2),
_.ImmAllZerosV))),		_.ImmAllZerosV))),
(COPY_TO_REGCLASS		(COPY_TO_REGCLASS
(!cast<Instruction>(Name # "Zrrk")		(!cast<Instruction>(Name # "Zrrk")
(COPY_TO_REGCLASS _.KRC:$mask, ExtendInfo.KRC),		(COPY_TO_REGCLASS _.KRC:$mask, ExtendInfo.KRC),
(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),		(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),
_.RC:$src1, _.SubRegIdx),		_.RC:$src1, _.SubRegIdx),
(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),		(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),
_.RC:$src2, _.SubRegIdx)),		_.RC:$src2, _.SubRegIdx)),
▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines	multiclass avx512_vptest_all_forms<bits<8> opc_wb, bits<8> opc_dq, string OpcodeStr,
avx512_vptest_wb<opc_wb, OpcodeStr, OpNode, sched>,		avx512_vptest_wb<opc_wb, OpcodeStr, OpNode, sched>,
avx512_vptest_dq<opc_dq, OpcodeStr, OpNode, sched>;		avx512_vptest_dq<opc_dq, OpcodeStr, OpNode, sched>;

defm VPTESTM : avx512_vptest_all_forms<0x26, 0x27, "vptestm", X86pcmpnem,		defm VPTESTM : avx512_vptest_all_forms<0x26, 0x27, "vptestm", X86pcmpnem,
SchedWriteVecLogic>, T8PD;		SchedWriteVecLogic>, T8PD;
defm VPTESTNM : avx512_vptest_all_forms<0x26, 0x27, "vptestnm", X86pcmpeqm,		defm VPTESTNM : avx512_vptest_all_forms<0x26, 0x27, "vptestnm", X86pcmpeqm,
SchedWriteVecLogic>, T8XS;		SchedWriteVecLogic>, T8XS;


		multiclass avx512_vptest_lowering_pats<string InstrStr, PatFrag OpNode,
		X86VectorVTInfo _,
		X86VectorVTInfo AndInfo> {
		def : Pat<(_.KVT (OpNode (bitconvert
		(AndInfo.VT (and _.RC:$src1, _.RC:$src2))),
		_.ImmAllZerosV)),
		(!cast<Instruction>(InstrStr # "rr") _.RC:$src1, _.RC:$src2)>;

		def : Pat<(_.KVT (and _.KRC:$mask,
		(OpNode (bitconvert
		(AndInfo.VT (and _.RC:$src1, _.RC:$src2))),
		_.ImmAllZerosV))),
		(!cast<Instruction>(InstrStr # "rrk") _.KRC:$mask, _.RC:$src1,
		_.RC:$src2)>;

		def : Pat<(_.KVT (OpNode (bitconvert
		(AndInfo.VT (and _.RC:$src1,
		(AndInfo.LdFrag addr:$src2)))),
		_.ImmAllZerosV)),
		(!cast<Instruction>(InstrStr # "rm") _.RC:$src1, addr:$src2)>;

		def : Pat<(_.KVT (and _.KRC:$mask,
		(OpNode (bitconvert
		(AndInfo.VT (and _.RC:$src1,
		(AndInfo.LdFrag addr:$src2)))),
		_.ImmAllZerosV))),
		(!cast<Instruction>(InstrStr # "rmk") _.KRC:$mask, _.RC:$src1,
		addr:$src2)>;
		}

		// Patterns to use 512-bit instructions when 128/256 are not available.
		multiclass avx512_vptest_lowering_wide_pats<string InstrStr, PatFrag OpNode,
		X86VectorVTInfo _,
		X86VectorVTInfo AndInfo,
		X86VectorVTInfo ExtendInfo> {
		def : Pat<(_.KVT (OpNode (bitconvert
		(AndInfo.VT (and _.RC:$src1, _.RC:$src2))),
		_.ImmAllZerosV)),
		(_.KVT (COPY_TO_REGCLASS
		(!cast<Instruction>(InstrStr#"rr")
		(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),
		_.RC:$src1, _.SubRegIdx),
		(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),
		_.RC:$src2, _.SubRegIdx)),
		_.KRC))>;

		def : Pat<(_.KVT (and _.KRC:$mask,
		(OpNode (bitconvert
		(AndInfo.VT (and _.RC:$src1, _.RC:$src2))),
		_.ImmAllZerosV))),
		(COPY_TO_REGCLASS
		(!cast<Instruction>(InstrStr#"rrk")
		(COPY_TO_REGCLASS _.KRC:$mask, ExtendInfo.KRC),
		(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),
		_.RC:$src1, _.SubRegIdx),
		(INSERT_SUBREG (ExtendInfo.VT (IMPLICIT_DEF)),
		_.RC:$src2, _.SubRegIdx)),
		_.KRC)>;
		}

		multiclass avx512_vptest_lowering_sizes<string InstrStr, PatFrag OpNode,
		Predicate prd,
		AVX512VLVectorVTInfo CmpInfo,
		AVX512VLVectorVTInfo AndInfo> {
		let Predicates = [prd, HasVLX] in {
		defm : avx512_vptest_lowering_pats<InstrStr#"Z128", OpNode,
		CmpInfo.info128, AndInfo.info128>;
		defm : avx512_vptest_lowering_pats<InstrStr#"Z256", OpNode,
		CmpInfo.info256, AndInfo.info256>;
		}
		let Predicates = [prd] in {
		defm : avx512_vptest_lowering_pats<InstrStr#"Z", OpNode,
		CmpInfo.info512, AndInfo.info512>;
		}

		let Predicates = [prd, NoVLX] in {
		defm : avx512_vptest_lowering_wide_pats<InstrStr#"Z", OpNode,
		CmpInfo.info128, AndInfo.info128,
		CmpInfo.info512>;
		defm : avx512_vptest_lowering_wide_pats<InstrStr#"Z", OpNode,
		CmpInfo.info256, AndInfo.info256,
		CmpInfo.info512>;
		}
		}

		multiclass avx512_vptest_lowering_types<string InstrStr, PatFrag OpNode> {
		defm : avx512_vptest_lowering_sizes<InstrStr # "B", OpNode, HasBWI,
		avx512vl_i8_info, avx512vl_i16_info>;
		defm : avx512_vptest_lowering_sizes<InstrStr # "B", OpNode, HasBWI,
		avx512vl_i8_info, avx512vl_i32_info>;
		defm : avx512_vptest_lowering_sizes<InstrStr # "B", OpNode, HasBWI,
		avx512vl_i8_info, avx512vl_i64_info>;

		defm : avx512_vptest_lowering_sizes<InstrStr # "W", OpNode, HasBWI,
		avx512vl_i16_info, avx512vl_i8_info>;
		defm : avx512_vptest_lowering_sizes<InstrStr # "W", OpNode, HasBWI,
		avx512vl_i16_info, avx512vl_i32_info>;
		defm : avx512_vptest_lowering_sizes<InstrStr # "W", OpNode, HasBWI,
		avx512vl_i16_info, avx512vl_i64_info>;

		defm : avx512_vptest_lowering_sizes<InstrStr # "D", OpNode, HasAVX512,
		avx512vl_i32_info, avx512vl_i8_info>;
		defm : avx512_vptest_lowering_sizes<InstrStr # "D", OpNode, HasAVX512,
		avx512vl_i32_info, avx512vl_i16_info>;
		defm : avx512_vptest_lowering_sizes<InstrStr # "D", OpNode, HasAVX512,
		avx512vl_i32_info, avx512vl_i64_info>;

		defm : avx512_vptest_lowering_sizes<InstrStr # "Q", OpNode, HasAVX512,
		avx512vl_i64_info, avx512vl_i8_info>;
		defm : avx512_vptest_lowering_sizes<InstrStr # "Q", OpNode, HasAVX512,
		avx512vl_i64_info, avx512vl_i16_info>;
		defm : avx512_vptest_lowering_sizes<InstrStr # "Q", OpNode, HasAVX512,
		avx512vl_i64_info, avx512vl_i32_info>;
		}

		defm : avx512_vptest_lowering_types<"VPTESTM", X86pcmpnem>;
		defm : avx512_vptest_lowering_types<"VPTESTNM", X86pcmpeqm>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// AVX-512 Shift instructions		// AVX-512 Shift instructions
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

multiclass avx512_shift_rmi<bits<8> opc, Format ImmFormR, Format ImmFormM,		multiclass avx512_shift_rmi<bits<8> opc, Format ImmFormR, Format ImmFormM,
string OpcodeStr, SDNode OpNode,		string OpcodeStr, SDNode OpNode,
X86FoldableSchedWrite sched, X86VectorVTInfo _> {		X86FoldableSchedWrite sched, X86VectorVTInfo _> {
let ExeDomain = _.ExeDomain in {		let ExeDomain = _.ExeDomain in {
▲ Show 20 Lines • Show All 5,500 Lines • ▼ Show 20 Lines

// Patterns to implement vnot using vpternlog instead of creating all ones		// Patterns to implement vnot using vpternlog instead of creating all ones
// using pcmpeq or vpternlog and then xoring with that. The value 15 is chosen		// using pcmpeq or vpternlog and then xoring with that. The value 15 is chosen
// so that the result is only dependent on src0. But we use the same source		// so that the result is only dependent on src0. But we use the same source
// for all operands to prevent a false dependency.		// for all operands to prevent a false dependency.
// TODO: We should maybe have a more generalized algorithm for folding to		// TODO: We should maybe have a more generalized algorithm for folding to
// vpternlog.		// vpternlog.
let Predicates = [HasAVX512] in {		let Predicates = [HasAVX512] in {
def : Pat<(v8i64 (xor VR512:$src, (bc_v8i64 (v16i32 immAllOnesV)))),		def : Pat<(xor VR512:$src, (bc_v64i8 (v16i32 immAllOnesV))),
		(VPTERNLOGQZrri VR512:$src, VR512:$src, VR512:$src, (i8 15))>;
		def : Pat<(xor VR512:$src, (bc_v32i16 (v16i32 immAllOnesV))),
		(VPTERNLOGQZrri VR512:$src, VR512:$src, VR512:$src, (i8 15))>;
		def : Pat<(xor VR512:$src, (bc_v16i32 (v16i32 immAllOnesV))),
		(VPTERNLOGQZrri VR512:$src, VR512:$src, VR512:$src, (i8 15))>;
		def : Pat<(xor VR512:$src, (bc_v8i64 (v16i32 immAllOnesV))),
(VPTERNLOGQZrri VR512:$src, VR512:$src, VR512:$src, (i8 15))>;		(VPTERNLOGQZrri VR512:$src, VR512:$src, VR512:$src, (i8 15))>;
}		}

let Predicates = [HasAVX512, NoVLX] in {		let Predicates = [HasAVX512, NoVLX] in {
def : Pat<(v2i64 (xor VR128X:$src, (bc_v2i64 (v4i32 immAllOnesV)))),		def : Pat<(xor VR128X:$src, (bc_v16i8 (v4i32 immAllOnesV))),
(EXTRACT_SUBREG		(EXTRACT_SUBREG
(VPTERNLOGQZrri		(VPTERNLOGQZrri
(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
(i8 15)), sub_xmm)>;		(i8 15)), sub_xmm)>;
def : Pat<(v4i64 (xor VR256X:$src, (bc_v4i64 (v8i32 immAllOnesV)))),		def : Pat<(xor VR128X:$src, (bc_v8i16 (v4i32 immAllOnesV))),
		(EXTRACT_SUBREG
		(VPTERNLOGQZrri
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
		(i8 15)), sub_xmm)>;
		def : Pat<(xor VR128X:$src, (bc_v4i32 (v4i32 immAllOnesV))),
		(EXTRACT_SUBREG
		(VPTERNLOGQZrri
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
		(i8 15)), sub_xmm)>;
		def : Pat<(xor VR128X:$src, (bc_v2i64 (v4i32 immAllOnesV))),
		(EXTRACT_SUBREG
		(VPTERNLOGQZrri
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
		(i8 15)), sub_xmm)>;

		def : Pat<(xor VR256X:$src, (bc_v32i8 (v8i32 immAllOnesV))),
		(EXTRACT_SUBREG
		(VPTERNLOGQZrri
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(i8 15)), sub_ymm)>;
		def : Pat<(xor VR256X:$src, (bc_v16i16 (v8i32 immAllOnesV))),
		(EXTRACT_SUBREG
		(VPTERNLOGQZrri
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(i8 15)), sub_ymm)>;
		def : Pat<(xor VR256X:$src, (bc_v8i32 (v8i32 immAllOnesV))),
		(EXTRACT_SUBREG
		(VPTERNLOGQZrri
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(i8 15)), sub_ymm)>;
		def : Pat<(xor VR256X:$src, (bc_v4i64 (v8i32 immAllOnesV))),
(EXTRACT_SUBREG		(EXTRACT_SUBREG
(VPTERNLOGQZrri		(VPTERNLOGQZrri
(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),		(INSERT_SUBREG (v8i64 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
(i8 15)), sub_ymm)>;		(i8 15)), sub_ymm)>;
}		}

let Predicates = [HasVLX] in {		let Predicates = [HasVLX] in {
def : Pat<(v2i64 (xor VR128X:$src, (bc_v2i64 (v4i32 immAllOnesV)))),		def : Pat<(xor VR128X:$src, (bc_v16i8 (v4i32 immAllOnesV))),
		(VPTERNLOGQZ128rri VR128X:$src, VR128X:$src, VR128X:$src, (i8 15))>;
		def : Pat<(xor VR128X:$src, (bc_v8i16 (v4i32 immAllOnesV))),
		(VPTERNLOGQZ128rri VR128X:$src, VR128X:$src, VR128X:$src, (i8 15))>;
		def : Pat<(xor VR128X:$src, (bc_v4i32 (v4i32 immAllOnesV))),
		(VPTERNLOGQZ128rri VR128X:$src, VR128X:$src, VR128X:$src, (i8 15))>;
		def : Pat<(xor VR128X:$src, (bc_v2i64 (v4i32 immAllOnesV))),
(VPTERNLOGQZ128rri VR128X:$src, VR128X:$src, VR128X:$src, (i8 15))>;		(VPTERNLOGQZ128rri VR128X:$src, VR128X:$src, VR128X:$src, (i8 15))>;
def : Pat<(v4i64 (xor VR256X:$src, (bc_v4i64 (v8i32 immAllOnesV)))),
		def : Pat<(xor VR256X:$src, (bc_v32i8 (v8i32 immAllOnesV))),
		(VPTERNLOGQZ256rri VR256X:$src, VR256X:$src, VR256X:$src, (i8 15))>;
		def : Pat<(xor VR256X:$src, (bc_v16i16 (v8i32 immAllOnesV))),
		(VPTERNLOGQZ256rri VR256X:$src, VR256X:$src, VR256X:$src, (i8 15))>;
		def : Pat<(xor VR256X:$src, (bc_v8i32 (v8i32 immAllOnesV))),
		(VPTERNLOGQZ256rri VR256X:$src, VR256X:$src, VR256X:$src, (i8 15))>;
		def : Pat<(xor VR256X:$src, (bc_v4i64 (v8i32 immAllOnesV))),
(VPTERNLOGQZ256rri VR256X:$src, VR256X:$src, VR256X:$src, (i8 15))>;		(VPTERNLOGQZ256rri VR256X:$src, VR256X:$src, VR256X:$src, (i8 15))>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// AVX-512 - FixupImm		// AVX-512 - FixupImm
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

multiclass avx512_fixupimm_packed<bits<8> opc, string OpcodeStr, SDNode OpNode,		multiclass avx512_fixupimm_packed<bits<8> opc, string OpcodeStr, SDNode OpNode,
▲ Show 20 Lines • Show All 587 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86InstrFragmentsSIMD.td

	Show First 20 Lines • Show All 849 Lines • ▼ Show 20 Lines
	def bc_v16i16 : PatFrag<(ops node:$in), (v16i16 (bitconvert node:$in))>;			def bc_v16i16 : PatFrag<(ops node:$in), (v16i16 (bitconvert node:$in))>;
	def bc_v8i32 : PatFrag<(ops node:$in), (v8i32 (bitconvert node:$in))>;			def bc_v8i32 : PatFrag<(ops node:$in), (v8i32 (bitconvert node:$in))>;
	def bc_v4i64 : PatFrag<(ops node:$in), (v4i64 (bitconvert node:$in))>;			def bc_v4i64 : PatFrag<(ops node:$in), (v4i64 (bitconvert node:$in))>;
	def bc_v8f32 : PatFrag<(ops node:$in), (v8f32 (bitconvert node:$in))>;			def bc_v8f32 : PatFrag<(ops node:$in), (v8f32 (bitconvert node:$in))>;
	def bc_v4f64 : PatFrag<(ops node:$in), (v4f64 (bitconvert node:$in))>;			def bc_v4f64 : PatFrag<(ops node:$in), (v4f64 (bitconvert node:$in))>;

	// 512-bit bitconvert pattern fragments			// 512-bit bitconvert pattern fragments
	def bc_v64i8 : PatFrag<(ops node:$in), (v64i8 (bitconvert node:$in))>;			def bc_v64i8 : PatFrag<(ops node:$in), (v64i8 (bitconvert node:$in))>;
				def bc_v32i16 : PatFrag<(ops node:$in), (v32i16 (bitconvert node:$in))>;
	def bc_v16i32 : PatFrag<(ops node:$in), (v16i32 (bitconvert node:$in))>;			def bc_v16i32 : PatFrag<(ops node:$in), (v16i32 (bitconvert node:$in))>;
	def bc_v8i64 : PatFrag<(ops node:$in), (v8i64 (bitconvert node:$in))>;			def bc_v8i64 : PatFrag<(ops node:$in), (v8i64 (bitconvert node:$in))>;
	def bc_v8f64 : PatFrag<(ops node:$in), (v8f64 (bitconvert node:$in))>;			def bc_v8f64 : PatFrag<(ops node:$in), (v8f64 (bitconvert node:$in))>;
	def bc_v16f32 : PatFrag<(ops node:$in), (v16f32 (bitconvert node:$in))>;			def bc_v16f32 : PatFrag<(ops node:$in), (v16f32 (bitconvert node:$in))>;

	def vzmovl_v2i64 : PatFrag<(ops node:$src),			def vzmovl_v2i64 : PatFrag<(ops node:$src),
	(bitconvert (v2i64 (X86vzmovl			(bitconvert (v2i64 (X86vzmovl
	(v2i64 (scalar_to_vector (loadi64 node:$src))))))>;			(v2i64 (scalar_to_vector (loadi64 node:$src))))))>;
	▲ Show 20 Lines • Show All 237 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86InstrSSE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,411 Lines • ▼ Show 20 Lines	def : Pat<(v8i32 (xor VR256:$src1, VR256:$src2)),
(VPXORYrr VR256:$src1, VR256:$src2)>;		(VPXORYrr VR256:$src1, VR256:$src2)>;

def : Pat<(v32i8 (X86andnp VR256:$src1, VR256:$src2)),		def : Pat<(v32i8 (X86andnp VR256:$src1, VR256:$src2)),
(VPANDNYrr VR256:$src1, VR256:$src2)>;		(VPANDNYrr VR256:$src1, VR256:$src2)>;
def : Pat<(v16i16 (X86andnp VR256:$src1, VR256:$src2)),		def : Pat<(v16i16 (X86andnp VR256:$src1, VR256:$src2)),
(VPANDNYrr VR256:$src1, VR256:$src2)>;		(VPANDNYrr VR256:$src1, VR256:$src2)>;
def : Pat<(v8i32 (X86andnp VR256:$src1, VR256:$src2)),		def : Pat<(v8i32 (X86andnp VR256:$src1, VR256:$src2)),
(VPANDNYrr VR256:$src1, VR256:$src2)>;		(VPANDNYrr VR256:$src1, VR256:$src2)>;

		def : Pat<(and VR256:$src1, (loadv32i8 addr:$src2)),
		(VPANDYrm VR256:$src1, addr:$src2)>;
		def : Pat<(and VR256:$src1, (loadv16i16 addr:$src2)),
		(VPANDYrm VR256:$src1, addr:$src2)>;
		def : Pat<(and VR256:$src1, (loadv8i32 addr:$src2)),
		(VPANDYrm VR256:$src1, addr:$src2)>;

		def : Pat<(or VR256:$src1, (loadv32i8 addr:$src2)),
		(VPORYrm VR256:$src1, addr:$src2)>;
		def : Pat<(or VR256:$src1, (loadv16i16 addr:$src2)),
		(VPORYrm VR256:$src1, addr:$src2)>;
		def : Pat<(or VR256:$src1, (loadv8i32 addr:$src2)),
		(VPORYrm VR256:$src1, addr:$src2)>;

		def : Pat<(xor VR256:$src1, (loadv32i8 addr:$src2)),
		(VPXORYrm VR256:$src1, addr:$src2)>;
		def : Pat<(xor VR256:$src1, (loadv16i16 addr:$src2)),
		(VPXORYrm VR256:$src1, addr:$src2)>;
		def : Pat<(xor VR256:$src1, (loadv8i32 addr:$src2)),
		(VPXORYrm VR256:$src1, addr:$src2)>;

		def : Pat<(X86andnp VR256:$src1, (loadv32i8 addr:$src2)),
		(VPANDNYrm VR256:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR256:$src1, (loadv16i16 addr:$src2)),
		(VPANDNYrm VR256:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR256:$src1, (loadv8i32 addr:$src2)),
		(VPANDNYrm VR256:$src1, addr:$src2)>;
}		}

// If only AVX1 is supported, we need to handle integer operations with		// If only AVX1 is supported, we need to handle integer operations with
// floating point instructions since the integer versions aren't available.		// floating point instructions since the integer versions aren't available.
let Predicates = [HasAVX1Only] in {		let Predicates = [HasAVX1Only] in {
def : Pat<(v32i8 (and VR256:$src1, VR256:$src2)),		def : Pat<(v32i8 (and VR256:$src1, VR256:$src2)),
(VANDPSYrr VR256:$src1, VR256:$src2)>;		(VANDPSYrr VR256:$src1, VR256:$src2)>;
def : Pat<(v16i16 (and VR256:$src1, VR256:$src2)),		def : Pat<(v16i16 (and VR256:$src1, VR256:$src2)),
Show All 25 Lines	def : Pat<(v32i8 (X86andnp VR256:$src1, VR256:$src2)),
(VANDNPSYrr VR256:$src1, VR256:$src2)>;		(VANDNPSYrr VR256:$src1, VR256:$src2)>;
def : Pat<(v16i16 (X86andnp VR256:$src1, VR256:$src2)),		def : Pat<(v16i16 (X86andnp VR256:$src1, VR256:$src2)),
(VANDNPSYrr VR256:$src1, VR256:$src2)>;		(VANDNPSYrr VR256:$src1, VR256:$src2)>;
def : Pat<(v8i32 (X86andnp VR256:$src1, VR256:$src2)),		def : Pat<(v8i32 (X86andnp VR256:$src1, VR256:$src2)),
(VANDNPSYrr VR256:$src1, VR256:$src2)>;		(VANDNPSYrr VR256:$src1, VR256:$src2)>;
def : Pat<(v4i64 (X86andnp VR256:$src1, VR256:$src2)),		def : Pat<(v4i64 (X86andnp VR256:$src1, VR256:$src2)),
(VANDNPSYrr VR256:$src1, VR256:$src2)>;		(VANDNPSYrr VR256:$src1, VR256:$src2)>;

		def : Pat<(and VR256:$src1, (loadv32i8 addr:$src2)),
		(VANDPSYrm VR256:$src1, addr:$src2)>;
		def : Pat<(and VR256:$src1, (loadv16i16 addr:$src2)),
		(VANDPSYrm VR256:$src1, addr:$src2)>;
		def : Pat<(and VR256:$src1, (loadv8i32 addr:$src2)),
		(VANDPSYrm VR256:$src1, addr:$src2)>;
def : Pat<(and VR256:$src1, (loadv4i64 addr:$src2)),		def : Pat<(and VR256:$src1, (loadv4i64 addr:$src2)),
(VANDPSYrm VR256:$src1, addr:$src2)>;		(VANDPSYrm VR256:$src1, addr:$src2)>;

		def : Pat<(or VR256:$src1, (loadv32i8 addr:$src2)),
		(VORPSYrm VR256:$src1, addr:$src2)>;
		def : Pat<(or VR256:$src1, (loadv16i16 addr:$src2)),
		(VORPSYrm VR256:$src1, addr:$src2)>;
		def : Pat<(or VR256:$src1, (loadv8i32 addr:$src2)),
		(VORPSYrm VR256:$src1, addr:$src2)>;
def : Pat<(or VR256:$src1, (loadv4i64 addr:$src2)),		def : Pat<(or VR256:$src1, (loadv4i64 addr:$src2)),
(VORPSYrm VR256:$src1, addr:$src2)>;		(VORPSYrm VR256:$src1, addr:$src2)>;

		def : Pat<(xor VR256:$src1, (loadv32i8 addr:$src2)),
		(VXORPSYrm VR256:$src1, addr:$src2)>;
		def : Pat<(xor VR256:$src1, (loadv16i16 addr:$src2)),
		(VXORPSYrm VR256:$src1, addr:$src2)>;
		def : Pat<(xor VR256:$src1, (loadv8i32 addr:$src2)),
		(VXORPSYrm VR256:$src1, addr:$src2)>;
def : Pat<(xor VR256:$src1, (loadv4i64 addr:$src2)),		def : Pat<(xor VR256:$src1, (loadv4i64 addr:$src2)),
(VXORPSYrm VR256:$src1, addr:$src2)>;		(VXORPSYrm VR256:$src1, addr:$src2)>;

		def : Pat<(X86andnp VR256:$src1, (loadv32i8 addr:$src2)),
		(VANDNPSYrm VR256:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR256:$src1, (loadv16i16 addr:$src2)),
		(VANDNPSYrm VR256:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR256:$src1, (loadv8i32 addr:$src2)),
		(VANDNPSYrm VR256:$src1, addr:$src2)>;
def : Pat<(X86andnp VR256:$src1, (loadv4i64 addr:$src2)),		def : Pat<(X86andnp VR256:$src1, (loadv4i64 addr:$src2)),
(VANDNPSYrm VR256:$src1, addr:$src2)>;		(VANDNPSYrm VR256:$src1, addr:$src2)>;
}		}

let Predicates = [HasAVX, NoVLX_Or_NoDQI] in {		let Predicates = [HasAVX, NoVLX_Or_NoDQI] in {
// Use packed logical operations for scalar ops.		// Use packed logical operations for scalar ops.
def : Pat<(f64 (X86fand FR64:$src1, FR64:$src2)),		def : Pat<(f64 (X86fand FR64:$src1, FR64:$src2)),
(COPY_TO_REGCLASS		(COPY_TO_REGCLASS
▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines	def : Pat<(v4i32 (xor VR128:$src1, VR128:$src2)),
(VPXORrr VR128:$src1, VR128:$src2)>;		(VPXORrr VR128:$src1, VR128:$src2)>;

def : Pat<(v16i8 (X86andnp VR128:$src1, VR128:$src2)),		def : Pat<(v16i8 (X86andnp VR128:$src1, VR128:$src2)),
(VPANDNrr VR128:$src1, VR128:$src2)>;		(VPANDNrr VR128:$src1, VR128:$src2)>;
def : Pat<(v8i16 (X86andnp VR128:$src1, VR128:$src2)),		def : Pat<(v8i16 (X86andnp VR128:$src1, VR128:$src2)),
(VPANDNrr VR128:$src1, VR128:$src2)>;		(VPANDNrr VR128:$src1, VR128:$src2)>;
def : Pat<(v4i32 (X86andnp VR128:$src1, VR128:$src2)),		def : Pat<(v4i32 (X86andnp VR128:$src1, VR128:$src2)),
(VPANDNrr VR128:$src1, VR128:$src2)>;		(VPANDNrr VR128:$src1, VR128:$src2)>;

		def : Pat<(and VR128:$src1, (loadv16i8 addr:$src2)),
		(VPANDrm VR128:$src1, addr:$src2)>;
		def : Pat<(and VR128:$src1, (loadv8i16 addr:$src2)),
		(VPANDrm VR128:$src1, addr:$src2)>;
		def : Pat<(and VR128:$src1, (loadv4i32 addr:$src2)),
		(VPANDrm VR128:$src1, addr:$src2)>;

		def : Pat<(or VR128:$src1, (loadv16i8 addr:$src2)),
		(VPORrm VR128:$src1, addr:$src2)>;
		def : Pat<(or VR128:$src1, (loadv8i16 addr:$src2)),
		(VPORrm VR128:$src1, addr:$src2)>;
		def : Pat<(or VR128:$src1, (loadv4i32 addr:$src2)),
		(VPORrm VR128:$src1, addr:$src2)>;

		def : Pat<(xor VR128:$src1, (loadv16i8 addr:$src2)),
		(VPXORrm VR128:$src1, addr:$src2)>;
		def : Pat<(xor VR128:$src1, (loadv8i16 addr:$src2)),
		(VPXORrm VR128:$src1, addr:$src2)>;
		def : Pat<(xor VR128:$src1, (loadv4i32 addr:$src2)),
		(VPXORrm VR128:$src1, addr:$src2)>;

		def : Pat<(X86andnp VR128:$src1, (loadv16i8 addr:$src2)),
		(VPANDNrm VR128:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR128:$src1, (loadv8i16 addr:$src2)),
		(VPANDNrm VR128:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR128:$src1, (loadv4i32 addr:$src2)),
		(VPANDNrm VR128:$src1, addr:$src2)>;
}		}

let Predicates = [UseSSE2] in {		let Predicates = [UseSSE2] in {
def : Pat<(v16i8 (and VR128:$src1, VR128:$src2)),		def : Pat<(v16i8 (and VR128:$src1, VR128:$src2)),
(PANDrr VR128:$src1, VR128:$src2)>;		(PANDrr VR128:$src1, VR128:$src2)>;
def : Pat<(v8i16 (and VR128:$src1, VR128:$src2)),		def : Pat<(v8i16 (and VR128:$src1, VR128:$src2)),
(PANDrr VR128:$src1, VR128:$src2)>;		(PANDrr VR128:$src1, VR128:$src2)>;
def : Pat<(v4i32 (and VR128:$src1, VR128:$src2)),		def : Pat<(v4i32 (and VR128:$src1, VR128:$src2)),
Show All 14 Lines	def : Pat<(v4i32 (xor VR128:$src1, VR128:$src2)),
(PXORrr VR128:$src1, VR128:$src2)>;		(PXORrr VR128:$src1, VR128:$src2)>;

def : Pat<(v16i8 (X86andnp VR128:$src1, VR128:$src2)),		def : Pat<(v16i8 (X86andnp VR128:$src1, VR128:$src2)),
(PANDNrr VR128:$src1, VR128:$src2)>;		(PANDNrr VR128:$src1, VR128:$src2)>;
def : Pat<(v8i16 (X86andnp VR128:$src1, VR128:$src2)),		def : Pat<(v8i16 (X86andnp VR128:$src1, VR128:$src2)),
(PANDNrr VR128:$src1, VR128:$src2)>;		(PANDNrr VR128:$src1, VR128:$src2)>;
def : Pat<(v4i32 (X86andnp VR128:$src1, VR128:$src2)),		def : Pat<(v4i32 (X86andnp VR128:$src1, VR128:$src2)),
(PANDNrr VR128:$src1, VR128:$src2)>;		(PANDNrr VR128:$src1, VR128:$src2)>;

		def : Pat<(and VR128:$src1, (memopv16i8 addr:$src2)),
		(PANDrm VR128:$src1, addr:$src2)>;
		def : Pat<(and VR128:$src1, (memopv8i16 addr:$src2)),
		(PANDrm VR128:$src1, addr:$src2)>;
		def : Pat<(and VR128:$src1, (memopv4i32 addr:$src2)),
		(PANDrm VR128:$src1, addr:$src2)>;

		def : Pat<(or VR128:$src1, (memopv16i8 addr:$src2)),
		(PORrm VR128:$src1, addr:$src2)>;
		def : Pat<(or VR128:$src1, (memopv8i16 addr:$src2)),
		(PORrm VR128:$src1, addr:$src2)>;
		def : Pat<(or VR128:$src1, (memopv4i32 addr:$src2)),
		(PORrm VR128:$src1, addr:$src2)>;

		def : Pat<(xor VR128:$src1, (memopv16i8 addr:$src2)),
		(PXORrm VR128:$src1, addr:$src2)>;
		def : Pat<(xor VR128:$src1, (memopv8i16 addr:$src2)),
		(PXORrm VR128:$src1, addr:$src2)>;
		def : Pat<(xor VR128:$src1, (memopv4i32 addr:$src2)),
		(PXORrm VR128:$src1, addr:$src2)>;

		def : Pat<(X86andnp VR128:$src1, (memopv16i8 addr:$src2)),
		(PANDNrm VR128:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR128:$src1, (memopv8i16 addr:$src2)),
		(PANDNrm VR128:$src1, addr:$src2)>;
		def : Pat<(X86andnp VR128:$src1, (memopv4i32 addr:$src2)),
		(PANDNrm VR128:$src1, addr:$src2)>;
}		}

// Patterns for packed operations when we don't have integer type available.		// Patterns for packed operations when we don't have integer type available.
def : Pat<(v4f32 (X86fand VR128:$src1, VR128:$src2)),		def : Pat<(v4f32 (X86fand VR128:$src1, VR128:$src2)),
(ANDPSrr VR128:$src1, VR128:$src2)>;		(ANDPSrr VR128:$src1, VR128:$src2)>;
def : Pat<(v4f32 (X86for VR128:$src1, VR128:$src2)),		def : Pat<(v4f32 (X86for VR128:$src1, VR128:$src2)),
(ORPSrr VR128:$src1, VR128:$src2)>;		(ORPSrr VR128:$src1, VR128:$src2)>;
def : Pat<(v4f32 (X86fxor VR128:$src1, VR128:$src2)),		def : Pat<(v4f32 (X86fxor VR128:$src1, VR128:$src2)),
▲ Show 20 Lines • Show All 5,739 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86InstrXOP.td

Show First 20 Lines • Show All 344 Lines • ▼ Show 20 Lines	multiclass xop4op_int<bits<8> opc, string OpcodeStr, RegisterClass RC,
X86FoldableSchedWrite sched> {		X86FoldableSchedWrite sched> {
def rrr : IXOPi8Reg<opc, MRMSrcReg, (outs RC:$dst),		def rrr : IXOPi8Reg<opc, MRMSrcReg, (outs RC:$dst),
(ins RC:$src1, RC:$src2, RC:$src3),		(ins RC:$src1, RC:$src2, RC:$src3),
!strconcat(OpcodeStr,		!strconcat(OpcodeStr,
"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),		"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),
[(set RC:$dst, (VT (or (and RC:$src3, RC:$src1),		[(set RC:$dst, (VT (or (and RC:$src3, RC:$src1),
(X86andnp RC:$src3, RC:$src2))))]>, XOP_4V,		(X86andnp RC:$src3, RC:$src2))))]>, XOP_4V,
Sched<[sched]>;		Sched<[sched]>;
		// FIXME: This pattern can't match.
def rrm : IXOPi8Reg<opc, MRMSrcMemOp4, (outs RC:$dst),		def rrm : IXOPi8Reg<opc, MRMSrcMemOp4, (outs RC:$dst),
(ins RC:$src1, RC:$src2, x86memop:$src3),		(ins RC:$src1, RC:$src2, x86memop:$src3),
!strconcat(OpcodeStr,		!strconcat(OpcodeStr,
"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),		"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),
[(set RC:$dst, (VT (or (and (load addr:$src3), RC:$src1),		[(set RC:$dst, (VT (or (and (load addr:$src3), RC:$src1),
(X86andnp (load addr:$src3), RC:$src2))))]>,		(X86andnp (load addr:$src3), RC:$src2))))]>,
XOP_4V, VEX_W, Sched<[sched.Folded, sched.ReadAfterFold, sched.ReadAfterFold]>;		XOP_4V, VEX_W, Sched<[sched.Folded, sched.ReadAfterFold, sched.ReadAfterFold]>;
def rmr : IXOPi8Reg<opc, MRMSrcMem, (outs RC:$dst),		def rmr : IXOPi8Reg<opc, MRMSrcMem, (outs RC:$dst),
Show All 19 Lines

let ExeDomain = SSEPackedInt in {		let ExeDomain = SSEPackedInt in {
defm VPCMOV : xop4op_int<0xA2, "vpcmov", VR128, i128mem, v2i64,		defm VPCMOV : xop4op_int<0xA2, "vpcmov", VR128, i128mem, v2i64,
SchedWriteShuffle.XMM>;		SchedWriteShuffle.XMM>;
defm VPCMOVY : xop4op_int<0xA2, "vpcmov", VR256, i256mem, v4i64,		defm VPCMOVY : xop4op_int<0xA2, "vpcmov", VR256, i256mem, v4i64,
SchedWriteShuffle.YMM>, VEX_L;		SchedWriteShuffle.YMM>, VEX_L;
}		}

		let Predicates = [HasXOP] in {
		def : Pat<(v16i8 (or (and VR128:$src3, VR128:$src1),
		(X86andnp VR128:$src3, VR128:$src2))),
		(VPCMOVrrr VR128:$src1, VR128:$src2, VR128:$src3)>;
		def : Pat<(v8i16 (or (and VR128:$src3, VR128:$src1),
		(X86andnp VR128:$src3, VR128:$src2))),
		(VPCMOVrrr VR128:$src1, VR128:$src2, VR128:$src3)>;
		def : Pat<(v4i32 (or (and VR128:$src3, VR128:$src1),
		(X86andnp VR128:$src3, VR128:$src2))),
		(VPCMOVrrr VR128:$src1, VR128:$src2, VR128:$src3)>;

		def : Pat<(or (and VR128:$src3, VR128:$src1),
		(X86andnp VR128:$src3, (bc_v16i8 (loadv2i64 addr:$src2)))),
		(VPCMOVrmr VR128:$src1, addr:$src2, VR128:$src3)>;
		def : Pat<(or (and VR128:$src3, VR128:$src1),
		(X86andnp VR128:$src3, (bc_v8i16 (loadv2i64 addr:$src2)))),
		(VPCMOVrmr VR128:$src1, addr:$src2, VR128:$src3)>;
		def : Pat<(or (and VR128:$src3, VR128:$src1),
		(X86andnp VR128:$src3, (bc_v4i32 (loadv2i64 addr:$src2)))),
		(VPCMOVrmr VR128:$src1, addr:$src2, VR128:$src3)>;

		def : Pat<(v32i8 (or (and VR256:$src3, VR256:$src1),
		(X86andnp VR256:$src3, VR256:$src2))),
		(VPCMOVYrrr VR256:$src1, VR256:$src2, VR256:$src3)>;
		def : Pat<(v16i16 (or (and VR256:$src3, VR256:$src1),
		(X86andnp VR256:$src3, VR256:$src2))),
		(VPCMOVYrrr VR256:$src1, VR256:$src2, VR256:$src3)>;
		def : Pat<(v8i32 (or (and VR256:$src3, VR256:$src1),
		(X86andnp VR256:$src3, VR256:$src2))),
		(VPCMOVYrrr VR256:$src1, VR256:$src2, VR256:$src3)>;

		def : Pat<(or (and VR256:$src3, VR256:$src1),
		(X86andnp VR256:$src3, (bc_v32i8 (loadv4i64 addr:$src2)))),
		(VPCMOVYrmr VR256:$src1, addr:$src2, VR256:$src3)>;
		def : Pat<(or (and VR256:$src3, VR256:$src1),
		(X86andnp VR256:$src3, (bc_v16i16 (loadv4i64 addr:$src2)))),
		(VPCMOVYrmr VR256:$src1, addr:$src2, VR256:$src3)>;
		def : Pat<(or (and VR256:$src3, VR256:$src1),
		(X86andnp VR256:$src3, (bc_v8i32 (loadv4i64 addr:$src2)))),
		(VPCMOVYrmr VR256:$src1, addr:$src2, VR256:$src3)>;
		}

multiclass xop_vpermil2<bits<8> Opc, string OpcodeStr, RegisterClass RC,		multiclass xop_vpermil2<bits<8> Opc, string OpcodeStr, RegisterClass RC,
X86MemOperand intmemop, X86MemOperand fpmemop,		X86MemOperand intmemop, X86MemOperand fpmemop,
ValueType VT, PatFrag FPLdFrag, PatFrag IntLdFrag,		ValueType VT, PatFrag FPLdFrag, PatFrag IntLdFrag,
X86FoldableSchedWrite sched> {		X86FoldableSchedWrite sched> {
def rr : IXOP5<Opc, MRMSrcReg, (outs RC:$dst),		def rr : IXOP5<Opc, MRMSrcReg, (outs RC:$dst),
(ins RC:$src1, RC:$src2, RC:$src3, u8imm:$src4),		(ins RC:$src1, RC:$src2, RC:$src3, u8imm:$src4),
!strconcat(OpcodeStr,		!strconcat(OpcodeStr,
"\t{$src4, $src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3, $src4}"),		"\t{$src4, $src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3, $src4}"),
▲ Show 20 Lines • Show All 50 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-arith.ll

	Show First 20 Lines • Show All 595 Lines • ▼ Show 20 Lines
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%b = or <8 x i64> %a, <i64 2, i64 2, i64 2, i64 2, i64 2, i64 2, i64 2, i64 2>			%b = or <8 x i64> %a, <i64 2, i64 2, i64 2, i64 2, i64 2, i64 2, i64 2, i64 2>
	ret <8 x i64> %b			ret <8 x i64> %b
	}			}

	define <16 x i32> @andd512fold(<16 x i32> %y, <16 x i32>* %x) {			define <16 x i32> @andd512fold(<16 x i32> %y, <16 x i32>* %x) {
	; AVX512F-LABEL: andd512fold:			; AVX512F-LABEL: andd512fold:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: vpandq (%rdi), %zmm0, %zmm0			; AVX512F-NEXT: vpandd (%rdi), %zmm0, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: andd512fold:			; AVX512VL-LABEL: andd512fold:
	; AVX512VL: # %bb.0: # %entry			; AVX512VL: # %bb.0: # %entry
	; AVX512VL-NEXT: vpandq (%rdi), %zmm0, %zmm0			; AVX512VL-NEXT: vpandd (%rdi), %zmm0, %zmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: andd512fold:			; AVX512BW-LABEL: andd512fold:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	; AVX512BW-NEXT: vpandq (%rdi), %zmm0, %zmm0			; AVX512BW-NEXT: vpandd (%rdi), %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512DQ-LABEL: andd512fold:			; AVX512DQ-LABEL: andd512fold:
	; AVX512DQ: # %bb.0: # %entry			; AVX512DQ: # %bb.0: # %entry
	; AVX512DQ-NEXT: vandps (%rdi), %zmm0, %zmm0			; AVX512DQ-NEXT: vandps (%rdi), %zmm0, %zmm0
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; SKX-LABEL: andd512fold:			; SKX-LABEL: andd512fold:
	▲ Show 20 Lines • Show All 439 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,608 Lines • ▼ Show 20 Lines	entry:
%2 = select <16 x i1> %1, <16 x float> %0, <16 x float> zeroinitializer		%2 = select <16 x i1> %1, <16 x float> %0, <16 x float> zeroinitializer
ret <16 x float> %2		ret <16 x float> %2
}		}

define <16 x float> @test_mm512_fnmsub_round_ps(<16 x float> %__A, <16 x float> %__B, <16 x float> %__C) {		define <16 x float> @test_mm512_fnmsub_round_ps(<16 x float> %__A, <16 x float> %__B, <16 x float> %__C) {
; CHECK-LABEL: test_mm512_fnmsub_round_ps:		; CHECK-LABEL: test_mm512_fnmsub_round_ps:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: vpbroadcastd {{.*#+}} zmm3 = [-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0]		; CHECK-NEXT: vpbroadcastd {{.*#+}} zmm3 = [-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0]
; CHECK-NEXT: vpxorq %zmm3, %zmm0, %zmm4		; CHECK-NEXT: vpxord %zmm3, %zmm0, %zmm4
; CHECK-NEXT: vpxorq %zmm3, %zmm2, %zmm0		; CHECK-NEXT: vpxord %zmm3, %zmm2, %zmm0
; CHECK-NEXT: vfmadd231ps {rn-sae}, %zmm4, %zmm1, %zmm0		; CHECK-NEXT: vfmadd231ps {rn-sae}, %zmm4, %zmm1, %zmm0
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
entry:		entry:
%sub = fsub <16 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %__A		%sub = fsub <16 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %__A
%sub1 = fsub <16 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %__C		%sub1 = fsub <16 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %__C
%0 = tail call <16 x float> @llvm.x86.avx512.vfmadd.ps.512(<16 x float> %sub, <16 x float> %__B, <16 x float> %sub1, i32 8)		%0 = tail call <16 x float> @llvm.x86.avx512.vfmadd.ps.512(<16 x float> %sub, <16 x float> %__B, <16 x float> %sub1, i32 8)
ret <16 x float> %0		ret <16 x float> %0
}		}
▲ Show 20 Lines • Show All 205 Lines • ▼ Show 20 Lines	entry:
%2 = select <16 x i1> %1, <16 x float> %0, <16 x float> zeroinitializer		%2 = select <16 x i1> %1, <16 x float> %0, <16 x float> zeroinitializer
ret <16 x float> %2		ret <16 x float> %2
}		}

define <16 x float> @test_mm512_fnmsub_ps(<16 x float> %__A, <16 x float> %__B, <16 x float> %__C) {		define <16 x float> @test_mm512_fnmsub_ps(<16 x float> %__A, <16 x float> %__B, <16 x float> %__C) {
; CHECK-LABEL: test_mm512_fnmsub_ps:		; CHECK-LABEL: test_mm512_fnmsub_ps:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: vpbroadcastd {{.*#+}} zmm3 = [-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0]		; CHECK-NEXT: vpbroadcastd {{.*#+}} zmm3 = [-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0,-0]
; CHECK-NEXT: vpxorq %zmm3, %zmm0, %zmm4		; CHECK-NEXT: vpxord %zmm3, %zmm0, %zmm4
; CHECK-NEXT: vpxorq %zmm3, %zmm2, %zmm0		; CHECK-NEXT: vpxord %zmm3, %zmm2, %zmm0
; CHECK-NEXT: vfmadd231ps {{.#+}} zmm0 = (zmm1 zmm4) + zmm0		; CHECK-NEXT: vfmadd231ps {{.#+}} zmm0 = (zmm1 zmm4) + zmm0
; CHECK-NEXT: ret{{[l\|q]}}		; CHECK-NEXT: ret{{[l\|q]}}
entry:		entry:
%sub.i = fsub <16 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %__A		%sub.i = fsub <16 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %__A
%sub1.i = fsub <16 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %__C		%sub1.i = fsub <16 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %__C
%0 = tail call <16 x float> @llvm.fma.v16f32(<16 x float> %sub.i, <16 x float> %__B, <16 x float> %sub1.i) #10		%0 = tail call <16 x float> @llvm.fma.v16f32(<16 x float> %sub.i, <16 x float> %__B, <16 x float> %sub1.i) #10
ret <16 x float> %0		ret <16 x float> %0
}		}
▲ Show 20 Lines • Show All 5,959 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-intrinsics-upgrade.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,652 Lines • ▼ Show 20 Lines
; X64-NEXT: retq ## encoding: [0xc3]		; X64-NEXT: retq ## encoding: [0xc3]
call void @llvm.x86.avx512.storent.ps.512(i8* %ptr, <16 x float> %data)		call void @llvm.x86.avx512.storent.ps.512(i8* %ptr, <16 x float> %data)
ret void		ret void
}		}

define <16 x i32> @test_xor_epi32(<16 x i32> %a, <16 x i32> %b) {		define <16 x i32> @test_xor_epi32(<16 x i32> %a, <16 x i32> %b) {
; CHECK-LABEL: test_xor_epi32:		; CHECK-LABEL: test_xor_epi32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpxorq %zmm1, %zmm0, %zmm0 ## encoding: [0x62,0xf1,0xfd,0x48,0xef,0xc1]		; CHECK-NEXT: vpxord %zmm1, %zmm0, %zmm0 ## encoding: [0x62,0xf1,0x7d,0x48,0xef,0xc1]
; CHECK-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]		; CHECK-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
%res = call <16 x i32> @llvm.x86.avx512.mask.pxor.d.512(<16 x i32> %a,<16 x i32> %b, <16 x i32>zeroinitializer, i16 -1)		%res = call <16 x i32> @llvm.x86.avx512.mask.pxor.d.512(<16 x i32> %a,<16 x i32> %b, <16 x i32>zeroinitializer, i16 -1)
ret < 16 x i32> %res		ret < 16 x i32> %res
}		}

define <16 x i32> @test_mask_xor_epi32(<16 x i32> %a,<16 x i32> %b, <16 x i32> %passThru, i16 %mask) {		define <16 x i32> @test_mask_xor_epi32(<16 x i32> %a,<16 x i32> %b, <16 x i32> %passThru, i16 %mask) {
; X86-LABEL: test_mask_xor_epi32:		; X86-LABEL: test_mask_xor_epi32:
; X86: ## %bb.0:		; X86: ## %bb.0:
Show All 12 Lines	; X64-NEXT: retq ## encoding: [0xc3]
ret < 16 x i32> %res		ret < 16 x i32> %res
}		}

declare <16 x i32> @llvm.x86.avx512.mask.pxor.d.512(<16 x i32>, <16 x i32>, <16 x i32>, i16)		declare <16 x i32> @llvm.x86.avx512.mask.pxor.d.512(<16 x i32>, <16 x i32>, <16 x i32>, i16)

define <16 x i32> @test_or_epi32(<16 x i32> %a, <16 x i32> %b) {		define <16 x i32> @test_or_epi32(<16 x i32> %a, <16 x i32> %b) {
; CHECK-LABEL: test_or_epi32:		; CHECK-LABEL: test_or_epi32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vporq %zmm1, %zmm0, %zmm0 ## encoding: [0x62,0xf1,0xfd,0x48,0xeb,0xc1]		; CHECK-NEXT: vpord %zmm1, %zmm0, %zmm0 ## encoding: [0x62,0xf1,0x7d,0x48,0xeb,0xc1]
; CHECK-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]		; CHECK-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
%res = call <16 x i32> @llvm.x86.avx512.mask.por.d.512(<16 x i32> %a,<16 x i32> %b, <16 x i32>zeroinitializer, i16 -1)		%res = call <16 x i32> @llvm.x86.avx512.mask.por.d.512(<16 x i32> %a,<16 x i32> %b, <16 x i32>zeroinitializer, i16 -1)
ret < 16 x i32> %res		ret < 16 x i32> %res
}		}

define <16 x i32> @test_mask_or_epi32(<16 x i32> %a,<16 x i32> %b, <16 x i32> %passThru, i16 %mask) {		define <16 x i32> @test_mask_or_epi32(<16 x i32> %a,<16 x i32> %b, <16 x i32> %passThru, i16 %mask) {
; X86-LABEL: test_mask_or_epi32:		; X86-LABEL: test_mask_or_epi32:
; X86: ## %bb.0:		; X86: ## %bb.0:
Show All 12 Lines	; X64-NEXT: retq ## encoding: [0xc3]
ret < 16 x i32> %res		ret < 16 x i32> %res
}		}

declare <16 x i32> @llvm.x86.avx512.mask.por.d.512(<16 x i32>, <16 x i32>, <16 x i32>, i16)		declare <16 x i32> @llvm.x86.avx512.mask.por.d.512(<16 x i32>, <16 x i32>, <16 x i32>, i16)

define <16 x i32> @test_and_epi32(<16 x i32> %a, <16 x i32> %b) {		define <16 x i32> @test_and_epi32(<16 x i32> %a, <16 x i32> %b) {
; CHECK-LABEL: test_and_epi32:		; CHECK-LABEL: test_and_epi32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpandq %zmm1, %zmm0, %zmm0 ## encoding: [0x62,0xf1,0xfd,0x48,0xdb,0xc1]		; CHECK-NEXT: vpandd %zmm1, %zmm0, %zmm0 ## encoding: [0x62,0xf1,0x7d,0x48,0xdb,0xc1]
; CHECK-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]		; CHECK-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
%res = call <16 x i32> @llvm.x86.avx512.mask.pand.d.512(<16 x i32> %a,<16 x i32> %b, <16 x i32>zeroinitializer, i16 -1)		%res = call <16 x i32> @llvm.x86.avx512.mask.pand.d.512(<16 x i32> %a,<16 x i32> %b, <16 x i32>zeroinitializer, i16 -1)
ret < 16 x i32> %res		ret < 16 x i32> %res
}		}

define <16 x i32> @test_mask_and_epi32(<16 x i32> %a,<16 x i32> %b, <16 x i32> %passThru, i16 %mask) {		define <16 x i32> @test_mask_and_epi32(<16 x i32> %a,<16 x i32> %b, <16 x i32> %passThru, i16 %mask) {
; X86-LABEL: test_mask_and_epi32:		; X86-LABEL: test_mask_and_epi32:
; X86: ## %bb.0:		; X86: ## %bb.0:
▲ Show 20 Lines • Show All 7,704 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-logic.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl \| FileCheck %s --check-prefix=ALL --check-prefix=KNL			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl \| FileCheck %s --check-prefix=ALL --check-prefix=KNL
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=skx \| FileCheck %s --check-prefix=ALL --check-prefix=SKX			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=skx \| FileCheck %s --check-prefix=ALL --check-prefix=SKX


	define <16 x i32> @vpandd(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {			define <16 x i32> @vpandd(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {
	; ALL-LABEL: vpandd:			; ALL-LABEL: vpandd:
	; ALL: ## %bb.0: ## %entry			; ALL: ## %bb.0: ## %entry
	; ALL-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0			; ALL-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0
	; ALL-NEXT: vpandq %zmm1, %zmm0, %zmm0			; ALL-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; ALL-NEXT: retq			; ALL-NEXT: retq
	entry:			entry:
	; Force the execution domain with an add.			; Force the execution domain with an add.
	%a2 = add <16 x i32> %a, <i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2,			%a2 = add <16 x i32> %a, <i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2,
	i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2>			i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2>
	%x = and <16 x i32> %a2, %b			%x = and <16 x i32> %a2, %b
	ret <16 x i32> %x			ret <16 x i32> %x
	}			}

	define <16 x i32> @vpandnd(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {			define <16 x i32> @vpandnd(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {
	; ALL-LABEL: vpandnd:			; ALL-LABEL: vpandnd:
	; ALL: ## %bb.0: ## %entry			; ALL: ## %bb.0: ## %entry
	; ALL-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0			; ALL-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0
	; ALL-NEXT: vpandnq %zmm0, %zmm1, %zmm0			; ALL-NEXT: vpandnd %zmm0, %zmm1, %zmm0
	; ALL-NEXT: retq			; ALL-NEXT: retq
	entry:			entry:
	; Force the execution domain with an add.			; Force the execution domain with an add.
	%a2 = add <16 x i32> %a, <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3,			%a2 = add <16 x i32> %a, <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3,
	i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>			i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
	%b2 = xor <16 x i32> %b, <i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1,			%b2 = xor <16 x i32> %b, <i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1,
	i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1>			i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1>
	%x = and <16 x i32> %a2, %b2			%x = and <16 x i32> %a2, %b2
	ret <16 x i32> %x			ret <16 x i32> %x
	}			}

	define <16 x i32> @vpord(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {			define <16 x i32> @vpord(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {
	; ALL-LABEL: vpord:			; ALL-LABEL: vpord:
	; ALL: ## %bb.0: ## %entry			; ALL: ## %bb.0: ## %entry
	; ALL-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0			; ALL-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0
	; ALL-NEXT: vporq %zmm1, %zmm0, %zmm0			; ALL-NEXT: vpord %zmm1, %zmm0, %zmm0
	; ALL-NEXT: retq			; ALL-NEXT: retq
	entry:			entry:
	; Force the execution domain with an add.			; Force the execution domain with an add.
	%a2 = add <16 x i32> %a, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4,			%a2 = add <16 x i32> %a, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4,
	i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>			i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
	%x = or <16 x i32> %a2, %b			%x = or <16 x i32> %a2, %b
	ret <16 x i32> %x			ret <16 x i32> %x
	}			}

	define <16 x i32> @vpxord(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {			define <16 x i32> @vpxord(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {
	; ALL-LABEL: vpxord:			; ALL-LABEL: vpxord:
	; ALL: ## %bb.0: ## %entry			; ALL: ## %bb.0: ## %entry
	; ALL-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0			; ALL-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0
	; ALL-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; ALL-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; ALL-NEXT: retq			; ALL-NEXT: retq
	entry:			entry:
	; Force the execution domain with an add.			; Force the execution domain with an add.
	%a2 = add <16 x i32> %a, <i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5,			%a2 = add <16 x i32> %a, <i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5,
	i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5>			i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5>
	%x = xor <16 x i32> %a2, %b			%x = xor <16 x i32> %a2, %b
	ret <16 x i32> %x			ret <16 x i32> %x
	}			}
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%b = or <8 x i64> %a, <i64 2, i64 2, i64 2, i64 2, i64 2, i64 2, i64 2, i64 2>			%b = or <8 x i64> %a, <i64 2, i64 2, i64 2, i64 2, i64 2, i64 2, i64 2, i64 2>
	ret <8 x i64> %b			ret <8 x i64> %b
	}			}

	define <16 x i32> @andd512fold(<16 x i32> %y, <16 x i32>* %x) {			define <16 x i32> @andd512fold(<16 x i32> %y, <16 x i32>* %x) {
	; KNL-LABEL: andd512fold:			; KNL-LABEL: andd512fold:
	; KNL: ## %bb.0: ## %entry			; KNL: ## %bb.0: ## %entry
	; KNL-NEXT: vpandq (%rdi), %zmm0, %zmm0			; KNL-NEXT: vpandd (%rdi), %zmm0, %zmm0
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: andd512fold:			; SKX-LABEL: andd512fold:
	; SKX: ## %bb.0: ## %entry			; SKX: ## %bb.0: ## %entry
	; SKX-NEXT: vandps (%rdi), %zmm0, %zmm0			; SKX-NEXT: vandps (%rdi), %zmm0, %zmm0
	; SKX-NEXT: retq			; SKX-NEXT: retq
	entry:			entry:
	%a = load <16 x i32>, <16 x i32>* %x, align 4			%a = load <16 x i32>, <16 x i32>* %x, align 4
	▲ Show 20 Lines • Show All 720 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-mask-op.ll

	Show First 20 Lines • Show All 3,171 Lines • ▼ Show 20 Lines
	}			}

	; Make sure we don't emit a ktest for signed comparisons.			; Make sure we don't emit a ktest for signed comparisons.
	define void @ktest_signed(<16 x i32> %x, <16 x i32> %y) {			define void @ktest_signed(<16 x i32> %x, <16 x i32> %y) {
	; KNL-LABEL: ktest_signed:			; KNL-LABEL: ktest_signed:
	; KNL: ## %bb.0:			; KNL: ## %bb.0:
	; KNL-NEXT: pushq %rax			; KNL-NEXT: pushq %rax
	; KNL-NEXT: .cfi_def_cfa_offset 16			; KNL-NEXT: .cfi_def_cfa_offset 16
	; KNL-NEXT: vporq %zmm1, %zmm0, %zmm0			; KNL-NEXT: vpord %zmm1, %zmm0, %zmm0
	; KNL-NEXT: vptestnmd %zmm0, %zmm0, %k0			; KNL-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: testw %ax, %ax			; KNL-NEXT: testw %ax, %ax
	; KNL-NEXT: jle LBB64_1			; KNL-NEXT: jle LBB64_1
	; KNL-NEXT: ## %bb.2: ## %bb.2			; KNL-NEXT: ## %bb.2: ## %bb.2
	; KNL-NEXT: popq %rax			; KNL-NEXT: popq %rax
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	; KNL-NEXT: LBB64_1: ## %bb.1			; KNL-NEXT: LBB64_1: ## %bb.1
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: callq _foo			; KNL-NEXT: callq _foo
	; KNL-NEXT: popq %rax			; KNL-NEXT: popq %rax
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: ktest_signed:			; SKX-LABEL: ktest_signed:
	; SKX: ## %bb.0:			; SKX: ## %bb.0:
	; SKX-NEXT: pushq %rax			; SKX-NEXT: pushq %rax
	; SKX-NEXT: .cfi_def_cfa_offset 16			; SKX-NEXT: .cfi_def_cfa_offset 16
	; SKX-NEXT: vporq %zmm1, %zmm0, %zmm0			; SKX-NEXT: vpord %zmm1, %zmm0, %zmm0
	; SKX-NEXT: vptestnmd %zmm0, %zmm0, %k0			; SKX-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; SKX-NEXT: kmovd %k0, %eax			; SKX-NEXT: kmovd %k0, %eax
	; SKX-NEXT: testw %ax, %ax			; SKX-NEXT: testw %ax, %ax
	; SKX-NEXT: jle LBB64_1			; SKX-NEXT: jle LBB64_1
	; SKX-NEXT: ## %bb.2: ## %bb.2			; SKX-NEXT: ## %bb.2: ## %bb.2
	; SKX-NEXT: popq %rax			; SKX-NEXT: popq %rax
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	; SKX-NEXT: LBB64_1: ## %bb.1			; SKX-NEXT: LBB64_1: ## %bb.1
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: callq _foo			; SKX-NEXT: callq _foo
	; SKX-NEXT: popq %rax			; SKX-NEXT: popq %rax
	; SKX-NEXT: retq			; SKX-NEXT: retq
	;			;
	; AVX512BW-LABEL: ktest_signed:			; AVX512BW-LABEL: ktest_signed:
	; AVX512BW: ## %bb.0:			; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: pushq %rax			; AVX512BW-NEXT: pushq %rax
	; AVX512BW-NEXT: .cfi_def_cfa_offset 16			; AVX512BW-NEXT: .cfi_def_cfa_offset 16
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vptestnmd %zmm0, %zmm0, %k0			; AVX512BW-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; AVX512BW-NEXT: kmovd %k0, %eax			; AVX512BW-NEXT: kmovd %k0, %eax
	; AVX512BW-NEXT: testw %ax, %ax			; AVX512BW-NEXT: testw %ax, %ax
	; AVX512BW-NEXT: jle LBB64_1			; AVX512BW-NEXT: jle LBB64_1
	; AVX512BW-NEXT: ## %bb.2: ## %bb.2			; AVX512BW-NEXT: ## %bb.2: ## %bb.2
	; AVX512BW-NEXT: popq %rax			; AVX512BW-NEXT: popq %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	; AVX512BW-NEXT: LBB64_1: ## %bb.1			; AVX512BW-NEXT: LBB64_1: ## %bb.1
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: callq _foo			; AVX512BW-NEXT: callq _foo
	; AVX512BW-NEXT: popq %rax			; AVX512BW-NEXT: popq %rax
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512DQ-LABEL: ktest_signed:			; AVX512DQ-LABEL: ktest_signed:
	; AVX512DQ: ## %bb.0:			; AVX512DQ: ## %bb.0:
	; AVX512DQ-NEXT: pushq %rax			; AVX512DQ-NEXT: pushq %rax
	; AVX512DQ-NEXT: .cfi_def_cfa_offset 16			; AVX512DQ-NEXT: .cfi_def_cfa_offset 16
	; AVX512DQ-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vptestnmd %zmm0, %zmm0, %k0			; AVX512DQ-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; AVX512DQ-NEXT: kmovw %k0, %eax			; AVX512DQ-NEXT: kmovw %k0, %eax
	; AVX512DQ-NEXT: testw %ax, %ax			; AVX512DQ-NEXT: testw %ax, %ax
	; AVX512DQ-NEXT: jle LBB64_1			; AVX512DQ-NEXT: jle LBB64_1
	; AVX512DQ-NEXT: ## %bb.2: ## %bb.2			; AVX512DQ-NEXT: ## %bb.2: ## %bb.2
	; AVX512DQ-NEXT: popq %rax			; AVX512DQ-NEXT: popq %rax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	; AVX512DQ-NEXT: LBB64_1: ## %bb.1			; AVX512DQ-NEXT: LBB64_1: ## %bb.1
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: callq _foo			; AVX512DQ-NEXT: callq _foo
	; AVX512DQ-NEXT: popq %rax			; AVX512DQ-NEXT: popq %rax
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; X86-LABEL: ktest_signed:			; X86-LABEL: ktest_signed:
	; X86: ## %bb.0:			; X86: ## %bb.0:
	; X86-NEXT: subl $12, %esp			; X86-NEXT: subl $12, %esp
	; X86-NEXT: .cfi_def_cfa_offset 16			; X86-NEXT: .cfi_def_cfa_offset 16
	; X86-NEXT: vporq %zmm1, %zmm0, %zmm0			; X86-NEXT: vpord %zmm1, %zmm0, %zmm0
	; X86-NEXT: vptestnmd %zmm0, %zmm0, %k0			; X86-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; X86-NEXT: kmovd %k0, %eax			; X86-NEXT: kmovd %k0, %eax
	; X86-NEXT: testw %ax, %ax			; X86-NEXT: testw %ax, %ax
	; X86-NEXT: jle LBB64_1			; X86-NEXT: jle LBB64_1
	; X86-NEXT: ## %bb.2: ## %bb.2			; X86-NEXT: ## %bb.2: ## %bb.2
	; X86-NEXT: addl $12, %esp			; X86-NEXT: addl $12, %esp
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	Show All 17 Lines
	declare void @foo()			declare void @foo()

	; Make sure we can use the C flag from kortest to check for all ones.			; Make sure we can use the C flag from kortest to check for all ones.
	define void @ktest_allones(<16 x i32> %x, <16 x i32> %y) {			define void @ktest_allones(<16 x i32> %x, <16 x i32> %y) {
	; CHECK-LABEL: ktest_allones:			; CHECK-LABEL: ktest_allones:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: pushq %rax			; CHECK-NEXT: pushq %rax
	; CHECK-NEXT: .cfi_def_cfa_offset 16			; CHECK-NEXT: .cfi_def_cfa_offset 16
	; CHECK-NEXT: vporq %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpord %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vptestnmd %zmm0, %zmm0, %k0			; CHECK-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; CHECK-NEXT: kortestw %k0, %k0			; CHECK-NEXT: kortestw %k0, %k0
	; CHECK-NEXT: jb LBB65_2			; CHECK-NEXT: jb LBB65_2
	; CHECK-NEXT: ## %bb.1: ## %bb.1			; CHECK-NEXT: ## %bb.1: ## %bb.1
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: callq _foo			; CHECK-NEXT: callq _foo
	; CHECK-NEXT: LBB65_2: ## %bb.2			; CHECK-NEXT: LBB65_2: ## %bb.2
	; CHECK-NEXT: popq %rax			; CHECK-NEXT: popq %rax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;			;
	; X86-LABEL: ktest_allones:			; X86-LABEL: ktest_allones:
	; X86: ## %bb.0:			; X86: ## %bb.0:
	; X86-NEXT: subl $12, %esp			; X86-NEXT: subl $12, %esp
	; X86-NEXT: .cfi_def_cfa_offset 16			; X86-NEXT: .cfi_def_cfa_offset 16
	; X86-NEXT: vporq %zmm1, %zmm0, %zmm0			; X86-NEXT: vpord %zmm1, %zmm0, %zmm0
	; X86-NEXT: vptestnmd %zmm0, %zmm0, %k0			; X86-NEXT: vptestnmd %zmm0, %zmm0, %k0
	; X86-NEXT: kortestw %k0, %k0			; X86-NEXT: kortestw %k0, %k0
	; X86-NEXT: jb LBB65_2			; X86-NEXT: jb LBB65_2
	; X86-NEXT: ## %bb.1: ## %bb.1			; X86-NEXT: ## %bb.1: ## %bb.1
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: calll _foo			; X86-NEXT: calll _foo
	; X86-NEXT: LBB65_2: ## %bb.2			; X86-NEXT: LBB65_2: ## %bb.2
	; X86-NEXT: addl $12, %esp			; X86-NEXT: addl $12, %esp
	▲ Show 20 Lines • Show All 167 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-schedule.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,023 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq # sched: [7:1.00]
%res = select <16 x i1> %mask, <16 x float> %y, <16 x float> %a1		%res = select <16 x i1> %mask, <16 x float> %y, <16 x float> %a1
ret <16 x float> %res		ret <16 x float> %res
}		}

define <16 x i32> @vpandd(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {		define <16 x i32> @vpandd(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {
; GENERIC-LABEL: vpandd:		; GENERIC-LABEL: vpandd:
; GENERIC: # %bb.0: # %entry		; GENERIC: # %bb.0: # %entry
; GENERIC-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]		; GENERIC-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]
; GENERIC-NEXT: vpandq %zmm1, %zmm0, %zmm0 # sched: [1:0.33]		; GENERIC-NEXT: vpandd %zmm1, %zmm0, %zmm0 # sched: [1:0.33]
; GENERIC-NEXT: retq # sched: [1:1.00]		; GENERIC-NEXT: retq # sched: [1:1.00]
;		;
; SKX-LABEL: vpandd:		; SKX-LABEL: vpandd:
; SKX: # %bb.0: # %entry		; SKX: # %bb.0: # %entry
; SKX-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]		; SKX-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]
; SKX-NEXT: vpandq %zmm1, %zmm0, %zmm0 # sched: [1:0.50]		; SKX-NEXT: vpandd %zmm1, %zmm0, %zmm0 # sched: [1:0.50]
; SKX-NEXT: retq # sched: [7:1.00]		; SKX-NEXT: retq # sched: [7:1.00]
entry:		entry:
; Force the execution domain with an add.		; Force the execution domain with an add.
%a2 = add <16 x i32> %a, <i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2,		%a2 = add <16 x i32> %a, <i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2,
i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2>		i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2>
%x = and <16 x i32> %a2, %b		%x = and <16 x i32> %a2, %b
ret <16 x i32> %x		ret <16 x i32> %x
}		}

define <16 x i32> @vpandnd(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {		define <16 x i32> @vpandnd(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {
; GENERIC-LABEL: vpandnd:		; GENERIC-LABEL: vpandnd:
; GENERIC: # %bb.0: # %entry		; GENERIC: # %bb.0: # %entry
; GENERIC-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]		; GENERIC-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]
; GENERIC-NEXT: vpandnq %zmm0, %zmm1, %zmm0 # sched: [1:0.33]		; GENERIC-NEXT: vpandnd %zmm0, %zmm1, %zmm0 # sched: [1:0.33]
; GENERIC-NEXT: retq # sched: [1:1.00]		; GENERIC-NEXT: retq # sched: [1:1.00]
;		;
; SKX-LABEL: vpandnd:		; SKX-LABEL: vpandnd:
; SKX: # %bb.0: # %entry		; SKX: # %bb.0: # %entry
; SKX-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]		; SKX-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]
; SKX-NEXT: vpandnq %zmm0, %zmm1, %zmm0 # sched: [1:0.50]		; SKX-NEXT: vpandnd %zmm0, %zmm1, %zmm0 # sched: [1:0.50]
; SKX-NEXT: retq # sched: [7:1.00]		; SKX-NEXT: retq # sched: [7:1.00]
entry:		entry:
; Force the execution domain with an add.		; Force the execution domain with an add.
%a2 = add <16 x i32> %a, <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3,		%a2 = add <16 x i32> %a, <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3,
i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>		i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
%b2 = xor <16 x i32> %b, <i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1,		%b2 = xor <16 x i32> %b, <i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1,
i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1>		i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1, i32 -1>
%x = and <16 x i32> %a2, %b2		%x = and <16 x i32> %a2, %b2
ret <16 x i32> %x		ret <16 x i32> %x
}		}

define <16 x i32> @vpord(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {		define <16 x i32> @vpord(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {
; GENERIC-LABEL: vpord:		; GENERIC-LABEL: vpord:
; GENERIC: # %bb.0: # %entry		; GENERIC: # %bb.0: # %entry
; GENERIC-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]		; GENERIC-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]
; GENERIC-NEXT: vporq %zmm1, %zmm0, %zmm0 # sched: [1:0.33]		; GENERIC-NEXT: vpord %zmm1, %zmm0, %zmm0 # sched: [1:0.33]
; GENERIC-NEXT: retq # sched: [1:1.00]		; GENERIC-NEXT: retq # sched: [1:1.00]
;		;
; SKX-LABEL: vpord:		; SKX-LABEL: vpord:
; SKX: # %bb.0: # %entry		; SKX: # %bb.0: # %entry
; SKX-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]		; SKX-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]
; SKX-NEXT: vporq %zmm1, %zmm0, %zmm0 # sched: [1:0.50]		; SKX-NEXT: vpord %zmm1, %zmm0, %zmm0 # sched: [1:0.50]
; SKX-NEXT: retq # sched: [7:1.00]		; SKX-NEXT: retq # sched: [7:1.00]
entry:		entry:
; Force the execution domain with an add.		; Force the execution domain with an add.
%a2 = add <16 x i32> %a, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4,		%a2 = add <16 x i32> %a, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4,
i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>		i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
%x = or <16 x i32> %a2, %b		%x = or <16 x i32> %a2, %b
ret <16 x i32> %x		ret <16 x i32> %x
}		}

define <16 x i32> @vpxord(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {		define <16 x i32> @vpxord(<16 x i32> %a, <16 x i32> %b) nounwind uwtable readnone ssp {
; GENERIC-LABEL: vpxord:		; GENERIC-LABEL: vpxord:
; GENERIC: # %bb.0: # %entry		; GENERIC: # %bb.0: # %entry
; GENERIC-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]		; GENERIC-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]
; GENERIC-NEXT: vpxorq %zmm1, %zmm0, %zmm0 # sched: [1:0.33]		; GENERIC-NEXT: vpxord %zmm1, %zmm0, %zmm0 # sched: [1:0.33]
; GENERIC-NEXT: retq # sched: [1:1.00]		; GENERIC-NEXT: retq # sched: [1:1.00]
;		;
; SKX-LABEL: vpxord:		; SKX-LABEL: vpxord:
; SKX: # %bb.0: # %entry		; SKX: # %bb.0: # %entry
; SKX-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]		; SKX-NEXT: vpaddd {{.*}}(%rip){1to16}, %zmm0, %zmm0 # sched: [8:0.50]
; SKX-NEXT: vpxorq %zmm1, %zmm0, %zmm0 # sched: [1:0.50]		; SKX-NEXT: vpxord %zmm1, %zmm0, %zmm0 # sched: [1:0.50]
; SKX-NEXT: retq # sched: [7:1.00]		; SKX-NEXT: retq # sched: [7:1.00]
entry:		entry:
; Force the execution domain with an add.		; Force the execution domain with an add.
%a2 = add <16 x i32> %a, <i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5,		%a2 = add <16 x i32> %a, <i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5,
i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5>		i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5, i32 5>
%x = xor <16 x i32> %a2, %b		%x = xor <16 x i32> %a2, %b
ret <16 x i32> %x		ret <16 x i32> %x
}		}
▲ Show 20 Lines • Show All 3,654 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-select.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mcpu=knl \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i686-unknown-unknown -mcpu=knl \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=knl \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=knl \| FileCheck %s --check-prefix=X64

	define <16 x i32> @select00(i32 %a, <16 x i32> %b) nounwind {			define <16 x i32> @select00(i32 %a, <16 x i32> %b) nounwind {
	; X86-LABEL: select00:			; X86-LABEL: select00:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: cmpl $255, {{[0-9]+}}(%esp)			; X86-NEXT: cmpl $255, {{[0-9]+}}(%esp)
	; X86-NEXT: vpxor %xmm1, %xmm1, %xmm1			; X86-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; X86-NEXT: je .LBB0_2			; X86-NEXT: je .LBB0_2
	; X86-NEXT: # %bb.1:			; X86-NEXT: # %bb.1:
	; X86-NEXT: vmovdqa64 %zmm0, %zmm1			; X86-NEXT: vmovdqa64 %zmm0, %zmm1
	; X86-NEXT: .LBB0_2:			; X86-NEXT: .LBB0_2:
	; X86-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; X86-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: select00:			; X64-LABEL: select00:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: cmpl $255, %edi			; X64-NEXT: cmpl $255, %edi
	; X64-NEXT: vpxor %xmm1, %xmm1, %xmm1			; X64-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; X64-NEXT: je .LBB0_2			; X64-NEXT: je .LBB0_2
	; X64-NEXT: # %bb.1:			; X64-NEXT: # %bb.1:
	; X64-NEXT: vmovdqa64 %zmm0, %zmm1			; X64-NEXT: vmovdqa64 %zmm0, %zmm1
	; X64-NEXT: .LBB0_2:			; X64-NEXT: .LBB0_2:
	; X64-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; X64-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%cmpres = icmp eq i32 %a, 255			%cmpres = icmp eq i32 %a, 255
	%selres = select i1 %cmpres, <16 x i32> zeroinitializer, <16 x i32> %b			%selres = select i1 %cmpres, <16 x i32> zeroinitializer, <16 x i32> %b
	%res = xor <16 x i32> %b, %selres			%res = xor <16 x i32> %b, %selres
	ret <16 x i32> %res			ret <16 x i32> %res
	}			}

	define <8 x i64> @select01(i32 %a, <8 x i64> %b) nounwind {			define <8 x i64> @select01(i32 %a, <8 x i64> %b) nounwind {
	▲ Show 20 Lines • Show All 315 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/bitcast-int-to-vector-bool-sext.ll

	Show First 20 Lines • Show All 651 Lines • ▼ Show 20 Lines
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovq %rdi, %xmm0			; AVX1-NEXT: vmovq %rdi, %xmm0
	; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm1[0,0,1,1,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm1[0,0,1,1,4,5,6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm2 = xmm1[2,2,3,3,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm2 = xmm1[2,2,3,3,4,5,6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,0,1,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,0,1,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]			; AVX1-NEXT: vbroadcastsd {{.*#+}} ymm2 = [-1.7939930131212661E-307,-1.7939930131212661E-307,-1.7939930131212661E-307,-1.7939930131212661E-307]
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpeqb %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqb %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5
	; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpeqb %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqb %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm5, %xmm0, %xmm0
	Show All 37 Lines

llvm/trunk/test/CodeGen/X86/bitcast-int-to-vector-bool-zext.ll

	Show First 20 Lines • Show All 839 Lines • ▼ Show 20 Lines
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovq %rdi, %xmm0			; AVX1-NEXT: vmovq %rdi, %xmm0
	; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm1 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm1[0,0,1,1,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm1[0,0,1,1,4,5,6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm2 = xmm1[2,2,3,3,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm2 = xmm1[2,2,3,3,4,5,6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,0,1,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[0,0,1,1]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]			; AVX1-NEXT: vbroadcastsd {{.*#+}} ymm2 = [-1.7939930131212661E-307,-1.7939930131212661E-307,-1.7939930131212661E-307,-1.7939930131212661E-307]
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpeqb %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqb %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm5, %xmm5, %xmm5
	; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlw $7, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $7, %xmm3, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	▲ Show 20 Lines • Show All 76 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/bitcast-setcc-128.ll

	Show First 20 Lines • Show All 702 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: orq %rcx, %rax			; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: v16i8_widened_with_ones:			; AVX2-LABEL: v16i8_widened_with_ones:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpsllw $7, %ymm0, %ymm0			; AVX2-NEXT: vpsllw $7, %ymm0, %ymm0
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpmovmskb %ymm0, %ecx			; AVX2-NEXT: vpmovmskb %ymm0, %ecx
	; AVX2-NEXT: movabsq $-4294967296, %rax # imm = 0xFFFFFFFF00000000			; AVX2-NEXT: movabsq $-4294967296, %rax # imm = 0xFFFFFFFF00000000
	; AVX2-NEXT: orq %rcx, %rax			; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: v16i8_widened_with_ones:			; AVX512F-LABEL: v16i8_widened_with_ones:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	Show All 25 Lines

llvm/trunk/test/CodeGen/X86/broadcast-elm-cross-splat-vec.ll

Show First 20 Lines • Show All 353 Lines • ▼ Show 20 Lines	; AVX512BW-64-NEXT: retq
ret <64 x i8> %res2		ret <64 x i8> %res2
}		}


define <64 x i8> @f64i8_i32(<64 x i8> %a) {		define <64 x i8> @f64i8_i32(<64 x i8> %a) {
; AVX-LABEL: f64i8_i32:		; AVX-LABEL: f64i8_i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-NEXT: vbroadcastss {{.*#+}} xmm3 = [3.82047143E-37,3.82047143E-37,3.82047143E-37,3.82047143E-37]		; AVX-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero
		; AVX-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[0,0,0,0]
; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddb %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddb %xmm3, %xmm1, %xmm1
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddb %xmm3, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; NO-AVX512BW-LABEL: f64i8_i32:		; NO-AVX512BW-LABEL: f64i8_i32:
; NO-AVX512BW: # %bb.0:		; NO-AVX512BW: # %bb.0:
; NO-AVX512BW-NEXT: vpbroadcastd {{.*#+}} ymm2 = [50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976]		; NO-AVX512BW-NEXT: vpbroadcastd {{.*#+}} ymm2 = [50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976]
; NO-AVX512BW-NEXT: vpaddb %ymm2, %ymm1, %ymm1		; NO-AVX512BW-NEXT: vpaddb %ymm2, %ymm1, %ymm1
; NO-AVX512BW-NEXT: vpaddb %ymm2, %ymm0, %ymm0		; NO-AVX512BW-NEXT: vpaddb %ymm2, %ymm0, %ymm0
; NO-AVX512BW-NEXT: vpand %ymm2, %ymm0, %ymm0		; NO-AVX512BW-NEXT: vpand %ymm2, %ymm0, %ymm0
; NO-AVX512BW-NEXT: vpand %ymm2, %ymm1, %ymm1		; NO-AVX512BW-NEXT: vpand %ymm2, %ymm1, %ymm1
; NO-AVX512BW-NEXT: retl		; NO-AVX512BW-NEXT: retl
;		;
; AVX512BW-LABEL: f64i8_i32:		; AVX512BW-LABEL: f64i8_i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vpbroadcastd {{.*#+}} zmm1 = [50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976]		; AVX512BW-NEXT: vpbroadcastd {{.*#+}} zmm1 = [50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976]
; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retl		; AVX512BW-NEXT: retl
;		;
; AVX-64-LABEL: f64i8_i32:		; AVX-64-LABEL: f64i8_i32:
; AVX-64: # %bb.0:		; AVX-64: # %bb.0:
; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-64-NEXT: vbroadcastss {{.*#+}} xmm3 = [3.82047143E-37,3.82047143E-37,3.82047143E-37,3.82047143E-37]		; AVX-64-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero
		; AVX-64-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[0,0,0,0]
; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddb %xmm3, %xmm1, %xmm1		; AVX-64-NEXT: vpaddb %xmm3, %xmm1, %xmm1
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX-64-NEXT: vpaddb %xmm3, %xmm0, %xmm0
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-64-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-64-NEXT: retq		; AVX-64-NEXT: retq
;		;
; NO-AVX512BW-64-LABEL: f64i8_i32:		; NO-AVX512BW-64-LABEL: f64i8_i32:
; NO-AVX512BW-64: # %bb.0:		; NO-AVX512BW-64: # %bb.0:
; NO-AVX512BW-64-NEXT: vpbroadcastd {{.*#+}} ymm2 = [50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976]		; NO-AVX512BW-64-NEXT: vpbroadcastd {{.*#+}} ymm2 = [50462976,50462976,50462976,50462976,50462976,50462976,50462976,50462976]
; NO-AVX512BW-64-NEXT: vpaddb %ymm2, %ymm1, %ymm1		; NO-AVX512BW-64-NEXT: vpaddb %ymm2, %ymm1, %ymm1
Show All 9 Lines
; AVX512BW-64-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512BW-64-NEXT: vpandq %zmm1, %zmm0, %zmm0
; AVX512BW-64-NEXT: retq		; AVX512BW-64-NEXT: retq
%res1 = add <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3>, %a		%res1 = add <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3>, %a
%res2 = and <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3>, %res1		%res2 = and <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3, i8 0, i8 1, i8 2, i8 3>, %res1
ret <64 x i8> %res2		ret <64 x i8> %res2
}		}


		; FIXME the load should be folded with the MOVDDUP with AVX1. PR39454
define <64 x i8> @f64xi8_i64(<64 x i8> %a) {		define <64 x i8> @f64xi8_i64(<64 x i8> %a) {
; AVX-LABEL: f64xi8_i64:		; AVX-LABEL: f64xi8_i64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-NEXT: vmovddup {{.*#+}} xmm3 = [7.9499288951273625E-275,7.9499288951273625E-275]		; AVX-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
; AVX-NEXT: # xmm3 = mem[0,0]		; AVX-NEXT: vmovddup {{.*#+}} xmm3 = xmm3[0,0]
; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddb %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddb %xmm3, %xmm1, %xmm1
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddb %xmm3, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; NO-AVX512BW-LABEL: f64xi8_i64:		; NO-AVX512BW-LABEL: f64xi8_i64:
; NO-AVX512BW: # %bb.0:		; NO-AVX512BW: # %bb.0:
; NO-AVX512BW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275]		; NO-AVX512BW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275]
; NO-AVX512BW-NEXT: vpaddb %ymm2, %ymm1, %ymm1		; NO-AVX512BW-NEXT: vpaddb %ymm2, %ymm1, %ymm1
; NO-AVX512BW-NEXT: vpaddb %ymm2, %ymm0, %ymm0		; NO-AVX512BW-NEXT: vpaddb %ymm2, %ymm0, %ymm0
; NO-AVX512BW-NEXT: vpand %ymm2, %ymm0, %ymm0		; NO-AVX512BW-NEXT: vpand %ymm2, %ymm0, %ymm0
; NO-AVX512BW-NEXT: vpand %ymm2, %ymm1, %ymm1		; NO-AVX512BW-NEXT: vpand %ymm2, %ymm1, %ymm1
; NO-AVX512BW-NEXT: retl		; NO-AVX512BW-NEXT: retl
;		;
; AVX512BW-LABEL: f64xi8_i64:		; AVX512BW-LABEL: f64xi8_i64:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vpbroadcastq {{.*#+}} zmm1 = [7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275]		; AVX512BW-NEXT: vpbroadcastq {{.*#+}} zmm1 = [7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275,7.9499288951273625E-275]
; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retl		; AVX512BW-NEXT: retl
;		;
; AVX-64-LABEL: f64xi8_i64:		; AVX-64-LABEL: f64xi8_i64:
; AVX-64: # %bb.0:		; AVX-64: # %bb.0:
; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-64-NEXT: vmovddup {{.*#+}} xmm3 = [7.9499288951273625E-275,7.9499288951273625E-275]		; AVX-64-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
; AVX-64-NEXT: # xmm3 = mem[0,0]		; AVX-64-NEXT: vmovddup {{.*#+}} xmm3 = xmm3[0,0]
; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddb %xmm3, %xmm1, %xmm1		; AVX-64-NEXT: vpaddb %xmm3, %xmm1, %xmm1
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX-64-NEXT: vpaddb %xmm3, %xmm0, %xmm0
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-64-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-64-NEXT: retq		; AVX-64-NEXT: retq
;		;
; NO-AVX512BW-64-LABEL: f64xi8_i64:		; NO-AVX512BW-64-LABEL: f64xi8_i64:
; NO-AVX512BW-64: # %bb.0:		; NO-AVX512BW-64: # %bb.0:
; NO-AVX512BW-64-NEXT: vpbroadcastq {{.*#+}} ymm2 = [506097522914230528,506097522914230528,506097522914230528,506097522914230528]		; NO-AVX512BW-64-NEXT: vpbroadcastq {{.*#+}} ymm2 = [506097522914230528,506097522914230528,506097522914230528,506097522914230528]
; NO-AVX512BW-64-NEXT: vpaddb %ymm2, %ymm1, %ymm1		; NO-AVX512BW-64-NEXT: vpaddb %ymm2, %ymm1, %ymm1
; NO-AVX512BW-64-NEXT: vpaddb %ymm2, %ymm0, %ymm0		; NO-AVX512BW-64-NEXT: vpaddb %ymm2, %ymm0, %ymm0
; NO-AVX512BW-64-NEXT: vpand %ymm2, %ymm0, %ymm0		; NO-AVX512BW-64-NEXT: vpand %ymm2, %ymm0, %ymm0
; NO-AVX512BW-64-NEXT: vpand %ymm2, %ymm1, %ymm1		; NO-AVX512BW-64-NEXT: vpand %ymm2, %ymm1, %ymm1
; NO-AVX512BW-64-NEXT: retq		; NO-AVX512BW-64-NEXT: retq
;		;
; AVX512BW-64-LABEL: f64xi8_i64:		; AVX512BW-64-LABEL: f64xi8_i64:
; AVX512BW-64: # %bb.0:		; AVX512BW-64: # %bb.0:
; AVX512BW-64-NEXT: vpbroadcastq {{.*#+}} zmm1 = [506097522914230528,506097522914230528,506097522914230528,506097522914230528,506097522914230528,506097522914230528,506097522914230528,506097522914230528]		; AVX512BW-64-NEXT: vpbroadcastq {{.*#+}} zmm1 = [506097522914230528,506097522914230528,506097522914230528,506097522914230528,506097522914230528,506097522914230528,506097522914230528,506097522914230528]
; AVX512BW-64-NEXT: vpaddb %zmm1, %zmm0, %zmm0		; AVX512BW-64-NEXT: vpaddb %zmm1, %zmm0, %zmm0
; AVX512BW-64-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512BW-64-NEXT: vpandq %zmm1, %zmm0, %zmm0
; AVX512BW-64-NEXT: retq		; AVX512BW-64-NEXT: retq
%res1 = add <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>, %a		%res1 = add <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>, %a
%res2 = and <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>, %res1		%res2 = and <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>, %res1
ret <64 x i8> %res2		ret <64 x i8> %res2
}		}


define <64 x i8> @f64xi8_i128(<64 x i8> %a) {		define <64 x i8> @f64xi8_i128(<64 x i8> %a) {
; AVX-LABEL: f64xi8_i128:		; AVX-LABEL: f64xi8_i128:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]		; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddb %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddb %xmm3, %xmm1, %xmm1
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddb %xmm3, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; NO-AVX512BW-LABEL: f64xi8_i128:		; NO-AVX512BW-LABEL: f64xi8_i128:
; NO-AVX512BW: # %bb.0:		; NO-AVX512BW: # %bb.0:
; NO-AVX512BW-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]		; NO-AVX512BW-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
; NO-AVX512BW-NEXT: # ymm2 = mem[0,1,0,1]		; NO-AVX512BW-NEXT: # ymm2 = mem[0,1,0,1]
Show All 17 Lines
; AVX-64-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]		; AVX-64-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddb %xmm3, %xmm1, %xmm1		; AVX-64-NEXT: vpaddb %xmm3, %xmm1, %xmm1
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX-64-NEXT: vpaddb %xmm3, %xmm0, %xmm0
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-64-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-64-NEXT: retq		; AVX-64-NEXT: retq
;		;
; NO-AVX512BW-64-LABEL: f64xi8_i128:		; NO-AVX512BW-64-LABEL: f64xi8_i128:
; NO-AVX512BW-64: # %bb.0:		; NO-AVX512BW-64: # %bb.0:
; NO-AVX512BW-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]		; NO-AVX512BW-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
; NO-AVX512BW-64-NEXT: # ymm2 = mem[0,1,0,1]		; NO-AVX512BW-64-NEXT: # ymm2 = mem[0,1,0,1]
▲ Show 20 Lines • Show All 284 Lines • ▼ Show 20 Lines	; ALL64-NEXT: retq
ret <16 x i16> %res2		ret <16 x i16> %res2
}		}


define <32 x i16> @f32xi16_i32(<32 x i16> %a) {		define <32 x i16> @f32xi16_i32(<32 x i16> %a) {
; AVX-LABEL: f32xi16_i32:		; AVX-LABEL: f32xi16_i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-NEXT: vbroadcastss {{.*#+}} xmm3 = [9.18354962E-41,9.18354962E-41,9.18354962E-41,9.18354962E-41]		; AVX-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero
		; AVX-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[0,0,0,0]
; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddw %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddw %xmm3, %xmm1, %xmm1
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddw %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddw %xmm3, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1]		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; NO-AVX512BW-LABEL: f32xi16_i32:		; NO-AVX512BW-LABEL: f32xi16_i32:
; NO-AVX512BW: # %bb.0:		; NO-AVX512BW: # %bb.0:
; NO-AVX512BW-NEXT: vpbroadcastd {{.*#+}} ymm2 = [65536,65536,65536,65536,65536,65536,65536,65536]		; NO-AVX512BW-NEXT: vpbroadcastd {{.*#+}} ymm2 = [65536,65536,65536,65536,65536,65536,65536,65536]
; NO-AVX512BW-NEXT: vpaddw %ymm2, %ymm1, %ymm1		; NO-AVX512BW-NEXT: vpaddw %ymm2, %ymm1, %ymm1
; NO-AVX512BW-NEXT: vpaddw %ymm2, %ymm0, %ymm0		; NO-AVX512BW-NEXT: vpaddw %ymm2, %ymm0, %ymm0
; NO-AVX512BW-NEXT: vpand %ymm2, %ymm0, %ymm0		; NO-AVX512BW-NEXT: vpand %ymm2, %ymm0, %ymm0
; NO-AVX512BW-NEXT: vpand %ymm2, %ymm1, %ymm1		; NO-AVX512BW-NEXT: vpand %ymm2, %ymm1, %ymm1
; NO-AVX512BW-NEXT: retl		; NO-AVX512BW-NEXT: retl
;		;
; AVX512BW-LABEL: f32xi16_i32:		; AVX512BW-LABEL: f32xi16_i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vpbroadcastd {{.*#+}} zmm1 = [65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536]		; AVX512BW-NEXT: vpbroadcastd {{.*#+}} zmm1 = [65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536,65536]
; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retl		; AVX512BW-NEXT: retl
;		;
; AVX-64-LABEL: f32xi16_i32:		; AVX-64-LABEL: f32xi16_i32:
; AVX-64: # %bb.0:		; AVX-64: # %bb.0:
; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-64-NEXT: vbroadcastss {{.*#+}} xmm3 = [9.18354962E-41,9.18354962E-41,9.18354962E-41,9.18354962E-41]		; AVX-64-NEXT: vmovd {{.*#+}} xmm3 = mem[0],zero,zero,zero
		; AVX-64-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[0,0,0,0]
; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddw %xmm3, %xmm1, %xmm1		; AVX-64-NEXT: vpaddw %xmm3, %xmm1, %xmm1
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddw %xmm3, %xmm0, %xmm0		; AVX-64-NEXT: vpaddw %xmm3, %xmm0, %xmm0
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-64-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1]		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-64-NEXT: retq		; AVX-64-NEXT: retq
;		;
; NO-AVX512BW-64-LABEL: f32xi16_i32:		; NO-AVX512BW-64-LABEL: f32xi16_i32:
; NO-AVX512BW-64: # %bb.0:		; NO-AVX512BW-64: # %bb.0:
; NO-AVX512BW-64-NEXT: vpbroadcastd {{.*#+}} ymm2 = [65536,65536,65536,65536,65536,65536,65536,65536]		; NO-AVX512BW-64-NEXT: vpbroadcastd {{.*#+}} ymm2 = [65536,65536,65536,65536,65536,65536,65536,65536]
; NO-AVX512BW-64-NEXT: vpaddw %ymm2, %ymm1, %ymm1		; NO-AVX512BW-64-NEXT: vpaddw %ymm2, %ymm1, %ymm1
Show All 9 Lines
; AVX512BW-64-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512BW-64-NEXT: vpandq %zmm1, %zmm0, %zmm0
; AVX512BW-64-NEXT: retq		; AVX512BW-64-NEXT: retq
%res1 = add <32 x i16> <i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1>, %a		%res1 = add <32 x i16> <i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1>, %a
%res2 = and <32 x i16> <i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1>, %res1		%res2 = and <32 x i16> <i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1, i16 0, i16 1>, %res1
ret <32 x i16> %res2		ret <32 x i16> %res2
}		}


		; FIXME the load should be folded with the MOVDDUP with AVX1. PR39454
define <32 x i16> @f32xi16_i64(<32 x i16> %a) {		define <32 x i16> @f32xi16_i64(<32 x i16> %a) {
; AVX-LABEL: f32xi16_i64:		; AVX-LABEL: f32xi16_i64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-NEXT: vmovddup {{.*#+}} xmm3 = [4.1720559249406128E-309,4.1720559249406128E-309]		; AVX-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
; AVX-NEXT: # xmm3 = mem[0,0]		; AVX-NEXT: vmovddup {{.*#+}} xmm3 = xmm3[0,0]
; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddw %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddw %xmm3, %xmm1, %xmm1
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddw %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddw %xmm3, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; NO-AVX512BW-LABEL: f32xi16_i64:		; NO-AVX512BW-LABEL: f32xi16_i64:
; NO-AVX512BW: # %bb.0:		; NO-AVX512BW: # %bb.0:
; NO-AVX512BW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309]		; NO-AVX512BW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309]
; NO-AVX512BW-NEXT: vpaddw %ymm2, %ymm1, %ymm1		; NO-AVX512BW-NEXT: vpaddw %ymm2, %ymm1, %ymm1
; NO-AVX512BW-NEXT: vpaddw %ymm2, %ymm0, %ymm0		; NO-AVX512BW-NEXT: vpaddw %ymm2, %ymm0, %ymm0
; NO-AVX512BW-NEXT: vpand %ymm2, %ymm0, %ymm0		; NO-AVX512BW-NEXT: vpand %ymm2, %ymm0, %ymm0
; NO-AVX512BW-NEXT: vpand %ymm2, %ymm1, %ymm1		; NO-AVX512BW-NEXT: vpand %ymm2, %ymm1, %ymm1
; NO-AVX512BW-NEXT: retl		; NO-AVX512BW-NEXT: retl
;		;
; AVX512BW-LABEL: f32xi16_i64:		; AVX512BW-LABEL: f32xi16_i64:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vpbroadcastq {{.*#+}} zmm1 = [4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309]		; AVX512BW-NEXT: vpbroadcastq {{.*#+}} zmm1 = [4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309,4.1720559249406128E-309]
; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retl		; AVX512BW-NEXT: retl
;		;
; AVX-64-LABEL: f32xi16_i64:		; AVX-64-LABEL: f32xi16_i64:
; AVX-64: # %bb.0:		; AVX-64: # %bb.0:
; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-64-NEXT: vmovddup {{.*#+}} xmm3 = [4.1720559249406128E-309,4.1720559249406128E-309]		; AVX-64-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
; AVX-64-NEXT: # xmm3 = mem[0,0]		; AVX-64-NEXT: vmovddup {{.*#+}} xmm3 = xmm3[0,0]
; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddw %xmm3, %xmm1, %xmm1		; AVX-64-NEXT: vpaddw %xmm3, %xmm1, %xmm1
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddw %xmm3, %xmm0, %xmm0		; AVX-64-NEXT: vpaddw %xmm3, %xmm0, %xmm0
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-64-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-64-NEXT: retq		; AVX-64-NEXT: retq
;		;
; NO-AVX512BW-64-LABEL: f32xi16_i64:		; NO-AVX512BW-64-LABEL: f32xi16_i64:
; NO-AVX512BW-64: # %bb.0:		; NO-AVX512BW-64: # %bb.0:
; NO-AVX512BW-64-NEXT: vpbroadcastq {{.*#+}} ymm2 = [844433520132096,844433520132096,844433520132096,844433520132096]		; NO-AVX512BW-64-NEXT: vpbroadcastq {{.*#+}} ymm2 = [844433520132096,844433520132096,844433520132096,844433520132096]
; NO-AVX512BW-64-NEXT: vpaddw %ymm2, %ymm1, %ymm1		; NO-AVX512BW-64-NEXT: vpaddw %ymm2, %ymm1, %ymm1
Show All 21 Lines
; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7]		; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7]
; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddw %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddw %xmm3, %xmm1, %xmm1
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddw %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddw %xmm3, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; NO-AVX512BW-LABEL: f32xi16_i128:		; NO-AVX512BW-LABEL: f32xi16_i128:
; NO-AVX512BW: # %bb.0:		; NO-AVX512BW: # %bb.0:
; NO-AVX512BW-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]		; NO-AVX512BW-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
; NO-AVX512BW-NEXT: # ymm2 = mem[0,1,0,1]		; NO-AVX512BW-NEXT: # ymm2 = mem[0,1,0,1]
Show All 17 Lines
; AVX-64-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7]		; AVX-64-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7]
; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddw %xmm3, %xmm1, %xmm1		; AVX-64-NEXT: vpaddw %xmm3, %xmm1, %xmm1
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddw %xmm3, %xmm0, %xmm0		; AVX-64-NEXT: vpaddw %xmm3, %xmm0, %xmm0
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-64-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-64-NEXT: retq		; AVX-64-NEXT: retq
;		;
; NO-AVX512BW-64-LABEL: f32xi16_i128:		; NO-AVX512BW-64-LABEL: f32xi16_i128:
; NO-AVX512BW-64: # %bb.0:		; NO-AVX512BW-64: # %bb.0:
; NO-AVX512BW-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]		; NO-AVX512BW-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
; NO-AVX512BW-64-NEXT: # ymm2 = mem[0,1,0,1]		; NO-AVX512BW-64-NEXT: # ymm2 = mem[0,1,0,1]
▲ Show 20 Lines • Show All 207 Lines • ▼ Show 20 Lines
; ALL64-NEXT: vpand %ymm1, %ymm0, %ymm0		; ALL64-NEXT: vpand %ymm1, %ymm0, %ymm0
; ALL64-NEXT: retq		; ALL64-NEXT: retq
%res1 = add <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>, %a		%res1 = add <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>, %a
%res2 = and <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>, %res1		%res2 = and <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>, %res1
ret <8 x i32> %res2		ret <8 x i32> %res2
}		}


		; FIXME the load should be folded with the MOVDDUP with AVX1. PR39454
define <16 x i32> @f16xi32_i64(<16 x i32> %a) {		define <16 x i32> @f16xi32_i64(<16 x i32> %a) {
; AVX-LABEL: f16xi32_i64:		; AVX-LABEL: f16xi32_i64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-NEXT: vmovddup {{.*#+}} xmm3 = [2.1219957909652723E-314,2.1219957909652723E-314]		; AVX-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
; AVX-NEXT: # xmm3 = mem[0,0]		; AVX-NEXT: vmovddup {{.*#+}} xmm3 = xmm3[0,0]
; AVX-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddd %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddd %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddd %xmm3, %xmm1, %xmm1
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddd %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddd %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddd %xmm3, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,0,1,0,1,0,1]		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; AVX2-LABEL: f16xi32_i64:		; AVX2-LABEL: f16xi32_i64:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314]		; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314]
; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1		; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1		; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
; AVX2-NEXT: retl		; AVX2-NEXT: retl
;		;
; AVX512-LABEL: f16xi32_i64:		; AVX512-LABEL: f16xi32_i64:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpbroadcastq {{.*#+}} zmm1 = [2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314]		; AVX512-NEXT: vpbroadcastq {{.*#+}} zmm1 = [2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314,2.1219957909652723E-314]
; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: retl		; AVX512-NEXT: retl
;		;
; AVX-64-LABEL: f16xi32_i64:		; AVX-64-LABEL: f16xi32_i64:
; AVX-64: # %bb.0:		; AVX-64: # %bb.0:
; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-64-NEXT: vmovddup {{.*#+}} xmm3 = [2.1219957909652723E-314,2.1219957909652723E-314]		; AVX-64-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
; AVX-64-NEXT: # xmm3 = mem[0,0]		; AVX-64-NEXT: vmovddup {{.*#+}} xmm3 = xmm3[0,0]
; AVX-64-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddd %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddd %xmm3, %xmm1, %xmm1		; AVX-64-NEXT: vpaddd %xmm3, %xmm1, %xmm1
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-64-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddd %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddd %xmm3, %xmm0, %xmm0		; AVX-64-NEXT: vpaddd %xmm3, %xmm0, %xmm0
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-64-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,0,1,0,1,0,1]		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-64-NEXT: retq		; AVX-64-NEXT: retq
;		;
; AVX2-64-LABEL: f16xi32_i64:		; AVX2-64-LABEL: f16xi32_i64:
; AVX2-64: # %bb.0:		; AVX2-64: # %bb.0:
; AVX2-64-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4294967296,4294967296,4294967296,4294967296]		; AVX2-64-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4294967296,4294967296,4294967296,4294967296]
; AVX2-64-NEXT: vpaddd %ymm2, %ymm1, %ymm1		; AVX2-64-NEXT: vpaddd %ymm2, %ymm1, %ymm1
; AVX2-64-NEXT: vpaddd %ymm2, %ymm0, %ymm0		; AVX2-64-NEXT: vpaddd %ymm2, %ymm0, %ymm0
; AVX2-64-NEXT: vpand %ymm2, %ymm0, %ymm0		; AVX2-64-NEXT: vpand %ymm2, %ymm0, %ymm0
; AVX2-64-NEXT: vpand %ymm2, %ymm1, %ymm1		; AVX2-64-NEXT: vpand %ymm2, %ymm1, %ymm1
; AVX2-64-NEXT: retq		; AVX2-64-NEXT: retq
;		;
; AVX512F-64-LABEL: f16xi32_i64:		; AVX512F-64-LABEL: f16xi32_i64:
; AVX512F-64: # %bb.0:		; AVX512F-64: # %bb.0:
; AVX512F-64-NEXT: vpbroadcastq {{.*#+}} zmm1 = [4294967296,4294967296,4294967296,4294967296,4294967296,4294967296,4294967296,4294967296]		; AVX512F-64-NEXT: vpbroadcastq {{.*#+}} zmm1 = [4294967296,4294967296,4294967296,4294967296,4294967296,4294967296,4294967296,4294967296]
; AVX512F-64-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; AVX512F-64-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; AVX512F-64-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512F-64-NEXT: vpandd %zmm1, %zmm0, %zmm0
; AVX512F-64-NEXT: retq		; AVX512F-64-NEXT: retq
%res1 = add <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>, %a		%res1 = add <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>, %a
%res2 = and <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>, %res1		%res2 = and <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>, %res1
ret <16 x i32> %res2		ret <16 x i32> %res2
}		}


define <16 x i32> @f16xi32_i128(<16 x i32> %a) {		define <16 x i32> @f16xi32_i128(<16 x i32> %a) {
; AVX-LABEL: f16xi32_i128:		; AVX-LABEL: f16xi32_i128:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3]		; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3]
; AVX-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddd %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddd %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddd %xmm3, %xmm1, %xmm1
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-NEXT: vpaddd %xmm3, %xmm2, %xmm2
; AVX-NEXT: vpaddd %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddd %xmm3, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; AVX2-LABEL: f16xi32_i128:		; AVX2-LABEL: f16xi32_i128:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]		; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]
; AVX2-NEXT: # ymm2 = mem[0,1,0,1]		; AVX2-NEXT: # ymm2 = mem[0,1,0,1]
; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1		; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1		; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
; AVX2-NEXT: retl		; AVX2-NEXT: retl
;		;
; AVX512-LABEL: f16xi32_i128:		; AVX512-LABEL: f16xi32_i128:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX512-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
; AVX512-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX512-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: retl		; AVX512-NEXT: retl
;		;
; AVX-64-LABEL: f16xi32_i128:		; AVX-64-LABEL: f16xi32_i128:
; AVX-64: # %bb.0:		; AVX-64: # %bb.0:
; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-64-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3]		; AVX-64-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3]
; AVX-64-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddd %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddd %xmm3, %xmm1, %xmm1		; AVX-64-NEXT: vpaddd %xmm3, %xmm1, %xmm1
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX-64-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vpaddd %xmm3, %xmm2, %xmm2
; AVX-64-NEXT: vpaddd %xmm3, %xmm0, %xmm0		; AVX-64-NEXT: vpaddd %xmm3, %xmm0, %xmm0
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX-64-NEXT: vmovaps {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2
; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-64-NEXT: retq		; AVX-64-NEXT: retq
;		;
; AVX2-64-LABEL: f16xi32_i128:		; AVX2-64-LABEL: f16xi32_i128:
; AVX2-64: # %bb.0:		; AVX2-64: # %bb.0:
; AVX2-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]		; AVX2-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]
; AVX2-64-NEXT: # ymm2 = mem[0,1,0,1]		; AVX2-64-NEXT: # ymm2 = mem[0,1,0,1]
; AVX2-64-NEXT: vpaddd %ymm2, %ymm1, %ymm1		; AVX2-64-NEXT: vpaddd %ymm2, %ymm1, %ymm1
; AVX2-64-NEXT: vpaddd %ymm2, %ymm0, %ymm0		; AVX2-64-NEXT: vpaddd %ymm2, %ymm0, %ymm0
; AVX2-64-NEXT: vpand %ymm2, %ymm0, %ymm0		; AVX2-64-NEXT: vpand %ymm2, %ymm0, %ymm0
; AVX2-64-NEXT: vpand %ymm2, %ymm1, %ymm1		; AVX2-64-NEXT: vpand %ymm2, %ymm1, %ymm1
; AVX2-64-NEXT: retq		; AVX2-64-NEXT: retq
;		;
; AVX512F-64-LABEL: f16xi32_i128:		; AVX512F-64-LABEL: f16xi32_i128:
; AVX512F-64: # %bb.0:		; AVX512F-64: # %bb.0:
; AVX512F-64-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX512F-64-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
; AVX512F-64-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX512F-64-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
; AVX512F-64-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; AVX512F-64-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; AVX512F-64-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512F-64-NEXT: vpandd %zmm1, %zmm0, %zmm0
; AVX512F-64-NEXT: retq		; AVX512F-64-NEXT: retq
%res1 = add <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>, %a		%res1 = add <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>, %a
%res2 = and <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>, %res1		%res2 = and <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>, %res1
ret <16 x i32> %res2		ret <16 x i32> %res2
}		}


define <4 x i64> @f4xi64_i128(<4 x i64> %a) {		define <4 x i64> @f4xi64_i128(<4 x i64> %a) {
▲ Show 20 Lines • Show All 675 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/movmsk-cmp.ll

	Show First 20 Lines • Show All 2,332 Lines • ▼ Show 20 Lines
	; KNL-NEXT: andb $15, %al			; KNL-NEXT: andb $15, %al
	; KNL-NEXT: cmpb $15, %al			; KNL-NEXT: cmpb $15, %al
	; KNL-NEXT: sete %al			; KNL-NEXT: sete %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allones_v4i32_and1:			; SKX-LABEL: allones_v4i32_and1:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} xmm1 = [1,1,1,1]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to4}, %xmm0, %k0
	; SKX-NEXT: vptestmd %xmm1, %xmm0, %k0
	; SKX-NEXT: kmovd %k0, %eax			; SKX-NEXT: kmovd %k0, %eax
	; SKX-NEXT: andb $15, %al			; SKX-NEXT: andb $15, %al
	; SKX-NEXT: cmpb $15, %al			; SKX-NEXT: cmpb $15, %al
	; SKX-NEXT: sete %al			; SKX-NEXT: sete %al
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <4 x i32> %arg, <i32 1, i32 1, i32 1, i32 1>			%tmp = and <4 x i32> %arg, <i32 1, i32 1, i32 1, i32 1>
	%tmp1 = icmp ne <4 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <4 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <4 x i1> %tmp1 to i4			%tmp2 = bitcast <4 x i1> %tmp1 to i4
	Show All 26 Lines
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: testb $15, %al			; KNL-NEXT: testb $15, %al
	; KNL-NEXT: sete %al			; KNL-NEXT: sete %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allzeros_v4i32_and1:			; SKX-LABEL: allzeros_v4i32_and1:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} xmm1 = [1,1,1,1]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to4}, %xmm0, %k0
	; SKX-NEXT: vptestmd %xmm1, %xmm0, %k0
	; SKX-NEXT: kmovd %k0, %eax			; SKX-NEXT: kmovd %k0, %eax
	; SKX-NEXT: testb $15, %al			; SKX-NEXT: testb $15, %al
	; SKX-NEXT: sete %al			; SKX-NEXT: sete %al
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <4 x i32> %arg, <i32 1, i32 1, i32 1, i32 1>			%tmp = and <4 x i32> %arg, <i32 1, i32 1, i32 1, i32 1>
	%tmp1 = icmp ne <4 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <4 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <4 x i1> %tmp1 to i4			%tmp2 = bitcast <4 x i1> %tmp1 to i4
	%tmp3 = icmp eq i4 %tmp2, 0			%tmp3 = icmp eq i4 %tmp2, 0
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: cmpb $-1, %al			; KNL-NEXT: cmpb $-1, %al
	; KNL-NEXT: sete %al			; KNL-NEXT: sete %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allones_v8i32_and1:			; SKX-LABEL: allones_v8i32_and1:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} ymm1 = [1,1,1,1,1,1,1,1]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to8}, %ymm0, %k0
	; SKX-NEXT: vptestmd %ymm1, %ymm0, %k0
	; SKX-NEXT: kortestb %k0, %k0			; SKX-NEXT: kortestb %k0, %k0
	; SKX-NEXT: setb %al			; SKX-NEXT: setb %al
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <8 x i32> %arg, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>			%tmp = and <8 x i32> %arg, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>
	%tmp1 = icmp ne <8 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <8 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <8 x i1> %tmp1 to i8			%tmp2 = bitcast <8 x i1> %tmp1 to i8
	%tmp3 = icmp eq i8 %tmp2, -1			%tmp3 = icmp eq i8 %tmp2, -1
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: testb %al, %al			; KNL-NEXT: testb %al, %al
	; KNL-NEXT: sete %al			; KNL-NEXT: sete %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allzeros_v8i32_and1:			; SKX-LABEL: allzeros_v8i32_and1:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} ymm1 = [1,1,1,1,1,1,1,1]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to8}, %ymm0, %k0
	; SKX-NEXT: vptestmd %ymm1, %ymm0, %k0
	; SKX-NEXT: kortestb %k0, %k0			; SKX-NEXT: kortestb %k0, %k0
	; SKX-NEXT: sete %al			; SKX-NEXT: sete %al
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <8 x i32> %arg, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>			%tmp = and <8 x i32> %arg, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>
	%tmp1 = icmp ne <8 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <8 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <8 x i1> %tmp1 to i8			%tmp2 = bitcast <8 x i1> %tmp1 to i8
	%tmp3 = icmp eq i8 %tmp2, 0			%tmp3 = icmp eq i8 %tmp2, 0
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmovmskb %xmm0, %eax			; AVX2-NEXT: vpmovmskb %xmm0, %eax
	; AVX2-NEXT: cmpw $-1, %ax			; AVX2-NEXT: cmpw $-1, %ax
	; AVX2-NEXT: sete %al			; AVX2-NEXT: sete %al
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; KNL-LABEL: allones_v16i32_and1:			; KNL-LABEL: allones_v16i32_and1:
	; KNL: # %bb.0:			; KNL: # %bb.0:
	; KNL-NEXT: vpbroadcastd {{.*#+}} zmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; KNL-NEXT: vptestmd {{.*}}(%rip){1to16}, %zmm0, %k0
	; KNL-NEXT: vptestmd %zmm1, %zmm0, %k0
	; KNL-NEXT: kortestw %k0, %k0			; KNL-NEXT: kortestw %k0, %k0
	; KNL-NEXT: setb %al			; KNL-NEXT: setb %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allones_v16i32_and1:			; SKX-LABEL: allones_v16i32_and1:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} zmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to16}, %zmm0, %k0
	; SKX-NEXT: vptestmd %zmm1, %zmm0, %k0
	; SKX-NEXT: kortestw %k0, %k0			; SKX-NEXT: kortestw %k0, %k0
	; SKX-NEXT: setb %al			; SKX-NEXT: setb %al
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <16 x i32> %arg, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>			%tmp = and <16 x i32> %arg, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>
	%tmp1 = icmp ne <16 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <16 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <16 x i1> %tmp1 to i16			%tmp2 = bitcast <16 x i1> %tmp1 to i16
	%tmp3 = icmp eq i16 %tmp2, -1			%tmp3 = icmp eq i16 %tmp2, -1
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmovmskb %xmm0, %eax			; AVX2-NEXT: vpmovmskb %xmm0, %eax
	; AVX2-NEXT: testw %ax, %ax			; AVX2-NEXT: testw %ax, %ax
	; AVX2-NEXT: sete %al			; AVX2-NEXT: sete %al
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; KNL-LABEL: allzeros_v16i32_and1:			; KNL-LABEL: allzeros_v16i32_and1:
	; KNL: # %bb.0:			; KNL: # %bb.0:
	; KNL-NEXT: vpbroadcastd {{.*#+}} zmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; KNL-NEXT: vptestmd {{.*}}(%rip){1to16}, %zmm0, %k0
	; KNL-NEXT: vptestmd %zmm1, %zmm0, %k0
	; KNL-NEXT: kortestw %k0, %k0			; KNL-NEXT: kortestw %k0, %k0
	; KNL-NEXT: sete %al			; KNL-NEXT: sete %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allzeros_v16i32_and1:			; SKX-LABEL: allzeros_v16i32_and1:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} zmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to16}, %zmm0, %k0
	; SKX-NEXT: vptestmd %zmm1, %zmm0, %k0
	; SKX-NEXT: kortestw %k0, %k0			; SKX-NEXT: kortestw %k0, %k0
	; SKX-NEXT: sete %al			; SKX-NEXT: sete %al
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <16 x i32> %arg, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>			%tmp = and <16 x i32> %arg, <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>
	%tmp1 = icmp ne <16 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <16 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <16 x i1> %tmp1 to i16			%tmp2 = bitcast <16 x i1> %tmp1 to i16
	%tmp3 = icmp eq i16 %tmp2, 0			%tmp3 = icmp eq i16 %tmp2, 0
	▲ Show 20 Lines • Show All 1,312 Lines • ▼ Show 20 Lines
	; KNL-NEXT: andb $15, %al			; KNL-NEXT: andb $15, %al
	; KNL-NEXT: cmpb $15, %al			; KNL-NEXT: cmpb $15, %al
	; KNL-NEXT: sete %al			; KNL-NEXT: sete %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allones_v4i32_and4:			; SKX-LABEL: allones_v4i32_and4:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} xmm1 = [4,4,4,4]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to4}, %xmm0, %k0
	; SKX-NEXT: vptestmd %xmm1, %xmm0, %k0
	; SKX-NEXT: kmovd %k0, %eax			; SKX-NEXT: kmovd %k0, %eax
	; SKX-NEXT: andb $15, %al			; SKX-NEXT: andb $15, %al
	; SKX-NEXT: cmpb $15, %al			; SKX-NEXT: cmpb $15, %al
	; SKX-NEXT: sete %al			; SKX-NEXT: sete %al
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <4 x i32> %arg, <i32 4, i32 4, i32 4, i32 4>			%tmp = and <4 x i32> %arg, <i32 4, i32 4, i32 4, i32 4>
	%tmp1 = icmp ne <4 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <4 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <4 x i1> %tmp1 to i4			%tmp2 = bitcast <4 x i1> %tmp1 to i4
	Show All 26 Lines
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: testb $15, %al			; KNL-NEXT: testb $15, %al
	; KNL-NEXT: sete %al			; KNL-NEXT: sete %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allzeros_v4i32_and4:			; SKX-LABEL: allzeros_v4i32_and4:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} xmm1 = [4,4,4,4]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to4}, %xmm0, %k0
	; SKX-NEXT: vptestmd %xmm1, %xmm0, %k0
	; SKX-NEXT: kmovd %k0, %eax			; SKX-NEXT: kmovd %k0, %eax
	; SKX-NEXT: testb $15, %al			; SKX-NEXT: testb $15, %al
	; SKX-NEXT: sete %al			; SKX-NEXT: sete %al
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <4 x i32> %arg, <i32 4, i32 4, i32 4, i32 4>			%tmp = and <4 x i32> %arg, <i32 4, i32 4, i32 4, i32 4>
	%tmp1 = icmp ne <4 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <4 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <4 x i1> %tmp1 to i4			%tmp2 = bitcast <4 x i1> %tmp1 to i4
	%tmp3 = icmp eq i4 %tmp2, 0			%tmp3 = icmp eq i4 %tmp2, 0
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: cmpb $-1, %al			; KNL-NEXT: cmpb $-1, %al
	; KNL-NEXT: sete %al			; KNL-NEXT: sete %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allones_v8i32_and4:			; SKX-LABEL: allones_v8i32_and4:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} ymm1 = [4,4,4,4,4,4,4,4]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to8}, %ymm0, %k0
	; SKX-NEXT: vptestmd %ymm1, %ymm0, %k0
	; SKX-NEXT: kortestb %k0, %k0			; SKX-NEXT: kortestb %k0, %k0
	; SKX-NEXT: setb %al			; SKX-NEXT: setb %al
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <8 x i32> %arg, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>			%tmp = and <8 x i32> %arg, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
	%tmp1 = icmp ne <8 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <8 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <8 x i1> %tmp1 to i8			%tmp2 = bitcast <8 x i1> %tmp1 to i8
	%tmp3 = icmp eq i8 %tmp2, -1			%tmp3 = icmp eq i8 %tmp2, -1
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: testb %al, %al			; KNL-NEXT: testb %al, %al
	; KNL-NEXT: sete %al			; KNL-NEXT: sete %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allzeros_v8i32_and4:			; SKX-LABEL: allzeros_v8i32_and4:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} ymm1 = [4,4,4,4,4,4,4,4]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to8}, %ymm0, %k0
	; SKX-NEXT: vptestmd %ymm1, %ymm0, %k0
	; SKX-NEXT: kortestb %k0, %k0			; SKX-NEXT: kortestb %k0, %k0
	; SKX-NEXT: sete %al			; SKX-NEXT: sete %al
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <8 x i32> %arg, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>			%tmp = and <8 x i32> %arg, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
	%tmp1 = icmp ne <8 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <8 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <8 x i1> %tmp1 to i8			%tmp2 = bitcast <8 x i1> %tmp1 to i8
	%tmp3 = icmp eq i8 %tmp2, 0			%tmp3 = icmp eq i8 %tmp2, 0
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmovmskb %xmm0, %eax			; AVX2-NEXT: vpmovmskb %xmm0, %eax
	; AVX2-NEXT: cmpw $-1, %ax			; AVX2-NEXT: cmpw $-1, %ax
	; AVX2-NEXT: sete %al			; AVX2-NEXT: sete %al
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; KNL-LABEL: allones_v16i32_and4:			; KNL-LABEL: allones_v16i32_and4:
	; KNL: # %bb.0:			; KNL: # %bb.0:
	; KNL-NEXT: vpbroadcastd {{.*#+}} zmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]			; KNL-NEXT: vptestmd {{.*}}(%rip){1to16}, %zmm0, %k0
	; KNL-NEXT: vptestmd %zmm1, %zmm0, %k0
	; KNL-NEXT: kortestw %k0, %k0			; KNL-NEXT: kortestw %k0, %k0
	; KNL-NEXT: setb %al			; KNL-NEXT: setb %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allones_v16i32_and4:			; SKX-LABEL: allones_v16i32_and4:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} zmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to16}, %zmm0, %k0
	; SKX-NEXT: vptestmd %zmm1, %zmm0, %k0
	; SKX-NEXT: kortestw %k0, %k0			; SKX-NEXT: kortestw %k0, %k0
	; SKX-NEXT: setb %al			; SKX-NEXT: setb %al
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <16 x i32> %arg, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>			%tmp = and <16 x i32> %arg, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
	%tmp1 = icmp ne <16 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <16 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <16 x i1> %tmp1 to i16			%tmp2 = bitcast <16 x i1> %tmp1 to i16
	%tmp3 = icmp eq i16 %tmp2, -1			%tmp3 = icmp eq i16 %tmp2, -1
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmovmskb %xmm0, %eax			; AVX2-NEXT: vpmovmskb %xmm0, %eax
	; AVX2-NEXT: testw %ax, %ax			; AVX2-NEXT: testw %ax, %ax
	; AVX2-NEXT: sete %al			; AVX2-NEXT: sete %al
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; KNL-LABEL: allzeros_v16i32_and4:			; KNL-LABEL: allzeros_v16i32_and4:
	; KNL: # %bb.0:			; KNL: # %bb.0:
	; KNL-NEXT: vpbroadcastd {{.*#+}} zmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]			; KNL-NEXT: vptestmd {{.*}}(%rip){1to16}, %zmm0, %k0
	; KNL-NEXT: vptestmd %zmm1, %zmm0, %k0
	; KNL-NEXT: kortestw %k0, %k0			; KNL-NEXT: kortestw %k0, %k0
	; KNL-NEXT: sete %al			; KNL-NEXT: sete %al
	; KNL-NEXT: vzeroupper			; KNL-NEXT: vzeroupper
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: allzeros_v16i32_and4:			; SKX-LABEL: allzeros_v16i32_and4:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpbroadcastd {{.*#+}} zmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]			; SKX-NEXT: vptestmd {{.*}}(%rip){1to16}, %zmm0, %k0
	; SKX-NEXT: vptestmd %zmm1, %zmm0, %k0
	; SKX-NEXT: kortestw %k0, %k0			; SKX-NEXT: kortestw %k0, %k0
	; SKX-NEXT: sete %al			; SKX-NEXT: sete %al
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = and <16 x i32> %arg, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>			%tmp = and <16 x i32> %arg, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
	%tmp1 = icmp ne <16 x i32> %tmp, zeroinitializer			%tmp1 = icmp ne <16 x i32> %tmp, zeroinitializer
	%tmp2 = bitcast <16 x i1> %tmp1 to i16			%tmp2 = bitcast <16 x i1> %tmp1 to i16
	%tmp3 = icmp eq i16 %tmp2, 0			%tmp3 = icmp eq i16 %tmp2, 0
	▲ Show 20 Lines • Show All 662 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/psubus.ll

	Show First 20 Lines • Show All 525 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pmaxud %xmm1, %xmm0			; SSE41-NEXT: pmaxud %xmm1, %xmm0
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0			; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm5			; SSE41-NEXT: pcmpeqd %xmm5, %xmm5
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; SSE41-NEXT: movdqa %xmm3, %xmm6
	; SSE41-NEXT: pshufb %xmm6, %xmm0			; SSE41-NEXT: pmaxud %xmm2, %xmm6
	; SSE41-NEXT: movdqa %xmm3, %xmm7			; SSE41-NEXT: pcmpeqd %xmm3, %xmm6
	; SSE41-NEXT: pmaxud %xmm2, %xmm7			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm7			; SSE41-NEXT: packssdw %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: pshufb %xmm6, %xmm7
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm7[0]
	; SSE41-NEXT: psubd %xmm2, %xmm3			; SSE41-NEXT: psubd %xmm2, %xmm3
	; SSE41-NEXT: psubd %xmm1, %xmm4			; SSE41-NEXT: psubd %xmm1, %xmm4
	; SSE41-NEXT: pshufb %xmm6, %xmm4			; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; SSE41-NEXT: pshufb %xmm6, %xmm3			; SSE41-NEXT: pshufb %xmm1, %xmm4
				; SSE41-NEXT: pshufb %xmm1, %xmm3
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm3[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm3[0]
	; SSE41-NEXT: pandn %xmm4, %xmm0			; SSE41-NEXT: pandn %xmm4, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test13:			; AVX1-LABEL: test13:
	; AVX1: # %bb.0: # %vector.ph			; AVX1: # %bb.0: # %vector.ph
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
	▲ Show 20 Lines • Show All 357 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pminud %xmm1, %xmm4			; SSE41-NEXT: pminud %xmm1, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm5			; SSE41-NEXT: pcmpeqd %xmm5, %xmm5
	; SSE41-NEXT: pxor %xmm5, %xmm4			; SSE41-NEXT: pxor %xmm5, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; SSE41-NEXT: movdqa %xmm3, %xmm6
	; SSE41-NEXT: pshufb %xmm6, %xmm4			; SSE41-NEXT: pminud %xmm2, %xmm6
	; SSE41-NEXT: movdqa %xmm3, %xmm7			; SSE41-NEXT: pcmpeqd %xmm3, %xmm6
	; SSE41-NEXT: pminud %xmm2, %xmm7			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm7			; SSE41-NEXT: packssdw %xmm6, %xmm4
	; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: pshufb %xmm6, %xmm7
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm7[0]
	; SSE41-NEXT: psubd %xmm2, %xmm3			; SSE41-NEXT: psubd %xmm2, %xmm3
	; SSE41-NEXT: psubd %xmm1, %xmm0			; SSE41-NEXT: psubd %xmm1, %xmm0
	; SSE41-NEXT: pshufb %xmm6, %xmm0			; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; SSE41-NEXT: pshufb %xmm6, %xmm3			; SSE41-NEXT: pshufb %xmm1, %xmm0
				; SSE41-NEXT: pshufb %xmm1, %xmm3
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test15:			; AVX1-LABEL: test15:
	; AVX1: # %bb.0: # %vector.ph			; AVX1: # %bb.0: # %vector.ph
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
	▲ Show 20 Lines • Show All 108 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pmaxud %xmm0, %xmm4			; SSE41-NEXT: pmaxud %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm1, %xmm4			; SSE41-NEXT: pcmpeqd %xmm1, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm5			; SSE41-NEXT: pcmpeqd %xmm5, %xmm5
	; SSE41-NEXT: pxor %xmm5, %xmm4			; SSE41-NEXT: pxor %xmm5, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pshufb %xmm6, %xmm4			; SSE41-NEXT: pmaxud %xmm3, %xmm6
	; SSE41-NEXT: movdqa %xmm2, %xmm7			; SSE41-NEXT: pcmpeqd %xmm2, %xmm6
	; SSE41-NEXT: pmaxud %xmm3, %xmm7			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm2, %xmm7			; SSE41-NEXT: packssdw %xmm6, %xmm4
	; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: pshufb %xmm6, %xmm7
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm7[0]
	; SSE41-NEXT: psubd %xmm2, %xmm3			; SSE41-NEXT: psubd %xmm2, %xmm3
	; SSE41-NEXT: psubd %xmm1, %xmm0			; SSE41-NEXT: psubd %xmm1, %xmm0
	; SSE41-NEXT: pshufb %xmm6, %xmm0			; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; SSE41-NEXT: pshufb %xmm6, %xmm3			; SSE41-NEXT: pshufb %xmm1, %xmm0
				; SSE41-NEXT: pshufb %xmm1, %xmm3
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test16:			; AVX1-LABEL: test16:
	; AVX1: # %bb.0: # %vector.ph			; AVX1: # %bb.0: # %vector.ph
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
	▲ Show 20 Lines • Show All 1,364 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/sat-add.ll

Show First 20 Lines • Show All 740 Lines • ▼ Show 20 Lines	; SSE41-NEXT: retq
%r = select <8 x i1> %c, <8 x i16> <i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1>, <8 x i16> %a		%r = select <8 x i1> %c, <8 x i16> <i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1>, <8 x i16> %a
ret <8 x i16> %r		ret <8 x i16> %r
}		}

define <4 x i32> @unsigned_sat_variable_v4i32_using_min(<4 x i32> %x, <4 x i32> %y) {		define <4 x i32> @unsigned_sat_variable_v4i32_using_min(<4 x i32> %x, <4 x i32> %y) {
; SSE2-LABEL: unsigned_sat_variable_v4i32_using_min:		; SSE2-LABEL: unsigned_sat_variable_v4i32_using_min:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pcmpeqd %xmm2, %xmm2		; SSE2-NEXT: pcmpeqd %xmm2, %xmm2
; SSE2-NEXT: pxor %xmm1, %xmm2
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: pxor %xmm0, %xmm3		; SSE2-NEXT: pxor %xmm0, %xmm3
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483647,2147483647,2147483647,2147483647]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483647,2147483647,2147483647,2147483647]
; SSE2-NEXT: pxor %xmm1, %xmm4		; SSE2-NEXT: pxor %xmm1, %xmm4
; SSE2-NEXT: pcmpgtd %xmm3, %xmm4		; SSE2-NEXT: pcmpgtd %xmm3, %xmm4
; SSE2-NEXT: pand %xmm4, %xmm0		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: pandn %xmm2, %xmm4		; SSE2-NEXT: pxor %xmm2, %xmm4
; SSE2-NEXT: por %xmm4, %xmm0		; SSE2-NEXT: movdqa %xmm1, %xmm2
		; SSE2-NEXT: pandn %xmm4, %xmm2
		; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: paddd %xmm1, %xmm0		; SSE2-NEXT: paddd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: unsigned_sat_variable_v4i32_using_min:		; SSE41-LABEL: unsigned_sat_variable_v4i32_using_min:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pcmpeqd %xmm2, %xmm2		; SSE41-NEXT: pcmpeqd %xmm2, %xmm2
; SSE41-NEXT: pxor %xmm1, %xmm2		; SSE41-NEXT: pxor %xmm1, %xmm2
; SSE41-NEXT: pminud %xmm2, %xmm0		; SSE41-NEXT: pminud %xmm2, %xmm0
▲ Show 20 Lines • Show All 165 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/unfold-masked-merge-vector-variablemask-const.ll

	Show First 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
	; CHECK-SSE1-NEXT: xorps %xmm1, %xmm2			; CHECK-SSE1-NEXT: xorps %xmm1, %xmm2
	; CHECK-SSE1-NEXT: andnps %xmm2, %xmm0			; CHECK-SSE1-NEXT: andnps %xmm2, %xmm0
	; CHECK-SSE1-NEXT: xorps %xmm1, %xmm0			; CHECK-SSE1-NEXT: xorps %xmm1, %xmm0
	; CHECK-SSE1-NEXT: movaps %xmm0, (%rdi)			; CHECK-SSE1-NEXT: movaps %xmm0, (%rdi)
	; CHECK-SSE1-NEXT: retq			; CHECK-SSE1-NEXT: retq
	;			;
	; CHECK-SSE2-LABEL: in_constant_varx_mone_invmask:			; CHECK-SSE2-LABEL: in_constant_varx_mone_invmask:
	; CHECK-SSE2: # %bb.0:			; CHECK-SSE2: # %bb.0:
	; CHECK-SSE2-NEXT: movdqa (%rdx), %xmm0			; CHECK-SSE2-NEXT: movdqa (%rdi), %xmm0
	; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm1			; CHECK-SSE2-NEXT: pcmpeqd %xmm1, %xmm1
	; CHECK-SSE2-NEXT: movdqa (%rdi), %xmm2			; CHECK-SSE2-NEXT: movdqa (%rdx), %xmm2
	; CHECK-SSE2-NEXT: pxor %xmm1, %xmm2			; CHECK-SSE2-NEXT: pxor %xmm1, %xmm2
	; CHECK-SSE2-NEXT: pandn %xmm2, %xmm0			; CHECK-SSE2-NEXT: pandn %xmm2, %xmm0
	; CHECK-SSE2-NEXT: pxor %xmm1, %xmm0			; CHECK-SSE2-NEXT: pxor %xmm1, %xmm0
	; CHECK-SSE2-NEXT: retq			; CHECK-SSE2-NEXT: retq
	;			;
	; CHECK-XOP-LABEL: in_constant_varx_mone_invmask:			; CHECK-XOP-LABEL: in_constant_varx_mone_invmask:
	; CHECK-XOP: # %bb.0:			; CHECK-XOP: # %bb.0:
	; CHECK-XOP-NEXT: vmovdqa (%rdx), %xmm0			; CHECK-XOP-NEXT: vmovdqa (%rdi), %xmm0
	; CHECK-XOP-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1			; CHECK-XOP-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
	; CHECK-XOP-NEXT: vpxor (%rdi), %xmm1, %xmm2			; CHECK-XOP-NEXT: vpxor (%rdx), %xmm1, %xmm2
	; CHECK-XOP-NEXT: vpandn %xmm2, %xmm0, %xmm0			; CHECK-XOP-NEXT: vpandn %xmm2, %xmm0, %xmm0
	; CHECK-XOP-NEXT: vpxor %xmm1, %xmm0, %xmm0			; CHECK-XOP-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; CHECK-XOP-NEXT: retq			; CHECK-XOP-NEXT: retq
	%x = load <4 x i32>, <4 x i32> *%px, align 16			%x = load <4 x i32>, <4 x i32> *%px, align 16
	%y = load <4 x i32>, <4 x i32> *%py, align 16			%y = load <4 x i32>, <4 x i32> *%py, align 16
	%mask = load <4 x i32>, <4 x i32> *%pmask, align 16			%mask = load <4 x i32>, <4 x i32> *%pmask, align 16
	%notmask = xor <4 x i32> %mask, <i32 -1, i32 -1, i32 -1, i32 -1>			%notmask = xor <4 x i32> %mask, <i32 -1, i32 -1, i32 -1, i32 -1>
	%n0 = xor <4 x i32> %x, <i32 -1, i32 -1, i32 -1, i32 -1> ; %x			%n0 = xor <4 x i32> %x, <i32 -1, i32 -1, i32 -1, i32 -1> ; %x
	▲ Show 20 Lines • Show All 451 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec-copysign-avx512.ll

Show All 37 Lines	; AVX512VLDQ-NEXT: retq
ret <8 x float> %tmp		ret <8 x float> %tmp
}		}

define <16 x float> @v16f32(<16 x float> %a, <16 x float> %b) nounwind {		define <16 x float> @v16f32(<16 x float> %a, <16 x float> %b) nounwind {
; AVX512VL-LABEL: v16f32:		; AVX512VL-LABEL: v16f32:
; AVX512VL: ## %bb.0:		; AVX512VL: ## %bb.0:
; AVX512VL-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm1, %zmm1		; AVX512VL-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm1, %zmm1
; AVX512VL-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm0		; AVX512VL-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm0
; AVX512VL-NEXT: vporq %zmm1, %zmm0, %zmm0		; AVX512VL-NEXT: vpord %zmm1, %zmm0, %zmm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512VLDQ-LABEL: v16f32:		; AVX512VLDQ-LABEL: v16f32:
; AVX512VLDQ: ## %bb.0:		; AVX512VLDQ: ## %bb.0:
; AVX512VLDQ-NEXT: vandps {{.*}}(%rip){1to16}, %zmm1, %zmm1		; AVX512VLDQ-NEXT: vandps {{.*}}(%rip){1to16}, %zmm1, %zmm1
; AVX512VLDQ-NEXT: vandps {{.*}}(%rip){1to16}, %zmm0, %zmm0		; AVX512VLDQ-NEXT: vandps {{.*}}(%rip){1to16}, %zmm0, %zmm0
; AVX512VLDQ-NEXT: vorps %zmm1, %zmm0, %zmm0		; AVX512VLDQ-NEXT: vorps %zmm1, %zmm0, %zmm0
; AVX512VLDQ-NEXT: retq		; AVX512VLDQ-NEXT: retq
▲ Show 20 Lines • Show All 58 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-bitreverse.ll

	Show First 20 Lines • Show All 2,040 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: test_bitreverse_v16i32:			; AVX512F-LABEL: test_bitreverse_v16i32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpsrld $24, %zmm0, %zmm1			; AVX512F-NEXT: vpsrld $24, %zmm0, %zmm1
	; AVX512F-NEXT: vpsrld $8, %zmm0, %zmm2			; AVX512F-NEXT: vpsrld $8, %zmm0, %zmm2
	; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm2, %zmm2			; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm2, %zmm2
	; AVX512F-NEXT: vporq %zmm1, %zmm2, %zmm1			; AVX512F-NEXT: vpord %zmm1, %zmm2, %zmm1
	; AVX512F-NEXT: vpslld $24, %zmm0, %zmm2			; AVX512F-NEXT: vpslld $24, %zmm0, %zmm2
	; AVX512F-NEXT: vpslld $8, %zmm0, %zmm0			; AVX512F-NEXT: vpslld $8, %zmm0, %zmm0
	; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm0			; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm0
	; AVX512F-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vporq %zmm0, %zmm2, %zmm0			; AVX512F-NEXT: vpord %zmm0, %zmm2, %zmm0
	; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm1			; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm1
	; AVX512F-NEXT: vpslld $4, %zmm1, %zmm1			; AVX512F-NEXT: vpslld $4, %zmm1, %zmm1
	; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm0			; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm0
	; AVX512F-NEXT: vpsrld $4, %zmm0, %zmm0			; AVX512F-NEXT: vpsrld $4, %zmm0, %zmm0
	; AVX512F-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm1			; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm1
	; AVX512F-NEXT: vpslld $2, %zmm1, %zmm1			; AVX512F-NEXT: vpslld $2, %zmm1, %zmm1
	; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm0			; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm0
	; AVX512F-NEXT: vpsrld $2, %zmm0, %zmm0			; AVX512F-NEXT: vpsrld $2, %zmm0, %zmm0
	; AVX512F-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm1			; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm1
	; AVX512F-NEXT: vpslld $1, %zmm1, %zmm1			; AVX512F-NEXT: vpslld $1, %zmm1, %zmm1
	; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm0			; AVX512F-NEXT: vpandd {{.*}}(%rip){1to16}, %zmm0, %zmm0
	; AVX512F-NEXT: vpsrld $1, %zmm0, %zmm0			; AVX512F-NEXT: vpsrld $1, %zmm0, %zmm0
	; AVX512F-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_bitreverse_v16i32:			; AVX512BW-LABEL: test_bitreverse_v16i32:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpshufb {{.*#+}} zmm0 = zmm0[3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12,19,18,17,16,23,22,21,20,27,26,25,24,31,30,29,28,35,34,33,32,39,38,37,36,43,42,41,40,47,46,45,44,51,50,49,48,55,54,53,52,59,58,57,56,63,62,61,60]			; AVX512BW-NEXT: vpshufb {{.*#+}} zmm0 = zmm0[3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12,19,18,17,16,23,22,21,20,27,26,25,24,31,30,29,28,35,34,33,32,39,38,37,36,43,42,41,40,47,46,45,44,51,50,49,48,55,54,53,52,59,58,57,56,63,62,61,60]
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240,0,128,64,192,32,160,96,224,16,144,80,208,48,176,112,240]
	▲ Show 20 Lines • Show All 483 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-lzcnt-512.ll

	Show First 20 Lines • Show All 166 Lines • ▼ Show 20 Lines
	; AVX512CDBW-LABEL: testv16i32:			; AVX512CDBW-LABEL: testv16i32:
	; AVX512CDBW: # %bb.0:			; AVX512CDBW: # %bb.0:
	; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv16i32:			; AVX512BW-LABEL: testv16i32:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsrld $1, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $1, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $2, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $2, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $8, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $16, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $16, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0			; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]			; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]
	; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]			; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]
	; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512DQ-LABEL: testv16i32:			; AVX512DQ-LABEL: testv16i32:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpsrld $1, %zmm0, %zmm1			; AVX512DQ-NEXT: vpsrld $1, %zmm0, %zmm1
	; AVX512DQ-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpsrld $2, %zmm0, %zmm1			; AVX512DQ-NEXT: vpsrld $2, %zmm0, %zmm1
	; AVX512DQ-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpsrld $4, %zmm0, %zmm1			; AVX512DQ-NEXT: vpsrld $4, %zmm0, %zmm1
	; AVX512DQ-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpsrld $8, %zmm0, %zmm1			; AVX512DQ-NEXT: vpsrld $8, %zmm0, %zmm1
	; AVX512DQ-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpsrld $16, %zmm0, %zmm1			; AVX512DQ-NEXT: vpsrld $16, %zmm0, %zmm1
	; AVX512DQ-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0			; AVX512DQ-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; AVX512DQ-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512DQ-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512DQ-NEXT: vpand %ymm2, %ymm1, %ymm3			; AVX512DQ-NEXT: vpand %ymm2, %ymm1, %ymm3
	; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512DQ-NEXT: vpshufb %ymm3, %ymm4, %ymm3			; AVX512DQ-NEXT: vpshufb %ymm3, %ymm4, %ymm3
	; AVX512DQ-NEXT: vpsrlw $4, %ymm1, %ymm1			; AVX512DQ-NEXT: vpsrlw $4, %ymm1, %ymm1
	; AVX512DQ-NEXT: vpand %ymm2, %ymm1, %ymm1			; AVX512DQ-NEXT: vpand %ymm2, %ymm1, %ymm1
	Show All 31 Lines
	; AVX512CDBW-LABEL: testv16i32u:			; AVX512CDBW-LABEL: testv16i32u:
	; AVX512CDBW: # %bb.0:			; AVX512CDBW: # %bb.0:
	; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv16i32u:			; AVX512BW-LABEL: testv16i32u:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsrld $1, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $1, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $2, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $2, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $8, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $8, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $16, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrld $16, %zmm0, %zmm1
	; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2			; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm2
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0			; AVX512BW-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]			; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]
	; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]			; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]
	; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512DQ-LABEL: testv16i32u:			; AVX512DQ-LABEL: testv16i32u:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpsrld $1, %zmm0, %zmm1			; AVX512DQ-NEXT: vpsrld $1, %zmm0, %zmm1
	; AVX512DQ-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpsrld $2, %zmm0, %zmm1			; AVX512DQ-NEXT: vpsrld $2, %zmm0, %zmm1
	; AVX512DQ-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpsrld $4, %zmm0, %zmm1			; AVX512DQ-NEXT: vpsrld $4, %zmm0, %zmm1
	; AVX512DQ-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpsrld $8, %zmm0, %zmm1			; AVX512DQ-NEXT: vpsrld $8, %zmm0, %zmm1
	; AVX512DQ-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpsrld $16, %zmm0, %zmm1			; AVX512DQ-NEXT: vpsrld $16, %zmm0, %zmm1
	; AVX512DQ-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0			; AVX512DQ-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; AVX512DQ-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512DQ-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX512DQ-NEXT: vpand %ymm2, %ymm1, %ymm3			; AVX512DQ-NEXT: vpand %ymm2, %ymm1, %ymm3
	; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]			; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX512DQ-NEXT: vpshufb %ymm3, %ymm4, %ymm3			; AVX512DQ-NEXT: vpshufb %ymm3, %ymm4, %ymm3
	; AVX512DQ-NEXT: vpsrlw $4, %ymm1, %ymm1			; AVX512DQ-NEXT: vpsrlw $4, %ymm1, %ymm1
	; AVX512DQ-NEXT: vpand %ymm2, %ymm1, %ymm1			; AVX512DQ-NEXT: vpand %ymm2, %ymm1, %ymm1
	▲ Show 20 Lines • Show All 389 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-and.ll

	Show First 20 Lines • Show All 303 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v32i32(<32 x i32> %a0) {			define i32 @test_v32i32(<32 x i32> %a0) {
	Show All 40 Lines
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 637 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-or.ll

	Show First 20 Lines • Show All 303 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v32i32(<32 x i32> %a0) {			define i32 @test_v32i32(<32 x i32> %a0) {
	Show All 40 Lines
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 637 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-xor.ll

	Show First 20 Lines • Show All 303 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v32i32(<32 x i32> %a0) {			define i32 @test_v32i32(<32 x i32> %a0) {
	Show All 40 Lines
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 637 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-rotate-512.ll

Show First 20 Lines • Show All 870 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%or = or <8 x i64> %lmask, %rmask		%or = or <8 x i64> %lmask, %rmask
ret <8 x i64> %or		ret <8 x i64> %or
}		}

define <16 x i32> @splatconstant_rotate_mask_v16i32(<16 x i32> %a) nounwind {		define <16 x i32> @splatconstant_rotate_mask_v16i32(<16 x i32> %a) nounwind {
; AVX512-LABEL: splatconstant_rotate_mask_v16i32:		; AVX512-LABEL: splatconstant_rotate_mask_v16i32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vprold $4, %zmm0, %zmm0		; AVX512-NEXT: vprold $4, %zmm0, %zmm0
; AVX512-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0		; AVX512-NEXT: vpandd {{.*}}(%rip), %zmm0, %zmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%shl = shl <16 x i32> %a, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>		%shl = shl <16 x i32> %a, <i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4, i32 4>
%lshr = lshr <16 x i32> %a, <i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28>		%lshr = lshr <16 x i32> %a, <i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28, i32 28>
%rmask = and <16 x i32> %lshr, <i32 3, i32 7, i32 15, i32 31, i32 63, i32 127, i32 255, i32 511, i32 3, i32 7, i32 15, i32 31, i32 63, i32 127, i32 255, i32 511>		%rmask = and <16 x i32> %lshr, <i32 3, i32 7, i32 15, i32 31, i32 63, i32 127, i32 255, i32 511, i32 3, i32 7, i32 15, i32 31, i32 63, i32 127, i32 255, i32 511>
%lmask = and <16 x i32> %shl, <i32 511, i32 255, i32 127, i32 63, i32 31, i32 15, i32 7, i32 3, i32 511, i32 255, i32 127, i32 63, i32 31, i32 15, i32 7, i32 3>		%lmask = and <16 x i32> %shl, <i32 511, i32 255, i32 127, i32 63, i32 31, i32 15, i32 7, i32 3, i32 511, i32 255, i32 127, i32 63, i32 31, i32 15, i32 7, i32 3>
%or = or <16 x i32> %lmask, %rmask		%or = or <16 x i32> %lmask, %rmask
ret <16 x i32> %or		ret <16 x i32> %or
}		}
▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
; AVX512VL-NEXT: vpand %ymm4, %ymm1, %ymm1		; AVX512VL-NEXT: vpand %ymm4, %ymm1, %ymm1
; AVX512VL-NEXT: vpor %ymm3, %ymm1, %ymm1		; AVX512VL-NEXT: vpor %ymm3, %ymm1, %ymm1
; AVX512VL-NEXT: vpand %ymm2, %ymm1, %ymm1		; AVX512VL-NEXT: vpand %ymm2, %ymm1, %ymm1
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: splatconstant_rotate_mask_v64i8:		; AVX512BW-LABEL: splatconstant_rotate_mask_v64i8:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm1		; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm1
; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0		; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0		; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0
; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0
; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1		; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
; AVX512BW-NEXT: vporq %zmm0, %zmm1, %zmm0		; AVX512BW-NEXT: vporq %zmm0, %zmm1, %zmm0
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512VLBW-LABEL: splatconstant_rotate_mask_v64i8:		; AVX512VLBW-LABEL: splatconstant_rotate_mask_v64i8:
; AVX512VLBW: # %bb.0:		; AVX512VLBW: # %bb.0:
; AVX512VLBW-NEXT: vpsllw $4, %zmm0, %zmm1		; AVX512VLBW-NEXT: vpsllw $4, %zmm0, %zmm1
; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
; AVX512VLBW-NEXT: vpsrlw $4, %zmm0, %zmm0		; AVX512VLBW-NEXT: vpsrlw $4, %zmm0, %zmm0
; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0		; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0
; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0
; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1		; AVX512VLBW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
; AVX512VLBW-NEXT: vporq %zmm0, %zmm1, %zmm0		; AVX512VLBW-NEXT: vporq %zmm0, %zmm1, %zmm0
; AVX512VLBW-NEXT: retq		; AVX512VLBW-NEXT: retq
%shl = shl <64 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>		%shl = shl <64 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
%lshr = lshr <64 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>		%lshr = lshr <64 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
%rmask = and <64 x i8> %lshr, <i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55>		%rmask = and <64 x i8> %lshr, <i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55>
%lmask = and <64 x i8> %shl, <i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33>		%lmask = and <64 x i8> %shl, <i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33>
%or = or <64 x i8> %lmask, %rmask		%or = or <64 x i8> %lmask, %rmask
ret <64 x i8> %or		ret <64 x i8> %or
}		}

llvm/trunk/test/CodeGen/X86/vector-trunc-math.ll

	Show First 20 Lines • Show All 3,499 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_and_v16i32_v16i8:			; AVX512-LABEL: trunc_and_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = and <16 x i32> %a0, %a1			%1 = and <16 x i32> %a0, %a1
	%2 = trunc <16 x i32> %1 to <16 x i8>			%2 = trunc <16 x i32> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	▲ Show 20 Lines • Show All 787 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_xor_v16i32_v16i8:			; AVX512-LABEL: trunc_xor_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = xor <16 x i32> %a0, %a1			%1 = xor <16 x i32> %a0, %a1
	%2 = trunc <16 x i32> %1 to <16 x i8>			%2 = trunc <16 x i32> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	▲ Show 20 Lines • Show All 787 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_or_v16i32_v16i8:			; AVX512-LABEL: trunc_or_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = or <16 x i32> %a0, %a1			%1 = or <16 x i32> %a0, %a1
	%2 = trunc <16 x i32> %1 to <16 x i8>			%2 = trunc <16 x i32> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	▲ Show 20 Lines • Show All 566 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-tzcnt-512.ll

Show First 20 Lines • Show All 122 Lines • ▼ Show 20 Lines	; BITALG-NEXT: retq
ret <8 x i64> %out		ret <8 x i64> %out
}		}

define <16 x i32> @testv16i32(<16 x i32> %in) nounwind {		define <16 x i32> @testv16i32(<16 x i32> %in) nounwind {
; AVX512CD-LABEL: testv16i32:		; AVX512CD-LABEL: testv16i32:
; AVX512CD: # %bb.0:		; AVX512CD: # %bb.0:
; AVX512CD-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; AVX512CD-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; AVX512CD-NEXT: vpaddd %zmm1, %zmm0, %zmm1		; AVX512CD-NEXT: vpaddd %zmm1, %zmm0, %zmm1
; AVX512CD-NEXT: vpandnq %zmm1, %zmm0, %zmm0		; AVX512CD-NEXT: vpandnd %zmm1, %zmm0, %zmm0
; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0		; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0
; AVX512CD-NEXT: vpbroadcastd {{.*#+}} zmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]		; AVX512CD-NEXT: vpbroadcastd {{.*#+}} zmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
; AVX512CD-NEXT: vpsubd %zmm0, %zmm1, %zmm0		; AVX512CD-NEXT: vpsubd %zmm0, %zmm1, %zmm0
; AVX512CD-NEXT: retq		; AVX512CD-NEXT: retq
;		;
; AVX512CDBW-LABEL: testv16i32:		; AVX512CDBW-LABEL: testv16i32:
; AVX512CDBW: # %bb.0:		; AVX512CDBW: # %bb.0:
; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; AVX512CDBW-NEXT: vpaddd %zmm1, %zmm0, %zmm1		; AVX512CDBW-NEXT: vpaddd %zmm1, %zmm0, %zmm1
; AVX512CDBW-NEXT: vpandnq %zmm1, %zmm0, %zmm0		; AVX512CDBW-NEXT: vpandnd %zmm1, %zmm0, %zmm0
; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0		; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0
; AVX512CDBW-NEXT: vpbroadcastd {{.*#+}} zmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]		; AVX512CDBW-NEXT: vpbroadcastd {{.*#+}} zmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
; AVX512CDBW-NEXT: vpsubd %zmm0, %zmm1, %zmm0		; AVX512CDBW-NEXT: vpsubd %zmm0, %zmm1, %zmm0
; AVX512CDBW-NEXT: retq		; AVX512CDBW-NEXT: retq
;		;
; AVX512BW-LABEL: testv16i32:		; AVX512BW-LABEL: testv16i32:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm1		; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm1
; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpandnd %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2		; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]		; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2		; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0		; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0		; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0		; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]		; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]
; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2		; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2
; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]		; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]
; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0		; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512VPOPCNTDQ-LABEL: testv16i32:		; AVX512VPOPCNTDQ-LABEL: testv16i32:
; AVX512VPOPCNTDQ: # %bb.0:		; AVX512VPOPCNTDQ: # %bb.0:
; AVX512VPOPCNTDQ-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; AVX512VPOPCNTDQ-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; AVX512VPOPCNTDQ-NEXT: vpaddd %zmm1, %zmm0, %zmm1		; AVX512VPOPCNTDQ-NEXT: vpaddd %zmm1, %zmm0, %zmm1
; AVX512VPOPCNTDQ-NEXT: vpandnq %zmm1, %zmm0, %zmm0		; AVX512VPOPCNTDQ-NEXT: vpandnd %zmm1, %zmm0, %zmm0
; AVX512VPOPCNTDQ-NEXT: vpopcntd %zmm0, %zmm0		; AVX512VPOPCNTDQ-NEXT: vpopcntd %zmm0, %zmm0
; AVX512VPOPCNTDQ-NEXT: retq		; AVX512VPOPCNTDQ-NEXT: retq
;		;
; BITALG-LABEL: testv16i32:		; BITALG-LABEL: testv16i32:
; BITALG: # %bb.0:		; BITALG: # %bb.0:
; BITALG-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; BITALG-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; BITALG-NEXT: vpaddd %zmm1, %zmm0, %zmm1		; BITALG-NEXT: vpaddd %zmm1, %zmm0, %zmm1
; BITALG-NEXT: vpandnq %zmm1, %zmm0, %zmm0		; BITALG-NEXT: vpandnd %zmm1, %zmm0, %zmm0
; BITALG-NEXT: vpopcntb %zmm0, %zmm0		; BITALG-NEXT: vpopcntb %zmm0, %zmm0
; BITALG-NEXT: vpxor %xmm1, %xmm1, %xmm1		; BITALG-NEXT: vpxor %xmm1, %xmm1, %xmm1
; BITALG-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]		; BITALG-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]
; BITALG-NEXT: vpsadbw %zmm1, %zmm2, %zmm2		; BITALG-NEXT: vpsadbw %zmm1, %zmm2, %zmm2
; BITALG-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]		; BITALG-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]
; BITALG-NEXT: vpsadbw %zmm1, %zmm0, %zmm0		; BITALG-NEXT: vpsadbw %zmm1, %zmm0, %zmm0
; BITALG-NEXT: vpackuswb %zmm2, %zmm0, %zmm0		; BITALG-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
; BITALG-NEXT: retq		; BITALG-NEXT: retq
%out = call <16 x i32> @llvm.cttz.v16i32(<16 x i32> %in, i1 0)		%out = call <16 x i32> @llvm.cttz.v16i32(<16 x i32> %in, i1 0)
ret <16 x i32> %out		ret <16 x i32> %out
}		}

define <16 x i32> @testv16i32u(<16 x i32> %in) nounwind {		define <16 x i32> @testv16i32u(<16 x i32> %in) nounwind {
; AVX512CD-LABEL: testv16i32u:		; AVX512CD-LABEL: testv16i32u:
; AVX512CD: # %bb.0:		; AVX512CD: # %bb.0:
; AVX512CD-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; AVX512CD-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; AVX512CD-NEXT: vpaddd %zmm1, %zmm0, %zmm1		; AVX512CD-NEXT: vpaddd %zmm1, %zmm0, %zmm1
; AVX512CD-NEXT: vpandnq %zmm1, %zmm0, %zmm0		; AVX512CD-NEXT: vpandnd %zmm1, %zmm0, %zmm0
; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0		; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0
; AVX512CD-NEXT: vpbroadcastd {{.*#+}} zmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]		; AVX512CD-NEXT: vpbroadcastd {{.*#+}} zmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
; AVX512CD-NEXT: vpsubd %zmm0, %zmm1, %zmm0		; AVX512CD-NEXT: vpsubd %zmm0, %zmm1, %zmm0
; AVX512CD-NEXT: retq		; AVX512CD-NEXT: retq
;		;
; AVX512CDBW-LABEL: testv16i32u:		; AVX512CDBW-LABEL: testv16i32u:
; AVX512CDBW: # %bb.0:		; AVX512CDBW: # %bb.0:
; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; AVX512CDBW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; AVX512CDBW-NEXT: vpaddd %zmm1, %zmm0, %zmm1		; AVX512CDBW-NEXT: vpaddd %zmm1, %zmm0, %zmm1
; AVX512CDBW-NEXT: vpandnq %zmm1, %zmm0, %zmm0		; AVX512CDBW-NEXT: vpandnd %zmm1, %zmm0, %zmm0
; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0		; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0
; AVX512CDBW-NEXT: vpbroadcastd {{.*#+}} zmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]		; AVX512CDBW-NEXT: vpbroadcastd {{.*#+}} zmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
; AVX512CDBW-NEXT: vpsubd %zmm0, %zmm1, %zmm0		; AVX512CDBW-NEXT: vpsubd %zmm0, %zmm1, %zmm0
; AVX512CDBW-NEXT: retq		; AVX512CDBW-NEXT: retq
;		;
; AVX512BW-LABEL: testv16i32u:		; AVX512BW-LABEL: testv16i32u:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; AVX512BW-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm1		; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm1
; AVX512BW-NEXT: vpandnq %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpandnd %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2		; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm2
; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]		; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2		; AVX512BW-NEXT: vpshufb %zmm2, %zmm3, %zmm2
; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0		; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0		; AVX512BW-NEXT: vpshufb %zmm0, %zmm3, %zmm0
; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0		; AVX512BW-NEXT: vpaddb %zmm2, %zmm0, %zmm0
; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]		; AVX512BW-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]
; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2		; AVX512BW-NEXT: vpsadbw %zmm1, %zmm2, %zmm2
; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]		; AVX512BW-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]
; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpsadbw %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0		; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512VPOPCNTDQ-LABEL: testv16i32u:		; AVX512VPOPCNTDQ-LABEL: testv16i32u:
; AVX512VPOPCNTDQ: # %bb.0:		; AVX512VPOPCNTDQ: # %bb.0:
; AVX512VPOPCNTDQ-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; AVX512VPOPCNTDQ-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; AVX512VPOPCNTDQ-NEXT: vpaddd %zmm1, %zmm0, %zmm1		; AVX512VPOPCNTDQ-NEXT: vpaddd %zmm1, %zmm0, %zmm1
; AVX512VPOPCNTDQ-NEXT: vpandnq %zmm1, %zmm0, %zmm0		; AVX512VPOPCNTDQ-NEXT: vpandnd %zmm1, %zmm0, %zmm0
; AVX512VPOPCNTDQ-NEXT: vpopcntd %zmm0, %zmm0		; AVX512VPOPCNTDQ-NEXT: vpopcntd %zmm0, %zmm0
; AVX512VPOPCNTDQ-NEXT: retq		; AVX512VPOPCNTDQ-NEXT: retq
;		;
; BITALG-LABEL: testv16i32u:		; BITALG-LABEL: testv16i32u:
; BITALG: # %bb.0:		; BITALG: # %bb.0:
; BITALG-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1		; BITALG-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1
; BITALG-NEXT: vpaddd %zmm1, %zmm0, %zmm1		; BITALG-NEXT: vpaddd %zmm1, %zmm0, %zmm1
; BITALG-NEXT: vpandnq %zmm1, %zmm0, %zmm0		; BITALG-NEXT: vpandnd %zmm1, %zmm0, %zmm0
; BITALG-NEXT: vpopcntb %zmm0, %zmm0		; BITALG-NEXT: vpopcntb %zmm0, %zmm0
; BITALG-NEXT: vpxor %xmm1, %xmm1, %xmm1		; BITALG-NEXT: vpxor %xmm1, %xmm1, %xmm1
; BITALG-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]		; BITALG-NEXT: vpunpckhdq {{.*#+}} zmm2 = zmm0[2],zmm1[2],zmm0[3],zmm1[3],zmm0[6],zmm1[6],zmm0[7],zmm1[7],zmm0[10],zmm1[10],zmm0[11],zmm1[11],zmm0[14],zmm1[14],zmm0[15],zmm1[15]
; BITALG-NEXT: vpsadbw %zmm1, %zmm2, %zmm2		; BITALG-NEXT: vpsadbw %zmm1, %zmm2, %zmm2
; BITALG-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]		; BITALG-NEXT: vpunpckldq {{.*#+}} zmm0 = zmm0[0],zmm1[0],zmm0[1],zmm1[1],zmm0[4],zmm1[4],zmm0[5],zmm1[5],zmm0[8],zmm1[8],zmm0[9],zmm1[9],zmm0[12],zmm1[12],zmm0[13],zmm1[13]
; BITALG-NEXT: vpsadbw %zmm1, %zmm0, %zmm0		; BITALG-NEXT: vpsadbw %zmm1, %zmm0, %zmm0
; BITALG-NEXT: vpackuswb %zmm2, %zmm0, %zmm0		; BITALG-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
; BITALG-NEXT: retq		; BITALG-NEXT: retq
▲ Show 20 Lines • Show All 368 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Stop promoting and/or/xor/andn to vXi64.
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 171317

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

llvm/trunk/lib/Target/X86/X86InstrAVX512.td

llvm/trunk/lib/Target/X86/X86InstrFragmentsSIMD.td

llvm/trunk/lib/Target/X86/X86InstrSSE.td

llvm/trunk/lib/Target/X86/X86InstrXOP.td

llvm/trunk/test/CodeGen/X86/avx512-arith.ll

llvm/trunk/test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

llvm/trunk/test/CodeGen/X86/avx512-intrinsics-upgrade.ll

llvm/trunk/test/CodeGen/X86/avx512-logic.ll

llvm/trunk/test/CodeGen/X86/avx512-mask-op.ll

llvm/trunk/test/CodeGen/X86/avx512-schedule.ll

llvm/trunk/test/CodeGen/X86/avx512-select.ll

llvm/trunk/test/CodeGen/X86/bitcast-int-to-vector-bool-sext.ll

llvm/trunk/test/CodeGen/X86/bitcast-int-to-vector-bool-zext.ll

llvm/trunk/test/CodeGen/X86/bitcast-setcc-128.ll

llvm/trunk/test/CodeGen/X86/broadcast-elm-cross-splat-vec.ll

llvm/trunk/test/CodeGen/X86/movmsk-cmp.ll

llvm/trunk/test/CodeGen/X86/psubus.ll

llvm/trunk/test/CodeGen/X86/sat-add.ll

llvm/trunk/test/CodeGen/X86/unfold-masked-merge-vector-variablemask-const.ll

llvm/trunk/test/CodeGen/X86/vec-copysign-avx512.ll

llvm/trunk/test/CodeGen/X86/vector-bitreverse.ll

llvm/trunk/test/CodeGen/X86/vector-lzcnt-512.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-and.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-or.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-xor.ll

llvm/trunk/test/CodeGen/X86/vector-rotate-512.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-math.ll

llvm/trunk/test/CodeGen/X86/vector-tzcnt-512.ll

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Stop promoting and/or/xor/andn to vXi64.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 171317

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

llvm/trunk/lib/Target/X86/X86InstrAVX512.td

llvm/trunk/lib/Target/X86/X86InstrFragmentsSIMD.td

llvm/trunk/lib/Target/X86/X86InstrSSE.td

llvm/trunk/lib/Target/X86/X86InstrXOP.td

llvm/trunk/test/CodeGen/X86/avx512-arith.ll

llvm/trunk/test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

llvm/trunk/test/CodeGen/X86/avx512-intrinsics-upgrade.ll

llvm/trunk/test/CodeGen/X86/avx512-logic.ll

llvm/trunk/test/CodeGen/X86/avx512-mask-op.ll

llvm/trunk/test/CodeGen/X86/avx512-schedule.ll

llvm/trunk/test/CodeGen/X86/avx512-select.ll

llvm/trunk/test/CodeGen/X86/bitcast-int-to-vector-bool-sext.ll

llvm/trunk/test/CodeGen/X86/bitcast-int-to-vector-bool-zext.ll

llvm/trunk/test/CodeGen/X86/bitcast-setcc-128.ll

llvm/trunk/test/CodeGen/X86/broadcast-elm-cross-splat-vec.ll

llvm/trunk/test/CodeGen/X86/movmsk-cmp.ll

llvm/trunk/test/CodeGen/X86/psubus.ll

llvm/trunk/test/CodeGen/X86/sat-add.ll

llvm/trunk/test/CodeGen/X86/unfold-masked-merge-vector-variablemask-const.ll

llvm/trunk/test/CodeGen/X86/vec-copysign-avx512.ll

llvm/trunk/test/CodeGen/X86/vector-bitreverse.ll

llvm/trunk/test/CodeGen/X86/vector-lzcnt-512.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-and.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-or.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-xor.ll

llvm/trunk/test/CodeGen/X86/vector-rotate-512.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-math.ll

llvm/trunk/test/CodeGen/X86/vector-tzcnt-512.ll

[X86] Stop promoting and/or/xor/andn to vXi64.
ClosedPublic