This is an archive of the discontinued LLVM Phabricator instance.

[x86] improve codegen for non-splat bit-masked vector compare and select (PR46531)
ClosedPublic

Authored by spatel on Jul 5 2020, 1:12 PM.

Download Raw Diff

Details

Reviewers

RKSimon
craig.topper
lebedev.ri

Commits

rG91149002872f: [x86] improve codegen for non-splat bit-masked vector compare and select…

Summary

vselect ((X & Pow2C) == 0), LHS, RHS --> vselect ((shl X, C') < 0), RHS, LHS

Follow-up to D83073 - the non-splat mask cases where we actually see an improvement are quite limited from what I can tell. AVX1 needs multiply and blend capabilities and AVX2 needs vector shift and blend capabilities. The intersection of those 2 constraints is only vectors with 32-bit or 64-bit elements.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

spatel created this revision.Jul 5 2020, 1:12 PM

Herald added a project: Restricted Project. · View Herald TranscriptJul 5 2020, 1:12 PM

Herald added subscribers: hiraditya, mcrosier. · View Herald Transcript

RKSimon mentioned this in rGd6c72bdca2f2: [X86][XOP] Add XOP target vselect-pcmp tests.Jul 6 2020, 6:01 AM

RKSimon added inline comments.Jul 6 2020, 6:15 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
40260	XOP has more vector shifts and vpcmov which should allow 8/16-bit cases as well - I added testing at rGd6c72bdca2f2

spatel mentioned this in rGdbfcf6eb721a: [x86] add tests for vector select with non-splat bit-test condition; NFC.Jul 6 2020, 6:53 AM

spatel marked an inline comment as done.Jul 6 2020, 7:20 AM

spatel added inline comments.

llvm/lib/Target/X86/X86ISelLowering.cpp
40260	Ok - I'll enable XOP for all legal types, and we can decide if we need to exclude any types based on those diffs. I don't have a good sense of what's good/bad/possible with those instructions.

Patch updated:
Enable transform for XOP targets.

LGTM - cheers

llvm/lib/Target/X86/X86ISelLowering.cpp
40269	unsigned i = 0, e = VT.getVectorNumElements(); i != e; ++i

This revision is now accepted and ready to land.Jul 7 2020, 9:32 AM

spatel marked an inline comment as done.Jul 8 2020, 5:15 AM

Closed by commit rG91149002872f: [x86] improve codegen for non-splat bit-masked vector compare and select… (authored by spatel). · Explain WhyJul 8 2020, 5:23 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

40 lines

test/

CodeGen/

X86/

vselect-pcmp.ll

128 lines

Diff 276386

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 40,251 Lines • ▼ Show 20 Lines	static SDValue combineSelect(SDNode *N, SelectionDAG &DAG,
if (!TLI.isTypeLegal(VT))		if (!TLI.isTypeLegal(VT))
return SDValue();		return SDValue();

if (SDValue V = combineVSelectWithAllOnesOrZeros(N, DAG, DCI, Subtarget))		if (SDValue V = combineVSelectWithAllOnesOrZeros(N, DAG, DCI, Subtarget))
return V;		return V;

if (SDValue V = combineVSelectToBLENDV(N, DAG, DCI, Subtarget))		if (SDValue V = combineVSelectToBLENDV(N, DAG, DCI, Subtarget))
return V;		return V;

		RKSimonUnsubmitted Done Reply Inline Actions XOP has more vector shifts and vpcmov which should allow 8/16-bit cases as well - I added testing at rGd6c72bdca2f2 RKSimon: XOP has more vector shifts and vpcmov which should allow 8/16-bit cases as well - I added…
		spatelAuthorUnsubmitted Done Reply Inline Actions Ok - I'll enable XOP for all legal types, and we can decide if we need to exclude any types based on those diffs. I don't have a good sense of what's good/bad/possible with those instructions. spatel: Ok - I'll enable XOP for all legal types, and we can decide if we need to exclude any types…
if (SDValue V = narrowVectorSelect(N, DAG, Subtarget))		if (SDValue V = narrowVectorSelect(N, DAG, Subtarget))
return V;		return V;

// select(~Cond, X, Y) -> select(Cond, Y, X)		// select(~Cond, X, Y) -> select(Cond, Y, X)
if (CondVT.getScalarType() != MVT::i1)		if (CondVT.getScalarType() != MVT::i1)
if (SDValue CondNot = IsNOT(Cond, DAG))		if (SDValue CondNot = IsNOT(Cond, DAG))
return DAG.getNode(N->getOpcode(), DL, VT,		return DAG.getNode(N->getOpcode(), DL, VT,
DAG.getBitcast(CondVT, CondNot), RHS, LHS);		DAG.getBitcast(CondVT, CondNot), RHS, LHS);

		RKSimonUnsubmitted Done Reply Inline Actions unsigned i = 0, e = VT.getVectorNumElements(); i != e; ++i RKSimon: unsigned i = 0, e = VT.getVectorNumElements(); i != e; ++i
// Try to optimize vXi1 selects if both operands are either all constants or		// Try to optimize vXi1 selects if both operands are either all constants or
// bitcasts from scalar integer type. In that case we can convert the operands		// bitcasts from scalar integer type. In that case we can convert the operands
// to integer and use an integer select which will be converted to a CMOV.		// to integer and use an integer select which will be converted to a CMOV.
// We need to take a little bit of care to avoid creating an i64 type after		// We need to take a little bit of care to avoid creating an i64 type after
// type legalization.		// type legalization.
if (N->getOpcode() == ISD::SELECT && VT.isVector() &&		if (N->getOpcode() == ISD::SELECT && VT.isVector() &&
VT.getVectorElementType() == MVT::i1 &&		VT.getVectorElementType() == MVT::i1 &&
(DCI.isBeforeLegalize() \|\| (VT != MVT::v64i1 \|\| Subtarget.is64Bit()))) {		(DCI.isBeforeLegalize() \|\| (VT != MVT::v64i1 \|\| Subtarget.is64Bit()))) {
Show All 28 Lines	static SDValue combineSelect(SDNode *N, SelectionDAG &DAG,
if (DCI.isBeforeLegalize() && !Subtarget.hasAVX512() &&		if (DCI.isBeforeLegalize() && !Subtarget.hasAVX512() &&
N->getOpcode() == ISD::VSELECT && Cond.getOpcode() == ISD::SETCC &&		N->getOpcode() == ISD::VSELECT && Cond.getOpcode() == ISD::SETCC &&
Cond.hasOneUse() && CondVT.getVectorElementType() == MVT::i1 &&		Cond.hasOneUse() && CondVT.getVectorElementType() == MVT::i1 &&
Cond.getOperand(0).getOpcode() == ISD::AND &&		Cond.getOperand(0).getOpcode() == ISD::AND &&
isNullOrNullSplat(Cond.getOperand(1)) &&		isNullOrNullSplat(Cond.getOperand(1)) &&
cast<CondCodeSDNode>(Cond.getOperand(2))->get() == ISD::SETEQ &&		cast<CondCodeSDNode>(Cond.getOperand(2))->get() == ISD::SETEQ &&
Cond.getOperand(0).getValueType() == VT) {		Cond.getOperand(0).getValueType() == VT) {
// The 'and' mask must be composed of power-of-2 constants.		// The 'and' mask must be composed of power-of-2 constants.
// TODO: This is limited to splats because the availability/lowering of		SDValue And = Cond.getOperand(0);
// non-uniform shifts and variable blend types is lumpy. Supporting		auto *C = isConstOrConstSplat(And.getOperand(1));
// arbitrary power-of-2 vector constants will make the code more
// complicated and may require target limitations to ensure that the
// transform is profitable.
auto *C = isConstOrConstSplat(Cond.getOperand(0).getOperand(1));
if (C && C->getAPIntValue().isPowerOf2()) {		if (C && C->getAPIntValue().isPowerOf2()) {
// vselect (X & C == 0), LHS, RHS --> vselect (X & C != 0), RHS, LHS		// vselect (X & C == 0), LHS, RHS --> vselect (X & C != 0), RHS, LHS
SDValue NotCond = DAG.getSetCC(DL, CondVT, Cond.getOperand(0),		SDValue NotCond =
Cond.getOperand(1), ISD::SETNE);		DAG.getSetCC(DL, CondVT, And, Cond.getOperand(1), ISD::SETNE);
return DAG.getSelect(DL, VT, NotCond, RHS, LHS);		return DAG.getSelect(DL, VT, NotCond, RHS, LHS);
}		}

		// If we have a non-splat but still powers-of-2 mask, AVX1 can use pmulld
		// and AVX2 can use vpsllv{dq}. 8-bit lacks a proper shift or multiply.
		// 16-bit lacks a proper blendv.
		unsigned EltBitWidth = VT.getScalarSizeInBits();
		bool CanShiftBlend =
		TLI.isTypeLegal(VT) && ((Subtarget.hasAVX() && EltBitWidth == 32) \|\|
		(Subtarget.hasAVX2() && EltBitWidth == 64) \|\|
		(Subtarget.hasXOP()));
		if (CanShiftBlend &&
		ISD::matchUnaryPredicate(And.getOperand(1), [](ConstantSDNode *C) {
		return C->getAPIntValue().isPowerOf2();
		})) {
		// Create a left-shift constant to get the mask bits over to the sign-bit.
		SDValue Mask = And.getOperand(1);
		SmallVector<int, 32> ShlVals;
		for (unsigned i = 0, e = VT.getVectorNumElements(); i != e; ++i) {
		auto *MaskVal = cast<ConstantSDNode>(Mask.getOperand(i));
		ShlVals.push_back(EltBitWidth - 1 -
		MaskVal->getAPIntValue().exactLogBase2());
		}
		// vsel ((X & C) == 0), LHS, RHS --> vsel ((shl X, C') < 0), RHS, LHS
		SDValue ShlAmt = getConstVector(ShlVals, VT.getSimpleVT(), DAG, DL);
		SDValue Shl = DAG.getNode(ISD::SHL, DL, VT, And.getOperand(0), ShlAmt);
		SDValue NewCond =
		DAG.getSetCC(DL, CondVT, Shl, Cond.getOperand(1), ISD::SETLT);
		return DAG.getSelect(DL, VT, NewCond, RHS, LHS);
		}
}		}

return SDValue();		return SDValue();
}		}

/// Combine:		/// Combine:
/// (brcond/cmov/setcc .., (cmp (atomic_load_add x, 1), 0), COND_S)		/// (brcond/cmov/setcc .., (cmp (atomic_load_add x, 1), 0), COND_S)
/// to:		/// to:
▲ Show 20 Lines • Show All 9,758 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vselect-pcmp.ll

	Show First 20 Lines • Show All 925 Lines • ▼ Show 20 Lines
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%a = and <16 x i8> %x, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%a = and <16 x i8> %x, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	%c = icmp eq <16 x i8> %a, zeroinitializer			%c = icmp eq <16 x i8> %a, zeroinitializer
	%r = select <16 x i1> %c, <16 x i8> %y, <16 x i8> %z			%r = select <16 x i1> %c, <16 x i8> %y, <16 x i8> %z
	ret <16 x i8> %r			ret <16 x i8> %r
	}			}

	define <2 x i64> @blend_mask_cond_v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %z) {			define <2 x i64> @blend_mask_cond_v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %z) {
	; AVX12-LABEL: blend_mask_cond_v2i64:			; AVX1-LABEL: blend_mask_cond_v2i64:
	; AVX12: # %bb.0:			; AVX1: # %bb.0:
	; AVX12-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX12-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX12-NEXT: vpcmpeqq %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqq %xmm3, %xmm0, %xmm0
	; AVX12-NEXT: vblendvpd %xmm0, %xmm1, %xmm2, %xmm0			; AVX1-NEXT: vblendvpd %xmm0, %xmm1, %xmm2, %xmm0
	; AVX12-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: blend_mask_cond_v2i64:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vpsllvq {{.*}}(%rip), %xmm0, %xmm0
				; AVX2-NEXT: vblendvpd %xmm0, %xmm2, %xmm1, %xmm0
				; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: blend_mask_cond_v2i64:			; AVX512F-LABEL: blend_mask_cond_v2i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2			; AVX512F-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
	; AVX512F-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1			; AVX512F-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} xmm3 = [1,4]			; AVX512F-NEXT: vmovdqa {{.*#+}} xmm3 = [1,4]
	; AVX512F-NEXT: vptestnmq %zmm3, %zmm0, %k1			; AVX512F-NEXT: vptestnmq %zmm3, %zmm0, %k1
	; AVX512F-NEXT: vpblendmq %zmm1, %zmm2, %zmm0 {%k1}			; AVX512F-NEXT: vpblendmq %zmm1, %zmm2, %zmm0 {%k1}
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: blend_mask_cond_v2i64:			; AVX512VL-LABEL: blend_mask_cond_v2i64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vptestnmq {{.*}}(%rip), %xmm0, %k1			; AVX512VL-NEXT: vptestnmq {{.*}}(%rip), %xmm0, %k1
	; AVX512VL-NEXT: vpblendmq %xmm1, %xmm2, %xmm0 {%k1}			; AVX512VL-NEXT: vpblendmq %xmm1, %xmm2, %xmm0 {%k1}
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOP-LABEL: blend_mask_cond_v2i64:			; XOP-LABEL: blend_mask_cond_v2i64:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpshlq {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3			; XOP-NEXT: vblendvpd %xmm0, %xmm2, %xmm1, %xmm0
	; XOP-NEXT: vpcomeqq %xmm3, %xmm0, %xmm0
	; XOP-NEXT: vblendvpd %xmm0, %xmm1, %xmm2, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%a = and <2 x i64> %x, <i64 1, i64 4>			%a = and <2 x i64> %x, <i64 1, i64 4>
	%c = icmp eq <2 x i64> %a, zeroinitializer			%c = icmp eq <2 x i64> %a, zeroinitializer
	%r = select <2 x i1> %c, <2 x i64> %y, <2 x i64> %z			%r = select <2 x i1> %c, <2 x i64> %y, <2 x i64> %z
	ret <2 x i64> %r			ret <2 x i64> %r
	}			}

	define <4 x i32> @blend_mask_cond_v4i32(<4 x i32> %x, <4 x i32> %y, <4 x i32> %z) {			define <4 x i32> @blend_mask_cond_v4i32(<4 x i32> %x, <4 x i32> %y, <4 x i32> %z) {
	; AVX12-LABEL: blend_mask_cond_v4i32:			; AVX1-LABEL: blend_mask_cond_v4i32:
	; AVX12: # %bb.0:			; AVX1: # %bb.0:
	; AVX12-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; AVX12-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX12-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0			; AVX1-NEXT: retq
	; AVX12-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0			;
	; AVX12-NEXT: retq			; AVX2-LABEL: blend_mask_cond_v4i32:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vpsllvd {{.*}}(%rip), %xmm0, %xmm0
				; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
				; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: blend_mask_cond_v4i32:			; AVX512F-LABEL: blend_mask_cond_v4i32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2			; AVX512F-NEXT: # kill: def $xmm2 killed $xmm2 def $zmm2
	; AVX512F-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1			; AVX512F-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} xmm3 = [65536,512,2,1]			; AVX512F-NEXT: vmovdqa {{.*#+}} xmm3 = [65536,512,2,1]
	; AVX512F-NEXT: vptestnmd %zmm3, %zmm0, %k1			; AVX512F-NEXT: vptestnmd %zmm3, %zmm0, %k1
	; AVX512F-NEXT: vpblendmd %zmm1, %zmm2, %zmm0 {%k1}			; AVX512F-NEXT: vpblendmd %zmm1, %zmm2, %zmm0 {%k1}
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: blend_mask_cond_v4i32:			; AVX512VL-LABEL: blend_mask_cond_v4i32:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vptestnmd {{.*}}(%rip), %xmm0, %k1			; AVX512VL-NEXT: vptestnmd {{.*}}(%rip), %xmm0, %k1
	; AVX512VL-NEXT: vpblendmd %xmm1, %xmm2, %xmm0 {%k1}			; AVX512VL-NEXT: vpblendmd %xmm1, %xmm2, %xmm0 {%k1}
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOP-LABEL: blend_mask_cond_v4i32:			; XOP-LABEL: blend_mask_cond_v4i32:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpshld {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3			; XOP-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; XOP-NEXT: vpcomeqd %xmm3, %xmm0, %xmm0
	; XOP-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%a = and <4 x i32> %x, <i32 65536, i32 512, i32 2, i32 1>			%a = and <4 x i32> %x, <i32 65536, i32 512, i32 2, i32 1>
	%c = icmp eq <4 x i32> %a, zeroinitializer			%c = icmp eq <4 x i32> %a, zeroinitializer
	%r = select <4 x i1> %c, <4 x i32> %y, <4 x i32> %z			%r = select <4 x i1> %c, <4 x i32> %y, <4 x i32> %z
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <8 x i16> @blend_mask_cond_v8i16(<8 x i16> %x, <8 x i16> %y, <8 x i16> %z) {			define <8 x i16> @blend_mask_cond_v8i16(<8 x i16> %x, <8 x i16> %y, <8 x i16> %z) {
	; AVX-LABEL: blend_mask_cond_v8i16:			; AVX-LABEL: blend_mask_cond_v8i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX-NEXT: vpcmpeqw %xmm3, %xmm0, %xmm0			; AVX-NEXT: vpcmpeqw %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpblendvb %xmm0, %xmm1, %xmm2, %xmm0			; AVX-NEXT: vpblendvb %xmm0, %xmm1, %xmm2, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: blend_mask_cond_v8i16:			; XOP-LABEL: blend_mask_cond_v8i16:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3			; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOP-NEXT: vpcomeqw %xmm3, %xmm0, %xmm0			; XOP-NEXT: vpshlw {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpblendvb %xmm0, %xmm1, %xmm2, %xmm0			; XOP-NEXT: vpcomltw %xmm3, %xmm0, %xmm0
				; XOP-NEXT: vpblendvb %xmm0, %xmm2, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%a = and <8 x i16> %x, <i16 1, i16 2, i16 8, i16 4, i16 8, i16 1024, i16 2, i16 4096>			%a = and <8 x i16> %x, <i16 1, i16 2, i16 8, i16 4, i16 8, i16 1024, i16 2, i16 4096>
	%c = icmp eq <8 x i16> %a, zeroinitializer			%c = icmp eq <8 x i16> %a, zeroinitializer
	%r = select <8 x i1> %c, <8 x i16> %y, <8 x i16> %z			%r = select <8 x i1> %c, <8 x i16> %y, <8 x i16> %z
	ret <8 x i16> %r			ret <8 x i16> %r
	}			}

	define <16 x i8> @blend_mask_cond_v16i8(<16 x i8> %x, <16 x i8> %y, <16 x i8> %z) {			define <16 x i8> @blend_mask_cond_v16i8(<16 x i8> %x, <16 x i8> %y, <16 x i8> %z) {
	; AVX-LABEL: blend_mask_cond_v16i8:			; AVX-LABEL: blend_mask_cond_v16i8:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX-NEXT: vpcmpeqb %xmm3, %xmm0, %xmm0			; AVX-NEXT: vpcmpeqb %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpblendvb %xmm0, %xmm1, %xmm2, %xmm0			; AVX-NEXT: vpblendvb %xmm0, %xmm1, %xmm2, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; XOP-LABEL: blend_mask_cond_v16i8:			; XOP-LABEL: blend_mask_cond_v16i8:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpshlb {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3			; XOP-NEXT: vpblendvb %xmm0, %xmm2, %xmm1, %xmm0
	; XOP-NEXT: vpcomeqb %xmm3, %xmm0, %xmm0
	; XOP-NEXT: vpblendvb %xmm0, %xmm1, %xmm2, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%a = and <16 x i8> %x, <i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64, i8 128, i8 4, i8 4, i8 4, i8 4, i8 2, i8 2, i8 2, i8 2>			%a = and <16 x i8> %x, <i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64, i8 128, i8 4, i8 4, i8 4, i8 4, i8 2, i8 2, i8 2, i8 2>
	%c = icmp eq <16 x i8> %a, zeroinitializer			%c = icmp eq <16 x i8> %a, zeroinitializer
	%r = select <16 x i1> %c, <16 x i8> %y, <16 x i8> %z			%r = select <16 x i1> %c, <16 x i8> %y, <16 x i8> %z
	ret <16 x i8> %r			ret <16 x i8> %r
	}			}

	define <4 x i64> @blend_mask_cond_v4i64(<4 x i64> %x, <4 x i64> %y, <4 x i64> %z) {			define <4 x i64> @blend_mask_cond_v4i64(<4 x i64> %x, <4 x i64> %y, <4 x i64> %z) {
	; AVX1-LABEL: blend_mask_cond_v4i64:			; AVX1-LABEL: blend_mask_cond_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpeqq %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqq %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpeqq %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqq %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0			; AVX1-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: blend_mask_cond_v4i64:			; AVX2-LABEL: blend_mask_cond_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpsllvq {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vblendvpd %ymm0, %ymm2, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqq %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: blend_mask_cond_v4i64:			; AVX512F-LABEL: blend_mask_cond_v4i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $ymm2 killed $ymm2 def $zmm2			; AVX512F-NEXT: # kill: def $ymm2 killed $ymm2 def $zmm2
	; AVX512F-NEXT: # kill: def $ymm1 killed $ymm1 def $zmm1			; AVX512F-NEXT: # kill: def $ymm1 killed $ymm1 def $zmm1
	; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm3 = [2,4,32768,1]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm3 = [2,4,32768,1]
	; AVX512F-NEXT: vptestnmq %zmm3, %zmm0, %k1			; AVX512F-NEXT: vptestnmq %zmm3, %zmm0, %k1
	; AVX512F-NEXT: vpblendmq %zmm1, %zmm2, %zmm0 {%k1}			; AVX512F-NEXT: vpblendmq %zmm1, %zmm2, %zmm0 {%k1}
	; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: blend_mask_cond_v4i64:			; AVX512VL-LABEL: blend_mask_cond_v4i64:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vptestnmq {{.*}}(%rip), %ymm0, %k1			; AVX512VL-NEXT: vptestnmq {{.*}}(%rip), %ymm0, %k1
	; AVX512VL-NEXT: vpblendmq %ymm1, %ymm2, %ymm0 {%k1}			; AVX512VL-NEXT: vpblendmq %ymm1, %ymm2, %ymm0 {%k1}
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOP-LABEL: blend_mask_cond_v4i64:			; XOP-LABEL: blend_mask_cond_v4i64:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; XOP-NEXT: vpshlq {{.*}}(%rip), %xmm0, %xmm3
	; XOP-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOP-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOP-NEXT: vpxor %xmm4, %xmm4, %xmm4			; XOP-NEXT: vpshlq {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpcomeqq %xmm4, %xmm3, %xmm3			; XOP-NEXT: vinsertf128 $1, %xmm0, %ymm3, %ymm0
	; XOP-NEXT: vpcomeqq %xmm4, %xmm0, %xmm0			; XOP-NEXT: vblendvpd %ymm0, %ymm2, %ymm1, %ymm0
	; XOP-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; XOP-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%a = and <4 x i64> %x, <i64 2, i64 4, i64 32768, i64 1>			%a = and <4 x i64> %x, <i64 2, i64 4, i64 32768, i64 1>
	%c = icmp eq <4 x i64> %a, zeroinitializer			%c = icmp eq <4 x i64> %a, zeroinitializer
	%r = select <4 x i1> %c, <4 x i64> %y, <4 x i64> %z			%r = select <4 x i1> %c, <4 x i64> %y, <4 x i64> %z
	ret <4 x i64> %r			ret <4 x i64> %r
	}			}

	define <8 x i32> @blend_mask_cond_v8i32(<8 x i32> %x, <8 x i32> %y, <8 x i32> %z) {			define <8 x i32> @blend_mask_cond_v8i32(<8 x i32> %x, <8 x i32> %y, <8 x i32> %z) {
	; AVX1-LABEL: blend_mask_cond_v8i32:			; AVX1-LABEL: blend_mask_cond_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm3, %ymm0
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vblendvps %ymm0, %ymm2, %ymm1, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: blend_mask_cond_v8i32:			; AVX2-LABEL: blend_mask_cond_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpsllvd {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vblendvps %ymm0, %ymm2, %ymm1, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: blend_mask_cond_v8i32:			; AVX512F-LABEL: blend_mask_cond_v8i32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $ymm2 killed $ymm2 def $zmm2			; AVX512F-NEXT: # kill: def $ymm2 killed $ymm2 def $zmm2
	; AVX512F-NEXT: # kill: def $ymm1 killed $ymm1 def $zmm1			; AVX512F-NEXT: # kill: def $ymm1 killed $ymm1 def $zmm1
	; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm3 = [1,2,8,4,8,1024,2,4096]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm3 = [1,2,8,4,8,1024,2,4096]
	; AVX512F-NEXT: vptestnmd %zmm3, %zmm0, %k1			; AVX512F-NEXT: vptestnmd %zmm3, %zmm0, %k1
	; AVX512F-NEXT: vpblendmd %zmm1, %zmm2, %zmm0 {%k1}			; AVX512F-NEXT: vpblendmd %zmm1, %zmm2, %zmm0 {%k1}
	; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: blend_mask_cond_v8i32:			; AVX512VL-LABEL: blend_mask_cond_v8i32:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vptestnmd {{.*}}(%rip), %ymm0, %k1			; AVX512VL-NEXT: vptestnmd {{.*}}(%rip), %ymm0, %k1
	; AVX512VL-NEXT: vpblendmd %ymm1, %ymm2, %ymm0 {%k1}			; AVX512VL-NEXT: vpblendmd %ymm1, %ymm2, %ymm0 {%k1}
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; XOP-LABEL: blend_mask_cond_v8i32:			; XOP-LABEL: blend_mask_cond_v8i32:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; XOP-NEXT: vpshld {{.*}}(%rip), %xmm0, %xmm3
	; XOP-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOP-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOP-NEXT: vpxor %xmm4, %xmm4, %xmm4			; XOP-NEXT: vpshld {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpcomeqd %xmm4, %xmm3, %xmm3			; XOP-NEXT: vinsertf128 $1, %xmm0, %ymm3, %ymm0
	; XOP-NEXT: vpcomeqd %xmm4, %xmm0, %xmm0			; XOP-NEXT: vblendvps %ymm0, %ymm2, %ymm1, %ymm0
	; XOP-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; XOP-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%a = and <8 x i32> %x, <i32 1, i32 2, i32 8, i32 4, i32 8, i32 1024, i32 2, i32 4096>			%a = and <8 x i32> %x, <i32 1, i32 2, i32 8, i32 4, i32 8, i32 1024, i32 2, i32 4096>
	%c = icmp eq <8 x i32> %a, zeroinitializer			%c = icmp eq <8 x i32> %a, zeroinitializer
	%r = select <8 x i1> %c, <8 x i32> %y, <8 x i32> %z			%r = select <8 x i1> %c, <8 x i32> %y, <8 x i32> %z
	ret <8 x i32> %r			ret <8 x i32> %r
	}			}

	define <16 x i16> @blend_mask_cond_v16i16(<16 x i16> %x, <16 x i16> %y, <16 x i16> %z) {			define <16 x i16> @blend_mask_cond_v16i16(<16 x i16> %x, <16 x i16> %y, <16 x i16> %z) {
	Show All 23 Lines
	; AVX512-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX512-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX512-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX512-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX512-NEXT: vpcmpeqw %ymm3, %ymm0, %ymm0			; AVX512-NEXT: vpcmpeqw %ymm3, %ymm0, %ymm0
	; AVX512-NEXT: vpblendvb %ymm0, %ymm1, %ymm2, %ymm0			; AVX512-NEXT: vpblendvb %ymm0, %ymm1, %ymm2, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; XOP-LABEL: blend_mask_cond_v16i16:			; XOP-LABEL: blend_mask_cond_v16i16:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; XOP-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOP-NEXT: vextractf128 $1, %ymm0, %xmm3
				; XOP-NEXT: vpshlw {{.*}}(%rip), %xmm3, %xmm3
	; XOP-NEXT: vpxor %xmm4, %xmm4, %xmm4			; XOP-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; XOP-NEXT: vpcomeqw %xmm4, %xmm3, %xmm3			; XOP-NEXT: vpcomltw %xmm4, %xmm3, %xmm3
	; XOP-NEXT: vpcomeqw %xmm4, %xmm0, %xmm0			; XOP-NEXT: vpshlw {{.*}}(%rip), %xmm0, %xmm0
				; XOP-NEXT: vpcomltw %xmm4, %xmm0, %xmm0
	; XOP-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; XOP-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; XOP-NEXT: vpcmov %ymm0, %ymm2, %ymm1, %ymm0			; XOP-NEXT: vpcmov %ymm0, %ymm1, %ymm2, %ymm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%a = and <16 x i16> %x, <i16 1, i16 2, i16 8, i16 4, i16 8, i16 2, i16 2, i16 2, i16 2, i16 8, i16 8, i16 64, i16 64, i16 1024, i16 4096, i16 1024>			%a = and <16 x i16> %x, <i16 1, i16 2, i16 8, i16 4, i16 8, i16 2, i16 2, i16 2, i16 2, i16 8, i16 8, i16 64, i16 64, i16 1024, i16 4096, i16 1024>
	%c = icmp eq <16 x i16> %a, zeroinitializer			%c = icmp eq <16 x i16> %a, zeroinitializer
	%r = select <16 x i1> %c, <16 x i16> %y, <16 x i16> %z			%r = select <16 x i1> %c, <16 x i16> %y, <16 x i16> %z
	ret <16 x i16> %r			ret <16 x i16> %r
	}			}

	define <32 x i8> @blend_mask_cond_v32i8(<32 x i8> %x, <32 x i8> %y, <32 x i8> %z) {			define <32 x i8> @blend_mask_cond_v32i8(<32 x i8> %x, <32 x i8> %y, <32 x i8> %z) {
	Show All 23 Lines
	; AVX512-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX512-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX512-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX512-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX512-NEXT: vpcmpeqb %ymm3, %ymm0, %ymm0			; AVX512-NEXT: vpcmpeqb %ymm3, %ymm0, %ymm0
	; AVX512-NEXT: vpblendvb %ymm0, %ymm1, %ymm2, %ymm0			; AVX512-NEXT: vpblendvb %ymm0, %ymm1, %ymm2, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; XOP-LABEL: blend_mask_cond_v32i8:			; XOP-LABEL: blend_mask_cond_v32i8:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; XOP-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOP-NEXT: vextractf128 $1, %ymm0, %xmm3
				; XOP-NEXT: vpshlb {{.*}}(%rip), %xmm3, %xmm3
	; XOP-NEXT: vpxor %xmm4, %xmm4, %xmm4			; XOP-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; XOP-NEXT: vpcomeqb %xmm4, %xmm3, %xmm3			; XOP-NEXT: vpcomltb %xmm4, %xmm3, %xmm3
	; XOP-NEXT: vpcomeqb %xmm4, %xmm0, %xmm0			; XOP-NEXT: vpshlb {{.*}}(%rip), %xmm0, %xmm0
				; XOP-NEXT: vpcomltb %xmm4, %xmm0, %xmm0
	; XOP-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; XOP-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; XOP-NEXT: vpcmov %ymm0, %ymm2, %ymm1, %ymm0			; XOP-NEXT: vpcmov %ymm0, %ymm1, %ymm2, %ymm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	%a = and <32 x i8> %x, <i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64, i8 128, i8 4, i8 4, i8 4, i8 4, i8 2, i8 2, i8 2, i8 2, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64, i8 128, i8 4, i8 4, i8 4, i8 4, i8 128, i8 4, i8 2, i8 16>			%a = and <32 x i8> %x, <i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64, i8 128, i8 4, i8 4, i8 4, i8 4, i8 2, i8 2, i8 2, i8 2, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64, i8 128, i8 4, i8 4, i8 4, i8 4, i8 128, i8 4, i8 2, i8 16>
	%c = icmp eq <32 x i8> %a, zeroinitializer			%c = icmp eq <32 x i8> %a, zeroinitializer
	%r = select <32 x i1> %c, <32 x i8> %y, <32 x i8> %z			%r = select <32 x i1> %c, <32 x i8> %y, <32 x i8> %z
	ret <32 x i8> %r			ret <32 x i8> %r
	}			}

	define void @PR46531(i32* %x, i32* %y, i32* %z) {			define void @PR46531(i32* %x, i32* %y, i32* %z) {
	▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines