This is an archive of the discontinued LLVM Phabricator instance.

[x86] split 256-bit vector selects if operands are vector concats
ClosedPublic

Authored by spatel on Jun 14 2019, 3:05 PM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
lebedev.ri

Commits

rGd14389c0a550: [x86] split 256-bit vector selects if operands are vector concats
rL363508: [x86] split 256-bit vector selects if operands are vector concats

Summary

This is similar logic/motivation to the select splitting in D62969.

In D63233, the pattern changes so that we no longer have an extract_subvector of vselect, but the operands of the select are still being concatenated.

The closest case is represented in either the first or last test diffs here - we have an extra instruction, but we converted 3-4 ymm instructions into 4-5 xmm instructions. I think that's the right trade-off for most AVX1 targets.

In the example based on PR37428:
https://bugs.llvm.org/show_bug.cgi?id=37428
...this makes the loop about 30% faster (tested on Haswell by compiling with -mavx).

Diff Detail

Repository: rL LLVM

Event Timeline

spatel created this revision.Jun 14 2019, 3:05 PM

Herald added a project: Restricted Project. · View Herald TranscriptJun 14 2019, 3:05 PM

Herald added subscribers: hiraditya, mcrosier. · View Herald Transcript

Looks ok.
Is there some costmodel here, or do we always (well, when we see concatenation, we don't seem to introduce it
intentionally) want to do this, in the hope that two smaller ops are always at least as good as one wider op?

LGTM but there are a couple of cases that are bordering on regression that need investigating (llvm-mca comparisons, TODO comments, bug report, whatever).

@lebedev.ri The TTI costs try to include the extra costs of 256-bit integer vector ops for AVX1 but its often tricky to completely account for it - because the costs work on an individual instruction level many of the 'holistic' effects aren't considered at all. This is something that has made it difficult to make D46276 actually useful - slightly better costs for individual instructions didn't help improve costs/codgen decisions for the entire sequence.

llvm/test/CodeGen/X86/cast-vsel.ll
494 ↗	(On Diff #204857)	This is a annoying - even though many AVX1 targets have 128-bit ALUs, we were avoiding xmm insertion/extraction completely which was the better option.

This revision is now accepted and ready to land.Jun 15 2019, 5:53 AM

In D63364#1544585, @lebedev.ri wrote:

Looks ok.
Is there some costmodel here, or do we always (well, when we see concatenation, we don't seem to introduce it
intentionally) want to do this, in the hope that two smaller ops are always at least as good as one wider op?

I'm expecting the existing concatenation in the match to arise from AVX1 legalization. So in the worst case, we're removing those 2 concats but adding a concat of the condition operand and the blend results.
As Simon mentioned, this is bordering on a heuristic decision. The part of this that we really have no way to model is the frequency throttling that can occur with wider vector ops - that gets eliminated by using 128-bit (xmm) ops.

llvm/test/CodeGen/X86/cast-vsel.ll
494 ↗	(On Diff #204857)	Agreed - we could limit the transform based on type of the select condition and/or whether it is extracted in addition to the true/false operands. I'll put a TODO here.

Closed by commit rL363508: [x86] split 256-bit vector selects if operands are vector concats (authored by spatel). · Explain WhyJun 16 2019, 7:04 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

36 lines

test/

CodeGen/

X86/

cast-vsel.ll

59 lines

known-signbits-vector.ll

40 lines

vselect-avx.ll

11 lines

Diff 204945

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 35,536 Lines • ▼ Show 20 Lines	if (TValIsAllZeros) {
SDValue CastRHS = DAG.getBitcast(AndNVT, RHS);		SDValue CastRHS = DAG.getBitcast(AndNVT, RHS);
SDValue AndN = DAG.getNode(X86ISD::ANDNP, DL, AndNVT, CastCond, CastRHS);		SDValue AndN = DAG.getNode(X86ISD::ANDNP, DL, AndNVT, CastCond, CastRHS);
return DAG.getBitcast(VT, AndN);		return DAG.getBitcast(VT, AndN);
}		}

return SDValue();		return SDValue();
}		}

		/// If both arms of a vector select are concatenated vectors, split the select,
		/// and concatenate the result to eliminate a wide (256-bit) vector instruction:
		/// vselect Cond, (concat T0, T1), (concat F0, F1) -->
		/// concat (vselect (split Cond), T0, F0), (vselect (split Cond), T1, F1)
		static SDValue narrowVectorSelect(SDNode *N, SelectionDAG &DAG,
		const X86Subtarget &Subtarget) {
		unsigned Opcode = N->getOpcode();
		if (Opcode != X86ISD::BLENDV && Opcode != ISD::VSELECT)
		return SDValue();

		// TODO: Split 512-bit vectors too?
		EVT VT = N->getValueType(0);
		if (!VT.is256BitVector())
		return SDValue();

		// TODO: Split as long as any 2 of the 3 operands are concatenated?
		SDValue Cond = N->getOperand(0);
		SDValue TVal = N->getOperand(1);
		SDValue FVal = N->getOperand(2);
		SmallVector<SDValue, 4> CatOpsT, CatOpsF;
		if (!TVal.hasOneUse() \|\| !FVal.hasOneUse() \|\|
		!collectConcatOps(TVal.getNode(), CatOpsT) \|\|
		!collectConcatOps(FVal.getNode(), CatOpsF))
		return SDValue();

		auto makeBlend = [Opcode](SelectionDAG &DAG, const SDLoc &DL,
		ArrayRef<SDValue> Ops) {
		return DAG.getNode(Opcode, DL, Ops[1].getValueType(), Ops);
		};
		return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, { Cond, TVal, FVal },
		makeBlend, /CheckBWI/ false);
		}

static SDValue combineSelectOfTwoConstants(SDNode *N, SelectionDAG &DAG) {		static SDValue combineSelectOfTwoConstants(SDNode *N, SelectionDAG &DAG) {
SDValue Cond = N->getOperand(0);		SDValue Cond = N->getOperand(0);
SDValue LHS = N->getOperand(1);		SDValue LHS = N->getOperand(1);
SDValue RHS = N->getOperand(2);		SDValue RHS = N->getOperand(2);
SDLoc DL(N);		SDLoc DL(N);

auto *TrueC = dyn_cast<ConstantSDNode>(LHS);		auto *TrueC = dyn_cast<ConstantSDNode>(LHS);
auto *FalseC = dyn_cast<ConstantSDNode>(RHS);		auto *FalseC = dyn_cast<ConstantSDNode>(RHS);
▲ Show 20 Lines • Show All 547 Lines • ▼ Show 20 Lines	if (!TLI.isTypeLegal(VT))
return SDValue();		return SDValue();

if (SDValue V = combineVSelectWithAllOnesOrZeros(N, DAG, DCI, Subtarget))		if (SDValue V = combineVSelectWithAllOnesOrZeros(N, DAG, DCI, Subtarget))
return V;		return V;

if (SDValue V = combineVSelectToBLENDV(N, DAG, DCI, Subtarget))		if (SDValue V = combineVSelectToBLENDV(N, DAG, DCI, Subtarget))
return V;		return V;

		if (SDValue V = narrowVectorSelect(N, DAG, Subtarget))
		return V;

// Custom action for SELECT MMX		// Custom action for SELECT MMX
if (VT == MVT::x86mmx) {		if (VT == MVT::x86mmx) {
LHS = DAG.getBitcast(MVT::i64, LHS);		LHS = DAG.getBitcast(MVT::i64, LHS);
RHS = DAG.getBitcast(MVT::i64, RHS);		RHS = DAG.getBitcast(MVT::i64, RHS);
SDValue newSelect = DAG.getNode(ISD::SELECT, DL, MVT::i64, Cond, LHS, RHS);		SDValue newSelect = DAG.getNode(ISD::SELECT, DL, MVT::i64, Cond, LHS, RHS);
return DAG.getBitcast(VT, newSelect);		return DAG.getBitcast(VT, newSelect);
}		}

▲ Show 20 Lines • Show All 8,776 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/cast-vsel.ll

Show All 32 Lines
; SSE41-NEXT: pmovsxwd %xmm5, %xmm0		; SSE41-NEXT: pmovsxwd %xmm5, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm5[2,3,0,1]		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm5[2,3,0,1]
; SSE41-NEXT: pmovsxwd %xmm1, %xmm1		; SSE41-NEXT: pmovsxwd %xmm1, %xmm1
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: sext:		; AVX1-LABEL: sext:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vcmpltps %ymm1, %ymm0, %ymm0		; AVX1-NEXT: vcmpltps %ymm1, %ymm0, %ymm0
; AVX1-NEXT: vpmovsxwd %xmm2, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm2[2,3,0,1]
		; AVX1-NEXT: vpmovsxwd %xmm4, %xmm4
		; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm3[2,3,0,1]
		; AVX1-NEXT: vpmovsxwd %xmm5, %xmm5
		; AVX1-NEXT: vblendvps %xmm1, %xmm4, %xmm5, %xmm1
; AVX1-NEXT: vpmovsxwd %xmm2, %xmm2		; AVX1-NEXT: vpmovsxwd %xmm2, %xmm2
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX1-NEXT: vpmovsxwd %xmm3, %xmm2
; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]
; AVX1-NEXT: vpmovsxwd %xmm3, %xmm3		; AVX1-NEXT: vpmovsxwd %xmm3, %xmm3
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2		; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm3, %xmm0
; AVX1-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: sext:		; AVX2-LABEL: sext:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vcmpltps %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vcmpltps %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpmovsxwd %xmm2, %ymm1		; AVX2-NEXT: vpmovsxwd %xmm2, %ymm1
; AVX2-NEXT: vpmovsxwd %xmm3, %ymm2		; AVX2-NEXT: vpmovsxwd %xmm3, %ymm2
; AVX2-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0		; AVX2-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0
Show All 32 Lines
; SSE41-NEXT: pmovzxwd {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero		; SSE41-NEXT: pmovzxwd {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: zext:		; AVX1-LABEL: zext:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vcmpltps %ymm1, %ymm0, %ymm0		; AVX1-NEXT: vcmpltps %ymm1, %ymm0, %ymm0
; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm4 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]		; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm4 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm1 = xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]		; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm1 = xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
		; AVX1-NEXT: vblendvps %xmm5, %xmm4, %xmm1, %xmm1
		; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero		; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm3, %ymm1		; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm3, %xmm0
; AVX1-NEXT: vblendvps %ymm0, %ymm2, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: zext:		; AVX2-LABEL: zext:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vcmpltps %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vcmpltps %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero		; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero		; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
; AVX2-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0		; AVX2-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0
▲ Show 20 Lines • Show All 286 Lines • ▼ Show 20 Lines	vector.body:
%index.next = add i64 %index, 8		%index.next = add i64 %index, 8
%18 = icmp eq i64 %index.next, 1024		%18 = icmp eq i64 %index.next, 1024
br i1 %18, label %for.end, label %vector.body		br i1 %18, label %for.end, label %vector.body

for.end:		for.end:
ret void		ret void
}		}

		; TODO: AVX1 could have used 256-bit ops for a likely improvement.

define void @example24(i16 signext %x, i16 signext %y) nounwind {		define void @example24(i16 signext %x, i16 signext %y) nounwind {
; SSE2-LABEL: example24:		; SSE2-LABEL: example24:
; SSE2: # %bb.0: # %vector.ph		; SSE2: # %bb.0: # %vector.ph
; SSE2-NEXT: movd %edi, %xmm0		; SSE2-NEXT: movd %edi, %xmm0
; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,3,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,2,3,4,5,6,7]
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
; SSE2-NEXT: movd %esi, %xmm1		; SSE2-NEXT: movd %esi, %xmm1
; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,0,2,3,4,5,6,7]		; SSE2-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,0,2,3,4,5,6,7]
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
; SSE41-NEXT: jne .LBB6_1		; SSE41-NEXT: jne .LBB6_1
; SSE41-NEXT: # %bb.2: # %for.end		; SSE41-NEXT: # %bb.2: # %for.end
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: example24:		; AVX1-LABEL: example24:
; AVX1: # %bb.0: # %vector.ph		; AVX1: # %bb.0: # %vector.ph
; AVX1-NEXT: vmovd %edi, %xmm0		; AVX1-NEXT: vmovd %edi, %xmm0
; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,2,3,4,5,6,7]		; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,2,3,4,5,6,7]
; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[0,0,0,0]
; AVX1-NEXT: vmovd %esi, %xmm1		; AVX1-NEXT: vmovd %esi, %xmm0
; AVX1-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,0,2,3,4,5,6,7]		; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,2,3,4,5,6,7]
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[0,0,0,0]
; AVX1-NEXT: movq $-4096, %rax # imm = 0xF000		; AVX1-NEXT: movq $-4096, %rax # imm = 0xF000
; AVX1-NEXT: vpmovsxwd %xmm0, %xmm2		; AVX1-NEXT: vpmovsxwd %xmm2, %xmm0
; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; AVX1-NEXT: vpmovsxwd %xmm3, %xmm1
; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0		; AVX1-NEXT: vpmovsxwd %xmm2, %xmm2
; AVX1-NEXT: vpmovsxwd %xmm1, %xmm2		; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; AVX1-NEXT: vpmovsxwd %xmm3, %xmm3
; AVX1-NEXT: vpmovsxwd %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
; AVX1-NEXT: .p2align 4, 0x90		; AVX1-NEXT: .p2align 4, 0x90
; AVX1-NEXT: .LBB6_1: # %vector.body		; AVX1-NEXT: .LBB6_1: # %vector.body
; AVX1-NEXT: # =>This Inner Loop Header: Depth=1		; AVX1-NEXT: # =>This Inner Loop Header: Depth=1
; AVX1-NEXT: vmovups da+4096(%rax), %ymm2		; AVX1-NEXT: vmovups da+4096(%rax), %ymm4
; AVX1-NEXT: vcmpltps db+4096(%rax), %ymm2, %ymm2		; AVX1-NEXT: vcmpltps db+4096(%rax), %ymm4, %ymm4
; AVX1-NEXT: vblendvps %ymm2, %ymm0, %ymm1, %ymm2		; AVX1-NEXT: vblendvps %xmm4, %xmm0, %xmm1, %xmm5
; AVX1-NEXT: vmovups %ymm2, dj+4096(%rax)		; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm4
		; AVX1-NEXT: vblendvps %xmm4, %xmm2, %xmm3, %xmm4
		; AVX1-NEXT: vmovaps %xmm4, dj+4112(%rax)
		; AVX1-NEXT: vmovaps %xmm5, dj+4096(%rax)
; AVX1-NEXT: addq $32, %rax		; AVX1-NEXT: addq $32, %rax
; AVX1-NEXT: jne .LBB6_1		; AVX1-NEXT: jne .LBB6_1
; AVX1-NEXT: # %bb.2: # %for.end		; AVX1-NEXT: # %bb.2: # %for.end
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: example24:		; AVX2-LABEL: example24:
; AVX2: # %bb.0: # %vector.ph		; AVX2: # %bb.0: # %vector.ph
▲ Show 20 Lines • Show All 48 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/known-signbits-vector.ll

	Show First 20 Lines • Show All 304 Lines • ▼ Show 20 Lines

	define <4 x float> @signbits_ashr_sext_select_shuffle_sitofp(<4 x i64> %a0, <4 x i64> %a1, <4 x i64> %a2, <4 x i32> %a3) nounwind {			define <4 x float> @signbits_ashr_sext_select_shuffle_sitofp(<4 x i64> %a0, <4 x i64> %a1, <4 x i64> %a2, <4 x i32> %a3) nounwind {
	; X32-LABEL: signbits_ashr_sext_select_shuffle_sitofp:			; X32-LABEL: signbits_ashr_sext_select_shuffle_sitofp:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: pushl %ebp			; X32-NEXT: pushl %ebp
	; X32-NEXT: movl %esp, %ebp			; X32-NEXT: movl %esp, %ebp
	; X32-NEXT: andl $-16, %esp			; X32-NEXT: andl $-16, %esp
	; X32-NEXT: subl $16, %esp			; X32-NEXT: subl $16, %esp
	; X32-NEXT: vpmovsxdq 16(%ebp), %xmm3			; X32-NEXT: vpmovsxdq 8(%ebp), %xmm3
	; X32-NEXT: vpmovsxdq 8(%ebp), %xmm4			; X32-NEXT: vpmovsxdq 16(%ebp), %xmm4
	; X32-NEXT: vextractf128 $1, %ymm2, %xmm5			; X32-NEXT: vpsrlq $33, %xmm2, %xmm5
	; X32-NEXT: vpsrlq $33, %xmm5, %xmm5
	; X32-NEXT: vmovdqa {{.*#+}} xmm6 = [1073741824,0,1,0]			; X32-NEXT: vmovdqa {{.*#+}} xmm6 = [1073741824,0,1,0]
	; X32-NEXT: vpxor %xmm6, %xmm5, %xmm5			; X32-NEXT: vpxor %xmm6, %xmm5, %xmm5
	; X32-NEXT: vpsubq %xmm6, %xmm5, %xmm5			; X32-NEXT: vpsubq %xmm6, %xmm5, %xmm5
				; X32-NEXT: vextractf128 $1, %ymm2, %xmm2
	; X32-NEXT: vpsrlq $33, %xmm2, %xmm2			; X32-NEXT: vpsrlq $33, %xmm2, %xmm2
	; X32-NEXT: vpxor %xmm6, %xmm2, %xmm2			; X32-NEXT: vpxor %xmm6, %xmm2, %xmm2
	; X32-NEXT: vpsubq %xmm6, %xmm2, %xmm2			; X32-NEXT: vpsubq %xmm6, %xmm2, %xmm2
	; X32-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2			; X32-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm6
	; X32-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3			; X32-NEXT: vblendvpd %xmm6, %xmm5, %xmm3, %xmm3
	; X32-NEXT: vextractf128 $1, %ymm1, %xmm4			; X32-NEXT: vextractf128 $1, %ymm1, %xmm1
	; X32-NEXT: vextractf128 $1, %ymm0, %xmm5			; X32-NEXT: vextractf128 $1, %ymm0, %xmm0
	; X32-NEXT: vpcmpeqq %xmm4, %xmm5, %xmm4
	; X32-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0			; X32-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0
	; X32-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0			; X32-NEXT: vblendvpd %xmm0, %xmm2, %xmm4, %xmm0
	; X32-NEXT: vblendvpd %ymm0, %ymm2, %ymm3, %ymm0			; X32-NEXT: vinsertf128 $1, %xmm0, %ymm3, %ymm0
	; X32-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]			; X32-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
	; X32-NEXT: vextractf128 $1, %ymm0, %xmm1			; X32-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X32-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; X32-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; X32-NEXT: vcvtdq2ps %xmm0, %xmm0			; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
	; X32-NEXT: movl %ebp, %esp			; X32-NEXT: movl %ebp, %esp
	; X32-NEXT: popl %ebp			; X32-NEXT: popl %ebp
	; X32-NEXT: vzeroupper			; X32-NEXT: vzeroupper
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: signbits_ashr_sext_select_shuffle_sitofp:			; X64-LABEL: signbits_ashr_sext_select_shuffle_sitofp:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vextractf128 $1, %ymm2, %xmm4			; X64-NEXT: vpsrlq $33, %xmm2, %xmm4
	; X64-NEXT: vpsrlq $33, %xmm4, %xmm4
	; X64-NEXT: vmovdqa {{.*#+}} xmm5 = [1073741824,1]			; X64-NEXT: vmovdqa {{.*#+}} xmm5 = [1073741824,1]
	; X64-NEXT: vpxor %xmm5, %xmm4, %xmm4			; X64-NEXT: vpxor %xmm5, %xmm4, %xmm4
	; X64-NEXT: vpsubq %xmm5, %xmm4, %xmm4			; X64-NEXT: vpsubq %xmm5, %xmm4, %xmm4
				; X64-NEXT: vextractf128 $1, %ymm2, %xmm2
	; X64-NEXT: vpsrlq $33, %xmm2, %xmm2			; X64-NEXT: vpsrlq $33, %xmm2, %xmm2
	; X64-NEXT: vpxor %xmm5, %xmm2, %xmm2			; X64-NEXT: vpxor %xmm5, %xmm2, %xmm2
	; X64-NEXT: vpsubq %xmm5, %xmm2, %xmm2			; X64-NEXT: vpsubq %xmm5, %xmm2, %xmm2
	; X64-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2			; X64-NEXT: vpmovsxdq %xmm3, %xmm5
	; X64-NEXT: vpmovsxdq %xmm3, %xmm4
	; X64-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]			; X64-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]
	; X64-NEXT: vpmovsxdq %xmm3, %xmm3			; X64-NEXT: vpmovsxdq %xmm3, %xmm3
	; X64-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3			; X64-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm6
	; X64-NEXT: vextractf128 $1, %ymm1, %xmm4			; X64-NEXT: vblendvpd %xmm6, %xmm4, %xmm5, %xmm4
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm5			; X64-NEXT: vextractf128 $1, %ymm1, %xmm1
	; X64-NEXT: vpcmpeqq %xmm4, %xmm5, %xmm4			; X64-NEXT: vextractf128 $1, %ymm0, %xmm0
	; X64-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0			; X64-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0
	; X64-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0			; X64-NEXT: vblendvpd %xmm0, %xmm2, %xmm3, %xmm0
	; X64-NEXT: vblendvpd %ymm0, %ymm2, %ymm3, %ymm0			; X64-NEXT: vinsertf128 $1, %xmm0, %ymm4, %ymm0
	; X64-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]			; X64-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; X64-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; X64-NEXT: vcvtdq2ps %xmm0, %xmm0			; X64-NEXT: vcvtdq2ps %xmm0, %xmm0
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	%1 = ashr <4 x i64> %a2, <i64 33, i64 63, i64 33, i64 63>			%1 = ashr <4 x i64> %a2, <i64 33, i64 63, i64 33, i64 63>
	%2 = sext <4 x i32> %a3 to <4 x i64>			%2 = sext <4 x i32> %a3 to <4 x i64>
	▲ Show 20 Lines • Show All 54 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vselect-avx.ll

	Show First 20 Lines • Show All 161 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpcmpgtb %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpcmpgtb %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpaddb {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpaddb {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%tmp = select <32 x i1> %x, <32 x i8> <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>, <32 x i8> <i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2>			%tmp = select <32 x i1> %x, <32 x i8> <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>, <32 x i8> <i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2>
	ret <32 x i8> %tmp			ret <32 x i8> %tmp
	}			}

	; TODO: Split a 256-bit select into two 128-bit selects when the operands are concatenated.			; Split a 256-bit select into two 128-bit selects when the operands are concatenated.

	define void @blendv_split(<8 x i32>* %p, <8 x i32> %cond, <8 x i32> %a, <8 x i32> %x, <8 x i32> %y, <8 x i32> %z, <8 x i32> %w) {			define void @blendv_split(<8 x i32>* %p, <8 x i32> %cond, <8 x i32> %a, <8 x i32> %x, <8 x i32> %y, <8 x i32> %z, <8 x i32> %w) {
	; AVX1-LABEL: blendv_split:			; AVX1-LABEL: blendv_split:
	; AVX1: ## %bb.0:			; AVX1: ## %bb.0:
	; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero			; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero
	; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero			; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
	; AVX1-NEXT: vpslld %xmm2, %xmm4, %xmm5			; AVX1-NEXT: vpslld %xmm2, %xmm4, %xmm5
	; AVX1-NEXT: vpslld %xmm2, %xmm1, %xmm2			; AVX1-NEXT: vpslld %xmm2, %xmm1, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
	; AVX1-NEXT: vpslld %xmm3, %xmm4, %xmm4			; AVX1-NEXT: vpslld %xmm3, %xmm4, %xmm4
	; AVX1-NEXT: vpslld %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpslld %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1			; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vblendvps %ymm0, %ymm2, %ymm1, %ymm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vmovups %ymm0, (%rdi)			; AVX1-NEXT: vblendvps %xmm0, %xmm5, %xmm4, %xmm0
				; AVX1-NEXT: vmovups %xmm0, 16(%rdi)
				; AVX1-NEXT: vmovups %xmm1, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: blendv_split:			; AVX2-LABEL: blendv_split:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero
	; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero
	; AVX2-NEXT: vpslld %xmm2, %ymm1, %ymm2			; AVX2-NEXT: vpslld %xmm2, %ymm1, %ymm2
	Show All 15 Lines