This is an archive of the discontinued LLVM Phabricator instance.

[TargetLowering] check for sign-bit comparisons in SimplifyDemandedBits
ClosedPublic

Authored by spatel on Feb 7 2017, 2:30 PM.

Download Raw Diff

Details

Reviewers

RKSimon
zvi
craig.topper
efriedma

Commits

rG63499b61c916: [TargetLowering] check for sign-bit comparisons in SimplifyDemandedBits
rL294863: [TargetLowering] check for sign-bit comparisons in SimplifyDemandedBits

Summary

I don't know if anything other than x86 vectors is affected by this change, but this may allow us to remove target-specific intrinsics for blendv* (vector selects). The simplification arises from the fact that blendv* instructions only use the sign-bit when deciding which vector element to choose for the destination vector. The mechanism to fold VSELECT into SHRUNKBLEND nodes already exists in x86 lowering; this demanded bits change just enables the transform to fire more often.

The original motivation starts with a bug for DSE of masked stores that seems completely unrelated, but I've explained the likely steps in this series here:
https://llvm.org/bugs/show_bug.cgi?id=11210

Diff Detail

Repository: rL LLVM

Event Timeline

spatel created this revision.Feb 7 2017, 2:30 PM

Herald added a subscriber: mcrosier. · View Herald TranscriptFeb 7 2017, 2:30 PM

Patch updated:
I'm not sure how to expose this, but I think I was missing a check for BooleanContent::ZeroOrNegativeOneBooleanContent. If the target/type uses a different format for setcc, it probably wouldn't make sense to demand the top bit, but let's check that to be safe?

RKSimon added inline comments.Feb 8 2017, 3:39 AM

lib/CodeGen/SelectionDAG/TargetLowering.cpp
770 ↗	(On Diff #87530)	Add test cases for these?
test/CodeGen/X86/vselect-pcmp.ll
4 ↗	(On Diff #87530)	Please can you add a avx512vl target to check more mask predicate cases?

spatel added inline comments.Feb 8 2017, 7:52 AM

lib/CodeGen/SelectionDAG/TargetLowering.cpp
770 ↗	(On Diff #87530)	I'm not sure we want to bloat it up with those cases yet; that's why I made it a TODO? rather than a FIXME. Instcombine already canonicalizes the X <= -1 variant to X < 0. It doesn't know to change X > -1 to X < 0 and swap the select operands, but I think that's just an IR canonicalization oversight, so I was planning to fix that. So if we add codegen tests for those variants, it's only because a non-canonical select pattern has been created in the backend. I'd like to find evidence of that happening before adding code or tests for it.
test/CodeGen/X86/vselect-pcmp.ll
4 ↗	(On Diff #87530)	Sure - I'm still not clear on all of the avx512 variants, but I added a 'vl' RUN line here: rL294462 I'll rebase with those diffs next.

spatel added inline comments.Feb 8 2017, 8:03 AM

lib/CodeGen/SelectionDAG/TargetLowering.cpp

770 ↗

(On Diff #87530)

Also, there's a hint in the test variable names for this shift/trunc canonicalization to X < 0:

define <4 x i32> @signbit_sel_v4i32(<4 x i32> %x, <4 x i32> %y, <4 x i32> %mask) {
  %sh = lshr <4 x i32> %mask, <i32 31, i32 31, i32 31, i32 31>
  %tr = trunc <4 x i32> %sh to <4 x i1>
  %z = select <4 x i1> %tr, <4 x i32> %x, <4 x i32> %y
  ret <4 x i32> %z
}

$ opt -instcombine -S foo.ll

define <4 x i32> @signbit_sel_v4i32(<4 x i32> %x, <4 x i32> %y, <4 x i32> %mask) {
  %tr = icmp slt <4 x i32> %mask, zeroinitializer
  %z = select <4 x i1> %tr, <4 x i32> %x, <4 x i32> %y
  ret <4 x i32> %z
}

Patch updated:
No code changes, but added a RUN for avx512vl in rL294462 to show that variant.
I think the first test shows a missed opportunity for avx512vl and avx512f; not sure about the rest.

LGTM thanks Sanjay

test/CodeGen/X86/vselect-pcmp.ll
12 ↗	(On Diff #87663)	Add a FIXME for the AVX512 test case.

This revision is now accepted and ready to land.Feb 10 2017, 8:08 AM

Closed by commit rL294863: [TargetLowering] check for sign-bit comparisons in SimplifyDemandedBits (authored by spatel). · Explain WhyFeb 11 2017, 10:13 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

CodeGen/

SelectionDAG/

TargetLowering.cpp

19 lines

test/

CodeGen/

X86/

vselect-pcmp.ll

135 lines

Diff 88096

llvm/trunk/lib/CodeGen/SelectionDAG/TargetLowering.cpp

Show First 20 Lines • Show All 745 Lines • ▼ Show 20 Lines	case ISD::SELECT_CC:
// If the operands are constants, see if we can simplify them.		// If the operands are constants, see if we can simplify them.
if (TLO.ShrinkDemandedConstant(Op, NewMask))		if (TLO.ShrinkDemandedConstant(Op, NewMask))
return true;		return true;

// Only known if known in both the LHS and RHS.		// Only known if known in both the LHS and RHS.
KnownOne &= KnownOne2;		KnownOne &= KnownOne2;
KnownZero &= KnownZero2;		KnownZero &= KnownZero2;
break;		break;
		case ISD::SETCC:
		// If (1) we only need the sign-bit, (2) the setcc operands are the same
		// width as the setcc result, and (3) the result of a setcc conforms to 0 or
		// -1, we may be able to bypass the setcc.
		if (NewMask.isSignBit() &&
		Op.getOperand(0).getScalarValueSizeInBits() == BitWidth &&
		getBooleanContents(Op.getValueType()) ==
		BooleanContent::ZeroOrNegativeOneBooleanContent) {
		ISD::CondCode CC = cast<CondCodeSDNode>(Op.getOperand(2))->get();
		// If we're testing if X < 0, then this compare isn't needed - just use X!
		if (CC == ISD::SETLT &&
		(isNullConstant(Op.getOperand(1)) \|\|
		ISD::isBuildVectorAllZeros(Op.getOperand(1).getNode())))
		return TLO.CombineTo(Op, Op.getOperand(0));

		// TODO: Should we check for other forms of sign-bit comparisons?
		// Examples: X <= -1, X >= 0
		}
		break;
case ISD::SHL:		case ISD::SHL:
if (ConstantSDNode *SA = dyn_cast<ConstantSDNode>(Op.getOperand(1))) {		if (ConstantSDNode *SA = dyn_cast<ConstantSDNode>(Op.getOperand(1))) {
unsigned ShAmt = SA->getZExtValue();		unsigned ShAmt = SA->getZExtValue();
SDValue InOp = Op.getOperand(0);		SDValue InOp = Op.getOperand(0);

// If the shift count is an invalid immediate, don't do anything.		// If the shift count is an invalid immediate, don't do anything.
if (ShAmt >= BitWidth)		if (ShAmt >= BitWidth)
break;		break;
▲ Show 20 Lines • Show All 3,095 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vselect-pcmp.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX12F --check-prefix=AVX12 --check-prefix=AVX1		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX12F --check-prefix=AVX12 --check-prefix=AVX1
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX12F --check-prefix=AVX12 --check-prefix=AVX2		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX12F --check-prefix=AVX12 --check-prefix=AVX2
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512f \| FileCheck %s --check-prefix=AVX --check-prefix=AVX12F --check-prefix=AVX512 --check-prefix=AVX512F		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512f \| FileCheck %s --check-prefix=AVX --check-prefix=AVX12F --check-prefix=AVX512 --check-prefix=AVX512F
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512vl \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512VL		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=avx512vl \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512VL

; The condition vector for BLENDV* only cares about the sign bit of each element.		; The condition vector for BLENDV* only cares about the sign bit of each element.
; So in these tests, if we generate BLENDV*, we should be able to remove the redundant cmp op.		; So in these tests, if we generate BLENDV*, we should be able to remove the redundant cmp op.

; Test 128-bit vectors for all legal element types.		; Test 128-bit vectors for all legal element types.

		; FIXME: Why didn't AVX-512 optimize too?

define <16 x i8> @signbit_sel_v16i8(<16 x i8> %x, <16 x i8> %y, <16 x i8> %mask) {		define <16 x i8> @signbit_sel_v16i8(<16 x i8> %x, <16 x i8> %y, <16 x i8> %mask) {
; AVX-LABEL: signbit_sel_v16i8:		; AVX12-LABEL: signbit_sel_v16i8:
; AVX: # BB#0:		; AVX12: # BB#0:
; AVX-NEXT: vpxor %xmm3, %xmm3, %xmm3		; AVX12-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0
; AVX-NEXT: vpcmpgtb %xmm2, %xmm3, %xmm2		; AVX12-NEXT: retq
; AVX-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0		;
; AVX-NEXT: retq		; AVX512-LABEL: signbit_sel_v16i8:
		; AVX512: # BB#0:
		; AVX512-NEXT: vpxor %xmm3, %xmm3, %xmm3
		; AVX512-NEXT: vpcmpgtb %xmm2, %xmm3, %xmm2
		; AVX512-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0
		; AVX512-NEXT: retq
%tr = icmp slt <16 x i8> %mask, zeroinitializer		%tr = icmp slt <16 x i8> %mask, zeroinitializer
%z = select <16 x i1> %tr, <16 x i8> %x, <16 x i8> %y		%z = select <16 x i1> %tr, <16 x i8> %x, <16 x i8> %y
ret <16 x i8> %z		ret <16 x i8> %z
}		}

; Sorry 16-bit, you're not important enough to support?		; Sorry 16-bit, you're not important enough to support?

define <8 x i16> @signbit_sel_v8i16(<8 x i16> %x, <8 x i16> %y, <8 x i16> %mask) {		define <8 x i16> @signbit_sel_v8i16(<8 x i16> %x, <8 x i16> %y, <8 x i16> %mask) {
Show All 17 Lines	; AVX512VL-NEXT: retq
%tr = icmp slt <8 x i16> %mask, zeroinitializer		%tr = icmp slt <8 x i16> %mask, zeroinitializer
%z = select <8 x i1> %tr, <8 x i16> %x, <8 x i16> %y		%z = select <8 x i1> %tr, <8 x i16> %x, <8 x i16> %y
ret <8 x i16> %z		ret <8 x i16> %z
}		}

define <4 x i32> @signbit_sel_v4i32(<4 x i32> %x, <4 x i32> %y, <4 x i32> %mask) {		define <4 x i32> @signbit_sel_v4i32(<4 x i32> %x, <4 x i32> %y, <4 x i32> %mask) {
; AVX12F-LABEL: signbit_sel_v4i32:		; AVX12F-LABEL: signbit_sel_v4i32:
; AVX12F: # BB#0:		; AVX12F: # BB#0:
; AVX12F-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX12F-NEXT: vpcmpgtd %xmm2, %xmm3, %xmm2
; AVX12F-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0		; AVX12F-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0
; AVX12F-NEXT: retq		; AVX12F-NEXT: retq
;		;
; AVX512VL-LABEL: signbit_sel_v4i32:		; AVX512VL-LABEL: signbit_sel_v4i32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3		; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX512VL-NEXT: vpcmpgtd %xmm2, %xmm3, %k1		; AVX512VL-NEXT: vpcmpgtd %xmm2, %xmm3, %k1
; AVX512VL-NEXT: vpblendmd %xmm0, %xmm1, %xmm0 {%k1}		; AVX512VL-NEXT: vpblendmd %xmm0, %xmm1, %xmm0 {%k1}
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%tr = icmp slt <4 x i32> %mask, zeroinitializer		%tr = icmp slt <4 x i32> %mask, zeroinitializer
%z = select <4 x i1> %tr, <4 x i32> %x, <4 x i32> %y		%z = select <4 x i1> %tr, <4 x i32> %x, <4 x i32> %y
ret <4 x i32> %z		ret <4 x i32> %z
}		}

define <2 x i64> @signbit_sel_v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %mask) {		define <2 x i64> @signbit_sel_v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %mask) {
; AVX12F-LABEL: signbit_sel_v2i64:		; AVX12F-LABEL: signbit_sel_v2i64:
; AVX12F: # BB#0:		; AVX12F: # BB#0:
; AVX12F-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX12F-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX12F-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0		; AVX12F-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
; AVX12F-NEXT: retq		; AVX12F-NEXT: retq
;		;
; AVX512VL-LABEL: signbit_sel_v2i64:		; AVX512VL-LABEL: signbit_sel_v2i64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3		; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX512VL-NEXT: vpcmpgtq %xmm2, %xmm3, %k1		; AVX512VL-NEXT: vpcmpgtq %xmm2, %xmm3, %k1
; AVX512VL-NEXT: vpblendmq %xmm0, %xmm1, %xmm0 {%k1}		; AVX512VL-NEXT: vpblendmq %xmm0, %xmm1, %xmm0 {%k1}
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%tr = icmp slt <2 x i64> %mask, zeroinitializer		%tr = icmp slt <2 x i64> %mask, zeroinitializer
%z = select <2 x i1> %tr, <2 x i64> %x, <2 x i64> %y		%z = select <2 x i1> %tr, <2 x i64> %x, <2 x i64> %y
ret <2 x i64> %z		ret <2 x i64> %z
}		}

define <4 x float> @signbit_sel_v4f32(<4 x float> %x, <4 x float> %y, <4 x i32> %mask) {		define <4 x float> @signbit_sel_v4f32(<4 x float> %x, <4 x float> %y, <4 x i32> %mask) {
; AVX12F-LABEL: signbit_sel_v4f32:		; AVX12F-LABEL: signbit_sel_v4f32:
; AVX12F: # BB#0:		; AVX12F: # BB#0:
; AVX12F-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX12F-NEXT: vpcmpgtd %xmm2, %xmm3, %xmm2
; AVX12F-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0		; AVX12F-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0
; AVX12F-NEXT: retq		; AVX12F-NEXT: retq
;		;
; AVX512VL-LABEL: signbit_sel_v4f32:		; AVX512VL-LABEL: signbit_sel_v4f32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3		; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX512VL-NEXT: vpcmpgtd %xmm2, %xmm3, %k1		; AVX512VL-NEXT: vpcmpgtd %xmm2, %xmm3, %k1
; AVX512VL-NEXT: vblendmps %xmm0, %xmm1, %xmm0 {%k1}		; AVX512VL-NEXT: vblendmps %xmm0, %xmm1, %xmm0 {%k1}
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%tr = icmp slt <4 x i32> %mask, zeroinitializer		%tr = icmp slt <4 x i32> %mask, zeroinitializer
%z = select <4 x i1> %tr, <4 x float> %x, <4 x float> %y		%z = select <4 x i1> %tr, <4 x float> %x, <4 x float> %y
ret <4 x float> %z		ret <4 x float> %z
}		}

define <2 x double> @signbit_sel_v2f64(<2 x double> %x, <2 x double> %y, <2 x i64> %mask) {		define <2 x double> @signbit_sel_v2f64(<2 x double> %x, <2 x double> %y, <2 x i64> %mask) {
; AVX12F-LABEL: signbit_sel_v2f64:		; AVX12F-LABEL: signbit_sel_v2f64:
; AVX12F: # BB#0:		; AVX12F: # BB#0:
; AVX12F-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX12F-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
; AVX12F-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0		; AVX12F-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
; AVX12F-NEXT: retq		; AVX12F-NEXT: retq
;		;
; AVX512VL-LABEL: signbit_sel_v2f64:		; AVX512VL-LABEL: signbit_sel_v2f64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3		; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX512VL-NEXT: vpcmpgtq %xmm2, %xmm3, %k1		; AVX512VL-NEXT: vpcmpgtq %xmm2, %xmm3, %k1
; AVX512VL-NEXT: vblendmpd %xmm0, %xmm1, %xmm0 {%k1}		; AVX512VL-NEXT: vblendmpd %xmm0, %xmm1, %xmm0 {%k1}
Show All 15 Lines
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2		; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
; AVX1-NEXT: vandnps %ymm1, %ymm2, %ymm1		; AVX1-NEXT: vandnps %ymm1, %ymm2, %ymm1
; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0		; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: signbit_sel_v32i8:		; AVX2-LABEL: signbit_sel_v32i8:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpxor %ymm3, %ymm3, %ymm3
; AVX2-NEXT: vpcmpgtb %ymm2, %ymm3, %ymm2
; AVX2-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0		; AVX2-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: signbit_sel_v32i8:		; AVX512-LABEL: signbit_sel_v32i8:
; AVX512: # BB#0:		; AVX512: # BB#0:
; AVX512-NEXT: vpxor %ymm3, %ymm3, %ymm3		; AVX512-NEXT: vpxor %ymm3, %ymm3, %ymm3
; AVX512-NEXT: vpcmpgtb %ymm2, %ymm3, %ymm2		; AVX512-NEXT: vpcmpgtb %ymm2, %ymm3, %ymm2
; AVX512-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0		; AVX512-NEXT: vpblendvb %ymm2, %ymm0, %ymm1, %ymm0
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
; AVX512VL-NEXT: vpor %ymm1, %ymm0, %ymm0		; AVX512VL-NEXT: vpor %ymm1, %ymm0, %ymm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%tr = icmp slt <16 x i16> %mask, zeroinitializer		%tr = icmp slt <16 x i16> %mask, zeroinitializer
%z = select <16 x i1> %tr, <16 x i16> %x, <16 x i16> %y		%z = select <16 x i1> %tr, <16 x i16> %x, <16 x i16> %y
ret <16 x i16> %z		ret <16 x i16> %z
}		}

define <8 x i32> @signbit_sel_v8i32(<8 x i32> %x, <8 x i32> %y, <8 x i32> %mask) {		define <8 x i32> @signbit_sel_v8i32(<8 x i32> %x, <8 x i32> %y, <8 x i32> %mask) {
; AVX1-LABEL: signbit_sel_v8i32:		; AVX12-LABEL: signbit_sel_v8i32:
; AVX1: # BB#0:		; AVX12: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3		; AVX12-NEXT: vblendvps %ymm2, %ymm0, %ymm1, %ymm0
; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4		; AVX12-NEXT: retq
; AVX1-NEXT: vpcmpgtd %xmm3, %xmm4, %xmm3
; AVX1-NEXT: vpcmpgtd %xmm2, %xmm4, %xmm2
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
; AVX1-NEXT: vblendvps %ymm2, %ymm0, %ymm1, %ymm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: signbit_sel_v8i32:
; AVX2: # BB#0:
; AVX2-NEXT: vpxor %ymm3, %ymm3, %ymm3
; AVX2-NEXT: vpcmpgtd %ymm2, %ymm3, %ymm2
; AVX2-NEXT: vblendvps %ymm2, %ymm0, %ymm1, %ymm0
; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: signbit_sel_v8i32:		; AVX512F-LABEL: signbit_sel_v8i32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: # kill: %YMM2<def> %YMM2<kill> %ZMM2<def>		; AVX512F-NEXT: # kill: %YMM2<def> %YMM2<kill> %ZMM2<def>
; AVX512F-NEXT: # kill: %YMM1<def> %YMM1<kill> %ZMM1<def>		; AVX512F-NEXT: # kill: %YMM1<def> %YMM1<kill> %ZMM1<def>
; AVX512F-NEXT: # kill: %YMM0<def> %YMM0<kill> %ZMM0<def>		; AVX512F-NEXT: # kill: %YMM0<def> %YMM0<kill> %ZMM0<def>
; AVX512F-NEXT: vpxor %ymm3, %ymm3, %ymm3		; AVX512F-NEXT: vpxor %ymm3, %ymm3, %ymm3
; AVX512F-NEXT: vpcmpgtd %zmm2, %zmm3, %k1		; AVX512F-NEXT: vpcmpgtd %zmm2, %zmm3, %k1
; AVX512F-NEXT: vpblendmd %zmm0, %zmm1, %zmm0 {%k1}		; AVX512F-NEXT: vpblendmd %zmm0, %zmm1, %zmm0 {%k1}
; AVX512F-NEXT: # kill: %YMM0<def> %YMM0<kill> %ZMM0<kill>		; AVX512F-NEXT: # kill: %YMM0<def> %YMM0<kill> %ZMM0<kill>
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: signbit_sel_v8i32:		; AVX512VL-LABEL: signbit_sel_v8i32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpxor %ymm3, %ymm3, %ymm3		; AVX512VL-NEXT: vpxor %ymm3, %ymm3, %ymm3
; AVX512VL-NEXT: vpcmpgtd %ymm2, %ymm3, %k1		; AVX512VL-NEXT: vpcmpgtd %ymm2, %ymm3, %k1
; AVX512VL-NEXT: vpblendmd %ymm0, %ymm1, %ymm0 {%k1}		; AVX512VL-NEXT: vpblendmd %ymm0, %ymm1, %ymm0 {%k1}
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%tr = icmp slt <8 x i32> %mask, zeroinitializer		%tr = icmp slt <8 x i32> %mask, zeroinitializer
%z = select <8 x i1> %tr, <8 x i32> %x, <8 x i32> %y		%z = select <8 x i1> %tr, <8 x i32> %x, <8 x i32> %y
ret <8 x i32> %z		ret <8 x i32> %z
}		}

define <4 x i64> @signbit_sel_v4i64(<4 x i64> %x, <4 x i64> %y, <4 x i64> %mask) {		define <4 x i64> @signbit_sel_v4i64(<4 x i64> %x, <4 x i64> %y, <4 x i64> %mask) {
; AVX1-LABEL: signbit_sel_v4i64:		; AVX12F-LABEL: signbit_sel_v4i64:
; AVX1: # BB#0:		; AVX12F: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3		; AVX12F-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4		; AVX12F-NEXT: retq
; AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm4, %xmm2
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
; AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: signbit_sel_v4i64:
; AVX2: # BB#0:
; AVX2-NEXT: vpxor %ymm3, %ymm3, %ymm3
; AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2
; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
; AVX2-NEXT: retq
;
; AVX512F-LABEL: signbit_sel_v4i64:
; AVX512F: # BB#0:
; AVX512F-NEXT: vpxor %ymm3, %ymm3, %ymm3
; AVX512F-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2
; AVX512F-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: signbit_sel_v4i64:		; AVX512VL-LABEL: signbit_sel_v4i64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpxor %ymm3, %ymm3, %ymm3		; AVX512VL-NEXT: vpxor %ymm3, %ymm3, %ymm3
; AVX512VL-NEXT: vpcmpgtq %ymm2, %ymm3, %k1		; AVX512VL-NEXT: vpcmpgtq %ymm2, %ymm3, %k1
; AVX512VL-NEXT: vpblendmq %ymm0, %ymm1, %ymm0 {%k1}		; AVX512VL-NEXT: vpblendmq %ymm0, %ymm1, %ymm0 {%k1}
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%tr = icmp slt <4 x i64> %mask, zeroinitializer		%tr = icmp slt <4 x i64> %mask, zeroinitializer
%z = select <4 x i1> %tr, <4 x i64> %x, <4 x i64> %y		%z = select <4 x i1> %tr, <4 x i64> %x, <4 x i64> %y
ret <4 x i64> %z		ret <4 x i64> %z
}		}

define <4 x double> @signbit_sel_v4f64(<4 x double> %x, <4 x double> %y, <4 x i64> %mask) {		define <4 x double> @signbit_sel_v4f64(<4 x double> %x, <4 x double> %y, <4 x i64> %mask) {
; AVX1-LABEL: signbit_sel_v4f64:		; AVX12F-LABEL: signbit_sel_v4f64:
; AVX1: # BB#0:		; AVX12F: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3		; AVX12F-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4		; AVX12F-NEXT: retq
; AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm2, %xmm4, %xmm2
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
; AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: signbit_sel_v4f64:
; AVX2: # BB#0:
; AVX2-NEXT: vpxor %ymm3, %ymm3, %ymm3
; AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2
; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
; AVX2-NEXT: retq
;
; AVX512F-LABEL: signbit_sel_v4f64:
; AVX512F: # BB#0:
; AVX512F-NEXT: vpxor %ymm3, %ymm3, %ymm3
; AVX512F-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2
; AVX512F-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: signbit_sel_v4f64:		; AVX512VL-LABEL: signbit_sel_v4f64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpxor %ymm3, %ymm3, %ymm3		; AVX512VL-NEXT: vpxor %ymm3, %ymm3, %ymm3
; AVX512VL-NEXT: vpcmpgtq %ymm2, %ymm3, %k1		; AVX512VL-NEXT: vpcmpgtq %ymm2, %ymm3, %k1
; AVX512VL-NEXT: vblendmpd %ymm0, %ymm1, %ymm0 {%k1}		; AVX512VL-NEXT: vblendmpd %ymm0, %ymm1, %ymm0 {%k1}
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%tr = icmp slt <4 x i64> %mask, zeroinitializer		%tr = icmp slt <4 x i64> %mask, zeroinitializer
Show All 12 Lines
; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
; AVX1-NEXT: vpmovsxdq %xmm2, %xmm2		; AVX1-NEXT: vpmovsxdq %xmm2, %xmm2
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
; AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0		; AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: signbit_sel_v4f64_small_mask:		; AVX2-LABEL: signbit_sel_v4f64_small_mask:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX2-NEXT: vpcmpgtd %xmm2, %xmm3, %xmm2
; AVX2-NEXT: vpmovsxdq %xmm2, %ymm2		; AVX2-NEXT: vpmovsxdq %xmm2, %ymm2
; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0		; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: signbit_sel_v4f64_small_mask:		; AVX512F-LABEL: signbit_sel_v4f64_small_mask:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX512F-NEXT: vpcmpgtd %xmm2, %xmm3, %xmm2
; AVX512F-NEXT: vpmovsxdq %xmm2, %ymm2		; AVX512F-NEXT: vpmovsxdq %xmm2, %ymm2
; AVX512F-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0		; AVX512F-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: signbit_sel_v4f64_small_mask:		; AVX512VL-LABEL: signbit_sel_v4f64_small_mask:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3		; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3
; AVX512VL-NEXT: vpcmpgtd %xmm2, %xmm3, %k1		; AVX512VL-NEXT: vpcmpgtd %xmm2, %xmm3, %k1
; AVX512VL-NEXT: vblendmpd %ymm0, %ymm1, %ymm0 {%k1}		; AVX512VL-NEXT: vblendmpd %ymm0, %ymm1, %ymm0 {%k1}
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
%tr = icmp slt <4 x i32> %mask, zeroinitializer		%tr = icmp slt <4 x i32> %mask, zeroinitializer
%z = select <4 x i1> %tr, <4 x double> %x, <4 x double> %y		%z = select <4 x i1> %tr, <4 x double> %x, <4 x double> %y
ret <4 x double> %z		ret <4 x double> %z
}		}

; Try a 512-bit vector to make sure AVX-512 is handled as expected.		; Try a 512-bit vector to make sure AVX-512 is handled as expected.

define <8 x double> @signbit_sel_v8f64(<8 x double> %x, <8 x double> %y, <8 x i64> %mask) {		define <8 x double> @signbit_sel_v8f64(<8 x double> %x, <8 x double> %y, <8 x i64> %mask) {
; AVX1-LABEL: signbit_sel_v8f64:		; AVX12-LABEL: signbit_sel_v8f64:
; AVX1: # BB#0:		; AVX12: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm6		; AVX12-NEXT: vblendvpd %ymm4, %ymm0, %ymm2, %ymm0
; AVX1-NEXT: vpxor %xmm7, %xmm7, %xmm7		; AVX12-NEXT: vblendvpd %ymm5, %ymm1, %ymm3, %ymm1
; AVX1-NEXT: vpcmpgtq %xmm6, %xmm7, %xmm6		; AVX12-NEXT: retq
; AVX1-NEXT: vpcmpgtq %xmm5, %xmm7, %xmm5
; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm5, %ymm5
; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm6
; AVX1-NEXT: vpcmpgtq %xmm6, %xmm7, %xmm6
; AVX1-NEXT: vpcmpgtq %xmm4, %xmm7, %xmm4
; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm4, %ymm4
; AVX1-NEXT: vblendvpd %ymm4, %ymm0, %ymm2, %ymm0
; AVX1-NEXT: vblendvpd %ymm5, %ymm1, %ymm3, %ymm1
; AVX1-NEXT: retq
;
; AVX2-LABEL: signbit_sel_v8f64:
; AVX2: # BB#0:
; AVX2-NEXT: vpxor %ymm6, %ymm6, %ymm6
; AVX2-NEXT: vpcmpgtq %ymm5, %ymm6, %ymm5
; AVX2-NEXT: vpcmpgtq %ymm4, %ymm6, %ymm4
; AVX2-NEXT: vblendvpd %ymm4, %ymm0, %ymm2, %ymm0
; AVX2-NEXT: vblendvpd %ymm5, %ymm1, %ymm3, %ymm1
; AVX2-NEXT: retq
;		;
; AVX512-LABEL: signbit_sel_v8f64:		; AVX512-LABEL: signbit_sel_v8f64:
; AVX512: # BB#0:		; AVX512: # BB#0:
; AVX512-NEXT: vpxord %zmm3, %zmm3, %zmm3		; AVX512-NEXT: vpxord %zmm3, %zmm3, %zmm3
; AVX512-NEXT: vpcmpgtq %zmm2, %zmm3, %k1		; AVX512-NEXT: vpcmpgtq %zmm2, %zmm3, %k1
; AVX512-NEXT: vblendmpd %zmm0, %zmm1, %zmm0 {%k1}		; AVX512-NEXT: vblendmpd %zmm0, %zmm1, %zmm0 {%k1}
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%tr = icmp slt <8 x i64> %mask, zeroinitializer		%tr = icmp slt <8 x i64> %mask, zeroinitializer
%z = select <8 x i1> %tr, <8 x double> %x, <8 x double> %y		%z = select <8 x i1> %tr, <8 x double> %x, <8 x double> %y
ret <8 x double> %z		ret <8 x double> %z
}		}