This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Extract i1 elements from vXi1 bool vectors
ClosedPublic

Authored by RKSimon on Apr 26 2019, 7:56 AM.

Download Raw Diff

Details

Reviewers

craig.topper
spatel
andreadb
lebedev.ri

Commits

rG99eefe94b5b0: [X86][SSE] Extract i1 elements from vXi1 bool vectors
rL359666: [X86][SSE] Extract i1 elements from vXi1 bool vectors

Summary

This is an alternative to D59669 which more aggressively extracts i1 elements from vXi1 bool vectors using a MOVMSK.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Apr 26 2019, 7:56 AM

Herald added a project: Restricted Project. · View Herald TranscriptApr 26 2019, 7:56 AM

RKSimon added inline comments.Apr 26 2019, 8:09 AM

test/CodeGen/X86/avx2-masked-gather.ll
55 ↗	(On Diff #196851)	Annoyingly this doesn't drop through the code, skipping zero-element gathers, instead repeating tests+branches.
393 ↗	(On Diff #196851)	Repeated PACKSS+MOVMSK instructions - I assume due to it having a undef argument in the xmm0 slot.
test/CodeGen/X86/avx512-insert-extract.ll
1024 ↗	(On Diff #196851)	we should be able to replace both shifts and the cmp with a single BT $32, %RAX ?
test/CodeGen/X86/masked_compressstore.ll
51 ↗	(On Diff #196851)	More repeated PACKSS+MOVMSK
test/CodeGen/X86/movmsk-cmp.ll
4376 ↗	(On Diff #196851)	We should be able to reduce this to a TEST
4655 ↗	(On Diff #196851)	Repeated comparisons
test/CodeGen/X86/setcc-combine.ll
10 ↗	(On Diff #196851)	I think this is effectively a NOT that we should be able to handle somehow.

Updated version, which actually looks pretty similar to D59669.....

I'm performing all the extractions at the same time and only combining if (a) there are only extractions using the source vector and (b) there's more than 1 extract (I'd like to remove this limitation in the future).

The big difference is D59669 tries to limit to setcc usage only, which with our new SimplifyDemandedBits support is probably unnecessary.

@spatel How do you want to proceed with this + D59669?

RKSimon retitled this revision from [X86][SSE] Extract i1 elements from vXi1 bool vectors (WIP) to [X86][SSE] Extract i1 elements from vXi1 bool vectors.Apr 29 2019, 4:17 AM

RKSimon marked an inline comment as done.

RKSimon added inline comments.

test/CodeGen/X86/movmsk-cmp.ll
4543 ↗	(On Diff #197084)	Interesting that we merge this OR chain but fail with the AND chain on movmsk_v2i64

This looks like a good refinement of the earlier patch, so I'm happy to abandon D59669 and move forward here.

lib/Target/X86/X86ISelLowering.cpp
34919 ↗	(On Diff #197084)	Matter of taste, but don't need to explicitly use "llvm::" here.
34925–34926 ↗	(On Diff #197084)	Could use a formula comment of the transform around here such as: // extelt vXi1 X, MaskIdx --> ((movmsk X) & Mask) == Mask
34931 ↗	(On Diff #197084)	Did framing this as: (x & Mask == Mask) rather than: (x & Mask != 0) make a difference in the output? If so, add a TODO comment about trying to avoid that problem.

Addressed @spatel's comments

RKSimon marked an inline comment as done.Apr 30 2019, 7:39 AM

RKSimon added inline comments.

lib/Target/X86/X86ISelLowering.cpp
34931 ↗	(On Diff #197084)	Yes, using the (x & Mask != 0) causes the 2 cmoves in PR39665_c_ray to reappear - I'll raise a bug
34931 ↗	(On Diff #197084)	https://bugs.llvm.org/show_bug.cgi?id=41672

spatel mentioned this in D59669: [x86] use movmsk when extracting multiple lanes of a vector compare (PR39665).Apr 30 2019, 7:44 AM

LGTM

This revision is now accepted and ready to land.Apr 30 2019, 4:45 PM

RKSimon edited the summary of this revision. (Show Details)May 1 2019, 2:26 AM

Closed by commit rL359666: [X86][SSE] Extract i1 elements from vXi1 bool vectors (authored by RKSimon). · Explain WhyMay 1 2019, 3:01 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

33 lines

test/

CodeGen/

X86/

bitcast-vector-bool.ll

25 lines

bool-vector.ll

68 lines

movmsk-cmp.ll

167 lines

Diff 197521

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 34,903 Lines • ▼ Show 20 Lines	static SDValue combineExtractVectorElt(SDNode *N, SelectionDAG &DAG,

// Attempt to replace min/max v8i16/v16i8 reductions with PHMINPOSUW.		// Attempt to replace min/max v8i16/v16i8 reductions with PHMINPOSUW.
if (SDValue MinMax = combineHorizontalMinMaxResult(N, DAG, Subtarget))		if (SDValue MinMax = combineHorizontalMinMaxResult(N, DAG, Subtarget))
return MinMax;		return MinMax;

if (SDValue V = scalarizeExtEltFP(N, DAG))		if (SDValue V = scalarizeExtEltFP(N, DAG))
return V;		return V;

		// Attempt to extract a i1 element by using MOVMSK to extract the signbits
		// and then testing the relevant element.
		if (CIdx && SrcVT.getScalarType() == MVT::i1) {
		SmallVector<SDNode *, 16> BoolExtracts;
		auto IsBoolExtract = [&BoolExtracts](SDNode *Use) {
		if (Use->getOpcode() == ISD::EXTRACT_VECTOR_ELT &&
		isa<ConstantSDNode>(Use->getOperand(1)) &&
		Use->getValueType(0) == MVT::i1) {
		BoolExtracts.push_back(Use);
		return true;
		}
		return false;
		};
		if (all_of(InputVector->uses(), IsBoolExtract) &&
		BoolExtracts.size() > 1) {
		unsigned NumSrcElts = SrcVT.getVectorNumElements();
		EVT BCVT = EVT::getIntegerVT(*DAG.getContext(), NumSrcElts);
		if (SDValue BC =
		combineBitcastvxi1(DAG, BCVT, InputVector, dl, Subtarget)) {
		for (SDNode *Use : BoolExtracts) {
		// extractelement vXi1 X, MaskIdx --> ((movmsk X) & Mask) == Mask
		unsigned MaskIdx = Use->getConstantOperandVal(1);
		APInt MaskBit = APInt::getOneBitSet(NumSrcElts, MaskIdx);
		SDValue Mask = DAG.getConstant(MaskBit, dl, BCVT);
		SDValue Res = DAG.getNode(ISD::AND, dl, BCVT, BC, Mask);
		Res = DAG.getSetCC(dl, MVT::i1, Res, Mask, ISD::SETEQ);
		DCI.CombineTo(Use, Res);
		}
		return SDValue(N, 0);
		}
		}
		}

return SDValue();		return SDValue();
}		}

/// If a vector select has an operand that is -1 or 0, try to simplify the		/// If a vector select has an operand that is -1 or 0, try to simplify the
/// select to a bitwise logic operation.		/// select to a bitwise logic operation.
/// TODO: Move to DAGCombiner, possibly using TargetLowering::hasAndNot()?		/// TODO: Move to DAGCombiner, possibly using TargetLowering::hasAndNot()?
static SDValue		static SDValue
combineVSelectWithAllOnesOrZeros(SDNode *N, SelectionDAG &DAG,		combineVSelectWithAllOnesOrZeros(SDNode *N, SelectionDAG &DAG,
▲ Show 20 Lines • Show All 9,312 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/bitcast-vector-bool.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE2-SSSE3,SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE2-SSSE3,SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+ssse3 \| FileCheck %s --check-prefixes=SSE2-SSSE3,SSSE3			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+ssse3 \| FileCheck %s --check-prefixes=SSE2-SSSE3,SSSE3
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX12,AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX12,AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX12,AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX12,AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512vl,+avx512bw \| FileCheck %s --check-prefixes=AVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512vl,+avx512bw \| FileCheck %s --check-prefixes=AVX512

	;			;
	; 128-bit vectors			; 128-bit vectors
	;			;

	define i1 @bitcast_v2i64_to_v2i1(<2 x i64> %a0) nounwind {			define i1 @bitcast_v2i64_to_v2i1(<2 x i64> %a0) nounwind {
	; SSE2-SSSE3-LABEL: bitcast_v2i64_to_v2i1:			; SSE2-SSSE3-LABEL: bitcast_v2i64_to_v2i1:
	; SSE2-SSSE3: # %bb.0:			; SSE2-SSSE3: # %bb.0:
	; SSE2-SSSE3-NEXT: movdqa {{.*#+}} xmm1 = [2147483648,2147483648]			; SSE2-SSSE3-NEXT: movmskpd %xmm0, %ecx
	; SSE2-SSSE3-NEXT: pxor %xmm1, %xmm0			; SSE2-SSSE3-NEXT: movl %ecx, %eax
	; SSE2-SSSE3-NEXT: movdqa %xmm1, %xmm2			; SSE2-SSSE3-NEXT: shrb %al
	; SSE2-SSSE3-NEXT: pcmpgtd %xmm0, %xmm2			; SSE2-SSSE3-NEXT: addb %cl, %al
	; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
	; SSE2-SSSE3-NEXT: pcmpeqd %xmm1, %xmm0
	; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE2-SSSE3-NEXT: pand %xmm3, %xmm0
	; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE2-SSSE3-NEXT: por %xmm0, %xmm1
	; SSE2-SSSE3-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-SSSE3-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-SSSE3-NEXT: addb -{{[0-9]+}}(%rsp), %al
	; SSE2-SSSE3-NEXT: retq			; SSE2-SSSE3-NEXT: retq
	;			;
	; AVX12-LABEL: bitcast_v2i64_to_v2i1:			; AVX12-LABEL: bitcast_v2i64_to_v2i1:
	; AVX12: # %bb.0:			; AVX12: # %bb.0:
	; AVX12-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX12-NEXT: vmovmskpd %xmm0, %ecx
	; AVX12-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm0			; AVX12-NEXT: movl %ecx, %eax
	; AVX12-NEXT: vpextrb $0, %xmm0, %ecx			; AVX12-NEXT: shrb %al
	; AVX12-NEXT: vpextrb $8, %xmm0, %eax
	; AVX12-NEXT: addb %cl, %al			; AVX12-NEXT: addb %cl, %al
	; AVX12-NEXT: # kill: def $al killed $al killed $eax
	; AVX12-NEXT: retq			; AVX12-NEXT: retq
	;			;
	; AVX512-LABEL: bitcast_v2i64_to_v2i1:			; AVX512-LABEL: bitcast_v2i64_to_v2i1:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: vpcmpgtq %xmm0, %xmm1, %k0			; AVX512-NEXT: vpcmpgtq %xmm0, %xmm1, %k0
	; AVX512-NEXT: kshiftrw $1, %k0, %k1			; AVX512-NEXT: kshiftrw $1, %k0, %k1
	; AVX512-NEXT: kmovd %k1, %ecx			; AVX512-NEXT: kmovd %k1, %ecx
	▲ Show 20 Lines • Show All 1,501 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/bool-vector.ll

	Show First 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; X32-NEXT: leal (%edx,%ecx,4), %ecx			; X32-NEXT: leal (%edx,%ecx,4), %ecx
	; X32-NEXT: leal (%ecx,%eax,8), %eax			; X32-NEXT: leal (%ecx,%eax,8), %eax
	; X32-NEXT: popl %esi			; X32-NEXT: popl %esi
	; X32-NEXT: .cfi_def_cfa_offset 4			; X32-NEXT: .cfi_def_cfa_offset 4
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X32-SSE2-LABEL: PR15215_good:			; X32-SSE2-LABEL: PR15215_good:
	; X32-SSE2: # %bb.0: # %entry			; X32-SSE2: # %bb.0: # %entry
	; X32-SSE2-NEXT: pushl %esi			; X32-SSE2-NEXT: pslld $31, %xmm0
	; X32-SSE2-NEXT: .cfi_def_cfa_offset 8			; X32-SSE2-NEXT: movmskps %xmm0, %eax
	; X32-SSE2-NEXT: .cfi_offset %esi, -8
	; X32-SSE2-NEXT: movd %xmm0, %eax
	; X32-SSE2-NEXT: andl $1, %eax
	; X32-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X32-SSE2-NEXT: movd %xmm1, %ecx
	; X32-SSE2-NEXT: andl $1, %ecx
	; X32-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X32-SSE2-NEXT: movd %xmm1, %edx
	; X32-SSE2-NEXT: andl $1, %edx
	; X32-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; X32-SSE2-NEXT: movd %xmm0, %esi
	; X32-SSE2-NEXT: andl $1, %esi
	; X32-SSE2-NEXT: leal (%eax,%ecx,2), %eax
	; X32-SSE2-NEXT: leal (%eax,%edx,4), %eax
	; X32-SSE2-NEXT: leal (%eax,%esi,8), %eax
	; X32-SSE2-NEXT: popl %esi
	; X32-SSE2-NEXT: .cfi_def_cfa_offset 4
	; X32-SSE2-NEXT: retl			; X32-SSE2-NEXT: retl
	;			;
	; X32-AVX2-LABEL: PR15215_good:			; X32-AVX2-LABEL: PR15215_good:
	; X32-AVX2: # %bb.0: # %entry			; X32-AVX2: # %bb.0: # %entry
	; X32-AVX2-NEXT: pushl %esi			; X32-AVX2-NEXT: vpslld $31, %xmm0, %xmm0
	; X32-AVX2-NEXT: .cfi_def_cfa_offset 8			; X32-AVX2-NEXT: vmovmskps %xmm0, %eax
	; X32-AVX2-NEXT: .cfi_offset %esi, -8
	; X32-AVX2-NEXT: vmovd %xmm0, %eax
	; X32-AVX2-NEXT: andl $1, %eax
	; X32-AVX2-NEXT: vpextrd $1, %xmm0, %ecx
	; X32-AVX2-NEXT: andl $1, %ecx
	; X32-AVX2-NEXT: vpextrd $2, %xmm0, %edx
	; X32-AVX2-NEXT: andl $1, %edx
	; X32-AVX2-NEXT: vpextrd $3, %xmm0, %esi
	; X32-AVX2-NEXT: andl $1, %esi
	; X32-AVX2-NEXT: leal (%eax,%ecx,2), %eax
	; X32-AVX2-NEXT: leal (%eax,%edx,4), %eax
	; X32-AVX2-NEXT: leal (%eax,%esi,8), %eax
	; X32-AVX2-NEXT: popl %esi
	; X32-AVX2-NEXT: .cfi_def_cfa_offset 4
	; X32-AVX2-NEXT: retl			; X32-AVX2-NEXT: retl
	;			;
	; X64-LABEL: PR15215_good:			; X64-LABEL: PR15215_good:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: # kill: def $ecx killed $ecx def $rcx			; X64-NEXT: # kill: def $ecx killed $ecx def $rcx
	; X64-NEXT: # kill: def $edx killed $edx def $rdx			; X64-NEXT: # kill: def $edx killed $edx def $rdx
	; X64-NEXT: # kill: def $esi killed $esi def $rsi			; X64-NEXT: # kill: def $esi killed $esi def $rsi
	; X64-NEXT: # kill: def $edi killed $edi def $rdi			; X64-NEXT: # kill: def $edi killed $edi def $rdi
	; X64-NEXT: andl $1, %edi			; X64-NEXT: andl $1, %edi
	; X64-NEXT: andl $1, %esi			; X64-NEXT: andl $1, %esi
	; X64-NEXT: andl $1, %edx			; X64-NEXT: andl $1, %edx
	; X64-NEXT: andl $1, %ecx			; X64-NEXT: andl $1, %ecx
	; X64-NEXT: leal (%rdi,%rsi,2), %eax			; X64-NEXT: leal (%rdi,%rsi,2), %eax
	; X64-NEXT: leal (%rax,%rdx,4), %eax			; X64-NEXT: leal (%rax,%rdx,4), %eax
	; X64-NEXT: leal (%rax,%rcx,8), %eax			; X64-NEXT: leal (%rax,%rcx,8), %eax
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X64-SSE2-LABEL: PR15215_good:			; X64-SSE2-LABEL: PR15215_good:
	; X64-SSE2: # %bb.0: # %entry			; X64-SSE2: # %bb.0: # %entry
	; X64-SSE2-NEXT: movd %xmm0, %eax			; X64-SSE2-NEXT: pslld $31, %xmm0
	; X64-SSE2-NEXT: andl $1, %eax			; X64-SSE2-NEXT: movmskps %xmm0, %eax
	; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-SSE2-NEXT: movd %xmm1, %ecx
	; X64-SSE2-NEXT: andl $1, %ecx
	; X64-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-SSE2-NEXT: movd %xmm1, %edx
	; X64-SSE2-NEXT: andl $1, %edx
	; X64-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; X64-SSE2-NEXT: movd %xmm0, %esi
	; X64-SSE2-NEXT: andl $1, %esi
	; X64-SSE2-NEXT: leal (%rax,%rcx,2), %eax
	; X64-SSE2-NEXT: leal (%rax,%rdx,4), %eax
	; X64-SSE2-NEXT: leal (%rax,%rsi,8), %eax
	; X64-SSE2-NEXT: retq			; X64-SSE2-NEXT: retq
	;			;
	; X64-AVX2-LABEL: PR15215_good:			; X64-AVX2-LABEL: PR15215_good:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: vmovd %xmm0, %eax			; X64-AVX2-NEXT: vpslld $31, %xmm0, %xmm0
	; X64-AVX2-NEXT: andl $1, %eax			; X64-AVX2-NEXT: vmovmskps %xmm0, %eax
	; X64-AVX2-NEXT: vpextrd $1, %xmm0, %ecx
	; X64-AVX2-NEXT: andl $1, %ecx
	; X64-AVX2-NEXT: vpextrd $2, %xmm0, %edx
	; X64-AVX2-NEXT: andl $1, %edx
	; X64-AVX2-NEXT: vpextrd $3, %xmm0, %esi
	; X64-AVX2-NEXT: andl $1, %esi
	; X64-AVX2-NEXT: leal (%rax,%rcx,2), %eax
	; X64-AVX2-NEXT: leal (%rax,%rdx,4), %eax
	; X64-AVX2-NEXT: leal (%rax,%rsi,8), %eax
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	entry:			entry:
	%0 = trunc <4 x i32> %input to <4 x i1>			%0 = trunc <4 x i32> %input to <4 x i1>
	%1 = extractelement <4 x i1> %0, i32 0			%1 = extractelement <4 x i1> %0, i32 0
	%e1 = select i1 %1, i32 1, i32 0			%e1 = select i1 %1, i32 1, i32 0
	%2 = extractelement <4 x i1> %0, i32 1			%2 = extractelement <4 x i1> %0, i32 1
	%e2 = select i1 %2, i32 2, i32 0			%e2 = select i1 %2, i32 2, i32 0
	%3 = extractelement <4 x i1> %0, i32 2			%3 = extractelement <4 x i1> %0, i32 2
	%e3 = select i1 %3, i32 4, i32 0			%e3 = select i1 %3, i32 4, i32 0
	%4 = extractelement <4 x i1> %0, i32 3			%4 = extractelement <4 x i1> %0, i32 3
	%e4 = select i1 %4, i32 8, i32 0			%e4 = select i1 %4, i32 8, i32 0
	%5 = or i32 %e1, %e2			%5 = or i32 %e1, %e2
	%6 = or i32 %5, %e3			%6 = or i32 %5, %e3
	%7 = or i32 %6, %e4			%7 = or i32 %6, %e4
	ret i32 %7			ret i32 %7
	}			}

llvm/trunk/test/CodeGen/X86/movmsk-cmp.ll

Show First 20 Lines • Show All 4,267 Lines • ▼ Show 20 Lines
}		}

; Multiple extract elements from a vector compare.		; Multiple extract elements from a vector compare.

define i1 @movmsk_v16i8(<16 x i8> %x, <16 x i8> %y) {		define i1 @movmsk_v16i8(<16 x i8> %x, <16 x i8> %y) {
; SSE2-LABEL: movmsk_v16i8:		; SSE2-LABEL: movmsk_v16i8:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pcmpeqb %xmm1, %xmm0		; SSE2-NEXT: pcmpeqb %xmm1, %xmm0
; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: pmovmskb %xmm0, %eax
; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movl %eax, %ecx
; SSE2-NEXT: xorb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: shrl $15, %ecx
; SSE2-NEXT: andb -{{[0-9]+}}(%rsp), %al		; SSE2-NEXT: movl %eax, %edx
		; SSE2-NEXT: shrl $8, %edx
		; SSE2-NEXT: andl $1, %edx
		; SSE2-NEXT: andl $8, %eax
		; SSE2-NEXT: shrl $3, %eax
		; SSE2-NEXT: xorl %edx, %eax
		; SSE2-NEXT: andl %ecx, %eax
		; SSE2-NEXT: # kill: def $al killed $al killed $eax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX-LABEL: movmsk_v16i8:		; AVX-LABEL: movmsk_v16i8:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
; AVX-NEXT: vpextrb $3, %xmm0, %eax		; AVX-NEXT: vpmovmskb %xmm0, %eax
; AVX-NEXT: vpextrb $8, %xmm0, %ecx		; AVX-NEXT: movl %eax, %ecx
; AVX-NEXT: xorl %eax, %ecx		; AVX-NEXT: shrl $15, %ecx
; AVX-NEXT: vpextrb $15, %xmm0, %eax		; AVX-NEXT: movl %eax, %edx
		; AVX-NEXT: shrl $8, %edx
		; AVX-NEXT: andl $1, %edx
		; AVX-NEXT: andl $8, %eax
		; AVX-NEXT: shrl $3, %eax
		; AVX-NEXT: xorl %edx, %eax
; AVX-NEXT: andl %ecx, %eax		; AVX-NEXT: andl %ecx, %eax
; AVX-NEXT: # kill: def $al killed $al killed $eax		; AVX-NEXT: # kill: def $al killed $al killed $eax
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; KNL-LABEL: movmsk_v16i8:		; KNL-LABEL: movmsk_v16i8:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0		; KNL-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
; KNL-NEXT: vpmovsxbd %xmm0, %zmm0		; KNL-NEXT: vpmovsxbd %xmm0, %zmm0
Show All 27 Lines	; SKX-NEXT: retq
%e1 = extractelement <16 x i1> %cmp, i32 3		%e1 = extractelement <16 x i1> %cmp, i32 3
%e2 = extractelement <16 x i1> %cmp, i32 8		%e2 = extractelement <16 x i1> %cmp, i32 8
%e3 = extractelement <16 x i1> %cmp, i32 15		%e3 = extractelement <16 x i1> %cmp, i32 15
%u1 = xor i1 %e1, %e2		%u1 = xor i1 %e1, %e2
%u2 = and i1 %e3, %u1		%u2 = and i1 %e3, %u1
ret i1 %u2		ret i1 %u2
}		}

		; TODO: Replace shift+mask chain with NOT+TEST+SETE
define i1 @movmsk_v8i16(<8 x i16> %x, <8 x i16> %y) {		define i1 @movmsk_v8i16(<8 x i16> %x, <8 x i16> %y) {
; SSE2-LABEL: movmsk_v8i16:		; SSE2-LABEL: movmsk_v8i16:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pcmpgtw %xmm1, %xmm0		; SSE2-NEXT: pcmpgtw %xmm1, %xmm0
; SSE2-NEXT: movd %xmm0, %ecx		; SSE2-NEXT: packsswb %xmm0, %xmm0
; SSE2-NEXT: pextrw $1, %xmm0, %edx		; SSE2-NEXT: pmovmskb %xmm0, %ecx
; SSE2-NEXT: pextrw $7, %xmm0, %esi		; SSE2-NEXT: movl %ecx, %eax
; SSE2-NEXT: pextrw $4, %xmm0, %eax		; SSE2-NEXT: shrb $7, %al
; SSE2-NEXT: andl %esi, %eax		; SSE2-NEXT: movl %ecx, %edx
; SSE2-NEXT: andl %edx, %eax		; SSE2-NEXT: andb $16, %dl
; SSE2-NEXT: andl %ecx, %eax		; SSE2-NEXT: shrb $4, %dl
; SSE2-NEXT: # kill: def $al killed $al killed $eax		; SSE2-NEXT: andb %al, %dl
		; SSE2-NEXT: movl %ecx, %eax
		; SSE2-NEXT: shrb %al
		; SSE2-NEXT: andb %dl, %al
		; SSE2-NEXT: andb %cl, %al
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX-LABEL: movmsk_v8i16:		; AVX-LABEL: movmsk_v8i16:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0
; AVX-NEXT: vmovd %xmm0, %ecx		; AVX-NEXT: vpacksswb %xmm0, %xmm0, %xmm0
; AVX-NEXT: vpextrw $1, %xmm0, %edx		; AVX-NEXT: vpmovmskb %xmm0, %ecx
; AVX-NEXT: vpextrw $7, %xmm0, %esi		; AVX-NEXT: movl %ecx, %eax
; AVX-NEXT: vpextrw $4, %xmm0, %eax		; AVX-NEXT: shrb $7, %al
; AVX-NEXT: andl %esi, %eax		; AVX-NEXT: movl %ecx, %edx
; AVX-NEXT: andl %edx, %eax		; AVX-NEXT: andb $16, %dl
; AVX-NEXT: andl %ecx, %eax		; AVX-NEXT: shrb $4, %dl
; AVX-NEXT: # kill: def $al killed $al killed $eax		; AVX-NEXT: andb %al, %dl
		; AVX-NEXT: movl %ecx, %eax
		; AVX-NEXT: shrb %al
		; AVX-NEXT: andb %dl, %al
		; AVX-NEXT: andb %cl, %al
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; KNL-LABEL: movmsk_v8i16:		; KNL-LABEL: movmsk_v8i16:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0		; KNL-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0
; KNL-NEXT: vpmovsxwq %xmm0, %zmm0		; KNL-NEXT: vpmovsxwq %xmm0, %zmm0
; KNL-NEXT: vptestmq %zmm0, %zmm0, %k0		; KNL-NEXT: vptestmq %zmm0, %zmm0, %k0
; KNL-NEXT: kshiftrw $4, %k0, %k1		; KNL-NEXT: kshiftrw $4, %k0, %k1
Show All 31 Lines	; SKX-NEXT: retq
%e3 = extractelement <8 x i1> %cmp, i32 7		%e3 = extractelement <8 x i1> %cmp, i32 7
%e4 = extractelement <8 x i1> %cmp, i32 4		%e4 = extractelement <8 x i1> %cmp, i32 4
%u1 = and i1 %e1, %e2		%u1 = and i1 %e1, %e2
%u2 = and i1 %e3, %e4		%u2 = and i1 %e3, %e4
%u3 = and i1 %u1, %u2		%u3 = and i1 %u1, %u2
ret i1 %u3		ret i1 %u3
}		}

		; TODO: Replace shift+mask chain with AND+CMP.
define i1 @movmsk_v4i32(<4 x i32> %x, <4 x i32> %y) {		define i1 @movmsk_v4i32(<4 x i32> %x, <4 x i32> %y) {
; SSE2-LABEL: movmsk_v4i32:		; SSE2-LABEL: movmsk_v4i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pcmpgtd %xmm0, %xmm1		; SSE2-NEXT: pcmpgtd %xmm0, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]		; SSE2-NEXT: movmskps %xmm1, %eax
; SSE2-NEXT: movd %xmm0, %ecx		; SSE2-NEXT: movl %eax, %ecx
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]		; SSE2-NEXT: shrb $3, %cl
; SSE2-NEXT: movd %xmm0, %eax		; SSE2-NEXT: andb $4, %al
; SSE2-NEXT: xorl %ecx, %eax		; SSE2-NEXT: shrb $2, %al
		; SSE2-NEXT: xorb %cl, %al
; SSE2-NEXT: # kill: def $al killed $al killed $eax		; SSE2-NEXT: # kill: def $al killed $al killed $eax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX-LABEL: movmsk_v4i32:		; AVX-LABEL: movmsk_v4i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpcmpgtd %xmm0, %xmm1, %xmm0		; AVX-NEXT: vpcmpgtd %xmm0, %xmm1, %xmm0
; AVX-NEXT: vpextrd $2, %xmm0, %ecx		; AVX-NEXT: vmovmskps %xmm0, %eax
; AVX-NEXT: vpextrd $3, %xmm0, %eax		; AVX-NEXT: movl %eax, %ecx
; AVX-NEXT: xorl %ecx, %eax		; AVX-NEXT: shrb $3, %cl
		; AVX-NEXT: andb $4, %al
		; AVX-NEXT: shrb $2, %al
		; AVX-NEXT: xorb %cl, %al
; AVX-NEXT: # kill: def $al killed $al killed $eax		; AVX-NEXT: # kill: def $al killed $al killed $eax
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; KNL-LABEL: movmsk_v4i32:		; KNL-LABEL: movmsk_v4i32:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1		; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL-NEXT: vpcmpgtd %zmm0, %zmm1, %k0		; KNL-NEXT: vpcmpgtd %zmm0, %zmm1, %k0
Show All 26 Lines
define i1 @movmsk_v2i64(<2 x i64> %x, <2 x i64> %y) {		define i1 @movmsk_v2i64(<2 x i64> %x, <2 x i64> %y) {
; SSE2-LABEL: movmsk_v2i64:		; SSE2-LABEL: movmsk_v2i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pcmpeqd %xmm1, %xmm0		; SSE2-NEXT: pcmpeqd %xmm1, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,0,3,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,0,3,2]
; SSE2-NEXT: pand %xmm0, %xmm1		; SSE2-NEXT: pand %xmm0, %xmm1
; SSE2-NEXT: pcmpeqd %xmm0, %xmm0		; SSE2-NEXT: pcmpeqd %xmm0, %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm0		; SSE2-NEXT: pxor %xmm1, %xmm0
; SSE2-NEXT: movd %xmm0, %ecx		; SSE2-NEXT: movmskpd %xmm0, %ecx
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE2-NEXT: movl %ecx, %eax
; SSE2-NEXT: movd %xmm0, %eax		; SSE2-NEXT: shrb %al
; SSE2-NEXT: andl %ecx, %eax		; SSE2-NEXT: andb %cl, %al
; SSE2-NEXT: # kill: def $al killed $al killed $eax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX-LABEL: movmsk_v2i64:		; AVX-LABEL: movmsk_v2i64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0
; AVX-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1		; AVX-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0
; AVX-NEXT: vpextrd $2, %xmm0, %ecx		; AVX-NEXT: vmovmskpd %xmm0, %ecx
; AVX-NEXT: vmovd %xmm0, %eax		; AVX-NEXT: movl %ecx, %eax
; AVX-NEXT: andl %ecx, %eax		; AVX-NEXT: shrb %al
; AVX-NEXT: # kill: def $al killed $al killed $eax		; AVX-NEXT: andb %cl, %al
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; KNL-LABEL: movmsk_v2i64:		; KNL-LABEL: movmsk_v2i64:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1		; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL-NEXT: vpcmpneqq %zmm1, %zmm0, %k0		; KNL-NEXT: vpcmpneqq %zmm1, %zmm0, %k0
; KNL-NEXT: kshiftrw $1, %k0, %k1		; KNL-NEXT: kshiftrw $1, %k0, %k1
Show All 22 Lines

define i1 @movmsk_v4f32(<4 x float> %x, <4 x float> %y) {		define i1 @movmsk_v4f32(<4 x float> %x, <4 x float> %y) {
; SSE2-LABEL: movmsk_v4f32:		; SSE2-LABEL: movmsk_v4f32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movaps %xmm0, %xmm2		; SSE2-NEXT: movaps %xmm0, %xmm2
; SSE2-NEXT: cmpeqps %xmm1, %xmm2		; SSE2-NEXT: cmpeqps %xmm1, %xmm2
; SSE2-NEXT: cmpunordps %xmm1, %xmm0		; SSE2-NEXT: cmpunordps %xmm1, %xmm0
; SSE2-NEXT: orps %xmm2, %xmm0		; SSE2-NEXT: orps %xmm2, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; SSE2-NEXT: movmskps %xmm0, %eax
; SSE2-NEXT: movd %xmm1, %ecx		; SSE2-NEXT: testb $14, %al
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SSE2-NEXT: setne %al
; SSE2-NEXT: movd %xmm1, %edx
; SSE2-NEXT: pextrw $6, %xmm0, %eax
; SSE2-NEXT: orl %edx, %eax
; SSE2-NEXT: orl %ecx, %eax
; SSE2-NEXT: # kill: def $al killed $al killed $eax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX-LABEL: movmsk_v4f32:		; AVX-LABEL: movmsk_v4f32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vcmpeq_uqps %xmm1, %xmm0, %xmm0		; AVX-NEXT: vcmpeq_uqps %xmm1, %xmm0, %xmm0
; AVX-NEXT: vextractps $1, %xmm0, %ecx		; AVX-NEXT: vmovmskps %xmm0, %eax
; AVX-NEXT: vextractps $2, %xmm0, %edx		; AVX-NEXT: testb $14, %al
; AVX-NEXT: vpextrb $12, %xmm0, %eax		; AVX-NEXT: setne %al
; AVX-NEXT: orl %edx, %eax
; AVX-NEXT: orl %ecx, %eax
; AVX-NEXT: # kill: def $al killed $al killed $eax
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; KNL-LABEL: movmsk_v4f32:		; KNL-LABEL: movmsk_v4f32:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1		; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL-NEXT: vcmpeq_uqps %zmm1, %zmm0, %k0		; KNL-NEXT: vcmpeq_uqps %zmm1, %zmm0, %k0
; KNL-NEXT: kshiftrw $3, %k0, %k1		; KNL-NEXT: kshiftrw $3, %k0, %k1
Show All 29 Lines	; SKX-NEXT: retq
%u2 = or i1 %u1, %e3		%u2 = or i1 %u1, %e3
ret i1 %u2		ret i1 %u2
}		}

define i1 @movmsk_v2f64(<2 x double> %x, <2 x double> %y) {		define i1 @movmsk_v2f64(<2 x double> %x, <2 x double> %y) {
; SSE2-LABEL: movmsk_v2f64:		; SSE2-LABEL: movmsk_v2f64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: cmplepd %xmm0, %xmm1		; SSE2-NEXT: cmplepd %xmm0, %xmm1
; SSE2-NEXT: movd %xmm1, %ecx		; SSE2-NEXT: movmskpd %xmm1, %ecx
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]		; SSE2-NEXT: movl %ecx, %eax
; SSE2-NEXT: movd %xmm0, %eax		; SSE2-NEXT: shrb %al
; SSE2-NEXT: andl %ecx, %eax		; SSE2-NEXT: andb %cl, %al
; SSE2-NEXT: # kill: def $al killed $al killed $eax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX-LABEL: movmsk_v2f64:		; AVX-LABEL: movmsk_v2f64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vcmplepd %xmm0, %xmm1, %xmm0		; AVX-NEXT: vcmplepd %xmm0, %xmm1, %xmm0
; AVX-NEXT: vextractps $2, %xmm0, %ecx		; AVX-NEXT: vmovmskpd %xmm0, %ecx
; AVX-NEXT: vmovd %xmm0, %eax		; AVX-NEXT: movl %ecx, %eax
; AVX-NEXT: andl %ecx, %eax		; AVX-NEXT: shrb %al
; AVX-NEXT: # kill: def $al killed $al killed $eax		; AVX-NEXT: andb %cl, %al
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; KNL-LABEL: movmsk_v2f64:		; KNL-LABEL: movmsk_v2f64:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1		; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL-NEXT: vcmplepd %zmm0, %zmm1, %k0		; KNL-NEXT: vcmplepd %zmm0, %zmm1, %k0
; KNL-NEXT: kshiftrw $1, %k0, %k1		; KNL-NEXT: kshiftrw $1, %k0, %k1
Show All 19 Lines	; SKX-NEXT: retq
%u1 = and i1 %e1, %e2		%u1 = and i1 %e1, %e2
ret i1 %u1		ret i1 %u1
}		}

define i32 @PR39665_c_ray(<2 x double> %x, <2 x double> %y) {		define i32 @PR39665_c_ray(<2 x double> %x, <2 x double> %y) {
; SSE2-LABEL: PR39665_c_ray:		; SSE2-LABEL: PR39665_c_ray:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: cmpltpd %xmm0, %xmm1		; SSE2-NEXT: cmpltpd %xmm0, %xmm1
; SSE2-NEXT: movapd %xmm1, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movmskpd %xmm1, %eax
; SSE2-NEXT: testb $1, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: cmpb $3, %al
; SSE2-NEXT: movl $42, %eax		; SSE2-NEXT: movl $42, %ecx
; SSE2-NEXT: movl $99, %ecx		; SSE2-NEXT: movl $99, %eax
; SSE2-NEXT: cmovel %ecx, %eax
; SSE2-NEXT: testb $1, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: cmovel %ecx, %eax		; SSE2-NEXT: cmovel %ecx, %eax
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; AVX-LABEL: PR39665_c_ray:		; AVX-LABEL: PR39665_c_ray:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0		; AVX-NEXT: vcmpltpd %xmm0, %xmm1, %xmm0
; AVX-NEXT: vpextrb $0, %xmm0, %ecx		; AVX-NEXT: vmovmskpd %xmm0, %eax
; AVX-NEXT: vpextrb $8, %xmm0, %eax		; AVX-NEXT: cmpb $3, %al
; AVX-NEXT: testb $1, %al		; AVX-NEXT: movl $42, %ecx
; AVX-NEXT: movl $42, %eax		; AVX-NEXT: movl $99, %eax
; AVX-NEXT: movl $99, %edx		; AVX-NEXT: cmovel %ecx, %eax
; AVX-NEXT: cmovel %edx, %eax
; AVX-NEXT: testb $1, %cl
; AVX-NEXT: cmovel %edx, %eax
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; KNL-LABEL: PR39665_c_ray:		; KNL-LABEL: PR39665_c_ray:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1		; KNL-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0		; KNL-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; KNL-NEXT: vcmpltpd %zmm0, %zmm1, %k0		; KNL-NEXT: vcmpltpd %zmm0, %zmm1, %k0
; KNL-NEXT: kshiftrw $1, %k0, %k1		; KNL-NEXT: kshiftrw $1, %k0, %k1
Show All 31 Lines