This is an archive of the discontinued LLVM Phabricator instance.

[X86] Use min/max for vector ult/ugt compares if avoids a sign flip.
ClosedPublic

Authored by craig.topper on Feb 5 2018, 4:12 PM.

Download Raw Diff

Details

Reviewers

spatel
RKSimon

Commits

rGca5a3401718e: [X86] Use min/max for vector ult/ugt compares if avoids a sign flip.
rL324842: [X86] Use min/max for vector ult/ugt compares if avoids a sign flip.

Summary

Currently we only use min/max to help with ule/uge compares because it removes an invert of the result that would otherwise be needed. But we can also use it for ult/ugt compares if it will prevent the need for a sign bit flip needed to use pcmpgt at the cost of requiring an invert after the compare.

I also refactored the code so that the max/min code is self contained and does its own return instead of setting up a flag to manipulate the rest of the function's behavior.

Most of the test cases look ok with this. I did notice that we added instructions when one of the operands being sign flipped is a constant vector that we were able to constant fold the flip into.

I also noticed that sometimes the SSE min/max clobbers a register that is needed after the compare. This resulted in an extra move being inserted before the min/max to preserve the register. We could try to detect this and switch from min to max and change the compare operands to use the operand that gets reused in the compare.

Diff Detail

Event Timeline

craig.topper created this revision.Feb 5 2018, 4:12 PM

craig.topper edited the summary of this revision. (Show Details)Feb 5 2018, 4:14 PM

I've been hitting some of the same issues while finishing the TRUNC(CLAMP()) truncation -> PACK support. Would it be a good idea to enable custom lowering of all (U,S)(MAX,MIN) on SSE2+ targets? It cleans out a lot of CMPGT/CMPGE mismatches and makes it easier to match a lot of this stuff using the SMIN etc. opcodes directly.

Maybe it's too early in the morning, but I'm not sure I followed. A lot of these cases aren't min/max how does custom handling help?

In D42935#999124, @craig.topper wrote:

Maybe it's too early in the morning, but I'm not sure I followed. A lot of these cases aren't min/max how does custom handling help?

No, it might be me - I'm starting to see phantom minmax patterns everywhere....

But that test_ult_byte regression is annoying.

lib/Target/X86/X86ISelLowering.cpp
18008	Use IsOperationLegal instead? I think that'd add VLX v2i64/v4i64 support?
test/CodeGen/X86/vec_setcc-2.ll
150	Interesting that this didn't commute and fold the load? You'd need a MOVDQArr instead I guess.

craig.topper added inline comments.Feb 7 2018, 12:40 PM

lib/Target/X86/X86ISelLowering.cpp
18008	hasAVX512() && VET == MVT::i64 should cover VLX as well since AVX512 is a subset of VLX. But I agree is OperationLegal would be cleaner.

Use isOperationLegal

LGTM, with a couple of minor thoughts.

Having looked through, I think the PSUBUS regressions can be blamed on PR31293 and shouldn't block this patch.

test/CodeGen/X86/avx512vl-vec-masked-cmp.ll
16301	Is this necessary? Is there anyway that ComputeKnownBits/NumSignBits + SimplifyDemandedBits could be used to remove it?

This revision is now accepted and ready to land.Feb 11 2018, 8:10 AM

Closed by commit rL324842: [X86] Use min/max for vector ult/ugt compares if avoids a sign flip. (authored by ctopper). · Explain WhyFeb 11 2018, 9:15 AM

This revision was automatically updated to reflect the committed changes.

craig.topper added inline comments.Feb 11 2018, 9:17 AM

test/CodeGen/X86/avx512vl-vec-masked-cmp.ll
16301	I believe it's getting tripped up because the vpternlog is a (v16i8 (bitcast (xor (bitcast v2i64))) after legalize. I don't think computeNumSignBits can cross both of those bitcasts very well. Probably doesn't help that LegalVectorOps visits nodes bottom up so the compare is legalized first, it creates the xor, the xor gets legalized with the bitcatsts. Then the truncate gets legalized, but its too late. Meanwhile LegalizeDAG visits nodes top down so would probably be able to handle this case since the truncate would legalize first.

Revision Contents

Path

Size

lib/

Target/

X86/

X86ISelLowering.cpp

62 lines

test/

CodeGen/

X86/

avx512-insert-extract.ll

88 lines

avx512vl-vec-masked-cmp.ll

366 lines

326 lines

381 lines

11 lines

158 lines

Diff 132903

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 17,983 Lines • ▼ Show 20 Lines	if (BC0.getOpcode() == ISD::AND) {
if (llvm::all_of(EltBits, [](APInt &V) { return V.isPowerOf2(); })) {		if (llvm::all_of(EltBits, [](APInt &V) { return V.isPowerOf2(); })) {
Cond = ISD::SETEQ;		Cond = ISD::SETEQ;
Op1 = DAG.getBitcast(VT, BC0.getOperand(1));		Op1 = DAG.getBitcast(VT, BC0.getOperand(1));
}		}
}		}
}		}
}		}

// We are handling one of the integer comparisons here. Since SSE only has
// GT and EQ comparisons for integer, swapping operands and multiple
// operations may be required for some comparisons.
unsigned Opc = (Cond == ISD::SETEQ \|\| Cond == ISD::SETNE) ? X86ISD::PCMPEQ
: X86ISD::PCMPGT;
bool Swap = Cond == ISD::SETLT \|\| Cond == ISD::SETULT \|\|
Cond == ISD::SETGE \|\| Cond == ISD::SETUGE;
bool Invert = Cond == ISD::SETNE \|\|
(Cond != ISD::SETEQ && ISD::isTrueWhenEqual(Cond));

// If both operands are known non-negative, then an unsigned compare is the		// If both operands are known non-negative, then an unsigned compare is the
// same as a signed compare and there's no need to flip signbits.		// same as a signed compare and there's no need to flip signbits.
// TODO: We could check for more general simplifications here since we're		// TODO: We could check for more general simplifications here since we're
// computing known bits.		// computing known bits.
bool FlipSigns = ISD::isUnsignedIntSetCC(Cond) &&		bool FlipSigns = ISD::isUnsignedIntSetCC(Cond) &&
!(DAG.SignBitIsZero(Op0) && DAG.SignBitIsZero(Op1));		!(DAG.SignBitIsZero(Op0) && DAG.SignBitIsZero(Op1));

// Special case: Use min/max operations for SETULE/SETUGE		// Special case: Use min/max operations for unsigned compares. We only want
		// to do this for unsigned compares if we need to flip signs or if it allows
		// use to avoid an invert.
MVT VET = VT.getVectorElementType();		MVT VET = VT.getVectorElementType();
bool HasMinMax =		bool UseMinMax = ISD::isUnsignedIntSetCC(Cond) &&
(Subtarget.hasAVX512() && VET == MVT::i64) \|\|		(FlipSigns \|\| ISD::isTrueWhenEqual(Cond)) &&
(Subtarget.hasSSE41() && (VET == MVT::i16 \|\| VET == MVT::i32)) \|\|		((Subtarget.hasAVX512() && VET == MVT::i64) \|\|
(Subtarget.hasSSE2() && (VET == MVT::i8));		(Subtarget.hasSSE41() && (VET == MVT::i16 \|\|
bool MinMax = false;		VET == MVT::i32)) \|\|
if (HasMinMax) {		(Subtarget.hasSSE2() && (VET == MVT::i8)));
		RKSimonUnsubmitted Not Done Reply Inline Actions Use IsOperationLegal instead? I think that'd add VLX v2i64/v4i64 support? RKSimon: Use IsOperationLegal instead? I think that'd add VLX v2i64/v4i64 support?
		craig.topperAuthorUnsubmitted Not Done Reply Inline Actions hasAVX512() && VET == MVT::i64 should cover VLX as well since AVX512 is a subset of VLX. But I agree is OperationLegal would be cleaner. craig.topper: hasAVX512() && VET == MVT::i64 should cover VLX as well since AVX512 is a subset of VLX. But I…
		if (UseMinMax) {
		bool Invert = false;
		unsigned Opc;
switch (Cond) {		switch (Cond) {
default: break;		default: llvm_unreachable("Unexpected condition code");
case ISD::SETULE: Opc = ISD::UMIN; MinMax = true; break;		case ISD::SETUGT: Invert = true; LLVM_FALLTHROUGH;
case ISD::SETUGE: Opc = ISD::UMAX; MinMax = true; break;		case ISD::SETULE: Opc = ISD::UMIN; break;
		case ISD::SETULT: Invert = true; LLVM_FALLTHROUGH;
		case ISD::SETUGE: Opc = ISD::UMAX; break;
}		}

if (MinMax)		SDValue Result = DAG.getNode(Opc, dl, VT, Op0, Op1);
Swap = Invert = FlipSigns = false;		Result = DAG.getNode(X86ISD::PCMPEQ, dl, VT, Op0, Result);

		// If the logical-not of the result is required, perform that now.
		if (Invert)
		Result = DAG.getNOT(dl, Result, VT);

		return Result;
}		}

		// We are handling one of the integer comparisons here. Since SSE only has
		// GT and EQ comparisons for integer, swapping operands and multiple
		// operations may be required for some comparisons.
		unsigned Opc = (Cond == ISD::SETEQ \|\| Cond == ISD::SETNE) ? X86ISD::PCMPEQ
		: X86ISD::PCMPGT;
		bool Swap = Cond == ISD::SETLT \|\| Cond == ISD::SETULT \|\|
		Cond == ISD::SETGE \|\| Cond == ISD::SETUGE;
		bool Invert = Cond == ISD::SETNE \|\|
		(Cond != ISD::SETEQ && ISD::isTrueWhenEqual(Cond));

bool HasSubus = Subtarget.hasSSE2() && (VET == MVT::i8 \|\| VET == MVT::i16);		bool HasSubus = Subtarget.hasSSE2() && (VET == MVT::i8 \|\| VET == MVT::i16);
bool Subus = false;		bool Subus = false;
if (!MinMax && HasSubus) {		if (HasSubus) {
// As another special case, use PSUBUS[BW] when it's profitable. E.g. for		// As another special case, use PSUBUS[BW] when it's profitable. E.g. for
// Op0 u<= Op1:		// Op0 u<= Op1:
// t = psubus Op0, Op1		// t = psubus Op0, Op1
// pcmpeq t, <0..0>		// pcmpeq t, <0..0>
switch (Cond) {		switch (Cond) {
default: break;		default: break;
case ISD::SETULT: {		case ISD::SETULT: {
// If the comparison is against a constant we can turn this into a		// If the comparison is against a constant we can turn this into a
▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines	#endif
}		}

SDValue Result = DAG.getNode(Opc, dl, VT, Op0, Op1);		SDValue Result = DAG.getNode(Opc, dl, VT, Op0, Op1);

// If the logical-not of the result is required, perform that now.		// If the logical-not of the result is required, perform that now.
if (Invert)		if (Invert)
Result = DAG.getNOT(dl, Result, VT);		Result = DAG.getNOT(dl, Result, VT);

if (MinMax)
Result = DAG.getNode(X86ISD::PCMPEQ, dl, VT, Op0, Result);

if (Subus)		if (Subus)
Result = DAG.getNode(X86ISD::PCMPEQ, dl, VT, Result,		Result = DAG.getNode(X86ISD::PCMPEQ, dl, VT, Result,
getZeroVector(VT, Subtarget, DAG, dl));		getZeroVector(VT, Subtarget, DAG, dl));

return Result;		return Result;
}		}

SDValue X86TargetLowering::LowerSETCC(SDValue Op, SelectionDAG &DAG) const {		SDValue X86TargetLowering::LowerSETCC(SDValue Op, SelectionDAG &DAG) const {
▲ Show 20 Lines • Show All 20,721 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-insert-extract.ll

Show First 20 Lines • Show All 983 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%t2 = extractelement <4 x i1> %t1, i32 3		%t2 = extractelement <4 x i1> %t1, i32 3
%res = zext i1 %t2 to i8		%res = zext i1 %t2 to i8
ret i8 %res		ret i8 %res
}		}

define zeroext i8 @test_extractelement_v32i1(<32 x i8> %a, <32 x i8> %b) {		define zeroext i8 @test_extractelement_v32i1(<32 x i8> %a, <32 x i8> %b) {
; KNL-LABEL: test_extractelement_v32i1:		; KNL-LABEL: test_extractelement_v32i1:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vmovdqa {{.*#+}} ymm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]		; KNL-NEXT: vpminub %ymm1, %ymm0, %ymm1
; KNL-NEXT: vpxor %ymm2, %ymm1, %ymm1		; KNL-NEXT: vpcmpeqb %ymm1, %ymm0, %ymm0
; KNL-NEXT: vpxor %ymm2, %ymm0, %ymm0		; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0
; KNL-NEXT: vpmovsxbd %xmm0, %zmm0		; KNL-NEXT: vpmovsxbd %xmm0, %zmm0
		; KNL-NEXT: vpslld $31, %zmm0, %zmm0
; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0		; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0
; KNL-NEXT: kshiftrw $2, %k0, %k0		; KNL-NEXT: kshiftrw $2, %k0, %k0
; KNL-NEXT: kmovw %k0, %eax		; KNL-NEXT: kmovw %k0, %eax
; KNL-NEXT: andl $1, %eax		; KNL-NEXT: andl $1, %eax
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: test_extractelement_v32i1:		; SKX-LABEL: test_extractelement_v32i1:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: vpcmpnleub %ymm1, %ymm0, %k0		; SKX-NEXT: vpcmpnleub %ymm1, %ymm0, %k0
; SKX-NEXT: kshiftrd $2, %k0, %k0		; SKX-NEXT: kshiftrd $2, %k0, %k0
; SKX-NEXT: kmovd %k0, %eax		; SKX-NEXT: kmovd %k0, %eax
; SKX-NEXT: andl $1, %eax		; SKX-NEXT: andl $1, %eax
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%t1 = icmp ugt <32 x i8> %a, %b		%t1 = icmp ugt <32 x i8> %a, %b
%t2 = extractelement <32 x i1> %t1, i32 2		%t2 = extractelement <32 x i1> %t1, i32 2
%res = zext i1 %t2 to i8		%res = zext i1 %t2 to i8
ret i8 %res		ret i8 %res
}		}

define zeroext i8 @test_extractelement_v64i1(<64 x i8> %a, <64 x i8> %b) {		define zeroext i8 @test_extractelement_v64i1(<64 x i8> %a, <64 x i8> %b) {
; KNL-LABEL: test_extractelement_v64i1:		; KNL-LABEL: test_extractelement_v64i1:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vmovdqa {{.*#+}} ymm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]		; KNL-NEXT: vpminub %ymm3, %ymm1, %ymm0
; KNL-NEXT: vpxor %ymm0, %ymm3, %ymm2		; KNL-NEXT: vpcmpeqb %ymm0, %ymm1, %ymm0
; KNL-NEXT: vpxor %ymm0, %ymm1, %ymm0		; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: vpcmpgtb %ymm2, %ymm0, %ymm0
; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0		; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0
; KNL-NEXT: vpmovsxbd %xmm0, %zmm0		; KNL-NEXT: vpmovsxbd %xmm0, %zmm0
		; KNL-NEXT: vpslld $31, %zmm0, %zmm0
; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0		; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0
; KNL-NEXT: kshiftrw $15, %k0, %k0		; KNL-NEXT: kshiftrw $15, %k0, %k0
; KNL-NEXT: kmovw %k0, %eax		; KNL-NEXT: kmovw %k0, %eax
; KNL-NEXT: andb $1, %al		; KNL-NEXT: andb $1, %al
; KNL-NEXT: movb $4, %cl		; KNL-NEXT: movb $4, %cl
; KNL-NEXT: subb %al, %cl		; KNL-NEXT: subb %al, %cl
; KNL-NEXT: movzbl %cl, %eax		; KNL-NEXT: movzbl %cl, %eax
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
Show All 14 Lines	; SKX-NEXT: retq
%t2 = extractelement <64 x i1> %t1, i32 63		%t2 = extractelement <64 x i1> %t1, i32 63
%res = select i1 %t2, i8 3, i8 4		%res = select i1 %t2, i8 3, i8 4
ret i8 %res		ret i8 %res
}		}

define zeroext i8 @extractelement_v64i1_alt(<64 x i8> %a, <64 x i8> %b) {		define zeroext i8 @extractelement_v64i1_alt(<64 x i8> %a, <64 x i8> %b) {
; KNL-LABEL: extractelement_v64i1_alt:		; KNL-LABEL: extractelement_v64i1_alt:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vmovdqa {{.*#+}} ymm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]		; KNL-NEXT: vpminub %ymm3, %ymm1, %ymm0
; KNL-NEXT: vpxor %ymm0, %ymm3, %ymm2		; KNL-NEXT: vpcmpeqb %ymm0, %ymm1, %ymm0
; KNL-NEXT: vpxor %ymm0, %ymm1, %ymm0		; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: vpcmpgtb %ymm2, %ymm0, %ymm0
; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0		; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0
; KNL-NEXT: vpmovsxbd %xmm0, %zmm0		; KNL-NEXT: vpmovsxbd %xmm0, %zmm0
		; KNL-NEXT: vpslld $31, %zmm0, %zmm0
; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0		; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0
; KNL-NEXT: kshiftrw $15, %k0, %k0		; KNL-NEXT: kshiftrw $15, %k0, %k0
; KNL-NEXT: kmovw %k0, %eax		; KNL-NEXT: kmovw %k0, %eax
; KNL-NEXT: andb $1, %al		; KNL-NEXT: andb $1, %al
; KNL-NEXT: movb $4, %cl		; KNL-NEXT: movb $4, %cl
; KNL-NEXT: subb %al, %cl		; KNL-NEXT: subb %al, %cl
; KNL-NEXT: movzbl %cl, %eax		; KNL-NEXT: movzbl %cl, %eax
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
▲ Show 20 Lines • Show All 569 Lines • ▼ Show 20 Lines
; KNL-NEXT: pushq %rbp		; KNL-NEXT: pushq %rbp
; KNL-NEXT: .cfi_def_cfa_offset 16		; KNL-NEXT: .cfi_def_cfa_offset 16
; KNL-NEXT: .cfi_offset %rbp, -16		; KNL-NEXT: .cfi_offset %rbp, -16
; KNL-NEXT: movq %rsp, %rbp		; KNL-NEXT: movq %rsp, %rbp
; KNL-NEXT: .cfi_def_cfa_register %rbp		; KNL-NEXT: .cfi_def_cfa_register %rbp
; KNL-NEXT: andq $-32, %rsp		; KNL-NEXT: andq $-32, %rsp
; KNL-NEXT: subq $64, %rsp		; KNL-NEXT: subq $64, %rsp
; KNL-NEXT: ## kill: def $edi killed $edi def $rdi		; KNL-NEXT: ## kill: def $edi killed $edi def $rdi
; KNL-NEXT: vmovdqa {{.*#+}} ymm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]		; KNL-NEXT: vpminub %ymm1, %ymm0, %ymm1
; KNL-NEXT: vpxor %ymm2, %ymm1, %ymm1		; KNL-NEXT: vpcmpeqb %ymm1, %ymm0, %ymm0
; KNL-NEXT: vpxor %ymm2, %ymm0, %ymm0		; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0
; KNL-NEXT: vmovdqa %ymm0, (%rsp)		; KNL-NEXT: vmovdqa %ymm0, (%rsp)
; KNL-NEXT: andl $31, %edi		; KNL-NEXT: andl $31, %edi
; KNL-NEXT: movzbl (%rsp,%rdi), %eax		; KNL-NEXT: movzbl (%rsp,%rdi), %eax
; KNL-NEXT: andl $1, %eax		; KNL-NEXT: andl $1, %eax
; KNL-NEXT: movq %rbp, %rsp		; KNL-NEXT: movq %rbp, %rsp
; KNL-NEXT: popq %rbp		; KNL-NEXT: popq %rbp
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
; KNL-NEXT: retq		; KNL-NEXT: retq
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
; KNL-NEXT: pushq %rbp		; KNL-NEXT: pushq %rbp
; KNL-NEXT: .cfi_def_cfa_offset 16		; KNL-NEXT: .cfi_def_cfa_offset 16
; KNL-NEXT: .cfi_offset %rbp, -16		; KNL-NEXT: .cfi_offset %rbp, -16
; KNL-NEXT: movq %rsp, %rbp		; KNL-NEXT: movq %rsp, %rbp
; KNL-NEXT: .cfi_def_cfa_register %rbp		; KNL-NEXT: .cfi_def_cfa_register %rbp
; KNL-NEXT: andq $-32, %rsp		; KNL-NEXT: andq $-32, %rsp
; KNL-NEXT: subq $64, %rsp		; KNL-NEXT: subq $64, %rsp
; KNL-NEXT: ## kill: def $esi killed $esi def $rsi		; KNL-NEXT: ## kill: def $esi killed $esi def $rsi
; KNL-NEXT: vmovdqa {{.*#+}} ymm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]		; KNL-NEXT: vpxor %xmm1, %xmm1, %xmm1
; KNL-NEXT: vpxor %ymm1, %ymm0, %ymm0		; KNL-NEXT: vpminub %ymm1, %ymm0, %ymm1
; KNL-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0		; KNL-NEXT: vpcmpeqb %ymm1, %ymm0, %ymm0
		; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: andl $31, %esi		; KNL-NEXT: andl $31, %esi
; KNL-NEXT: testb %dil, %dil		; KNL-NEXT: testb %dil, %dil
; KNL-NEXT: vmovdqa %ymm0, (%rsp)		; KNL-NEXT: vmovdqa %ymm0, (%rsp)
; KNL-NEXT: setne (%rsp,%rsi)		; KNL-NEXT: setne (%rsp,%rsi)
; KNL-NEXT: vpmovsxbd (%rsp), %zmm0		; KNL-NEXT: vpmovsxbd (%rsp), %zmm0
; KNL-NEXT: vpslld $31, %zmm0, %zmm0		; KNL-NEXT: vpslld $31, %zmm0, %zmm0
; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0		; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0
; KNL-NEXT: kmovw %k0, %ecx		; KNL-NEXT: kmovw %k0, %ecx
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
; KNL-NEXT: pushq %rbp		; KNL-NEXT: pushq %rbp
; KNL-NEXT: .cfi_def_cfa_offset 16		; KNL-NEXT: .cfi_def_cfa_offset 16
; KNL-NEXT: .cfi_offset %rbp, -16		; KNL-NEXT: .cfi_offset %rbp, -16
; KNL-NEXT: movq %rsp, %rbp		; KNL-NEXT: movq %rsp, %rbp
; KNL-NEXT: .cfi_def_cfa_register %rbp		; KNL-NEXT: .cfi_def_cfa_register %rbp
; KNL-NEXT: andq $-64, %rsp		; KNL-NEXT: andq $-64, %rsp
; KNL-NEXT: subq $128, %rsp		; KNL-NEXT: subq $128, %rsp
; KNL-NEXT: ## kill: def $esi killed $esi def $rsi		; KNL-NEXT: ## kill: def $esi killed $esi def $rsi
; KNL-NEXT: vmovdqa {{.*#+}} ymm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]		; KNL-NEXT: vpxor %xmm2, %xmm2, %xmm2
; KNL-NEXT: vpxor %ymm2, %ymm0, %ymm0		; KNL-NEXT: vpminub %ymm2, %ymm0, %ymm3
; KNL-NEXT: vpcmpgtb %ymm2, %ymm0, %ymm0		; KNL-NEXT: vpcmpeqb %ymm3, %ymm0, %ymm0
; KNL-NEXT: vpxor %ymm2, %ymm1, %ymm1		; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: vpcmpgtb %ymm2, %ymm1, %ymm1		; KNL-NEXT: vpminub %ymm2, %ymm1, %ymm2
		; KNL-NEXT: vpcmpeqb %ymm2, %ymm1, %ymm1
		; KNL-NEXT: vpternlogq $15, %zmm1, %zmm1, %zmm1
; KNL-NEXT: andl $63, %esi		; KNL-NEXT: andl $63, %esi
; KNL-NEXT: testb %dil, %dil		; KNL-NEXT: testb %dil, %dil
; KNL-NEXT: vmovdqa %ymm1, {{[0-9]+}}(%rsp)		; KNL-NEXT: vmovdqa %ymm1, {{[0-9]+}}(%rsp)
; KNL-NEXT: vmovdqa %ymm0, (%rsp)		; KNL-NEXT: vmovdqa %ymm0, (%rsp)
; KNL-NEXT: setne (%rsp,%rsi)		; KNL-NEXT: setne (%rsp,%rsi)
; KNL-NEXT: vmovdqa (%rsp), %ymm0		; KNL-NEXT: vmovdqa (%rsp), %ymm0
; KNL-NEXT: vmovdqa {{[0-9]+}}(%rsp), %ymm1		; KNL-NEXT: vmovdqa {{[0-9]+}}(%rsp), %ymm1
; KNL-NEXT: vpmovsxbd %xmm0, %zmm2		; KNL-NEXT: vpmovsxbd %xmm0, %zmm2
▲ Show 20 Lines • Show All 160 Lines • ▼ Show 20 Lines
; KNL-NEXT: vpinsrb $9, 168(%rbp), %xmm3, %xmm3		; KNL-NEXT: vpinsrb $9, 168(%rbp), %xmm3, %xmm3
; KNL-NEXT: vpinsrb $10, 176(%rbp), %xmm3, %xmm3		; KNL-NEXT: vpinsrb $10, 176(%rbp), %xmm3, %xmm3
; KNL-NEXT: vpinsrb $11, 184(%rbp), %xmm3, %xmm3		; KNL-NEXT: vpinsrb $11, 184(%rbp), %xmm3, %xmm3
; KNL-NEXT: vpinsrb $12, 192(%rbp), %xmm3, %xmm3		; KNL-NEXT: vpinsrb $12, 192(%rbp), %xmm3, %xmm3
; KNL-NEXT: vpinsrb $13, 200(%rbp), %xmm3, %xmm3		; KNL-NEXT: vpinsrb $13, 200(%rbp), %xmm3, %xmm3
; KNL-NEXT: vpinsrb $14, 208(%rbp), %xmm3, %xmm3		; KNL-NEXT: vpinsrb $14, 208(%rbp), %xmm3, %xmm3
; KNL-NEXT: vpinsrb $15, 216(%rbp), %xmm3, %xmm3		; KNL-NEXT: vpinsrb $15, 216(%rbp), %xmm3, %xmm3
; KNL-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2		; KNL-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
; KNL-NEXT: vmovdqa {{.*#+}} ymm3 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
; KNL-NEXT: vpxor %ymm3, %ymm2, %ymm2
; KNL-NEXT: vpcmpgtb %ymm3, %ymm2, %ymm2
; KNL-NEXT: vpxor %ymm3, %ymm1, %ymm1
; KNL-NEXT: vpcmpgtb %ymm3, %ymm1, %ymm1
; KNL-NEXT: vpxor %ymm3, %ymm0, %ymm0
; KNL-NEXT: vpcmpgtb %ymm3, %ymm0, %ymm0
; KNL-NEXT: vpxor %xmm3, %xmm3, %xmm3		; KNL-NEXT: vpxor %xmm3, %xmm3, %xmm3
		; KNL-NEXT: vpminub %ymm3, %ymm2, %ymm4
		; KNL-NEXT: vpcmpeqb %ymm4, %ymm2, %ymm2
		; KNL-NEXT: vpternlogq $15, %zmm2, %zmm2, %zmm2
		; KNL-NEXT: vpminub %ymm3, %ymm1, %ymm4
		; KNL-NEXT: vpcmpeqb %ymm4, %ymm1, %ymm1
		; KNL-NEXT: vpternlogq $15, %zmm1, %zmm1, %zmm1
		; KNL-NEXT: vpminub %ymm3, %ymm0, %ymm4
		; KNL-NEXT: vpcmpeqb %ymm4, %ymm0, %ymm0
		; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: movl 744(%rbp), %eax		; KNL-NEXT: movl 744(%rbp), %eax
; KNL-NEXT: andl $127, %eax		; KNL-NEXT: andl $127, %eax
; KNL-NEXT: cmpb $0, 736(%rbp)		; KNL-NEXT: cmpb $0, 736(%rbp)
; KNL-NEXT: vmovdqa %ymm3, {{[0-9]+}}(%rsp)		; KNL-NEXT: vmovdqa %ymm3, {{[0-9]+}}(%rsp)
; KNL-NEXT: vmovdqa %ymm0, {{[0-9]+}}(%rsp)		; KNL-NEXT: vmovdqa %ymm0, {{[0-9]+}}(%rsp)
; KNL-NEXT: vmovdqa %ymm1, {{[0-9]+}}(%rsp)		; KNL-NEXT: vmovdqa %ymm1, {{[0-9]+}}(%rsp)
; KNL-NEXT: vmovdqa %ymm2, (%rsp)		; KNL-NEXT: vmovdqa %ymm2, (%rsp)
; KNL-NEXT: setne (%rsp,%rax)		; KNL-NEXT: setne (%rsp,%rax)
▲ Show 20 Lines • Show All 197 Lines • ▼ Show 20 Lines
; KNL-NEXT: pushq %rbp		; KNL-NEXT: pushq %rbp
; KNL-NEXT: .cfi_def_cfa_offset 16		; KNL-NEXT: .cfi_def_cfa_offset 16
; KNL-NEXT: .cfi_offset %rbp, -16		; KNL-NEXT: .cfi_offset %rbp, -16
; KNL-NEXT: movq %rsp, %rbp		; KNL-NEXT: movq %rsp, %rbp
; KNL-NEXT: .cfi_def_cfa_register %rbp		; KNL-NEXT: .cfi_def_cfa_register %rbp
; KNL-NEXT: andq $-128, %rsp		; KNL-NEXT: andq $-128, %rsp
; KNL-NEXT: subq $256, %rsp ## imm = 0x100		; KNL-NEXT: subq $256, %rsp ## imm = 0x100
; KNL-NEXT: ## kill: def $esi killed $esi def $rsi		; KNL-NEXT: ## kill: def $esi killed $esi def $rsi
; KNL-NEXT: vmovdqa {{.*#+}} ymm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]		; KNL-NEXT: vpxor %xmm4, %xmm4, %xmm4
; KNL-NEXT: vpxor %ymm4, %ymm0, %ymm0		; KNL-NEXT: vpminub %ymm4, %ymm0, %ymm5
; KNL-NEXT: vpcmpgtb %ymm4, %ymm0, %ymm0		; KNL-NEXT: vpcmpeqb %ymm5, %ymm0, %ymm0
; KNL-NEXT: vpxor %ymm4, %ymm1, %ymm1		; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: vpcmpgtb %ymm4, %ymm1, %ymm1		; KNL-NEXT: vpminub %ymm4, %ymm1, %ymm5
; KNL-NEXT: vpxor %ymm4, %ymm2, %ymm2		; KNL-NEXT: vpcmpeqb %ymm5, %ymm1, %ymm1
; KNL-NEXT: vpcmpgtb %ymm4, %ymm2, %ymm2		; KNL-NEXT: vpternlogq $15, %zmm1, %zmm1, %zmm1
; KNL-NEXT: vpxor %ymm4, %ymm3, %ymm3		; KNL-NEXT: vpminub %ymm4, %ymm2, %ymm5
; KNL-NEXT: vpcmpgtb %ymm4, %ymm3, %ymm3		; KNL-NEXT: vpcmpeqb %ymm5, %ymm2, %ymm2
		; KNL-NEXT: vpternlogq $15, %zmm2, %zmm2, %zmm2
		; KNL-NEXT: vpminub %ymm4, %ymm3, %ymm4
		; KNL-NEXT: vpcmpeqb %ymm4, %ymm3, %ymm3
		; KNL-NEXT: vpternlogq $15, %zmm3, %zmm3, %zmm3
; KNL-NEXT: andl $127, %esi		; KNL-NEXT: andl $127, %esi
; KNL-NEXT: testb %dil, %dil		; KNL-NEXT: testb %dil, %dil
; KNL-NEXT: vmovdqa %ymm3, {{[0-9]+}}(%rsp)		; KNL-NEXT: vmovdqa %ymm3, {{[0-9]+}}(%rsp)
; KNL-NEXT: vmovdqa %ymm2, {{[0-9]+}}(%rsp)		; KNL-NEXT: vmovdqa %ymm2, {{[0-9]+}}(%rsp)
; KNL-NEXT: vmovdqa %ymm1, {{[0-9]+}}(%rsp)		; KNL-NEXT: vmovdqa %ymm1, {{[0-9]+}}(%rsp)
; KNL-NEXT: vmovdqa %ymm0, (%rsp)		; KNL-NEXT: vmovdqa %ymm0, (%rsp)
; KNL-NEXT: setne (%rsp,%rsi)		; KNL-NEXT: setne (%rsp,%rsi)
; KNL-NEXT: vmovdqa (%rsp), %ymm2		; KNL-NEXT: vmovdqa (%rsp), %ymm2
▲ Show 20 Lines • Show All 92 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512vl-vec-masked-cmp.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 16,288 Lines • ▼ Show 20 Lines
	; VLX-LABEL: test_vpcmpultb_v16i1_v32i1_mask:			; VLX-LABEL: test_vpcmpultb_v16i1_v32i1_mask:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltub %xmm1, %xmm0, %k0			; VLX-NEXT: vpcmpltub %xmm1, %xmm0, %k0
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultb_v16i1_v32i1_mask:			; NoVLX-LABEL: test_vpcmpultb_v16i1_v32i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub %xmm1, %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
				RKSimonUnsubmitted Not Done Reply Inline Actions Is this necessary? Is there anyway that ComputeKnownBits/NumSignBits + SimplifyDemandedBits could be used to remove it? RKSimon: Is this necessary? Is there anyway that ComputeKnownBits/NumSignBits + SimplifyDemandedBits…
				craig.topperAuthorUnsubmitted Not Done Reply Inline Actions I believe it's getting tripped up because the vpternlog is a (v16i8 (bitcast (xor (bitcast v2i64))) after legalize. I don't think computeNumSignBits can cross both of those bitcasts very well. Probably doesn't help that LegalVectorOps visits nodes bottom up so the compare is legalized first, it creates the xor, the xor gets legalized with the bitcatsts. Then the truncate gets legalized, but its too late. Meanwhile LegalizeDAG visits nodes top down so would probably be able to handle this case since the truncate would legalize first. craig.topper: I believe it's getting tripped up because the vpternlog is a (v16i8 (bitcast (xor (bitcast…
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <16 x i8>			%0 = bitcast <2 x i64> %__a to <16 x i8>
	%1 = bitcast <2 x i64> %__b to <16 x i8>			%1 = bitcast <2 x i64> %__b to <16 x i8>
	%2 = icmp ult <16 x i8> %0, %1			%2 = icmp ult <16 x i8> %0, %1
	%3 = shufflevector <16 x i1> %2, <16 x i1> zeroinitializer, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>			%3 = shufflevector <16 x i1> %2, <16 x i1> zeroinitializer, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
	%4 = bitcast <32 x i1> %3 to i32			%4 = bitcast <32 x i1> %3 to i32
	ret i32 %4			ret i32 %4
	}			}

	define zeroext i32 @test_vpcmpultb_v16i1_v32i1_mask_mem(<2 x i64> %__a, <2 x i64>* %__b) local_unnamed_addr {			define zeroext i32 @test_vpcmpultb_v16i1_v32i1_mask_mem(<2 x i64> %__a, <2 x i64>* %__b) local_unnamed_addr {
	; VLX-LABEL: test_vpcmpultb_v16i1_v32i1_mask_mem:			; VLX-LABEL: test_vpcmpultb_v16i1_v32i1_mask_mem:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltub (%rdi), %xmm0, %k0			; VLX-NEXT: vpcmpltub (%rdi), %xmm0, %k0
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultb_v16i1_v32i1_mask_mem:			; NoVLX-LABEL: test_vpcmpultb_v16i1_v32i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub (%rdi), %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor (%rdi), %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <16 x i8>			%0 = bitcast <2 x i64> %__a to <16 x i8>
	%load = load <2 x i64>, <2 x i64>* %__b			%load = load <2 x i64>, <2 x i64>* %__b
	%1 = bitcast <2 x i64> %load to <16 x i8>			%1 = bitcast <2 x i64> %load to <16 x i8>
	%2 = icmp ult <16 x i8> %0, %1			%2 = icmp ult <16 x i8> %0, %1
	%3 = shufflevector <16 x i1> %2, <16 x i1> zeroinitializer, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>			%3 = shufflevector <16 x i1> %2, <16 x i1> zeroinitializer, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
	%4 = bitcast <32 x i1> %3 to i32			%4 = bitcast <32 x i1> %3 to i32
	ret i32 %4			ret i32 %4
	}			}

	define zeroext i32 @test_masked_vpcmpultb_v16i1_v32i1_mask(i16 zeroext %__u, <2 x i64> %__a, <2 x i64> %__b) local_unnamed_addr {			define zeroext i32 @test_masked_vpcmpultb_v16i1_v32i1_mask(i16 zeroext %__u, <2 x i64> %__a, <2 x i64> %__b) local_unnamed_addr {
	; VLX-LABEL: test_masked_vpcmpultb_v16i1_v32i1_mask:			; VLX-LABEL: test_masked_vpcmpultb_v16i1_v32i1_mask:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltub %xmm1, %xmm0, %k0 {%k1}			; VLX-NEXT: vpcmpltub %xmm1, %xmm0, %k0 {%k1}
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultb_v16i1_v32i1_mask:			; NoVLX-LABEL: test_masked_vpcmpultb_v16i1_v32i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub %xmm1, %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: andl %edi, %eax			; NoVLX-NEXT: andl %edi, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <16 x i8>			%0 = bitcast <2 x i64> %__a to <16 x i8>
	%1 = bitcast <2 x i64> %__b to <16 x i8>			%1 = bitcast <2 x i64> %__b to <16 x i8>
	Show All 10 Lines
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltub (%rsi), %xmm0, %k0 {%k1}			; VLX-NEXT: vpcmpltub (%rsi), %xmm0, %k0 {%k1}
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultb_v16i1_v32i1_mask_mem:			; NoVLX-LABEL: test_masked_vpcmpultb_v16i1_v32i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub (%rsi), %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor (%rsi), %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: andl %edi, %eax			; NoVLX-NEXT: andl %edi, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <16 x i8>			%0 = bitcast <2 x i64> %__a to <16 x i8>
	%load = load <2 x i64>, <2 x i64>* %__b			%load = load <2 x i64>, <2 x i64>* %__b
	Show All 11 Lines
	; VLX-LABEL: test_vpcmpultb_v16i1_v64i1_mask:			; VLX-LABEL: test_vpcmpultb_v16i1_v64i1_mask:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltub %xmm1, %xmm0, %k0			; VLX-NEXT: vpcmpltub %xmm1, %xmm0, %k0
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultb_v16i1_v64i1_mask:			; NoVLX-LABEL: test_vpcmpultb_v16i1_v64i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub %xmm1, %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: movzwl %ax, %eax			; NoVLX-NEXT: movzwl %ax, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <16 x i8>			%0 = bitcast <2 x i64> %__a to <16 x i8>
	%1 = bitcast <2 x i64> %__b to <16 x i8>			%1 = bitcast <2 x i64> %__b to <16 x i8>
	%2 = icmp ult <16 x i8> %0, %1			%2 = icmp ult <16 x i8> %0, %1
	%3 = shufflevector <16 x i1> %2, <16 x i1> zeroinitializer, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>			%3 = shufflevector <16 x i1> %2, <16 x i1> zeroinitializer, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
	%4 = bitcast <64 x i1> %3 to i64			%4 = bitcast <64 x i1> %3 to i64
	ret i64 %4			ret i64 %4
	}			}

	define zeroext i64 @test_vpcmpultb_v16i1_v64i1_mask_mem(<2 x i64> %__a, <2 x i64>* %__b) local_unnamed_addr {			define zeroext i64 @test_vpcmpultb_v16i1_v64i1_mask_mem(<2 x i64> %__a, <2 x i64>* %__b) local_unnamed_addr {
	; VLX-LABEL: test_vpcmpultb_v16i1_v64i1_mask_mem:			; VLX-LABEL: test_vpcmpultb_v16i1_v64i1_mask_mem:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltub (%rdi), %xmm0, %k0			; VLX-NEXT: vpcmpltub (%rdi), %xmm0, %k0
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultb_v16i1_v64i1_mask_mem:			; NoVLX-LABEL: test_vpcmpultb_v16i1_v64i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub (%rdi), %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor (%rdi), %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: movzwl %ax, %eax			; NoVLX-NEXT: movzwl %ax, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <16 x i8>			%0 = bitcast <2 x i64> %__a to <16 x i8>
	%load = load <2 x i64>, <2 x i64>* %__b			%load = load <2 x i64>, <2 x i64>* %__b
	Show All 9 Lines
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltub %xmm1, %xmm0, %k0 {%k1}			; VLX-NEXT: vpcmpltub %xmm1, %xmm0, %k0 {%k1}
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultb_v16i1_v64i1_mask:			; NoVLX-LABEL: test_masked_vpcmpultb_v16i1_v64i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub %xmm1, %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: andl %edi, %eax			; NoVLX-NEXT: andl %edi, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <16 x i8>			%0 = bitcast <2 x i64> %__a to <16 x i8>
	%1 = bitcast <2 x i64> %__b to <16 x i8>			%1 = bitcast <2 x i64> %__b to <16 x i8>
	Show All 10 Lines
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltub (%rsi), %xmm0, %k0 {%k1}			; VLX-NEXT: vpcmpltub (%rsi), %xmm0, %k0 {%k1}
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultb_v16i1_v64i1_mask_mem:			; NoVLX-LABEL: test_masked_vpcmpultb_v16i1_v64i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub (%rsi), %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor (%rsi), %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: andl %edi, %eax			; NoVLX-NEXT: andl %edi, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <16 x i8>			%0 = bitcast <2 x i64> %__a to <16 x i8>
	%load = load <2 x i64>, <2 x i64>* %__b			%load = load <2 x i64>, <2 x i64>* %__b
	Show All 12 Lines
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltub %ymm1, %ymm0, %k0			; VLX-NEXT: vpcmpltub %ymm1, %ymm0, %k0
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultb_v32i1_v64i1_mask:			; NoVLX-LABEL: test_vpcmpultb_v32i1_v64i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub %ymm1, %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm2, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqb %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor %ymm2, %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm1			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm1
				; NoVLX-NEXT: vpslld $31, %zmm1, %zmm1
	; NoVLX-NEXT: vptestmd %zmm1, %zmm1, %k0			; NoVLX-NEXT: vptestmd %zmm1, %zmm1, %k0
	; NoVLX-NEXT: kmovw %k0, %ecx			; NoVLX-NEXT: kmovw %k0, %ecx
	; NoVLX-NEXT: vextracti128 $1, %ymm0, %xmm0			; NoVLX-NEXT: vextracti128 $1, %ymm0, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: shll $16, %eax			; NoVLX-NEXT: shll $16, %eax
	; NoVLX-NEXT: orl %ecx, %eax			; NoVLX-NEXT: orl %ecx, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <4 x i64> %__a to <32 x i8>			%0 = bitcast <4 x i64> %__a to <32 x i8>
	Show All 9 Lines
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltub (%rdi), %ymm0, %k0			; VLX-NEXT: vpcmpltub (%rdi), %ymm0, %k0
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultb_v32i1_v64i1_mask_mem:			; NoVLX-LABEL: test_vpcmpultb_v32i1_v64i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub (%rdi), %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm1, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqb %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor (%rdi), %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm1			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm1
				; NoVLX-NEXT: vpslld $31, %zmm1, %zmm1
	; NoVLX-NEXT: vptestmd %zmm1, %zmm1, %k0			; NoVLX-NEXT: vptestmd %zmm1, %zmm1, %k0
	; NoVLX-NEXT: kmovw %k0, %ecx			; NoVLX-NEXT: kmovw %k0, %ecx
	; NoVLX-NEXT: vextracti128 $1, %ymm0, %xmm0			; NoVLX-NEXT: vextracti128 $1, %ymm0, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: shll $16, %eax			; NoVLX-NEXT: shll $16, %eax
	; NoVLX-NEXT: orl %ecx, %eax			; NoVLX-NEXT: orl %ecx, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <4 x i64> %__a to <32 x i8>			%0 = bitcast <4 x i64> %__a to <32 x i8>
	Show All 11 Lines
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltub %ymm1, %ymm0, %k0 {%k1}			; VLX-NEXT: vpcmpltub %ymm1, %ymm0, %k0 {%k1}
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultb_v32i1_v64i1_mask:			; NoVLX-LABEL: test_masked_vpcmpultb_v32i1_v64i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub %ymm1, %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm2, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqb %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor %ymm2, %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm1			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm1
				; NoVLX-NEXT: vpslld $31, %zmm1, %zmm1
	; NoVLX-NEXT: vptestmd %zmm1, %zmm1, %k0			; NoVLX-NEXT: vptestmd %zmm1, %zmm1, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: andl %edi, %eax			; NoVLX-NEXT: andl %edi, %eax
	; NoVLX-NEXT: shrl $16, %edi			; NoVLX-NEXT: shrl $16, %edi
	; NoVLX-NEXT: vextracti128 $1, %ymm0, %xmm0			; NoVLX-NEXT: vextracti128 $1, %ymm0, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %ecx			; NoVLX-NEXT: kmovw %k0, %ecx
	; NoVLX-NEXT: andl %edi, %ecx			; NoVLX-NEXT: andl %edi, %ecx
	; NoVLX-NEXT: shll $16, %ecx			; NoVLX-NEXT: shll $16, %ecx
	; NoVLX-NEXT: movzwl %ax, %eax			; NoVLX-NEXT: movzwl %ax, %eax
	; NoVLX-NEXT: orl %ecx, %eax			; NoVLX-NEXT: orl %ecx, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	Show All 14 Lines
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltub (%rsi), %ymm0, %k0 {%k1}			; VLX-NEXT: vpcmpltub (%rsi), %ymm0, %k0 {%k1}
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultb_v32i1_v64i1_mask_mem:			; NoVLX-LABEL: test_masked_vpcmpultb_v32i1_v64i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; NoVLX-NEXT: vpmaxub (%rsi), %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm1, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqb %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor (%rsi), %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtb %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm1			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm1
				; NoVLX-NEXT: vpslld $31, %zmm1, %zmm1
	; NoVLX-NEXT: vptestmd %zmm1, %zmm1, %k0			; NoVLX-NEXT: vptestmd %zmm1, %zmm1, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: andl %edi, %eax			; NoVLX-NEXT: andl %edi, %eax
	; NoVLX-NEXT: shrl $16, %edi			; NoVLX-NEXT: shrl $16, %edi
	; NoVLX-NEXT: vextracti128 $1, %ymm0, %xmm0			; NoVLX-NEXT: vextracti128 $1, %ymm0, %xmm0
	; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxbd %xmm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %ecx			; NoVLX-NEXT: kmovw %k0, %ecx
	; NoVLX-NEXT: andl %edi, %ecx			; NoVLX-NEXT: andl %edi, %ecx
	; NoVLX-NEXT: shll $16, %ecx			; NoVLX-NEXT: shll $16, %ecx
	; NoVLX-NEXT: movzwl %ax, %eax			; NoVLX-NEXT: movzwl %ax, %eax
	; NoVLX-NEXT: orl %ecx, %eax			; NoVLX-NEXT: orl %ecx, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	Show All 15 Lines
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0			; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: # kill: def $ax killed $ax killed $eax			; VLX-NEXT: # kill: def $ax killed $ax killed $eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultw_v8i1_v16i1_mask:			; NoVLX-LABEL: test_vpcmpultw_v8i1_v16i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %xmm1, %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: # kill: def $ax killed $ax killed $eax			; NoVLX-NEXT: # kill: def $ax killed $ax killed $eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	%1 = bitcast <2 x i64> %__b to <8 x i16>			%1 = bitcast <2 x i64> %__b to <8 x i16>
	%2 = icmp ult <8 x i16> %0, %1			%2 = icmp ult <8 x i16> %0, %1
	%3 = shufflevector <8 x i1> %2, <8 x i1> zeroinitializer, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%3 = shufflevector <8 x i1> %2, <8 x i1> zeroinitializer, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%4 = bitcast <16 x i1> %3 to i16			%4 = bitcast <16 x i1> %3 to i16
	ret i16 %4			ret i16 %4
	}			}

	define zeroext i16 @test_vpcmpultw_v8i1_v16i1_mask_mem(<2 x i64> %__a, <2 x i64>* %__b) local_unnamed_addr {			define zeroext i16 @test_vpcmpultw_v8i1_v16i1_mask_mem(<2 x i64> %__a, <2 x i64>* %__b) local_unnamed_addr {
	; VLX-LABEL: test_vpcmpultw_v8i1_v16i1_mask_mem:			; VLX-LABEL: test_vpcmpultw_v8i1_v16i1_mask_mem:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltuw (%rdi), %xmm0, %k0			; VLX-NEXT: vpcmpltuw (%rdi), %xmm0, %k0
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: # kill: def $ax killed $ax killed $eax			; VLX-NEXT: # kill: def $ax killed $ax killed $eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultw_v8i1_v16i1_mask_mem:			; NoVLX-LABEL: test_vpcmpultw_v8i1_v16i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rdi), %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor (%rdi), %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: # kill: def $ax killed $ax killed $eax			; NoVLX-NEXT: # kill: def $ax killed $ax killed $eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	%load = load <2 x i64>, <2 x i64>* %__b			%load = load <2 x i64>, <2 x i64>* %__b
	Show All 10 Lines
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0 {%k1}			; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0 {%k1}
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: # kill: def $ax killed $ax killed $eax			; VLX-NEXT: # kill: def $ax killed $ax killed $eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v16i1_mask:			; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v16i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %xmm1, %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: kmovw %edi, %k1			; NoVLX-NEXT: kmovw %edi, %k1
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: # kill: def $ax killed $ax killed $eax			; NoVLX-NEXT: # kill: def $ax killed $ax killed $eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	Show All 12 Lines
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltuw (%rsi), %xmm0, %k0 {%k1}			; VLX-NEXT: vpcmpltuw (%rsi), %xmm0, %k0 {%k1}
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: # kill: def $ax killed $ax killed $eax			; VLX-NEXT: # kill: def $ax killed $ax killed $eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v16i1_mask_mem:			; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v16i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rsi), %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor (%rsi), %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: kmovw %edi, %k1			; NoVLX-NEXT: kmovw %edi, %k1
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: # kill: def $ax killed $ax killed $eax			; NoVLX-NEXT: # kill: def $ax killed $ax killed $eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	Show All 12 Lines
	; VLX-LABEL: test_vpcmpultw_v8i1_v32i1_mask:			; VLX-LABEL: test_vpcmpultw_v8i1_v32i1_mask:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0			; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultw_v8i1_v32i1_mask:			; NoVLX-LABEL: test_vpcmpultw_v8i1_v32i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %xmm1, %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	%1 = bitcast <2 x i64> %__b to <8 x i16>			%1 = bitcast <2 x i64> %__b to <8 x i16>
	%2 = icmp ult <8 x i16> %0, %1			%2 = icmp ult <8 x i16> %0, %1
	%3 = shufflevector <8 x i1> %2, <8 x i1> zeroinitializer, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%3 = shufflevector <8 x i1> %2, <8 x i1> zeroinitializer, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%4 = bitcast <32 x i1> %3 to i32			%4 = bitcast <32 x i1> %3 to i32
	ret i32 %4			ret i32 %4
	}			}

	define zeroext i32 @test_vpcmpultw_v8i1_v32i1_mask_mem(<2 x i64> %__a, <2 x i64>* %__b) local_unnamed_addr {			define zeroext i32 @test_vpcmpultw_v8i1_v32i1_mask_mem(<2 x i64> %__a, <2 x i64>* %__b) local_unnamed_addr {
	; VLX-LABEL: test_vpcmpultw_v8i1_v32i1_mask_mem:			; VLX-LABEL: test_vpcmpultw_v8i1_v32i1_mask_mem:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltuw (%rdi), %xmm0, %k0			; VLX-NEXT: vpcmpltuw (%rdi), %xmm0, %k0
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultw_v8i1_v32i1_mask_mem:			; NoVLX-LABEL: test_vpcmpultw_v8i1_v32i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rdi), %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor (%rdi), %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	%load = load <2 x i64>, <2 x i64>* %__b			%load = load <2 x i64>, <2 x i64>* %__b
	%1 = bitcast <2 x i64> %load to <8 x i16>			%1 = bitcast <2 x i64> %load to <8 x i16>
	%2 = icmp ult <8 x i16> %0, %1			%2 = icmp ult <8 x i16> %0, %1
	%3 = shufflevector <8 x i1> %2, <8 x i1> zeroinitializer, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%3 = shufflevector <8 x i1> %2, <8 x i1> zeroinitializer, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%4 = bitcast <32 x i1> %3 to i32			%4 = bitcast <32 x i1> %3 to i32
	ret i32 %4			ret i32 %4
	}			}

	define zeroext i32 @test_masked_vpcmpultw_v8i1_v32i1_mask(i8 zeroext %__u, <2 x i64> %__a, <2 x i64> %__b) local_unnamed_addr {			define zeroext i32 @test_masked_vpcmpultw_v8i1_v32i1_mask(i8 zeroext %__u, <2 x i64> %__a, <2 x i64> %__b) local_unnamed_addr {
	; VLX-LABEL: test_masked_vpcmpultw_v8i1_v32i1_mask:			; VLX-LABEL: test_masked_vpcmpultw_v8i1_v32i1_mask:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0 {%k1}			; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0 {%k1}
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v32i1_mask:			; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v32i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %xmm1, %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: kmovw %edi, %k1			; NoVLX-NEXT: kmovw %edi, %k1
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	%1 = bitcast <2 x i64> %__b to <8 x i16>			%1 = bitcast <2 x i64> %__b to <8 x i16>
	Show All 10 Lines
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltuw (%rsi), %xmm0, %k0 {%k1}			; VLX-NEXT: vpcmpltuw (%rsi), %xmm0, %k0 {%k1}
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v32i1_mask_mem:			; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v32i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rsi), %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor (%rsi), %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: kmovw %edi, %k1			; NoVLX-NEXT: kmovw %edi, %k1
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	%load = load <2 x i64>, <2 x i64>* %__b			%load = load <2 x i64>, <2 x i64>* %__b
	Show All 11 Lines
	; VLX-LABEL: test_vpcmpultw_v8i1_v64i1_mask:			; VLX-LABEL: test_vpcmpultw_v8i1_v64i1_mask:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0			; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultw_v8i1_v64i1_mask:			; NoVLX-LABEL: test_vpcmpultw_v8i1_v64i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %xmm1, %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: movzwl %ax, %eax			; NoVLX-NEXT: movzwl %ax, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	%1 = bitcast <2 x i64> %__b to <8 x i16>			%1 = bitcast <2 x i64> %__b to <8 x i16>
	%2 = icmp ult <8 x i16> %0, %1			%2 = icmp ult <8 x i16> %0, %1
	%3 = shufflevector <8 x i1> %2, <8 x i1> zeroinitializer, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%3 = shufflevector <8 x i1> %2, <8 x i1> zeroinitializer, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%4 = bitcast <64 x i1> %3 to i64			%4 = bitcast <64 x i1> %3 to i64
	ret i64 %4			ret i64 %4
	}			}

	define zeroext i64 @test_vpcmpultw_v8i1_v64i1_mask_mem(<2 x i64> %__a, <2 x i64>* %__b) local_unnamed_addr {			define zeroext i64 @test_vpcmpultw_v8i1_v64i1_mask_mem(<2 x i64> %__a, <2 x i64>* %__b) local_unnamed_addr {
	; VLX-LABEL: test_vpcmpultw_v8i1_v64i1_mask_mem:			; VLX-LABEL: test_vpcmpultw_v8i1_v64i1_mask_mem:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltuw (%rdi), %xmm0, %k0			; VLX-NEXT: vpcmpltuw (%rdi), %xmm0, %k0
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultw_v8i1_v64i1_mask_mem:			; NoVLX-LABEL: test_vpcmpultw_v8i1_v64i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rdi), %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor (%rdi), %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: movzwl %ax, %eax			; NoVLX-NEXT: movzwl %ax, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	%load = load <2 x i64>, <2 x i64>* %__b			%load = load <2 x i64>, <2 x i64>* %__b
	Show All 9 Lines
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0 {%k1}			; VLX-NEXT: vpcmpltuw %xmm1, %xmm0, %k0 {%k1}
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v64i1_mask:			; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v64i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %xmm1, %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: kmovw %edi, %k1			; NoVLX-NEXT: kmovw %edi, %k1
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: movzwl %ax, %eax			; NoVLX-NEXT: movzwl %ax, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	Show All 11 Lines
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltuw (%rsi), %xmm0, %k0 {%k1}			; VLX-NEXT: vpcmpltuw (%rsi), %xmm0, %k0 {%k1}
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v64i1_mask_mem:			; NoVLX-LABEL: test_masked_vpcmpultw_v8i1_v64i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} xmm1 = [32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rsi), %xmm0, %xmm1
	; NoVLX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; NoVLX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; NoVLX-NEXT: vpxor (%rsi), %xmm1, %xmm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0
	; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0			; NoVLX-NEXT: vpmovsxwq %xmm0, %zmm0
				; NoVLX-NEXT: vpsllq $63, %zmm0, %zmm0
	; NoVLX-NEXT: kmovw %edi, %k1			; NoVLX-NEXT: kmovw %edi, %k1
	; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}			; NoVLX-NEXT: vptestmq %zmm0, %zmm0, %k0 {%k1}
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: movzwl %ax, %eax			; NoVLX-NEXT: movzwl %ax, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <2 x i64> %__a to <8 x i16>			%0 = bitcast <2 x i64> %__a to <8 x i16>
	Show All 13 Lines
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltuw %ymm1, %ymm0, %k0			; VLX-NEXT: vpcmpltuw %ymm1, %ymm0, %k0
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultw_v16i1_v32i1_mask:			; NoVLX-LABEL: test_vpcmpultw_v16i1_v32i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm2 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %ymm1, %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm2, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor %ymm2, %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <4 x i64> %__a to <16 x i16>			%0 = bitcast <4 x i64> %__a to <16 x i16>
	%1 = bitcast <4 x i64> %__b to <16 x i16>			%1 = bitcast <4 x i64> %__b to <16 x i16>
	%2 = icmp ult <16 x i16> %0, %1			%2 = icmp ult <16 x i16> %0, %1
	%3 = shufflevector <16 x i1> %2, <16 x i1> zeroinitializer, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>			%3 = shufflevector <16 x i1> %2, <16 x i1> zeroinitializer, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
	%4 = bitcast <32 x i1> %3 to i32			%4 = bitcast <32 x i1> %3 to i32
	ret i32 %4			ret i32 %4
	}			}

	define zeroext i32 @test_vpcmpultw_v16i1_v32i1_mask_mem(<4 x i64> %__a, <4 x i64>* %__b) local_unnamed_addr {			define zeroext i32 @test_vpcmpultw_v16i1_v32i1_mask_mem(<4 x i64> %__a, <4 x i64>* %__b) local_unnamed_addr {
	; VLX-LABEL: test_vpcmpultw_v16i1_v32i1_mask_mem:			; VLX-LABEL: test_vpcmpultw_v16i1_v32i1_mask_mem:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltuw (%rdi), %ymm0, %k0			; VLX-NEXT: vpcmpltuw (%rdi), %ymm0, %k0
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultw_v16i1_v32i1_mask_mem:			; NoVLX-LABEL: test_vpcmpultw_v16i1_v32i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm1 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rdi), %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm1, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor (%rdi), %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <4 x i64> %__a to <16 x i16>			%0 = bitcast <4 x i64> %__a to <16 x i16>
	%load = load <4 x i64>, <4 x i64>* %__b			%load = load <4 x i64>, <4 x i64>* %__b
	%1 = bitcast <4 x i64> %load to <16 x i16>			%1 = bitcast <4 x i64> %load to <16 x i16>
	Show All 9 Lines
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltuw %ymm1, %ymm0, %k0 {%k1}			; VLX-NEXT: vpcmpltuw %ymm1, %ymm0, %k0 {%k1}
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultw_v16i1_v32i1_mask:			; NoVLX-LABEL: test_masked_vpcmpultw_v16i1_v32i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm2 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %ymm1, %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm2, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor %ymm2, %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: andl %edi, %eax			; NoVLX-NEXT: andl %edi, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <4 x i64> %__a to <16 x i16>			%0 = bitcast <4 x i64> %__a to <16 x i16>
	%1 = bitcast <4 x i64> %__b to <16 x i16>			%1 = bitcast <4 x i64> %__b to <16 x i16>
	Show All 11 Lines
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltuw (%rsi), %ymm0, %k0 {%k1}			; VLX-NEXT: vpcmpltuw (%rsi), %ymm0, %k0 {%k1}
	; VLX-NEXT: kmovd %k0, %eax			; VLX-NEXT: kmovd %k0, %eax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultw_v16i1_v32i1_mask_mem:			; NoVLX-LABEL: test_masked_vpcmpultw_v16i1_v32i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm1 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rsi), %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm1, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor (%rsi), %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: andl %edi, %eax			; NoVLX-NEXT: andl %edi, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <4 x i64> %__a to <16 x i16>			%0 = bitcast <4 x i64> %__a to <16 x i16>
	%load = load <4 x i64>, <4 x i64>* %__b			%load = load <4 x i64>, <4 x i64>* %__b
	Show All 12 Lines
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltuw %ymm1, %ymm0, %k0			; VLX-NEXT: vpcmpltuw %ymm1, %ymm0, %k0
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultw_v16i1_v64i1_mask:			; NoVLX-LABEL: test_vpcmpultw_v16i1_v64i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm2 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %ymm1, %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm2, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor %ymm2, %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: movzwl %ax, %eax			; NoVLX-NEXT: movzwl %ax, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <4 x i64> %__a to <16 x i16>			%0 = bitcast <4 x i64> %__a to <16 x i16>
	%1 = bitcast <4 x i64> %__b to <16 x i16>			%1 = bitcast <4 x i64> %__b to <16 x i16>
	%2 = icmp ult <16 x i16> %0, %1			%2 = icmp ult <16 x i16> %0, %1
	%3 = shufflevector <16 x i1> %2, <16 x i1> zeroinitializer, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>			%3 = shufflevector <16 x i1> %2, <16 x i1> zeroinitializer, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
	%4 = bitcast <64 x i1> %3 to i64			%4 = bitcast <64 x i1> %3 to i64
	ret i64 %4			ret i64 %4
	}			}

	define zeroext i64 @test_vpcmpultw_v16i1_v64i1_mask_mem(<4 x i64> %__a, <4 x i64>* %__b) local_unnamed_addr {			define zeroext i64 @test_vpcmpultw_v16i1_v64i1_mask_mem(<4 x i64> %__a, <4 x i64>* %__b) local_unnamed_addr {
	; VLX-LABEL: test_vpcmpultw_v16i1_v64i1_mask_mem:			; VLX-LABEL: test_vpcmpultw_v16i1_v64i1_mask_mem:
	; VLX: # %bb.0: # %entry			; VLX: # %bb.0: # %entry
	; VLX-NEXT: vpcmpltuw (%rdi), %ymm0, %k0			; VLX-NEXT: vpcmpltuw (%rdi), %ymm0, %k0
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_vpcmpultw_v16i1_v64i1_mask_mem:			; NoVLX-LABEL: test_vpcmpultw_v16i1_v64i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm1 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rdi), %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm1, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor (%rdi), %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: movzwl %ax, %eax			; NoVLX-NEXT: movzwl %ax, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <4 x i64> %__a to <16 x i16>			%0 = bitcast <4 x i64> %__a to <16 x i16>
	%load = load <4 x i64>, <4 x i64>* %__b			%load = load <4 x i64>, <4 x i64>* %__b
	Show All 10 Lines
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltuw %ymm1, %ymm0, %k0 {%k1}			; VLX-NEXT: vpcmpltuw %ymm1, %ymm0, %k0 {%k1}
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultw_v16i1_v64i1_mask:			; NoVLX-LABEL: test_masked_vpcmpultw_v16i1_v64i1_mask:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm2 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %ymm1, %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm2, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor %ymm2, %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: andl %edi, %eax			; NoVLX-NEXT: andl %edi, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <4 x i64> %__a to <16 x i16>			%0 = bitcast <4 x i64> %__a to <16 x i16>
	%1 = bitcast <4 x i64> %__b to <16 x i16>			%1 = bitcast <4 x i64> %__b to <16 x i16>
	Show All 11 Lines
	; VLX-NEXT: kmovd %edi, %k1			; VLX-NEXT: kmovd %edi, %k1
	; VLX-NEXT: vpcmpltuw (%rsi), %ymm0, %k0 {%k1}			; VLX-NEXT: vpcmpltuw (%rsi), %ymm0, %k0 {%k1}
	; VLX-NEXT: kmovq %k0, %rax			; VLX-NEXT: kmovq %k0, %rax
	; VLX-NEXT: vzeroupper			; VLX-NEXT: vzeroupper
	; VLX-NEXT: retq			; VLX-NEXT: retq
	;			;
	; NoVLX-LABEL: test_masked_vpcmpultw_v16i1_v64i1_mask_mem:			; NoVLX-LABEL: test_masked_vpcmpultw_v16i1_v64i1_mask_mem:
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm1 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rsi), %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm1, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor (%rsi), %ymm1, %ymm1			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: andl %edi, %eax			; NoVLX-NEXT: andl %edi, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <4 x i64> %__a to <16 x i16>			%0 = bitcast <4 x i64> %__a to <16 x i16>
	%load = load <4 x i64>, <4 x i64>* %__b			%load = load <4 x i64>, <4 x i64>* %__b
	▲ Show 20 Lines • Show All 182 Lines • ▼ Show 20 Lines
	; NoVLX-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2			; NoVLX-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2
	; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2			; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2
	; NoVLX-NEXT: movq %rax, %rcx			; NoVLX-NEXT: movq %rax, %rcx
	; NoVLX-NEXT: shrq $48, %rax			; NoVLX-NEXT: shrq $48, %rax
	; NoVLX-NEXT: shrq $32, %rcx			; NoVLX-NEXT: shrq $32, %rcx
	; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2			; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2
	; NoVLX-NEXT: vpinsrw $7, %eax, %xmm2, %xmm2			; NoVLX-NEXT: vpinsrw $7, %eax, %xmm2, %xmm2
	; NoVLX-NEXT: vinserti128 $1, %xmm5, %ymm2, %ymm2			; NoVLX-NEXT: vinserti128 $1, %xmm5, %ymm2, %ymm2
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm4 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %ymm2, %ymm0, %ymm2
	; NoVLX-NEXT: vpxor %ymm4, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm2, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor %ymm4, %ymm2, %ymm2			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm2, %ymm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %ecx			; NoVLX-NEXT: kmovw %k0, %ecx
	; NoVLX-NEXT: vpxor %ymm4, %ymm1, %ymm0			; NoVLX-NEXT: vpmaxuw %ymm3, %ymm1, %ymm0
	; NoVLX-NEXT: vpxor %ymm4, %ymm3, %ymm1			; NoVLX-NEXT: vpcmpeqw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: shll $16, %eax			; NoVLX-NEXT: shll $16, %eax
	; NoVLX-NEXT: orl %ecx, %eax			; NoVLX-NEXT: orl %ecx, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <8 x i64> %__a to <32 x i16>			%0 = bitcast <8 x i64> %__a to <32 x i16>
	▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; NoVLX-NEXT: vpinsrw $3, %ecx, %xmm4, %xmm0			; NoVLX-NEXT: vpinsrw $3, %ecx, %xmm4, %xmm0
	; NoVLX-NEXT: movl %eax, %ecx			; NoVLX-NEXT: movl %eax, %ecx
	; NoVLX-NEXT: shrl $16, %ecx			; NoVLX-NEXT: shrl $16, %ecx
	; NoVLX-NEXT: vpinsrw $4, %eax, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $4, %eax, %xmm0, %xmm0
	; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm0, %xmm0
	; NoVLX-NEXT: movq %rax, %rcx			; NoVLX-NEXT: movq %rax, %rcx
	; NoVLX-NEXT: shrq $32, %rcx			; NoVLX-NEXT: shrq $32, %rcx
	; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm0, %xmm0
	; NoVLX-NEXT: shrq $48, %rax
	; NoVLX-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1			; NoVLX-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1
				; NoVLX-NEXT: shrq $48, %rax
	; NoVLX-NEXT: vpinsrw $7, %eax, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $7, %eax, %xmm0, %xmm0
	; NoVLX-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0			; NoVLX-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm0
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm2 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rdi), %ymm0, %ymm2
	; NoVLX-NEXT: vpxor %ymm2, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm2, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor (%rdi), %ymm2, %ymm3			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm3, %ymm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %ecx			; NoVLX-NEXT: kmovw %k0, %ecx
	; NoVLX-NEXT: vpxor %ymm2, %ymm1, %ymm0			; NoVLX-NEXT: vpmaxuw 32(%rdi), %ymm1, %ymm0
	; NoVLX-NEXT: vpxor 32(%rdi), %ymm2, %ymm1			; NoVLX-NEXT: vpcmpeqw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: shll $16, %eax			; NoVLX-NEXT: shll $16, %eax
	; NoVLX-NEXT: orl %ecx, %eax			; NoVLX-NEXT: orl %ecx, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	entry:			entry:
	%0 = bitcast <8 x i64> %__a to <32 x i16>			%0 = bitcast <8 x i64> %__a to <32 x i16>
	Show All 18 Lines
	; NoVLX: # %bb.0: # %entry			; NoVLX: # %bb.0: # %entry
	; NoVLX-NEXT: vextracti128 $1, %ymm1, %xmm9			; NoVLX-NEXT: vextracti128 $1, %ymm1, %xmm9
	; NoVLX-NEXT: vextracti32x4 $3, %zmm0, %xmm3			; NoVLX-NEXT: vextracti32x4 $3, %zmm0, %xmm3
	; NoVLX-NEXT: vmovq %xmm3, %rax			; NoVLX-NEXT: vmovq %xmm3, %rax
	; NoVLX-NEXT: movq %rax, %rcx			; NoVLX-NEXT: movq %rax, %rcx
	; NoVLX-NEXT: movq %rax, %rdx			; NoVLX-NEXT: movq %rax, %rdx
	; NoVLX-NEXT: vmovd %eax, %xmm4			; NoVLX-NEXT: vmovd %eax, %xmm4
	; NoVLX-NEXT: shrl $16, %eax			; NoVLX-NEXT: shrl $16, %eax
	; NoVLX-NEXT: vpinsrw $1, %eax, %xmm4, %xmm5			; NoVLX-NEXT: vpinsrw $1, %eax, %xmm4, %xmm4
	; NoVLX-NEXT: vmovq %xmm9, %rax			; NoVLX-NEXT: vmovq %xmm9, %rax
	; NoVLX-NEXT: vextracti32x4 $2, %zmm1, %xmm4			; NoVLX-NEXT: vextracti32x4 $2, %zmm1, %xmm5
	; NoVLX-NEXT: vextracti32x4 $3, %zmm1, %xmm7			; NoVLX-NEXT: vextracti32x4 $3, %zmm1, %xmm7
	; NoVLX-NEXT: vextracti128 $1, %ymm0, %xmm6			; NoVLX-NEXT: vextracti128 $1, %ymm0, %xmm6
	; NoVLX-NEXT: vextracti32x4 $2, %zmm0, %xmm2			; NoVLX-NEXT: vextracti32x4 $2, %zmm0, %xmm2
	; NoVLX-NEXT: shrq $32, %rdx			; NoVLX-NEXT: shrq $32, %rdx
	; NoVLX-NEXT: vpinsrw $2, %edx, %xmm5, %xmm5			; NoVLX-NEXT: vpinsrw $2, %edx, %xmm4, %xmm4
	; NoVLX-NEXT: vpextrq $1, %xmm3, %rdx			; NoVLX-NEXT: vpextrq $1, %xmm3, %rdx
	; NoVLX-NEXT: shrq $48, %rcx			; NoVLX-NEXT: shrq $48, %rcx
	; NoVLX-NEXT: vpinsrw $3, %ecx, %xmm5, %xmm3			; NoVLX-NEXT: vpinsrw $3, %ecx, %xmm4, %xmm3
	; NoVLX-NEXT: movl %edx, %ecx			; NoVLX-NEXT: movl %edx, %ecx
	; NoVLX-NEXT: shrl $16, %ecx			; NoVLX-NEXT: shrl $16, %ecx
	; NoVLX-NEXT: vpinsrw $4, %edx, %xmm3, %xmm3			; NoVLX-NEXT: vpinsrw $4, %edx, %xmm3, %xmm3
	; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm3, %xmm3			; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm3, %xmm3
	; NoVLX-NEXT: movq %rdx, %rcx			; NoVLX-NEXT: movq %rdx, %rcx
	; NoVLX-NEXT: shrq $32, %rcx			; NoVLX-NEXT: shrq $32, %rcx
	; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm3, %xmm3			; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm3, %xmm3
	; NoVLX-NEXT: vmovq %xmm2, %rcx			; NoVLX-NEXT: vmovq %xmm2, %rcx
	; NoVLX-NEXT: shrq $48, %rdx			; NoVLX-NEXT: shrq $48, %rdx
	; NoVLX-NEXT: vpinsrw $7, %edx, %xmm3, %xmm10			; NoVLX-NEXT: vpinsrw $7, %edx, %xmm3, %xmm10
	; NoVLX-NEXT: movl %ecx, %edx			; NoVLX-NEXT: movl %ecx, %edx
	; NoVLX-NEXT: shrl $16, %edx			; NoVLX-NEXT: shrl $16, %edx
	; NoVLX-NEXT: vmovd %ecx, %xmm5			; NoVLX-NEXT: vmovd %ecx, %xmm4
	; NoVLX-NEXT: vpinsrw $1, %edx, %xmm5, %xmm5			; NoVLX-NEXT: vpinsrw $1, %edx, %xmm4, %xmm4
	; NoVLX-NEXT: movq %rcx, %rdx			; NoVLX-NEXT: movq %rcx, %rdx
	; NoVLX-NEXT: shrq $32, %rdx			; NoVLX-NEXT: shrq $32, %rdx
	; NoVLX-NEXT: vpinsrw $2, %edx, %xmm5, %xmm5			; NoVLX-NEXT: vpinsrw $2, %edx, %xmm4, %xmm4
	; NoVLX-NEXT: vpextrq $1, %xmm2, %rdx			; NoVLX-NEXT: vpextrq $1, %xmm2, %rdx
	; NoVLX-NEXT: shrq $48, %rcx			; NoVLX-NEXT: shrq $48, %rcx
	; NoVLX-NEXT: vpinsrw $3, %ecx, %xmm5, %xmm2			; NoVLX-NEXT: vpinsrw $3, %ecx, %xmm4, %xmm2
	; NoVLX-NEXT: movl %edx, %ecx			; NoVLX-NEXT: movl %edx, %ecx
	; NoVLX-NEXT: shrl $16, %ecx			; NoVLX-NEXT: shrl $16, %ecx
	; NoVLX-NEXT: vpinsrw $4, %edx, %xmm2, %xmm2			; NoVLX-NEXT: vpinsrw $4, %edx, %xmm2, %xmm2
	; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2			; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2
	; NoVLX-NEXT: movq %rdx, %rcx			; NoVLX-NEXT: movq %rdx, %rcx
	; NoVLX-NEXT: shrq $32, %rcx			; NoVLX-NEXT: shrq $32, %rcx
	; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2			; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2
	; NoVLX-NEXT: vmovq %xmm6, %rcx			; NoVLX-NEXT: vmovq %xmm6, %rcx
	; NoVLX-NEXT: shrq $48, %rdx			; NoVLX-NEXT: shrq $48, %rdx
	; NoVLX-NEXT: vpinsrw $7, %edx, %xmm2, %xmm5			; NoVLX-NEXT: vpinsrw $7, %edx, %xmm2, %xmm4
	; NoVLX-NEXT: movl %ecx, %edx			; NoVLX-NEXT: movl %ecx, %edx
	; NoVLX-NEXT: shrl $16, %edx			; NoVLX-NEXT: shrl $16, %edx
	; NoVLX-NEXT: vmovd %ecx, %xmm2			; NoVLX-NEXT: vmovd %ecx, %xmm2
	; NoVLX-NEXT: vpinsrw $1, %edx, %xmm2, %xmm2			; NoVLX-NEXT: vpinsrw $1, %edx, %xmm2, %xmm2
	; NoVLX-NEXT: movq %rcx, %rdx			; NoVLX-NEXT: movq %rcx, %rdx
	; NoVLX-NEXT: shrq $32, %rdx			; NoVLX-NEXT: shrq $32, %rdx
	; NoVLX-NEXT: vpinsrw $2, %edx, %xmm2, %xmm2			; NoVLX-NEXT: vpinsrw $2, %edx, %xmm2, %xmm2
	; NoVLX-NEXT: vpextrq $1, %xmm6, %rdx			; NoVLX-NEXT: vpextrq $1, %xmm6, %rdx
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; NoVLX-NEXT: vpinsrw $3, %ecx, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $3, %ecx, %xmm0, %xmm0
	; NoVLX-NEXT: movl %edx, %ecx			; NoVLX-NEXT: movl %edx, %ecx
	; NoVLX-NEXT: shrl $16, %ecx			; NoVLX-NEXT: shrl $16, %ecx
	; NoVLX-NEXT: vpinsrw $4, %edx, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $4, %edx, %xmm0, %xmm0
	; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm0, %xmm0
	; NoVLX-NEXT: movq %rdx, %rcx			; NoVLX-NEXT: movq %rdx, %rcx
	; NoVLX-NEXT: shrq $32, %rcx			; NoVLX-NEXT: shrq $32, %rcx
	; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm0, %xmm0
	; NoVLX-NEXT: vmovq %xmm4, %rcx			; NoVLX-NEXT: vmovq %xmm5, %rcx
	; NoVLX-NEXT: shrq $48, %rdx			; NoVLX-NEXT: shrq $48, %rdx
	; NoVLX-NEXT: vpinsrw $7, %edx, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $7, %edx, %xmm0, %xmm0
	; NoVLX-NEXT: movl %ecx, %edx			; NoVLX-NEXT: movl %ecx, %edx
	; NoVLX-NEXT: shrl $16, %edx			; NoVLX-NEXT: shrl $16, %edx
	; NoVLX-NEXT: vmovd %ecx, %xmm2			; NoVLX-NEXT: vmovd %ecx, %xmm2
	; NoVLX-NEXT: vpinsrw $1, %edx, %xmm2, %xmm2			; NoVLX-NEXT: vpinsrw $1, %edx, %xmm2, %xmm2
	; NoVLX-NEXT: movq %rcx, %rdx			; NoVLX-NEXT: movq %rcx, %rdx
	; NoVLX-NEXT: shrq $32, %rdx			; NoVLX-NEXT: shrq $32, %rdx
	Show All 32 Lines
	; NoVLX-NEXT: shrl $16, %eax			; NoVLX-NEXT: shrl $16, %eax
	; NoVLX-NEXT: vpinsrw $4, %edx, %xmm1, %xmm1			; NoVLX-NEXT: vpinsrw $4, %edx, %xmm1, %xmm1
	; NoVLX-NEXT: vpinsrw $5, %eax, %xmm1, %xmm1			; NoVLX-NEXT: vpinsrw $5, %eax, %xmm1, %xmm1
	; NoVLX-NEXT: movq %rdx, %rax			; NoVLX-NEXT: movq %rdx, %rax
	; NoVLX-NEXT: shrq $32, %rax			; NoVLX-NEXT: shrq $32, %rax
	; NoVLX-NEXT: vpinsrw $6, %eax, %xmm1, %xmm1			; NoVLX-NEXT: vpinsrw $6, %eax, %xmm1, %xmm1
	; NoVLX-NEXT: shrq $48, %rdx			; NoVLX-NEXT: shrq $48, %rdx
	; NoVLX-NEXT: vpinsrw $7, %edx, %xmm1, %xmm1			; NoVLX-NEXT: vpinsrw $7, %edx, %xmm1, %xmm1
	; NoVLX-NEXT: vpextrq $1, %xmm4, %rax			; NoVLX-NEXT: vpextrq $1, %xmm5, %rax
	; NoVLX-NEXT: vinserti128 $1, %xmm6, %ymm8, %ymm3			; NoVLX-NEXT: vinserti128 $1, %xmm6, %ymm8, %ymm3
	; NoVLX-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; NoVLX-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm2 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw %ymm1, %ymm3, %ymm1
	; NoVLX-NEXT: vpxor %ymm2, %ymm3, %ymm3			; NoVLX-NEXT: vpcmpeqw %ymm1, %ymm3, %ymm1
	; NoVLX-NEXT: vpxor %ymm2, %ymm1, %ymm1
	; NoVLX-NEXT: vpcmpgtw %ymm3, %ymm1, %ymm1
	; NoVLX-NEXT: vpmovsxwd %ymm1, %zmm1
	; NoVLX-NEXT: vptestmd %zmm1, %zmm1, %k0
	; NoVLX-NEXT: shrq $48, %rcx			; NoVLX-NEXT: shrq $48, %rcx
	; NoVLX-NEXT: vpinsrw $3, %ecx, %xmm7, %xmm1			; NoVLX-NEXT: vpinsrw $3, %ecx, %xmm7, %xmm2
	; NoVLX-NEXT: movl %eax, %ecx			; NoVLX-NEXT: movl %eax, %ecx
	; NoVLX-NEXT: shrl $16, %ecx			; NoVLX-NEXT: shrl $16, %ecx
	; NoVLX-NEXT: vpinsrw $4, %eax, %xmm1, %xmm1			; NoVLX-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2
	; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm1, %xmm1			; NoVLX-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2
	; NoVLX-NEXT: movq %rax, %rcx			; NoVLX-NEXT: movq %rax, %rcx
	; NoVLX-NEXT: shrq $32, %rcx			; NoVLX-NEXT: shrq $32, %rcx
	; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm1, %xmm1			; NoVLX-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2
				; NoVLX-NEXT: vpternlogq $15, %zmm1, %zmm1, %zmm1
				; NoVLX-NEXT: vpmovsxwd %ymm1, %zmm1
				; NoVLX-NEXT: vpslld $31, %zmm1, %zmm1
				; NoVLX-NEXT: vptestmd %zmm1, %zmm1, %k0
	; NoVLX-NEXT: kmovw %k0, %ecx			; NoVLX-NEXT: kmovw %k0, %ecx
	; NoVLX-NEXT: andl %edi, %ecx			; NoVLX-NEXT: andl %edi, %ecx
	; NoVLX-NEXT: shrl $16, %edi			; NoVLX-NEXT: shrl $16, %edi
	; NoVLX-NEXT: shrq $48, %rax			; NoVLX-NEXT: shrq $48, %rax
	; NoVLX-NEXT: vinserti128 $1, %xmm10, %ymm5, %ymm3			; NoVLX-NEXT: vinserti128 $1, %xmm10, %ymm4, %ymm1
	; NoVLX-NEXT: vpinsrw $7, %eax, %xmm1, %xmm1			; NoVLX-NEXT: vpinsrw $7, %eax, %xmm2, %xmm2
	; NoVLX-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; NoVLX-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm0
	; NoVLX-NEXT: vpxor %ymm2, %ymm3, %ymm1			; NoVLX-NEXT: vpmaxuw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpxor %ymm2, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm0, %ymm1, %ymm0
	; NoVLX-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %edx			; NoVLX-NEXT: kmovw %k0, %edx
	; NoVLX-NEXT: andl %edi, %edx			; NoVLX-NEXT: andl %edi, %edx
	; NoVLX-NEXT: shll $16, %edx			; NoVLX-NEXT: shll $16, %edx
	; NoVLX-NEXT: movzwl %cx, %eax			; NoVLX-NEXT: movzwl %cx, %eax
	; NoVLX-NEXT: orl %edx, %eax			; NoVLX-NEXT: orl %edx, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	▲ Show 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	; NoVLX-NEXT: vpinsrw $4, %ecx, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $4, %ecx, %xmm0, %xmm0
	; NoVLX-NEXT: vpinsrw $5, %eax, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $5, %eax, %xmm0, %xmm0
	; NoVLX-NEXT: movq %rcx, %rax			; NoVLX-NEXT: movq %rcx, %rax
	; NoVLX-NEXT: shrq $32, %rax			; NoVLX-NEXT: shrq $32, %rax
	; NoVLX-NEXT: vpinsrw $6, %eax, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $6, %eax, %xmm0, %xmm0
	; NoVLX-NEXT: shrq $48, %rcx			; NoVLX-NEXT: shrq $48, %rcx
	; NoVLX-NEXT: vpinsrw $7, %ecx, %xmm0, %xmm0			; NoVLX-NEXT: vpinsrw $7, %ecx, %xmm0, %xmm0
	; NoVLX-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; NoVLX-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; NoVLX-NEXT: vmovdqa {{.*#+}} ymm1 = [32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768,32768]			; NoVLX-NEXT: vpmaxuw (%rsi), %ymm0, %ymm1
	; NoVLX-NEXT: vpxor %ymm1, %ymm0, %ymm0			; NoVLX-NEXT: vpcmpeqw %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpxor (%rsi), %ymm1, %ymm4
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm4, %ymm0
	; NoVLX-NEXT: shrq $48, %rdx			; NoVLX-NEXT: shrq $48, %rdx
	; NoVLX-NEXT: vpinsrw $7, %edx, %xmm3, %xmm3			; NoVLX-NEXT: vpinsrw $7, %edx, %xmm3, %xmm1
				; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %eax			; NoVLX-NEXT: kmovw %k0, %eax
	; NoVLX-NEXT: andl %edi, %eax			; NoVLX-NEXT: andl %edi, %eax
	; NoVLX-NEXT: shrl $16, %edi			; NoVLX-NEXT: shrl $16, %edi
	; NoVLX-NEXT: vinserti128 $1, %xmm2, %ymm3, %ymm0			; NoVLX-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm0
	; NoVLX-NEXT: vpxor %ymm1, %ymm0, %ymm0			; NoVLX-NEXT: vpmaxuw 32(%rsi), %ymm0, %ymm1
	; NoVLX-NEXT: vpxor 32(%rsi), %ymm1, %ymm1			; NoVLX-NEXT: vpcmpeqw %ymm1, %ymm0, %ymm0
	; NoVLX-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0			; NoVLX-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0			; NoVLX-NEXT: vpmovsxwd %ymm0, %zmm0
				; NoVLX-NEXT: vpslld $31, %zmm0, %zmm0
	; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0			; NoVLX-NEXT: vptestmd %zmm0, %zmm0, %k0
	; NoVLX-NEXT: kmovw %k0, %ecx			; NoVLX-NEXT: kmovw %k0, %ecx
	; NoVLX-NEXT: andl %edi, %ecx			; NoVLX-NEXT: andl %edi, %ecx
	; NoVLX-NEXT: shll $16, %ecx			; NoVLX-NEXT: shll $16, %ecx
	; NoVLX-NEXT: movzwl %ax, %eax			; NoVLX-NEXT: movzwl %ax, %eax
	; NoVLX-NEXT: orl %ecx, %eax			; NoVLX-NEXT: orl %ecx, %eax
	; NoVLX-NEXT: vzeroupper			; NoVLX-NEXT: vzeroupper
	; NoVLX-NEXT: retq			; NoVLX-NEXT: retq
	▲ Show 20 Lines • Show All 7,929 Lines • Show Last 20 Lines

test/CodeGen/X86/psubus.ll

	Show First 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [32767,32767,32767,32767,32767,32767,32767,32767]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [32767,32767,32767,32767,32767,32767,32767,32767]
	; SSE-NEXT: psubusw %xmm2, %xmm0			; SSE-NEXT: psubusw %xmm2, %xmm0
	; SSE-NEXT: psubusw %xmm2, %xmm1			; SSE-NEXT: psubusw %xmm2, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test8:			; AVX1-LABEL: test8:
	; AVX1: # %bb.0: # %vector.ph			; AVX1: # %bb.0: # %vector.ph
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [32766,32766,32766,32766,32766,32766,32766,32766]
	; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpminuw %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [65534,65534,65534,65534,65534,65534,65534,65534]			; AVX1-NEXT: vpcmpeqw %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpcmpgtw %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtw %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpminuw %xmm2, %xmm0, %xmm2
				; AVX1-NEXT: vpcmpeqw %xmm2, %xmm0, %xmm2
				; AVX1-NEXT: vpxor %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32769,32769,32769,32769,32769,32769,32769,32769]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32769,32769,32769,32769,32769,32769,32769,32769]
	; AVX1-NEXT: vpaddw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpaddw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpaddw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpaddw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vandps %ymm0, %ymm2, %ymm0			; AVX1-NEXT: vandps %ymm0, %ymm2, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
	; SSE-NEXT: psubusb %xmm2, %xmm0			; SSE-NEXT: psubusb %xmm2, %xmm0
	; SSE-NEXT: psubusb %xmm2, %xmm1			; SSE-NEXT: psubusb %xmm2, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test11:			; AVX1-LABEL: test11:
	; AVX1: # %bb.0: # %vector.ph			; AVX1: # %bb.0: # %vector.ph
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [126,126,126,126,126,126,126,126,126,126,126,126,126,126,126,126]
	; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpminub %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [254,254,254,254,254,254,254,254,254,254,254,254,254,254,254,254]			; AVX1-NEXT: vpcmpeqb %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpcmpgtb %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtb %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpminub %xmm2, %xmm0, %xmm2
				; AVX1-NEXT: vpcmpeqb %xmm2, %xmm0, %xmm2
				; AVX1-NEXT: vpxor %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [129,129,129,129,129,129,129,129,129,129,129,129,129,129,129,129]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [129,129,129,129,129,129,129,129,129,129,129,129,129,129,129,129]
	; AVX1-NEXT: vpaddb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vandps %ymm0, %ymm2, %ymm0			; AVX1-NEXT: vandps %ymm0, %ymm2, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: movdqa %xmm2, %xmm0			; SSSE3-NEXT: movdqa %xmm2, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: test13:			; SSE41-LABEL: test13:
	; SSE41: # %bb.0: # %vector.ph			; SSE41: # %bb.0: # %vector.ph
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648,2147483648,2147483648]			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm6			; SSE41-NEXT: pmaxud %xmm1, %xmm0
	; SSE41-NEXT: psubd %xmm1, %xmm4			; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: pcmpeqd %xmm5, %xmm5
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm6			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm0			; SSE41-NEXT: pshufb %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm3, %xmm7
	; SSE41-NEXT: pxor %xmm5, %xmm1			; SSE41-NEXT: pmaxud %xmm2, %xmm7
	; SSE41-NEXT: por %xmm3, %xmm5			; SSE41-NEXT: pcmpeqd %xmm3, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm5, %xmm1			; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: packssdw %xmm1, %xmm0			; SSE41-NEXT: pshufb %xmm6, %xmm7
				; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm7[0]
	; SSE41-NEXT: psubd %xmm2, %xmm3			; SSE41-NEXT: psubd %xmm2, %xmm3
	; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; SSE41-NEXT: psubd %xmm1, %xmm4
	; SSE41-NEXT: pshufb %xmm1, %xmm4			; SSE41-NEXT: pshufb %xmm6, %xmm4
	; SSE41-NEXT: pshufb %xmm1, %xmm3			; SSE41-NEXT: pshufb %xmm6, %xmm3
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm3[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm3[0]
	; SSE41-NEXT: pandn %xmm4, %xmm0			; SSE41-NEXT: pandn %xmm4, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test13:			; AVX1-LABEL: test13:
	; AVX1: # %bb.0: # %vector.ph			; AVX1: # %bb.0: # %vector.ph
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [2147483648,2147483648,2147483648,2147483648]			; AVX1-NEXT: vpmaxud %xmm1, %xmm0, %xmm3
	; AVX1-NEXT: vpor %xmm3, %xmm0, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpgtd %xmm4, %xmm5, %xmm4			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm6			; AVX1-NEXT: vpmaxud %xmm5, %xmm2, %xmm6
	; AVX1-NEXT: vpor %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm6, %xmm2, %xmm6
	; AVX1-NEXT: vpcmpgtd %xmm3, %xmm6, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm6, %xmm4
	; AVX1-NEXT: vpackssdw %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpackssdw %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsubd %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpsubd %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpandn %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpandn %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test13:			; AVX2-LABEL: test13:
	; AVX2: # %bb.0: # %vector.ph			; AVX2: # %bb.0: # %vector.ph
	; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648]			; AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpor %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3
	; AVX2-NEXT: vpcmpgtd %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3
	; AVX2-NEXT: vpackssdw %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vpackssdw %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpandn %xmm0, %xmm2, %xmm0			; AVX2-NEXT: vpandn %xmm0, %xmm2, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: pand %xmm5, %xmm1			; SSSE3-NEXT: pand %xmm5, %xmm1
	; SSSE3-NEXT: packuswb %xmm2, %xmm1			; SSSE3-NEXT: packuswb %xmm2, %xmm1
	; SSSE3-NEXT: packuswb %xmm3, %xmm1			; SSSE3-NEXT: packuswb %xmm3, %xmm1
	; SSSE3-NEXT: andnpd %xmm1, %xmm0			; SSSE3-NEXT: andnpd %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: test14:			; SSE41-LABEL: test14:
	; SSE41: # %bb.0: # %vector.ph			; SSE41: # %bb.0: # %vector.ph
	; SSE41-NEXT: movdqa %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm0[1,1,2,3]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; SSE41-NEXT: pmovzxbd {{.*#+}} xmm11 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
	; SSE41-NEXT: pmovzxbd {{.*#+}} xmm8 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; SSE41-NEXT: pmovzxbd {{.*#+}} xmm8 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; SSE41-NEXT: pmovzxbd {{.*#+}} xmm0 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero			; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm0[2,3,0,1]
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[2,3,0,1]
	; SSE41-NEXT: pmovzxbd {{.*#+}} xmm9 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero			; SSE41-NEXT: pmovzxbd {{.*#+}} xmm9 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm5[3,1,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; SSE41-NEXT: pmovzxbd {{.*#+}} xmm6 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero			; SSE41-NEXT: pmovzxbd {{.*#+}} xmm10 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648,2147483648,2147483648]			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm7			; SSE41-NEXT: pmaxud %xmm10, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm7			; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: psubd %xmm6, %xmm4			; SSE41-NEXT: pcmpeqd %xmm6, %xmm6
	; SSE41-NEXT: por %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm7, %xmm6			; SSE41-NEXT: movdqa {{.*#+}} xmm7 = <u,u,u,u,0,4,8,12,u,u,u,u,u,u,u,u>
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = <u,u,u,u,0,4,8,12,u,u,u,u,u,u,u,u>			; SSE41-NEXT: pshufb %xmm7, %xmm0
	; SSE41-NEXT: pshufb %xmm10, %xmm6			; SSE41-NEXT: movdqa %xmm3, %xmm5
	; SSE41-NEXT: movdqa %xmm3, %xmm7			; SSE41-NEXT: pmaxud %xmm9, %xmm5
	; SSE41-NEXT: pxor %xmm5, %xmm7			; SSE41-NEXT: pcmpeqd %xmm3, %xmm5
	; SSE41-NEXT: psubd %xmm9, %xmm3			; SSE41-NEXT: pxor %xmm6, %xmm5
	; SSE41-NEXT: por %xmm5, %xmm9			; SSE41-NEXT: pshufb %xmm7, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm7, %xmm9			; SSE41-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm0[0],xmm5[1],xmm0[1]
	; SSE41-NEXT: pshufb %xmm10, %xmm9			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: punpckldq {{.*#+}} xmm9 = xmm9[0],xmm6[0],xmm9[1],xmm6[1]			; SSE41-NEXT: pmaxud %xmm8, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm6			; SSE41-NEXT: pcmpeqd %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: psubd %xmm0, %xmm1			; SSE41-NEXT: movdqa {{.*#+}} xmm12 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: pshufb %xmm12, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
	; SSE41-NEXT: pshufb %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm7			; SSE41-NEXT: movdqa %xmm2, %xmm7
	; SSE41-NEXT: pxor %xmm5, %xmm7			; SSE41-NEXT: pmaxud %xmm11, %xmm7
	; SSE41-NEXT: por %xmm8, %xmm5			; SSE41-NEXT: pcmpeqd %xmm2, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm7, %xmm5			; SSE41-NEXT: pxor %xmm6, %xmm7
	; SSE41-NEXT: pshufb %xmm6, %xmm5			; SSE41-NEXT: pshufb %xmm12, %xmm7
	; SSE41-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]			; SSE41-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm9[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm5[4,5,6,7]
	; SSE41-NEXT: psubd %xmm8, %xmm2			; SSE41-NEXT: psubd %xmm11, %xmm2
				; SSE41-NEXT: psubd %xmm8, %xmm1
				; SSE41-NEXT: psubd %xmm9, %xmm3
				; SSE41-NEXT: psubd %xmm10, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
	; SSE41-NEXT: pand %xmm5, %xmm4			; SSE41-NEXT: pand %xmm5, %xmm4
	; SSE41-NEXT: pand %xmm5, %xmm3			; SSE41-NEXT: pand %xmm5, %xmm3
	; SSE41-NEXT: packuswb %xmm4, %xmm3			; SSE41-NEXT: packuswb %xmm4, %xmm3
	; SSE41-NEXT: pand %xmm5, %xmm1			; SSE41-NEXT: pand %xmm5, %xmm1
	; SSE41-NEXT: pand %xmm5, %xmm2			; SSE41-NEXT: pand %xmm5, %xmm2
	; SSE41-NEXT: packuswb %xmm2, %xmm1			; SSE41-NEXT: packuswb %xmm2, %xmm1
	; SSE41-NEXT: packuswb %xmm3, %xmm1			; SSE41-NEXT: packuswb %xmm3, %xmm1
	; SSE41-NEXT: pandn %xmm1, %xmm0			; SSE41-NEXT: pandn %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test14:			; AVX1-LABEL: test14:
	; AVX1: # %bb.0: # %vector.ph			; AVX1: # %bb.0: # %vector.ph
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm8 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm8 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm9 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm9 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm10 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm11 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [2147483648,2147483648,2147483648,2147483648]			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm6
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm7			; AVX1-NEXT: vpmaxud %xmm0, %xmm6, %xmm7
	; AVX1-NEXT: vpxor %xmm6, %xmm7, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm7, %xmm6, %xmm7
	; AVX1-NEXT: vpor %xmm6, %xmm0, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtd %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpxor %xmm3, %xmm7, %xmm7
	; AVX1-NEXT: vpxor %xmm6, %xmm2, %xmm4			; AVX1-NEXT: vpmaxud %xmm11, %xmm2, %xmm4
	; AVX1-NEXT: vpor %xmm6, %xmm10, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm2, %xmm4
	; AVX1-NEXT: vpcmpgtd %xmm4, %xmm5, %xmm4			; AVX1-NEXT: vpxor %xmm3, %xmm4, %xmm4
	; AVX1-NEXT: vpackssdw %xmm3, %xmm4, %xmm11			; AVX1-NEXT: vpackssdw %xmm7, %xmm4, %xmm10
	; AVX1-NEXT: vpxor %xmm6, %xmm1, %xmm4			; AVX1-NEXT: vpmaxud %xmm9, %xmm1, %xmm7
	; AVX1-NEXT: vpor %xmm6, %xmm9, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm7, %xmm1, %xmm7
	; AVX1-NEXT: vpcmpgtd %xmm4, %xmm5, %xmm4			; AVX1-NEXT: vpxor %xmm3, %xmm7, %xmm7
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
	; AVX1-NEXT: vpxor %xmm6, %xmm5, %xmm3			; AVX1-NEXT: vpmaxud %xmm8, %xmm4, %xmm5
	; AVX1-NEXT: vpor %xmm6, %xmm8, %xmm6			; AVX1-NEXT: vpcmpeqd %xmm5, %xmm4, %xmm5
	; AVX1-NEXT: vpcmpgtd %xmm3, %xmm6, %xmm3			; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm3
	; AVX1-NEXT: vpackssdw %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpackssdw %xmm3, %xmm7, %xmm3
	; AVX1-NEXT: vpacksswb %xmm11, %xmm3, %xmm3			; AVX1-NEXT: vpacksswb %xmm10, %xmm3, %xmm3
	; AVX1-NEXT: vpsubd %xmm8, %xmm5, %xmm4			; AVX1-NEXT: vpsubd %xmm8, %xmm4, %xmm4
	; AVX1-NEXT: vpsubd %xmm9, %xmm1, %xmm1			; AVX1-NEXT: vpsubd %xmm9, %xmm1, %xmm1
	; AVX1-NEXT: vpsubd %xmm10, %xmm2, %xmm2			; AVX1-NEXT: vpsubd %xmm11, %xmm2, %xmm2
	; AVX1-NEXT: vpsubd %xmm0, %xmm7, %xmm0			; AVX1-NEXT: vpsubd %xmm0, %xmm6, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
	; AVX1-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpand %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm5, %xmm4, %xmm2			; AVX1-NEXT: vpand %xmm5, %xmm4, %xmm2
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpandn %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpandn %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test14:			; AVX2-LABEL: test14:
	; AVX2: # %bb.0: # %vector.ph			; AVX2: # %bb.0: # %vector.ph
	; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero
	; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm4 = [2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648]			; AVX2-NEXT: vpmaxud %ymm0, %ymm1, %ymm4
	; AVX2-NEXT: vpxor %ymm4, %ymm1, %ymm5			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm1, %ymm4
	; AVX2-NEXT: vpor %ymm4, %ymm0, %ymm6			; AVX2-NEXT: vpcmpeqd %ymm5, %ymm5, %ymm5
	; AVX2-NEXT: vpcmpgtd %ymm5, %ymm6, %ymm5			; AVX2-NEXT: vpxor %ymm5, %ymm4, %ymm4
	; AVX2-NEXT: vextracti128 $1, %ymm5, %xmm6
	; AVX2-NEXT: vpackssdw %xmm6, %xmm5, %xmm5
	; AVX2-NEXT: vpxor %ymm4, %ymm2, %ymm6
	; AVX2-NEXT: vpor %ymm4, %ymm3, %ymm4
	; AVX2-NEXT: vpcmpgtd %ymm6, %ymm4, %ymm4
	; AVX2-NEXT: vextracti128 $1, %ymm4, %xmm6			; AVX2-NEXT: vextracti128 $1, %ymm4, %xmm6
	; AVX2-NEXT: vpackssdw %xmm6, %xmm4, %xmm4			; AVX2-NEXT: vpackssdw %xmm6, %xmm4, %xmm4
	; AVX2-NEXT: vpacksswb %xmm4, %xmm5, %xmm4			; AVX2-NEXT: vpmaxud %ymm3, %ymm2, %ymm6
				; AVX2-NEXT: vpcmpeqd %ymm6, %ymm2, %ymm6
				; AVX2-NEXT: vpxor %ymm5, %ymm6, %ymm5
				; AVX2-NEXT: vextracti128 $1, %ymm5, %xmm6
				; AVX2-NEXT: vpackssdw %xmm6, %xmm5, %xmm5
				; AVX2-NEXT: vpacksswb %xmm5, %xmm4, %xmm4
	; AVX2-NEXT: vpsubd %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpsubd %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsubd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpsubd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpshufb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>			; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
	; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpshufb %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: movdqa %xmm3, %xmm0			; SSSE3-NEXT: movdqa %xmm3, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: test15:			; SSE41-LABEL: test15:
	; SSE41: # %bb.0: # %vector.ph			; SSE41: # %bb.0: # %vector.ph
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm5			; SSE41-NEXT: pminud %xmm1, %xmm4
	; SSE41-NEXT: psubd %xmm1, %xmm0			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pxor %xmm4, %xmm1			; SSE41-NEXT: pcmpeqd %xmm5, %xmm5
	; SSE41-NEXT: por %xmm4, %xmm5			; SSE41-NEXT: pxor %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm1, %xmm5			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: pshufb %xmm6, %xmm4
	; SSE41-NEXT: pxor %xmm4, %xmm1			; SSE41-NEXT: movdqa %xmm3, %xmm7
	; SSE41-NEXT: por %xmm3, %xmm4			; SSE41-NEXT: pminud %xmm2, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm1, %xmm4			; SSE41-NEXT: pcmpeqd %xmm3, %xmm7
	; SSE41-NEXT: packssdw %xmm4, %xmm5			; SSE41-NEXT: pxor %xmm5, %xmm7
				; SSE41-NEXT: pshufb %xmm6, %xmm7
				; SSE41-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm7[0]
	; SSE41-NEXT: psubd %xmm2, %xmm3			; SSE41-NEXT: psubd %xmm2, %xmm3
	; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; SSE41-NEXT: psubd %xmm1, %xmm0
	; SSE41-NEXT: pshufb %xmm1, %xmm0			; SSE41-NEXT: pshufb %xmm6, %xmm0
	; SSE41-NEXT: pshufb %xmm1, %xmm3			; SSE41-NEXT: pshufb %xmm6, %xmm3
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test15:			; AVX1-LABEL: test15:
	; AVX1: # %bb.0: # %vector.ph			; AVX1: # %bb.0: # %vector.ph
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [2147483648,2147483648,2147483648,2147483648]			; AVX1-NEXT: vpminud %xmm1, %xmm0, %xmm3
	; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpor %xmm3, %xmm0, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpgtd %xmm4, %xmm5, %xmm4			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm6			; AVX1-NEXT: vpminud %xmm5, %xmm2, %xmm6
	; AVX1-NEXT: vpor %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm6, %xmm2, %xmm6
	; AVX1-NEXT: vpcmpgtd %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm6, %xmm4
	; AVX1-NEXT: vpackssdw %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpackssdw %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsubd %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpsubd %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpand %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpand %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test15:			; AVX2-LABEL: test15:
	; AVX2: # %bb.0: # %vector.ph			; AVX2: # %bb.0: # %vector.ph
	; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648]			; AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpor %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3
	; AVX2-NEXT: vpcmpgtd %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3
	; AVX2-NEXT: vpackssdw %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vpackssdw %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm0, %xmm2, %xmm0			; AVX2-NEXT: vpand %xmm0, %xmm2, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: movdqa %xmm3, %xmm0			; SSSE3-NEXT: movdqa %xmm3, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: test16:			; SSE41-LABEL: test16:
	; SSE41: # %bb.0: # %vector.ph			; SSE41: # %bb.0: # %vector.ph
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; SSE41-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm5			; SSE41-NEXT: pmaxud %xmm0, %xmm4
	; SSE41-NEXT: psubd %xmm1, %xmm0			; SSE41-NEXT: pcmpeqd %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm4, %xmm1			; SSE41-NEXT: pcmpeqd %xmm5, %xmm5
	; SSE41-NEXT: por %xmm4, %xmm5			; SSE41-NEXT: pxor %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm1, %xmm5			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: pshufb %xmm6, %xmm4
	; SSE41-NEXT: pxor %xmm4, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm7
	; SSE41-NEXT: por %xmm3, %xmm4			; SSE41-NEXT: pmaxud %xmm3, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm1, %xmm4			; SSE41-NEXT: pcmpeqd %xmm2, %xmm7
	; SSE41-NEXT: packssdw %xmm4, %xmm5			; SSE41-NEXT: pxor %xmm5, %xmm7
				; SSE41-NEXT: pshufb %xmm6, %xmm7
				; SSE41-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm7[0]
	; SSE41-NEXT: psubd %xmm2, %xmm3			; SSE41-NEXT: psubd %xmm2, %xmm3
	; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; SSE41-NEXT: psubd %xmm1, %xmm0
	; SSE41-NEXT: pshufb %xmm1, %xmm0			; SSE41-NEXT: pshufb %xmm6, %xmm0
	; SSE41-NEXT: pshufb %xmm1, %xmm3			; SSE41-NEXT: pshufb %xmm6, %xmm3
	; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]			; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test16:			; AVX1-LABEL: test16:
	; AVX1: # %bb.0: # %vector.ph			; AVX1: # %bb.0: # %vector.ph
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [2147483648,2147483648,2147483648,2147483648]			; AVX1-NEXT: vpmaxud %xmm0, %xmm1, %xmm3
	; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpor %xmm3, %xmm0, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpgtd %xmm4, %xmm5, %xmm4			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm6			; AVX1-NEXT: vpmaxud %xmm2, %xmm5, %xmm6
	; AVX1-NEXT: vpor %xmm3, %xmm2, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm6, %xmm5, %xmm6
	; AVX1-NEXT: vpcmpgtd %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm6, %xmm4
	; AVX1-NEXT: vpackssdw %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpackssdw %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsubd %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpsubd %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpshufb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpand %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpand %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test16:			; AVX2-LABEL: test16:
	; AVX2: # %bb.0: # %vector.ph			; AVX2: # %bb.0: # %vector.ph
	; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648,2147483648]			; AVX2-NEXT: vpmaxud %ymm0, %ymm1, %ymm2
	; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm2, %ymm1, %ymm2
	; AVX2-NEXT: vpor %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3
	; AVX2-NEXT: vpcmpgtd %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3
	; AVX2-NEXT: vpackssdw %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vpackssdw %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsubd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm0, %xmm2, %xmm0			; AVX2-NEXT: vpand %xmm0, %xmm2, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	▲ Show 20 Lines • Show All 1,291 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_cmp_uint-128.ll

	Show First 20 Lines • Show All 500 Lines • ▼ Show 20 Lines
	; SSE42-LABEL: gt_v2i64:			; SSE42-LABEL: gt_v2i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; SSE42-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	; SSE42-NEXT: pxor %xmm2, %xmm1			; SSE42-NEXT: pxor %xmm2, %xmm1
	; SSE42-NEXT: pxor %xmm2, %xmm0			; SSE42-NEXT: pxor %xmm2, %xmm0
	; SSE42-NEXT: pcmpgtq %xmm1, %xmm0			; SSE42-NEXT: pcmpgtq %xmm1, %xmm0
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX-LABEL: gt_v2i64:			; AVX1-LABEL: gt_v2i64:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	; AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: gt_v2i64:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
				; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1
				; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: gt_v2i64:			; XOP-LABEL: gt_v2i64:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
				;
				; AVX512-LABEL: gt_v2i64:
				; AVX512: # %bb.0:
				; AVX512-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
				; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
				; AVX512-NEXT: vpminuq %zmm1, %zmm0, %zmm1
				; AVX512-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
				; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				; AVX512-NEXT: vzeroupper
				; AVX512-NEXT: retq
	%1 = icmp ugt <2 x i64> %a, %b			%1 = icmp ugt <2 x i64> %a, %b
	%2 = sext <2 x i1> %1 to <2 x i64>			%2 = sext <2 x i1> %1 to <2 x i64>
	ret <2 x i64> %2			ret <2 x i64> %2
	}			}

	define <4 x i32> @gt_v4i32(<4 x i32> %a, <4 x i32> %b) nounwind {			define <4 x i32> @gt_v4i32(<4 x i32> %a, <4 x i32> %b) nounwind {
	; SSE-LABEL: gt_v4i32:			; SSE2-LABEL: gt_v4i32:
	; SSE: # %bb.0:			; SSE2: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	; SSE-NEXT: pxor %xmm2, %xmm1			; SSE2-NEXT: pxor %xmm2, %xmm1
	; SSE-NEXT: pxor %xmm2, %xmm0			; SSE2-NEXT: pxor %xmm2, %xmm0
	; SSE-NEXT: pcmpgtd %xmm1, %xmm0			; SSE2-NEXT: pcmpgtd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE2-NEXT: retq
				;
				; SSE41-LABEL: gt_v4i32:
				; SSE41: # %bb.0:
				; SSE41-NEXT: pminud %xmm0, %xmm1
				; SSE41-NEXT: pcmpeqd %xmm1, %xmm0
				; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
				; SSE41-NEXT: pxor %xmm1, %xmm0
				; SSE41-NEXT: retq
				;
				; SSE42-LABEL: gt_v4i32:
				; SSE42: # %bb.0:
				; SSE42-NEXT: pminud %xmm0, %xmm1
				; SSE42-NEXT: pcmpeqd %xmm1, %xmm0
				; SSE42-NEXT: pcmpeqd %xmm1, %xmm1
				; SSE42-NEXT: pxor %xmm1, %xmm0
				; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: gt_v4i32:			; AVX1-LABEL: gt_v4i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; AVX1-NEXT: vpminud %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpgtd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: gt_v4i32:			; AVX2-LABEL: gt_v4i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; AVX2-NEXT: vpminud %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpcmpgtd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: gt_v4i32:			; XOP-LABEL: gt_v4i32:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpcomgtud %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpcomgtud %xmm1, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; AVX512-LABEL: gt_v4i32:			; AVX512-LABEL: gt_v4i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; AVX512-NEXT: vpminud %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; AVX512-NEXT: vpcmpgtd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = icmp ugt <4 x i32> %a, %b			%1 = icmp ugt <4 x i32> %a, %b
	%2 = sext <4 x i1> %1 to <4 x i32>			%2 = sext <4 x i1> %1 to <4 x i32>
	ret <4 x i32> %2			ret <4 x i32> %2
	}			}

	define <8 x i16> @gt_v8i16(<8 x i16> %a, <8 x i16> %b) nounwind {			define <8 x i16> @gt_v8i16(<8 x i16> %a, <8 x i16> %b) nounwind {
	; SSE-LABEL: gt_v8i16:			; SSE2-LABEL: gt_v8i16:
	; SSE: # %bb.0:			; SSE2: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
	; SSE-NEXT: pxor %xmm2, %xmm1			; SSE2-NEXT: pxor %xmm2, %xmm1
	; SSE-NEXT: pxor %xmm2, %xmm0			; SSE2-NEXT: pxor %xmm2, %xmm0
	; SSE-NEXT: pcmpgtw %xmm1, %xmm0			; SSE2-NEXT: pcmpgtw %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX-LABEL: gt_v8i16:			; SSE41-LABEL: gt_v8i16:
	; AVX: # %bb.0:			; SSE41: # %bb.0:
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]			; SSE41-NEXT: pminuw %xmm0, %xmm1
	; AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; SSE41-NEXT: pcmpeqw %xmm1, %xmm0
	; AVX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
	; AVX-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0			; SSE41-NEXT: pxor %xmm1, %xmm0
	; AVX-NEXT: retq			; SSE41-NEXT: retq
				;
				; SSE42-LABEL: gt_v8i16:
				; SSE42: # %bb.0:
				; SSE42-NEXT: pminuw %xmm0, %xmm1
				; SSE42-NEXT: pcmpeqw %xmm1, %xmm0
				; SSE42-NEXT: pcmpeqd %xmm1, %xmm1
				; SSE42-NEXT: pxor %xmm1, %xmm0
				; SSE42-NEXT: retq
				;
				; AVX1-LABEL: gt_v8i16:
				; AVX1: # %bb.0:
				; AVX1-NEXT: vpminuw %xmm1, %xmm0, %xmm1
				; AVX1-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
				; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
				; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
				; AVX1-NEXT: retq
				;
				; AVX2-LABEL: gt_v8i16:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vpminuw %xmm1, %xmm0, %xmm1
				; AVX2-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
				; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: gt_v8i16:			; XOP-LABEL: gt_v8i16:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpcomgtuw %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpcomgtuw %xmm1, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
				;
				; AVX512-LABEL: gt_v8i16:
				; AVX512: # %bb.0:
				; AVX512-NEXT: vpminuw %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
				; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				; AVX512-NEXT: vzeroupper
				; AVX512-NEXT: retq
	%1 = icmp ugt <8 x i16> %a, %b			%1 = icmp ugt <8 x i16> %a, %b
	%2 = sext <8 x i1> %1 to <8 x i16>			%2 = sext <8 x i1> %1 to <8 x i16>
	ret <8 x i16> %2			ret <8 x i16> %2
	}			}

	define <16 x i8> @gt_v16i8(<16 x i8> %a, <16 x i8> %b) nounwind {			define <16 x i8> @gt_v16i8(<16 x i8> %a, <16 x i8> %b) nounwind {
	; SSE-LABEL: gt_v16i8:			; SSE-LABEL: gt_v16i8:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; SSE-NEXT: pminub %xmm0, %xmm1
	; SSE-NEXT: pxor %xmm2, %xmm1			; SSE-NEXT: pcmpeqb %xmm1, %xmm0
	; SSE-NEXT: pxor %xmm2, %xmm0			; SSE-NEXT: pcmpeqd %xmm1, %xmm1
	; SSE-NEXT: pcmpgtb %xmm1, %xmm0			; SSE-NEXT: pxor %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: gt_v16i8:			; AVX1-LABEL: gt_v16i8:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; AVX1-NEXT: vpminub %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
	; AVX-NEXT: vpcmpgtb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: gt_v16i8:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vpminub %xmm1, %xmm0, %xmm1
				; AVX2-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
				; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: gt_v16i8:			; XOP-LABEL: gt_v16i8:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpcomgtub %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpcomgtub %xmm1, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
				;
				; AVX512-LABEL: gt_v16i8:
				; AVX512: # %bb.0:
				; AVX512-NEXT: vpminub %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
				; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				; AVX512-NEXT: vzeroupper
				; AVX512-NEXT: retq
	%1 = icmp ugt <16 x i8> %a, %b			%1 = icmp ugt <16 x i8> %a, %b
	%2 = sext <16 x i1> %1 to <16 x i8>			%2 = sext <16 x i1> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	;			;
	; Less Than Or Equal			; Less Than Or Equal
	;			;
	▲ Show 20 Lines • Show All 215 Lines • ▼ Show 20 Lines
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; SSE42-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	; SSE42-NEXT: pxor %xmm2, %xmm0			; SSE42-NEXT: pxor %xmm2, %xmm0
	; SSE42-NEXT: pxor %xmm1, %xmm2			; SSE42-NEXT: pxor %xmm1, %xmm2
	; SSE42-NEXT: pcmpgtq %xmm0, %xmm2			; SSE42-NEXT: pcmpgtq %xmm0, %xmm2
	; SSE42-NEXT: movdqa %xmm2, %xmm0			; SSE42-NEXT: movdqa %xmm2, %xmm0
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX-LABEL: lt_v2i64:			; AVX1-LABEL: lt_v2i64:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	; AVX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: lt_v2i64:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
				; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1
				; AVX2-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm0
				; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: lt_v2i64:			; XOP-LABEL: lt_v2i64:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpcomltuq %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpcomltuq %xmm1, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
				;
				; AVX512-LABEL: lt_v2i64:
				; AVX512: # %bb.0:
				; AVX512-NEXT: # kill: def $xmm1 killed $xmm1 def $zmm1
				; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
				; AVX512-NEXT: vpmaxuq %zmm1, %zmm0, %zmm1
				; AVX512-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
				; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				; AVX512-NEXT: vzeroupper
				; AVX512-NEXT: retq
	%1 = icmp ult <2 x i64> %a, %b			%1 = icmp ult <2 x i64> %a, %b
	%2 = sext <2 x i1> %1 to <2 x i64>			%2 = sext <2 x i1> %1 to <2 x i64>
	ret <2 x i64> %2			ret <2 x i64> %2
	}			}

	define <4 x i32> @lt_v4i32(<4 x i32> %a, <4 x i32> %b) nounwind {			define <4 x i32> @lt_v4i32(<4 x i32> %a, <4 x i32> %b) nounwind {
	; SSE-LABEL: lt_v4i32:			; SSE2-LABEL: lt_v4i32:
	; SSE: # %bb.0:			; SSE2: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	; SSE-NEXT: pxor %xmm2, %xmm0			; SSE2-NEXT: pxor %xmm2, %xmm0
	; SSE-NEXT: pxor %xmm1, %xmm2			; SSE2-NEXT: pxor %xmm1, %xmm2
	; SSE-NEXT: pcmpgtd %xmm0, %xmm2			; SSE2-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE-NEXT: movdqa %xmm2, %xmm0			; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE2-NEXT: retq
				;
				; SSE41-LABEL: lt_v4i32:
				; SSE41: # %bb.0:
				; SSE41-NEXT: pmaxud %xmm0, %xmm1
				; SSE41-NEXT: pcmpeqd %xmm1, %xmm0
				; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
				; SSE41-NEXT: pxor %xmm1, %xmm0
				; SSE41-NEXT: retq
				;
				; SSE42-LABEL: lt_v4i32:
				; SSE42: # %bb.0:
				; SSE42-NEXT: pmaxud %xmm0, %xmm1
				; SSE42-NEXT: pcmpeqd %xmm1, %xmm0
				; SSE42-NEXT: pcmpeqd %xmm1, %xmm1
				; SSE42-NEXT: pxor %xmm1, %xmm0
				; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: lt_v4i32:			; AVX1-LABEL: lt_v4i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; AVX1-NEXT: vpmaxud %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpgtd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: lt_v4i32:			; AVX2-LABEL: lt_v4i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpcmpgtd %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: lt_v4i32:			; XOP-LABEL: lt_v4i32:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpcomltud %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpcomltud %xmm1, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; AVX512-LABEL: lt_v4i32:			; AVX512-LABEL: lt_v4i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpbroadcastd {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
	; AVX512-NEXT: vpcmpgtd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = icmp ult <4 x i32> %a, %b			%1 = icmp ult <4 x i32> %a, %b
	%2 = sext <4 x i1> %1 to <4 x i32>			%2 = sext <4 x i1> %1 to <4 x i32>
	ret <4 x i32> %2			ret <4 x i32> %2
	}			}

	define <8 x i16> @lt_v8i16(<8 x i16> %a, <8 x i16> %b) nounwind {			define <8 x i16> @lt_v8i16(<8 x i16> %a, <8 x i16> %b) nounwind {
	; SSE-LABEL: lt_v8i16:			; SSE2-LABEL: lt_v8i16:
	; SSE: # %bb.0:			; SSE2: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
	; SSE-NEXT: pxor %xmm2, %xmm0			; SSE2-NEXT: pxor %xmm2, %xmm0
	; SSE-NEXT: pxor %xmm1, %xmm2			; SSE2-NEXT: pxor %xmm1, %xmm2
	; SSE-NEXT: pcmpgtw %xmm0, %xmm2			; SSE2-NEXT: pcmpgtw %xmm0, %xmm2
	; SSE-NEXT: movdqa %xmm2, %xmm0			; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX-LABEL: lt_v8i16:			; SSE41-LABEL: lt_v8i16:
	; AVX: # %bb.0:			; SSE41: # %bb.0:
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]			; SSE41-NEXT: pmaxuw %xmm0, %xmm1
	; AVX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; SSE41-NEXT: pcmpeqw %xmm1, %xmm0
	; AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
	; AVX-NEXT: vpcmpgtw %xmm0, %xmm1, %xmm0			; SSE41-NEXT: pxor %xmm1, %xmm0
	; AVX-NEXT: retq			; SSE41-NEXT: retq
				;
				; SSE42-LABEL: lt_v8i16:
				; SSE42: # %bb.0:
				; SSE42-NEXT: pmaxuw %xmm0, %xmm1
				; SSE42-NEXT: pcmpeqw %xmm1, %xmm0
				; SSE42-NEXT: pcmpeqd %xmm1, %xmm1
				; SSE42-NEXT: pxor %xmm1, %xmm0
				; SSE42-NEXT: retq
				;
				; AVX1-LABEL: lt_v8i16:
				; AVX1: # %bb.0:
				; AVX1-NEXT: vpmaxuw %xmm1, %xmm0, %xmm1
				; AVX1-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
				; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
				; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
				; AVX1-NEXT: retq
				;
				; AVX2-LABEL: lt_v8i16:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vpmaxuw %xmm1, %xmm0, %xmm1
				; AVX2-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
				; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: lt_v8i16:			; XOP-LABEL: lt_v8i16:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpcomltuw %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpcomltuw %xmm1, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
				;
				; AVX512-LABEL: lt_v8i16:
				; AVX512: # %bb.0:
				; AVX512-NEXT: vpmaxuw %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
				; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				; AVX512-NEXT: vzeroupper
				; AVX512-NEXT: retq
	%1 = icmp ult <8 x i16> %a, %b			%1 = icmp ult <8 x i16> %a, %b
	%2 = sext <8 x i1> %1 to <8 x i16>			%2 = sext <8 x i1> %1 to <8 x i16>
	ret <8 x i16> %2			ret <8 x i16> %2
	}			}

	define <16 x i8> @lt_v16i8(<16 x i8> %a, <16 x i8> %b) nounwind {			define <16 x i8> @lt_v16i8(<16 x i8> %a, <16 x i8> %b) nounwind {
	; SSE-LABEL: lt_v16i8:			; SSE-LABEL: lt_v16i8:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; SSE-NEXT: pmaxub %xmm0, %xmm1
	; SSE-NEXT: pxor %xmm2, %xmm0			; SSE-NEXT: pcmpeqb %xmm1, %xmm0
	; SSE-NEXT: pxor %xmm1, %xmm2			; SSE-NEXT: pcmpeqd %xmm1, %xmm1
	; SSE-NEXT: pcmpgtb %xmm0, %xmm2			; SSE-NEXT: pxor %xmm1, %xmm0
	; SSE-NEXT: movdqa %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: lt_v16i8:			; AVX1-LABEL: lt_v16i8:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]			; AVX1-NEXT: vpmaxub %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
	; AVX-NEXT: vpcmpgtb %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: lt_v16i8:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vpmaxub %xmm1, %xmm0, %xmm1
				; AVX2-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
				; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: lt_v16i8:			; XOP-LABEL: lt_v16i8:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpcomltub %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpcomltub %xmm1, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
				;
				; AVX512-LABEL: lt_v16i8:
				; AVX512: # %bb.0:
				; AVX512-NEXT: vpmaxub %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
				; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				; AVX512-NEXT: vzeroupper
				; AVX512-NEXT: retq
	%1 = icmp ult <16 x i8> %a, %b			%1 = icmp ult <16 x i8> %a, %b
	%2 = sext <16 x i1> %1 to <16 x i8>			%2 = sext <16 x i1> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

test/CodeGen/X86/vec_minmax_match.ll

Show First 20 Lines • Show All 217 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%r = select <4 x i1> %cmp1, <4 x i32><i32 255, i32 255, i32 255, i32 255>, <4 x i32> %max		%r = select <4 x i1> %cmp1, <4 x i32><i32 255, i32 255, i32 255, i32 255>, <4 x i32> %max
ret <4 x i32> %r		ret <4 x i32> %r
}		}

define <4 x i32> @wrong_pred_for_smin_with_not(<4 x i32> %x) {		define <4 x i32> @wrong_pred_for_smin_with_not(<4 x i32> %x) {
; CHECK-LABEL: wrong_pred_for_smin_with_not:		; CHECK-LABEL: wrong_pred_for_smin_with_not:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1		; CHECK-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
; CHECK-NEXT: vpxor %xmm1, %xmm0, %xmm1		; CHECK-NEXT: vpxor %xmm1, %xmm0, %xmm2
; CHECK-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0		; CHECK-NEXT: vpminud {{.*}}(%rip), %xmm0, %xmm3
; CHECK-NEXT: vpcmpgtd {{.*}}(%rip), %xmm0, %xmm0		; CHECK-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0
; CHECK-NEXT: vmovaps {{.*#+}} xmm2 = [4294967291,4294967291,4294967291,4294967291]		; CHECK-NEXT: vpxor %xmm1, %xmm0, %xmm0
; CHECK-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0		; CHECK-NEXT: vmovaps {{.*#+}} xmm1 = [4294967291,4294967291,4294967291,4294967291]
		; CHECK-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%not_x = xor <4 x i32> %x, <i32 -1, i32 -1, i32 -1, i32 -1>		%not_x = xor <4 x i32> %x, <i32 -1, i32 -1, i32 -1, i32 -1>
%cmp = icmp ugt <4 x i32> %x, <i32 4, i32 4, i32 4, i32 4>		%cmp = icmp ugt <4 x i32> %x, <i32 4, i32 4, i32 4, i32 4>
%sel = select <4 x i1> %cmp, <4 x i32> %not_x, <4 x i32> <i32 -5, i32 -5, i32 -5, i32 -5>		%sel = select <4 x i1> %cmp, <4 x i32> %not_x, <4 x i32> <i32 -5, i32 -5, i32 -5, i32 -5>
ret <4 x i32> %sel		ret <4 x i32> %sel
}		}

define <4 x i32> @wrong_pred_for_smin_with_subnsw(<4 x i32> %x, <4 x i32> %y) {		define <4 x i32> @wrong_pred_for_smin_with_subnsw(<4 x i32> %x, <4 x i32> %y) {
Show All 13 Lines

test/CodeGen/X86/vec_setcc-2.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -o - -mcpu=generic -mtriple=x86_64-apple-darwin -mattr=+sse2 \| FileCheck %s --check-prefixes=CHECK,SSE2		; RUN: llc < %s -o - -mcpu=generic -mtriple=x86_64-apple-darwin -mattr=+sse2 \| FileCheck %s --check-prefixes=CHECK,SSE2
; RUN: llc < %s -o - -mcpu=generic -mtriple=x86_64-apple-darwin -mattr=+sse4.2 \| FileCheck %s --check-prefixes=CHECK,SSE41		; RUN: llc < %s -o - -mcpu=generic -mtriple=x86_64-apple-darwin -mattr=+sse4.2 \| FileCheck %s --check-prefixes=CHECK,SSE41

; For a setult against a constant, turn it into a setule and lower via psubusw.		; For a setult against a constant, turn it into a setule and lower via psubusw.

define void @loop_no_const_reload(<2 x i64>* %in, <2 x i64>* %out, i32 %n) {		define void @loop_no_const_reload(<2 x i64>* %in, <2 x i64>* %out, i32 %n) {
; CHECK-LABEL: loop_no_const_reload:		; SSE2-LABEL: loop_no_const_reload:
; CHECK: ## %bb.0: ## %entry		; SSE2: ## %bb.0: ## %entry
; CHECK-NEXT: testl %edx, %edx		; SSE2-NEXT: testl %edx, %edx
; CHECK-NEXT: je LBB0_3		; SSE2-NEXT: je LBB0_3
; CHECK-NEXT: ## %bb.1: ## %for.body.preheader		; SSE2-NEXT: ## %bb.1: ## %for.body.preheader
; CHECK-NEXT: xorl %eax, %eax		; SSE2-NEXT: xorl %eax, %eax
; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [25,25,25,25,25,25,25,25]		; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [25,25,25,25,25,25,25,25]
; CHECK-NEXT: pxor %xmm1, %xmm1		; SSE2-NEXT: pxor %xmm1, %xmm1
; CHECK-NEXT: .p2align 4, 0x90		; SSE2-NEXT: .p2align 4, 0x90
; CHECK-NEXT: LBB0_2: ## %for.body		; SSE2-NEXT: LBB0_2: ## %for.body
; CHECK-NEXT: ## =>This Inner Loop Header: Depth=1		; SSE2-NEXT: ## =>This Inner Loop Header: Depth=1
; CHECK-NEXT: movdqa (%rdi,%rax), %xmm2		; SSE2-NEXT: movdqa (%rdi,%rax), %xmm2
; CHECK-NEXT: psubusw %xmm0, %xmm2		; SSE2-NEXT: psubusw %xmm0, %xmm2
; CHECK-NEXT: pcmpeqw %xmm1, %xmm2		; SSE2-NEXT: pcmpeqw %xmm1, %xmm2
; CHECK-NEXT: movdqa %xmm2, (%rsi,%rax)		; SSE2-NEXT: movdqa %xmm2, (%rsi,%rax)
; CHECK-NEXT: addq $16, %rax		; SSE2-NEXT: addq $16, %rax
; CHECK-NEXT: decl %edx		; SSE2-NEXT: decl %edx
; CHECK-NEXT: jne LBB0_2		; SSE2-NEXT: jne LBB0_2
; CHECK-NEXT: LBB0_3: ## %for.end		; SSE2-NEXT: LBB0_3: ## %for.end
; CHECK-NEXT: retq		; SSE2-NEXT: retq
		;
		; SSE41-LABEL: loop_no_const_reload:
		; SSE41: ## %bb.0: ## %entry
		; SSE41-NEXT: testl %edx, %edx
		; SSE41-NEXT: je LBB0_3
		; SSE41-NEXT: ## %bb.1: ## %for.body.preheader
		; SSE41-NEXT: xorl %eax, %eax
		; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [26,26,26,26,26,26,26,26]
		; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
		; SSE41-NEXT: .p2align 4, 0x90
		; SSE41-NEXT: LBB0_2: ## %for.body
		; SSE41-NEXT: ## =>This Inner Loop Header: Depth=1
		; SSE41-NEXT: movdqa (%rdi,%rax), %xmm2
		; SSE41-NEXT: movdqa %xmm2, %xmm3
		; SSE41-NEXT: pmaxuw %xmm0, %xmm3
		; SSE41-NEXT: pcmpeqw %xmm2, %xmm3
		; SSE41-NEXT: pxor %xmm1, %xmm3
		; SSE41-NEXT: movdqa %xmm3, (%rsi,%rax)
		; SSE41-NEXT: addq $16, %rax
		; SSE41-NEXT: decl %edx
		; SSE41-NEXT: jne LBB0_2
		; SSE41-NEXT: LBB0_3: ## %for.end
		; SSE41-NEXT: retq
entry:		entry:
%cmp9 = icmp eq i32 %n, 0		%cmp9 = icmp eq i32 %n, 0
br i1 %cmp9, label %for.end, label %for.body		br i1 %cmp9, label %for.end, label %for.body

for.body: ; preds = %for.body, %entry		for.body: ; preds = %for.body, %entry
%indvars.iv = phi i64 [ %indvars.iv.next, %for.body ], [ 0, %entry ]		%indvars.iv = phi i64 [ %indvars.iv.next, %for.body ], [ 0, %entry ]
%arrayidx1 = getelementptr inbounds <2 x i64>, <2 x i64>* %in, i64 %indvars.iv		%arrayidx1 = getelementptr inbounds <2 x i64>, <2 x i64>* %in, i64 %indvars.iv
%arrayidx1.val = load <2 x i64>, <2 x i64>* %arrayidx1, align 16		%arrayidx1.val = load <2 x i64>, <2 x i64>* %arrayidx1, align 16
Show All 10 Lines

for.end: ; preds = %for.body, %entry		for.end: ; preds = %for.body, %entry
ret void		ret void
}		}

; Be careful if decrementing the constant would undeflow.		; Be careful if decrementing the constant would undeflow.

define void @loop_const_folding_underflow(<2 x i64>* %in, <2 x i64>* %out, i32 %n) {		define void @loop_const_folding_underflow(<2 x i64>* %in, <2 x i64>* %out, i32 %n) {
; CHECK-LABEL: loop_const_folding_underflow:		; SSE2-LABEL: loop_const_folding_underflow:
; CHECK: ## %bb.0: ## %entry		; SSE2: ## %bb.0: ## %entry
; CHECK-NEXT: testl %edx, %edx		; SSE2-NEXT: testl %edx, %edx
; CHECK-NEXT: je LBB1_3		; SSE2-NEXT: je LBB1_3
; CHECK-NEXT: ## %bb.1: ## %for.body.preheader		; SSE2-NEXT: ## %bb.1: ## %for.body.preheader
; CHECK-NEXT: xorl %eax, %eax		; SSE2-NEXT: xorl %eax, %eax
; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [32768,32768,32768,32768,32768,32768,32768,32768]
; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [32768,32794,32794,32794,32794,32794,32794,32794]		; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [32768,32794,32794,32794,32794,32794,32794,32794]
; CHECK-NEXT: .p2align 4, 0x90		; SSE2-NEXT: .p2align 4, 0x90
; CHECK-NEXT: LBB1_2: ## %for.body		; SSE2-NEXT: LBB1_2: ## %for.body
; CHECK-NEXT: ## =>This Inner Loop Header: Depth=1		; SSE2-NEXT: ## =>This Inner Loop Header: Depth=1
; CHECK-NEXT: movdqa (%rdi,%rax), %xmm2		; SSE2-NEXT: movdqa (%rdi,%rax), %xmm2
; CHECK-NEXT: pxor %xmm0, %xmm2		; SSE2-NEXT: pxor %xmm0, %xmm2
; CHECK-NEXT: movdqa %xmm1, %xmm3		; SSE2-NEXT: movdqa %xmm1, %xmm3
; CHECK-NEXT: pcmpgtw %xmm2, %xmm3		; SSE2-NEXT: pcmpgtw %xmm2, %xmm3
; CHECK-NEXT: movdqa %xmm3, (%rsi,%rax)		; SSE2-NEXT: movdqa %xmm3, (%rsi,%rax)
; CHECK-NEXT: addq $16, %rax		; SSE2-NEXT: addq $16, %rax
; CHECK-NEXT: decl %edx		; SSE2-NEXT: decl %edx
; CHECK-NEXT: jne LBB1_2		; SSE2-NEXT: jne LBB1_2
; CHECK-NEXT: LBB1_3: ## %for.end		; SSE2-NEXT: LBB1_3: ## %for.end
; CHECK-NEXT: retq		; SSE2-NEXT: retq
		;
		; SSE41-LABEL: loop_const_folding_underflow:
		; SSE41: ## %bb.0: ## %entry
		; SSE41-NEXT: testl %edx, %edx
		; SSE41-NEXT: je LBB1_3
		; SSE41-NEXT: ## %bb.1: ## %for.body.preheader
		; SSE41-NEXT: xorl %eax, %eax
		; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [0,26,26,26,26,26,26,26]
		; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
		; SSE41-NEXT: .p2align 4, 0x90
		; SSE41-NEXT: LBB1_2: ## %for.body
		; SSE41-NEXT: ## =>This Inner Loop Header: Depth=1
		; SSE41-NEXT: movdqa (%rdi,%rax), %xmm2
		; SSE41-NEXT: movdqa %xmm2, %xmm3
		; SSE41-NEXT: pmaxuw %xmm0, %xmm3
		; SSE41-NEXT: pcmpeqw %xmm2, %xmm3
		; SSE41-NEXT: pxor %xmm1, %xmm3
		; SSE41-NEXT: movdqa %xmm3, (%rsi,%rax)
		; SSE41-NEXT: addq $16, %rax
		; SSE41-NEXT: decl %edx
		; SSE41-NEXT: jne LBB1_2
		; SSE41-NEXT: LBB1_3: ## %for.end
		; SSE41-NEXT: retq
entry:		entry:
%cmp9 = icmp eq i32 %n, 0		%cmp9 = icmp eq i32 %n, 0
br i1 %cmp9, label %for.end, label %for.body		br i1 %cmp9, label %for.end, label %for.body

for.body: ; preds = %for.body, %entry		for.body: ; preds = %for.body, %entry
%indvars.iv = phi i64 [ %indvars.iv.next, %for.body ], [ 0, %entry ]		%indvars.iv = phi i64 [ %indvars.iv.next, %for.body ], [ 0, %entry ]
%arrayidx1 = getelementptr inbounds <2 x i64>, <2 x i64>* %in, i64 %indvars.iv		%arrayidx1 = getelementptr inbounds <2 x i64>, <2 x i64>* %in, i64 %indvars.iv
%arrayidx1.val = load <2 x i64>, <2 x i64>* %arrayidx1, align 16		%arrayidx1.val = load <2 x i64>, <2 x i64>* %arrayidx1, align 16
Show All 12 Lines	for.end: ; preds = %for.body, %entry
ret void		ret void
}		}

; Test for PSUBUSB		; Test for PSUBUSB

define <16 x i8> @test_ult_byte(<16 x i8> %a) {		define <16 x i8> @test_ult_byte(<16 x i8> %a) {
; CHECK-LABEL: test_ult_byte:		; CHECK-LABEL: test_ult_byte:
; CHECK: ## %bb.0: ## %entry		; CHECK: ## %bb.0: ## %entry
; CHECK-NEXT: psubusb {{.*}}(%rip), %xmm0		; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [11,11,11,11,11,11,11,11,11,11,11,11,11,11,11,11]
; CHECK-NEXT: pxor %xmm1, %xmm1		; CHECK-NEXT: pmaxub %xmm0, %xmm1
		RKSimonUnsubmitted Not Done Reply Inline Actions Interesting that this didn't commute and fold the load? You'd need a MOVDQArr instead I guess. RKSimon: Interesting that this didn't commute and fold the load? You'd need a MOVDQArr instead I guess.
; CHECK-NEXT: pcmpeqb %xmm1, %xmm0		; CHECK-NEXT: pcmpeqb %xmm1, %xmm0
		; CHECK-NEXT: pcmpeqd %xmm1, %xmm1
		; CHECK-NEXT: pxor %xmm1, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%icmp = icmp ult <16 x i8> %a, <i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11>		%icmp = icmp ult <16 x i8> %a, <i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11, i8 11>
%sext = sext <16 x i1> %icmp to <16 x i8>		%sext = sext <16 x i1> %icmp to <16 x i8>
ret <16 x i8> %sext		ret <16 x i8> %sext
}		}

; Only do this when we can turn the comparison into a setule. I.e. not for		; Only do this when we can turn the comparison into a setule. I.e. not for
; register operands.		; register operands.

define <8 x i16> @test_ult_register(<8 x i16> %a, <8 x i16> %b) {		define <8 x i16> @test_ult_register(<8 x i16> %a, <8 x i16> %b) {
; CHECK-LABEL: test_ult_register:		; SSE2-LABEL: test_ult_register:
; CHECK: ## %bb.0: ## %entry		; SSE2: ## %bb.0: ## %entry
; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
; CHECK-NEXT: pxor %xmm2, %xmm0		; SSE2-NEXT: pxor %xmm2, %xmm0
; CHECK-NEXT: pxor %xmm1, %xmm2		; SSE2-NEXT: pxor %xmm1, %xmm2
; CHECK-NEXT: pcmpgtw %xmm0, %xmm2		; SSE2-NEXT: pcmpgtw %xmm0, %xmm2
; CHECK-NEXT: movdqa %xmm2, %xmm0		; SSE2-NEXT: movdqa %xmm2, %xmm0
; CHECK-NEXT: retq		; SSE2-NEXT: retq
		;
		; SSE41-LABEL: test_ult_register:
		; SSE41: ## %bb.0: ## %entry
		; SSE41-NEXT: pmaxuw %xmm0, %xmm1
		; SSE41-NEXT: pcmpeqw %xmm1, %xmm0
		; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
		; SSE41-NEXT: pxor %xmm1, %xmm0
		; SSE41-NEXT: retq
entry:		entry:
%icmp = icmp ult <8 x i16> %a, %b		%icmp = icmp ult <8 x i16> %a, %b
%sext = sext <8 x i1> %icmp to <8 x i16>		%sext = sext <8 x i1> %icmp to <8 x i16>
ret <8 x i16> %sext		ret <8 x i16> %sext
}		}