This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/X86/
-
Target/
-
X86/
3/8
X86ISelLowering.cpp
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
uadd_sat.ll
-
uadd_sat_vec.ll
-
usub_sat.ll
-
usub_sat_vec.ll

Differential D59006

[x86] improve the default expansion of uaddsat/usubsat
ClosedPublic

Authored by spatel on Mar 5 2019, 4:12 PM.

Download Raw Diff

Details

Reviewers

nikic
craig.topper
RKSimon
lebedev.ri

Commits

rG7d676dfd86fa: [x86] improve the default expansion of uaddsat/usubsat
rL356855: [x86] improve the default expansion of uaddsat/usubsat

Summary

This is yet another step towards solving PR14613 (almost there!):
https://bugs.llvm.org/show_bug.cgi?id=14613

uaddsat X, Y --> (X >u (X + Y)) ? -1 : X + Y
usubsat X, Y --> (X >u Y) ? X - Y : 0

We can't count on a sane vector ISA, so override the default (umin/umax) expansion of unsigned add/sub saturate in cases where we do not have umin/umax.

There may be some small AVX1 opportunities still lurking, but I saw regressions if we allow those transforms wholesale, so stopping here to make sure things look right/better.

Diff Detail

Event Timeline

spatel created this revision.Mar 5 2019, 4:12 PM

Herald added a project: Restricted Project. · View Herald TranscriptMar 5 2019, 4:12 PM

Herald added subscribers: hiraditya, mcrosier. · View Herald Transcript

RKSimon added inline comments.Mar 6 2019, 9:05 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
36318	This only differs from the default expansion by the optimal CondCode to use in the select - ideally we'd have a way for TLI to indicate 'preferred' comparison codes - x86/sse is probably not alone in having limited comparisons (SGT + EQ) and the others having to be custom handled.

spatel planned changes to this revision.Mar 6 2019, 9:36 AM

spatel marked an inline comment as done.

spatel added inline comments.

llvm/lib/Target/X86/X86ISelLowering.cpp
36318	Yes, if we can thread the predicate needle, we can get the optimal x86 code by changing the generic expansion, rather than adding x86-specific combines. Looking at this a bit closer: the key to making this generically better is realizing that this select shouldn't be a select if we have a vector 0/-1 mask created by the compare. In that case, we should only have a bitwise logic op (and/or), never a pblendv or pandn. Unfortunately, it seems we're missing some generic and/or x86-specific min/max transforms to back that up, so I need to chase those down. We may also be suffering from the fact that D58974 is not a generic combine. Let me know if I should deal with that one. @nikic - I just want to confirm: are the addsat/subsat tests in trunk only for x86 right now? If so, I want to duplicate them for AArch64 at least, so we know that we're making things better for more than just x86.

nikic added inline comments.Mar 6 2019, 9:47 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
36318	I just want to confirm: are the addsat/subsat tests in trunk only for x86 right now? If so, I want to duplicate them for AArch64 at least, so we know that we're making things better for more than just x86. Yes, right now we're testing codegen only for X86. I was planning to look into better AArch64 codegen soon. It's probably not a good target to test generic expansions, because iirc it has instructions covering the full set of legal vector types.

RKSimon mentioned this in rL355533: [DAGCombine] Improve select (not Cond), N1, N2 -> select Cond, N2, N1 fold.Mar 6 2019, 10:52 AM

RKSimon mentioned this in rG9d6347cfc19e: [DAGCombine] Improve select (not Cond), N1, N2 -> select Cond, N2, N1 fold.

spatel mentioned this in D59066: [TargetLowering] improve the default expansion of uaddsat/usubsat.Mar 6 2019, 6:10 PM

spatel mentioned this in rL356332: [TargetLowering] improve the default expansion of uaddsat/usubsat.Mar 17 2019, 7:57 AM

spatel mentioned this in rG6a6e808b699b: [TargetLowering] improve the default expansion of uaddsat/usubsat.

Patch updated:
We improved the generic expansion slightly with D59066. That leaves customization for x86 which is required because umin/umax are custom lowered even if we don't actually have the instructions pmaxud/pmaxuq. That's not a generic lowering problem; that's an x86 problem.

In the earlier draft, I had made this a combine, but that seems pretty clearly wrong. We're just custom lowering a few specific vector types. Test changes look pretty close what we had before.

LGTM - thanks!

llvm/lib/Target/X86/X86ISelLowering.cpp
23891	Move these down inside the "if (VT.is128BitVector())" loop ?

This revision is now accepted and ready to land.Mar 21 2019, 8:45 AM

nikic added inline comments.Mar 21 2019, 9:58 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
23891	Or also replace the usages in the i1 branch :)
23912	Instead of hardcoding specific types and subtargets, maybe check operation legality? if (Op.getOpcode() == ISD::UADDSAT && !TLI.isOperationLegal(ISD::UMIN, VT)) { // ... } if (Op.getOpcode() == ISD::USUBSAT && !TLI.isOperationLegal(ISD::UMAX, VT)) { // ... }

This LG, but i'm not sure i understand how this is related to D59066?
Here, we are clearly end up with no select in ASM.
But in D59066 we expand to this pattern.
So there is something else that is able to do the transform that we do manually in D59066?
Should D59066 be doing something else to simply trigger the existing transform?

In D59006#1438184, @lebedev.ri wrote:

This LG, but i'm not sure i understand how this is related to D59066?
Here, we are clearly end up with no select in ASM.
But in D59066 we expand to this pattern.
So there is something else that is able to do the transform that we do manually in D59066?
Should D59066 be doing something else to simply trigger the existing transform?

This case should be caught by D59174 after the select has been expanded into bitwise logic. D59066 forces bitwise logic even if the select would not usually be expanded.

In D59006#1438184, @lebedev.ri wrote:

This LG, but i'm not sure i understand how this is related to D59066?
Here, we are clearly end up with no select in ASM.
But in D59066 we expand to this pattern.
So there is something else that is able to do the transform that we do manually in D59066?
Should D59066 be doing something else to simply trigger the existing transform?

Sorry - this sequence of patches got confusing.
I started here just trying to improve x86 codegen, but then we thought other targets might benefit from something similar.
So D59066 was initially a superset of this change along with the select improvement.
But then it became clear that the generic expansion is mostly as good as it could be - if you have a decent ISA, not SSE. :)
@nikic also added the select combine to make things generally better.
So, we removed the hacks for x86 from the other patch and hopefully made it clear in this patch that we are working around x86-specific potholes.

llvm/lib/Target/X86/X86ISelLowering.cpp
23891	Yes - that was the intent. I'll do that as a preliminary NFC.
23912	Yes, that does look less fragile.

Closed by commit rL356855: [x86] improve the default expansion of uaddsat/usubsat (authored by spatel). · Explain WhyMar 24 2019, 6:54 AM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in rL357012: [InstCombine] form uaddsat from add+umin (PR14613).Mar 26 2019, 10:48 AM

spatel mentioned this in rG81e8d76f5b63: [InstCombine] form uaddsat from add+umin (PR14613).

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

36 lines

test/

CodeGen/

X86/

16 lines

936 lines

4 lines

572 lines

Diff 191595

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 827 Lines • ▼ Show 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasSSE2()) {
setOperationAction(ISD::UADDSAT, MVT::v16i8, Legal);		setOperationAction(ISD::UADDSAT, MVT::v16i8, Legal);
setOperationAction(ISD::SADDSAT, MVT::v16i8, Legal);		setOperationAction(ISD::SADDSAT, MVT::v16i8, Legal);
setOperationAction(ISD::USUBSAT, MVT::v16i8, Legal);		setOperationAction(ISD::USUBSAT, MVT::v16i8, Legal);
setOperationAction(ISD::SSUBSAT, MVT::v16i8, Legal);		setOperationAction(ISD::SSUBSAT, MVT::v16i8, Legal);
setOperationAction(ISD::UADDSAT, MVT::v8i16, Legal);		setOperationAction(ISD::UADDSAT, MVT::v8i16, Legal);
setOperationAction(ISD::SADDSAT, MVT::v8i16, Legal);		setOperationAction(ISD::SADDSAT, MVT::v8i16, Legal);
setOperationAction(ISD::USUBSAT, MVT::v8i16, Legal);		setOperationAction(ISD::USUBSAT, MVT::v8i16, Legal);
setOperationAction(ISD::SSUBSAT, MVT::v8i16, Legal);		setOperationAction(ISD::SSUBSAT, MVT::v8i16, Legal);
		setOperationAction(ISD::UADDSAT, MVT::v4i32, Custom);
		setOperationAction(ISD::USUBSAT, MVT::v4i32, Custom);
		setOperationAction(ISD::UADDSAT, MVT::v2i64, Custom);
		setOperationAction(ISD::USUBSAT, MVT::v2i64, Custom);

if (!ExperimentalVectorWideningLegalization) {		if (!ExperimentalVectorWideningLegalization) {
// Use widening instead of promotion.		// Use widening instead of promotion.
for (auto VT : { MVT::v8i8, MVT::v4i8, MVT::v2i8,		for (auto VT : { MVT::v8i8, MVT::v4i8, MVT::v2i8,
MVT::v4i16, MVT::v2i16 }) {		MVT::v4i16, MVT::v2i16 }) {
setOperationAction(ISD::UADDSAT, VT, Custom);		setOperationAction(ISD::UADDSAT, VT, Custom);
setOperationAction(ISD::SADDSAT, VT, Custom);		setOperationAction(ISD::SADDSAT, VT, Custom);
setOperationAction(ISD::USUBSAT, VT, Custom);		setOperationAction(ISD::USUBSAT, VT, Custom);
▲ Show 20 Lines • Show All 23,031 Lines • ▼ Show 20 Lines	return DAG.getNode(ISD::XOR, SDLoc(Op), VT,
Op.getOperand(0), Op.getOperand(1));		Op.getOperand(0), Op.getOperand(1));

assert(Op.getSimpleValueType().is256BitVector() &&		assert(Op.getSimpleValueType().is256BitVector() &&
Op.getSimpleValueType().isInteger() &&		Op.getSimpleValueType().isInteger() &&
"Only handle AVX 256-bit vector integer operation");		"Only handle AVX 256-bit vector integer operation");
return split256IntArith(Op, DAG);		return split256IntArith(Op, DAG);
}		}

static SDValue LowerADDSAT_SUBSAT(SDValue Op, SelectionDAG &DAG) {		static SDValue LowerADDSAT_SUBSAT(SDValue Op, SelectionDAG &DAG,
		const X86Subtarget &Subtarget) {
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
		SDValue X = Op.getOperand(0);
		SDValue Y = Op.getOperand(1);
		RKSimonUnsubmitted Not Done Reply Inline Actions Move these down inside the "if (VT.is128BitVector())" loop ? RKSimon: Move these down inside the "if (VT.is128BitVector())" loop ?
		nikicUnsubmitted Not Done Reply Inline Actions Or also replace the usages in the i1 branch :) nikic: Or also replace the usages in the i1 branch :)
		spatelAuthorUnsubmitted Done Reply Inline Actions Yes - that was the intent. I'll do that as a preliminary NFC. spatel: Yes - that was the intent. I'll do that as a preliminary NFC.
if (VT.getScalarType() == MVT::i1) {		if (VT.getScalarType() == MVT::i1) {
SDLoc dl(Op);		SDLoc dl(Op);
switch (Op.getOpcode()) {		switch (Op.getOpcode()) {
default: llvm_unreachable("Expected saturated arithmetic opcode");		default: llvm_unreachable("Expected saturated arithmetic opcode");
case ISD::UADDSAT:		case ISD::UADDSAT:
case ISD::SADDSAT:		case ISD::SADDSAT:
return DAG.getNode(ISD::OR, dl, VT, Op.getOperand(0), Op.getOperand(1));		return DAG.getNode(ISD::OR, dl, VT, Op.getOperand(0), Op.getOperand(1));
case ISD::USUBSAT:		case ISD::USUBSAT:
case ISD::SSUBSAT:		case ISD::SSUBSAT:
return DAG.getNode(ISD::AND, dl, VT, Op.getOperand(0),		return DAG.getNode(ISD::AND, dl, VT, Op.getOperand(0),
DAG.getNOT(dl, Op.getOperand(1), VT));		DAG.getNOT(dl, Op.getOperand(1), VT));
}		}
}		}

		if (VT.is128BitVector()) {
		// Avoid the generic expansion with min/max if we don't have umin/umax.
		const TargetLowering &TLI = DAG.getTargetLoweringInfo();
		EVT SetCCResultType = TLI.getSetCCResultType(DAG.getDataLayout(),
		*DAG.getContext(), VT);
		if ((VT == MVT::v4i32 && !Subtarget.hasSSE41()) \|\|
		(VT == MVT::v2i64 && !Subtarget.hasVLX())) {
		nikicUnsubmitted Not Done Reply Inline Actions Instead of hardcoding specific types and subtargets, maybe check operation legality? if (Op.getOpcode() == ISD::UADDSAT && !TLI.isOperationLegal(ISD::UMIN, VT)) { // ... } if (Op.getOpcode() == ISD::USUBSAT && !TLI.isOperationLegal(ISD::UMAX, VT)) { // ... } nikic: Instead of hardcoding specific types and subtargets, maybe check operation legality? ``` if…
		spatelAuthorUnsubmitted Done Reply Inline Actions Yes, that does look less fragile. spatel: Yes, that does look less fragile.
		SDLoc DL(Op);
		if (Op.getOpcode() == ISD::UADDSAT) {
		// uaddsat X, Y --> (X >u (X + Y)) ? -1 : X + Y
		SDValue Add = DAG.getNode(ISD::ADD, DL, VT, X, Y);
		SDValue Cmp = DAG.getSetCC(DL, SetCCResultType, X, Add, ISD::SETUGT);
		return DAG.getSelect(DL, VT, Cmp, DAG.getAllOnesConstant(DL, VT), Add);
		}
		if (Op.getOpcode() == ISD::USUBSAT) {
		// usubsat X, Y --> (X >u Y) ? X - Y : 0
		SDValue Sub = DAG.getNode(ISD::SUB, DL, VT, X, Y);
		SDValue Cmp = DAG.getSetCC(DL, SetCCResultType, X, Y, ISD::SETUGT);
		return DAG.getSelect(DL, VT, Cmp, Sub, DAG.getConstant(0, DL, VT));
		}
		}
		// Use default expansion.
		return SDValue();
		}

assert(Op.getSimpleValueType().is256BitVector() &&		assert(Op.getSimpleValueType().is256BitVector() &&
Op.getSimpleValueType().isInteger() &&		Op.getSimpleValueType().isInteger() &&
"Only handle AVX 256-bit vector integer operation");		"Only handle AVX 256-bit vector integer operation");
return split256IntArith(Op, DAG);		return split256IntArith(Op, DAG);
}		}

static SDValue LowerABS(SDValue Op, const X86Subtarget &Subtarget,		static SDValue LowerABS(SDValue Op, const X86Subtarget &Subtarget,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
▲ Show 20 Lines • Show All 2,703 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerOperation(SDValue Op, SelectionDAG &DAG) const {
case ISD::BITCAST: return LowerBITCAST(Op, Subtarget, DAG);		case ISD::BITCAST: return LowerBITCAST(Op, Subtarget, DAG);
case ISD::ADDCARRY:		case ISD::ADDCARRY:
case ISD::SUBCARRY: return LowerADDSUBCARRY(Op, DAG);		case ISD::SUBCARRY: return LowerADDSUBCARRY(Op, DAG);
case ISD::ADD:		case ISD::ADD:
case ISD::SUB: return lowerAddSub(Op, DAG, Subtarget);		case ISD::SUB: return lowerAddSub(Op, DAG, Subtarget);
case ISD::UADDSAT:		case ISD::UADDSAT:
case ISD::SADDSAT:		case ISD::SADDSAT:
case ISD::USUBSAT:		case ISD::USUBSAT:
case ISD::SSUBSAT: return LowerADDSAT_SUBSAT(Op, DAG);		case ISD::SSUBSAT: return LowerADDSAT_SUBSAT(Op, DAG, Subtarget);
case ISD::SMAX:		case ISD::SMAX:
case ISD::SMIN:		case ISD::SMIN:
case ISD::UMAX:		case ISD::UMAX:
case ISD::UMIN: return LowerMINMAX(Op, DAG);		case ISD::UMIN: return LowerMINMAX(Op, DAG);
case ISD::ABS: return LowerABS(Op, Subtarget, DAG);		case ISD::ABS: return LowerABS(Op, Subtarget, DAG);
case ISD::FSINCOS: return LowerFSINCOS(Op, Subtarget, DAG);		case ISD::FSINCOS: return LowerFSINCOS(Op, Subtarget, DAG);
case ISD::MLOAD: return LowerMLOAD(Op, Subtarget, DAG);		case ISD::MLOAD: return LowerMLOAD(Op, Subtarget, DAG);
case ISD::MSTORE: return LowerMSTORE(Op, Subtarget, DAG);		case ISD::MSTORE: return LowerMSTORE(Op, Subtarget, DAG);
▲ Show 20 Lines • Show All 9,651 Lines • ▼ Show 20 Lines	if (VT.isInteger() && !VT.isVector() &&
// c2 -> i32 0x00000001		// c2 -> i32 0x00000001
// (shl (and (setcc_c), c1), c2) -> i32 0x0001FFFE		// (shl (and (setcc_c), c1), c2) -> i32 0x0001FFFE
// (and setcc_c, (c1 << c2)) -> i32 0x0000FFFE		// (and setcc_c, (c1 << c2)) -> i32 0x0000FFFE
if (N00.getOpcode() == X86ISD::SETCC_CARRY) {		if (N00.getOpcode() == X86ISD::SETCC_CARRY) {
MaskOK = true;		MaskOK = true;
} else if (N00.getOpcode() == ISD::SIGN_EXTEND &&		} else if (N00.getOpcode() == ISD::SIGN_EXTEND &&
N00.getOperand(0).getOpcode() == X86ISD::SETCC_CARRY) {		N00.getOperand(0).getOpcode() == X86ISD::SETCC_CARRY) {
MaskOK = true;		MaskOK = true;
} else if ((N00.getOpcode() == ISD::ZERO_EXTEND \|\|		} else if ((N00.getOpcode() == ISD::ZERO_EXTEND \|\|
		RKSimonUnsubmitted Not Done Reply Inline Actions This only differs from the default expansion by the optimal CondCode to use in the select - ideally we'd have a way for TLI to indicate 'preferred' comparison codes - x86/sse is probably not alone in having limited comparisons (SGT + EQ) and the others having to be custom handled. RKSimon: This only differs from the default expansion by the optimal CondCode to use in the select…
		spatelAuthorUnsubmitted Done Reply Inline Actions Yes, if we can thread the predicate needle, we can get the optimal x86 code by changing the generic expansion, rather than adding x86-specific combines. Looking at this a bit closer: the key to making this generically better is realizing that this select shouldn't be a select if we have a vector 0/-1 mask created by the compare. In that case, we should only have a bitwise logic op (and/or), never a pblendv or pandn. Unfortunately, it seems we're missing some generic and/or x86-specific min/max transforms to back that up, so I need to chase those down. We may also be suffering from the fact that D58974 is not a generic combine. Let me know if I should deal with that one. @nikic - I just want to confirm: are the addsat/subsat tests in trunk only for x86 right now? If so, I want to duplicate them for AArch64 at least, so we know that we're making things better for more than just x86. spatel: Yes, if we can thread the predicate needle, we can get the optimal x86 code by changing the…
		nikicUnsubmitted Not Done Reply Inline Actions I just want to confirm: are the addsat/subsat tests in trunk only for x86 right now? If so, I want to duplicate them for AArch64 at least, so we know that we're making things better for more than just x86. Yes, right now we're testing codegen only for X86. I was planning to look into better AArch64 codegen soon. It's probably not a good target to test generic expansions, because iirc it has instructions covering the full set of legal vector types. nikic: > I just want to confirm: are the addsat/subsat tests in trunk only for x86 right now? If so, I…
N00.getOpcode() == ISD::ANY_EXTEND) &&		N00.getOpcode() == ISD::ANY_EXTEND) &&
N00.getOperand(0).getOpcode() == X86ISD::SETCC_CARRY) {		N00.getOperand(0).getOpcode() == X86ISD::SETCC_CARRY) {
MaskOK = Mask.isIntN(N00.getOperand(0).getValueSizeInBits());		MaskOK = Mask.isIntN(N00.getOperand(0).getValueSizeInBits());
}		}
if (MaskOK && Mask != 0) {		if (MaskOK && Mask != 0) {
SDLoc DL(N);		SDLoc DL(N);
return DAG.getNode(ISD::AND, DL, VT, N00, DAG.getConstant(Mask, DL, VT));		return DAG.getNode(ISD::AND, DL, VT, N00, DAG.getConstant(Mask, DL, VT));
}		}
▲ Show 20 Lines • Show All 7,515 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/uadd_sat.ll

	Show First 20 Lines • Show All 104 Lines • ▼ Show 20 Lines
	; X86-NEXT: popl %esi			; X86-NEXT: popl %esi
	; X86-NEXT: popl %edi			; X86-NEXT: popl %edi
	; X86-NEXT: popl %ebx			; X86-NEXT: popl %ebx
	; X86-NEXT: retl $4			; X86-NEXT: retl $4
	;			;
	; X64-LABEL: vec:			; X64-LABEL: vec:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; X64-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	; X64-NEXT: pxor %xmm0, %xmm2			; X64-NEXT: paddd %xmm0, %xmm1
	; X64-NEXT: movdqa {{.*#+}} xmm3 = [2147483647,2147483647,2147483647,2147483647]			; X64-NEXT: pxor %xmm2, %xmm0
	; X64-NEXT: pxor %xmm1, %xmm3			; X64-NEXT: pxor %xmm1, %xmm2
	; X64-NEXT: pcmpgtd %xmm2, %xmm3			; X64-NEXT: pcmpgtd %xmm2, %xmm0
	; X64-NEXT: pand %xmm3, %xmm0			; X64-NEXT: por %xmm1, %xmm0
	; X64-NEXT: pcmpeqd %xmm2, %xmm2
	; X64-NEXT: pxor %xmm3, %xmm2
	; X64-NEXT: movdqa %xmm1, %xmm3
	; X64-NEXT: pandn %xmm2, %xmm3
	; X64-NEXT: por %xmm3, %xmm0
	; X64-NEXT: paddd %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp = call <4 x i32> @llvm.uadd.sat.v4i32(<4 x i32> %x, <4 x i32> %y);			%tmp = call <4 x i32> @llvm.uadd.sat.v4i32(<4 x i32> %x, <4 x i32> %y);
	ret <4 x i32> %tmp;			ret <4 x i32> %tmp;
	}			}

llvm/test/CodeGen/X86/uadd_sat_vec.ll

Show First 20 Lines • Show All 627 Lines • ▼ Show 20 Lines

; Expanded		; Expanded

define <2 x i32> @v2i32(<2 x i32> %x, <2 x i32> %y) nounwind {		define <2 x i32> @v2i32(<2 x i32> %x, <2 x i32> %y) nounwind {
; SSE2-LABEL: v2i32:		; SSE2-LABEL: v2i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: psllq $32, %xmm0		; SSE2-NEXT: psllq $32, %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSE2-NEXT: pxor %xmm0, %xmm2
; SSE2-NEXT: psllq $32, %xmm1		; SSE2-NEXT: psllq $32, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]		; SSE2-NEXT: paddq %xmm0, %xmm1
; SSE2-NEXT: pxor %xmm1, %xmm3		; SSE2-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: pxor %xmm1, %xmm2
; SSE2-NEXT: pcmpgtd %xmm2, %xmm4		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm2, %xmm3		; SSE2-NEXT: pcmpeqd %xmm2, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]		; SSE2-NEXT: pcmpgtd %xmm2, %xmm0
; SSE2-NEXT: pand %xmm5, %xmm2		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,0,2,2]
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]		; SSE2-NEXT: pand %xmm2, %xmm3
; SSE2-NEXT: por %xmm2, %xmm3		; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: pcmpeqd %xmm2, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm2
; SSE2-NEXT: movdqa %xmm1, %xmm3
; SSE2-NEXT: pandn %xmm2, %xmm3
; SSE2-NEXT: por %xmm3, %xmm0		; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: paddq %xmm1, %xmm0
; SSE2-NEXT: psrlq $32, %xmm0		; SSE2-NEXT: psrlq $32, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v2i32:		; SSSE3-LABEL: v2i32:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: psllq $32, %xmm0		; SSSE3-NEXT: psllq $32, %xmm0
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]		; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSSE3-NEXT: pxor %xmm0, %xmm2
; SSSE3-NEXT: psllq $32, %xmm1		; SSSE3-NEXT: psllq $32, %xmm1
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]		; SSSE3-NEXT: paddq %xmm0, %xmm1
; SSSE3-NEXT: pxor %xmm1, %xmm3		; SSSE3-NEXT: pxor %xmm2, %xmm0
; SSSE3-NEXT: movdqa %xmm3, %xmm4		; SSSE3-NEXT: pxor %xmm1, %xmm2
; SSSE3-NEXT: pcmpgtd %xmm2, %xmm4		; SSSE3-NEXT: movdqa %xmm0, %xmm3
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm2, %xmm3		; SSSE3-NEXT: pcmpeqd %xmm2, %xmm3
; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm0
; SSSE3-NEXT: pand %xmm5, %xmm2		; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,0,2,2]
; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]		; SSSE3-NEXT: pand %xmm2, %xmm3
; SSSE3-NEXT: por %xmm2, %xmm3		; SSSE3-NEXT: por %xmm1, %xmm0
; SSSE3-NEXT: pand %xmm3, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm2, %xmm2
; SSSE3-NEXT: pxor %xmm3, %xmm2
; SSSE3-NEXT: movdqa %xmm1, %xmm3
; SSSE3-NEXT: pandn %xmm2, %xmm3
; SSSE3-NEXT: por %xmm3, %xmm0		; SSSE3-NEXT: por %xmm3, %xmm0
; SSSE3-NEXT: paddq %xmm1, %xmm0
; SSSE3-NEXT: psrlq $32, %xmm0		; SSSE3-NEXT: psrlq $32, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v2i32:		; SSE41-LABEL: v2i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm2		; SSE41-NEXT: psllq $32, %xmm0
; SSE41-NEXT: psllq $32, %xmm2		; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: pxor %xmm2, %xmm0
; SSE41-NEXT: psllq $32, %xmm1		; SSE41-NEXT: psllq $32, %xmm1
; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]		; SSE41-NEXT: paddq %xmm0, %xmm1
; SSE41-NEXT: pxor %xmm1, %xmm3		; SSE41-NEXT: movdqa %xmm0, %xmm3
; SSE41-NEXT: movdqa %xmm3, %xmm4		; SSE41-NEXT: pxor %xmm2, %xmm3
; SSE41-NEXT: pcmpgtd %xmm0, %xmm4		; SSE41-NEXT: pxor %xmm1, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; SSE41-NEXT: pand %xmm5, %xmm0
; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: pcmpeqd %xmm3, %xmm3
; SSE41-NEXT: pxor %xmm1, %xmm3
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
; SSE41-NEXT: paddq %xmm1, %xmm3
; SSE41-NEXT: psrlq $32, %xmm3
; SSE41-NEXT: movdqa %xmm3, %xmm0		; SSE41-NEXT: movdqa %xmm3, %xmm0
		; SSE41-NEXT: pcmpgtd %xmm2, %xmm0
		; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm0[0,0,2,2]
		; SSE41-NEXT: pcmpeqd %xmm3, %xmm2
		; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
		; SSE41-NEXT: pand %xmm4, %xmm2
		; SSE41-NEXT: por %xmm2, %xmm0
		; SSE41-NEXT: pcmpeqd %xmm2, %xmm2
		; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
		; SSE41-NEXT: psrlq $32, %xmm1
		; SSE41-NEXT: movdqa %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v2i32:		; AVX1-LABEL: v2i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX1-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm2
; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm3		; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm4		; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3		; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX1-NEXT: vblendvpd %xmm3, %xmm0, %xmm2, %xmm0
; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
		; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm1
		; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
		; AVX1-NEXT: vpor %xmm0, %xmm1, %xmm0
; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0		; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: v2i32:		; AVX2-LABEL: v2i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX2-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2
; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm2
; AVX2-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX2-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm3		; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm4		; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm3
; AVX2-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3		; AVX2-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX2-NEXT: vblendvpd %xmm3, %xmm0, %xmm2, %xmm0
; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
		; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm1
		; AVX2-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
		; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0
; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm0		; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: v2i32:		; AVX512-LABEL: v2i32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX512-NEXT: vpsllq $32, %xmm1, %xmm1		; AVX512-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX512-NEXT: vmovdqa %xmm1, %xmm2		; AVX512-NEXT: vmovdqa %xmm1, %xmm2
; AVX512-NEXT: vpternlogq $15, %xmm1, %xmm1, %xmm2		; AVX512-NEXT: vpternlogq $15, %xmm1, %xmm1, %xmm2
; AVX512-NEXT: vpminuq %xmm2, %xmm0, %xmm0		; AVX512-NEXT: vpminuq %xmm2, %xmm0, %xmm0
; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vpsrlq $32, %xmm0, %xmm0		; AVX512-NEXT: vpsrlq $32, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <2 x i32> @llvm.uadd.sat.v2i32(<2 x i32> %x, <2 x i32> %y)		%z = call <2 x i32> @llvm.uadd.sat.v2i32(<2 x i32> %x, <2 x i32> %y)
ret <2 x i32> %z		ret <2 x i32> %z
}		}

define <4 x i32> @v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {		define <4 x i32> @v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {
; SSE2-LABEL: v4i32:		; SSE2-LABEL: v4i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: pxor %xmm0, %xmm2		; SSE2-NEXT: paddd %xmm0, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2147483647,2147483647,2147483647,2147483647]		; SSE2-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm3		; SSE2-NEXT: pxor %xmm1, %xmm2
; SSE2-NEXT: pcmpgtd %xmm2, %xmm3		; SSE2-NEXT: pcmpgtd %xmm2, %xmm0
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: pcmpeqd %xmm2, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm2
; SSE2-NEXT: movdqa %xmm1, %xmm3
; SSE2-NEXT: pandn %xmm2, %xmm3
; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: paddd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v4i32:		; SSSE3-LABEL: v4i32:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: pxor %xmm0, %xmm2		; SSSE3-NEXT: paddd %xmm0, %xmm1
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [2147483647,2147483647,2147483647,2147483647]		; SSSE3-NEXT: pxor %xmm2, %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm3		; SSSE3-NEXT: pxor %xmm1, %xmm2
; SSSE3-NEXT: pcmpgtd %xmm2, %xmm3		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm0
; SSSE3-NEXT: pand %xmm3, %xmm0		; SSSE3-NEXT: por %xmm1, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm2, %xmm2
; SSSE3-NEXT: pxor %xmm3, %xmm2
; SSSE3-NEXT: movdqa %xmm1, %xmm3
; SSSE3-NEXT: pandn %xmm2, %xmm3
; SSSE3-NEXT: por %xmm3, %xmm0
; SSSE3-NEXT: paddd %xmm1, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v4i32:		; SSE41-LABEL: v4i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pcmpeqd %xmm2, %xmm2		; SSE41-NEXT: pcmpeqd %xmm2, %xmm2
; SSE41-NEXT: pxor %xmm1, %xmm2		; SSE41-NEXT: pxor %xmm1, %xmm2
; SSE41-NEXT: pminud %xmm2, %xmm0		; SSE41-NEXT: pminud %xmm2, %xmm0
; SSE41-NEXT: paddd %xmm1, %xmm0		; SSE41-NEXT: paddd %xmm1, %xmm0
Show All 25 Lines	; AVX512-NEXT: retq
%z = call <4 x i32> @llvm.uadd.sat.v4i32(<4 x i32> %x, <4 x i32> %y)		%z = call <4 x i32> @llvm.uadd.sat.v4i32(<4 x i32> %x, <4 x i32> %y)
ret <4 x i32> %z		ret <4 x i32> %z
}		}

define <8 x i32> @v8i32(<8 x i32> %x, <8 x i32> %y) nounwind {		define <8 x i32> @v8i32(<8 x i32> %x, <8 x i32> %y) nounwind {
; SSE2-LABEL: v8i32:		; SSE2-LABEL: v8i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: paddd %xmm0, %xmm2
; SSE2-NEXT: pxor %xmm4, %xmm5		; SSE2-NEXT: pxor %xmm4, %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [2147483647,2147483647,2147483647,2147483647]
; SSE2-NEXT: movdqa %xmm2, %xmm7
; SSE2-NEXT: pxor %xmm6, %xmm7
; SSE2-NEXT: pcmpgtd %xmm5, %xmm7
; SSE2-NEXT: pand %xmm7, %xmm0
; SSE2-NEXT: pcmpeqd %xmm8, %xmm8
; SSE2-NEXT: pxor %xmm8, %xmm7
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm5
; SSE2-NEXT: pandn %xmm7, %xmm5		; SSE2-NEXT: pxor %xmm4, %xmm5
; SSE2-NEXT: por %xmm5, %xmm0		; SSE2-NEXT: pcmpgtd %xmm5, %xmm0
; SSE2-NEXT: paddd %xmm2, %xmm0		; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm4		; SSE2-NEXT: paddd %xmm1, %xmm3
; SSE2-NEXT: pxor %xmm3, %xmm6		; SSE2-NEXT: pxor %xmm4, %xmm1
; SSE2-NEXT: pcmpgtd %xmm4, %xmm6		; SSE2-NEXT: pxor %xmm3, %xmm4
; SSE2-NEXT: pand %xmm6, %xmm1		; SSE2-NEXT: pcmpgtd %xmm4, %xmm1
; SSE2-NEXT: pxor %xmm8, %xmm6		; SSE2-NEXT: por %xmm3, %xmm1
; SSE2-NEXT: movdqa %xmm3, %xmm2
; SSE2-NEXT: pandn %xmm6, %xmm2
; SSE2-NEXT: por %xmm2, %xmm1
; SSE2-NEXT: paddd %xmm3, %xmm1
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v8i32:		; SSSE3-LABEL: v8i32:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm0, %xmm5		; SSSE3-NEXT: paddd %xmm0, %xmm2
; SSSE3-NEXT: pxor %xmm4, %xmm5		; SSSE3-NEXT: pxor %xmm4, %xmm0
; SSSE3-NEXT: movdqa {{.*#+}} xmm6 = [2147483647,2147483647,2147483647,2147483647]
; SSSE3-NEXT: movdqa %xmm2, %xmm7
; SSSE3-NEXT: pxor %xmm6, %xmm7
; SSSE3-NEXT: pcmpgtd %xmm5, %xmm7
; SSSE3-NEXT: pand %xmm7, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm8, %xmm8
; SSSE3-NEXT: pxor %xmm8, %xmm7
; SSSE3-NEXT: movdqa %xmm2, %xmm5		; SSSE3-NEXT: movdqa %xmm2, %xmm5
; SSSE3-NEXT: pandn %xmm7, %xmm5		; SSSE3-NEXT: pxor %xmm4, %xmm5
; SSSE3-NEXT: por %xmm5, %xmm0		; SSSE3-NEXT: pcmpgtd %xmm5, %xmm0
; SSSE3-NEXT: paddd %xmm2, %xmm0		; SSSE3-NEXT: por %xmm2, %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm4		; SSSE3-NEXT: paddd %xmm1, %xmm3
; SSSE3-NEXT: pxor %xmm3, %xmm6		; SSSE3-NEXT: pxor %xmm4, %xmm1
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm6		; SSSE3-NEXT: pxor %xmm3, %xmm4
; SSSE3-NEXT: pand %xmm6, %xmm1		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm1
; SSSE3-NEXT: pxor %xmm8, %xmm6		; SSSE3-NEXT: por %xmm3, %xmm1
; SSSE3-NEXT: movdqa %xmm3, %xmm2
; SSSE3-NEXT: pandn %xmm6, %xmm2
; SSSE3-NEXT: por %xmm2, %xmm1
; SSSE3-NEXT: paddd %xmm3, %xmm1
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v8i32:		; SSE41-LABEL: v8i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pcmpeqd %xmm4, %xmm4		; SSE41-NEXT: pcmpeqd %xmm4, %xmm4
; SSE41-NEXT: movdqa %xmm2, %xmm5		; SSE41-NEXT: movdqa %xmm2, %xmm5
; SSE41-NEXT: pxor %xmm4, %xmm5		; SSE41-NEXT: pxor %xmm4, %xmm5
; SSE41-NEXT: pminud %xmm5, %xmm0		; SSE41-NEXT: pminud %xmm5, %xmm0
Show All 35 Lines
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <8 x i32> @llvm.uadd.sat.v8i32(<8 x i32> %x, <8 x i32> %y)		%z = call <8 x i32> @llvm.uadd.sat.v8i32(<8 x i32> %x, <8 x i32> %y)
ret <8 x i32> %z		ret <8 x i32> %z
}		}

define <16 x i32> @v16i32(<16 x i32> %x, <16 x i32> %y) nounwind {		define <16 x i32> @v16i32(<16 x i32> %x, <16 x i32> %y) nounwind {
; SSE2-LABEL: v16i32:		; SSE2-LABEL: v16i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm0, %xmm10		; SSE2-NEXT: paddd %xmm0, %xmm4
; SSE2-NEXT: pxor %xmm9, %xmm10		; SSE2-NEXT: pxor %xmm8, %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [2147483647,2147483647,2147483647,2147483647]		; SSE2-NEXT: movdqa %xmm4, %xmm9
; SSE2-NEXT: movdqa %xmm4, %xmm11		; SSE2-NEXT: pxor %xmm8, %xmm9
; SSE2-NEXT: pxor %xmm8, %xmm11		; SSE2-NEXT: pcmpgtd %xmm9, %xmm0
; SSE2-NEXT: pcmpgtd %xmm10, %xmm11		; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: pand %xmm11, %xmm0		; SSE2-NEXT: paddd %xmm1, %xmm5
; SSE2-NEXT: pcmpeqd %xmm10, %xmm10		; SSE2-NEXT: pxor %xmm8, %xmm1
; SSE2-NEXT: pxor %xmm10, %xmm11
; SSE2-NEXT: movdqa %xmm4, %xmm12
; SSE2-NEXT: pandn %xmm11, %xmm12
; SSE2-NEXT: por %xmm12, %xmm0
; SSE2-NEXT: paddd %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm1, %xmm11
; SSE2-NEXT: pxor %xmm9, %xmm11
; SSE2-NEXT: movdqa %xmm5, %xmm12
; SSE2-NEXT: pxor %xmm8, %xmm12
; SSE2-NEXT: pcmpgtd %xmm11, %xmm12
; SSE2-NEXT: pand %xmm12, %xmm1
; SSE2-NEXT: pxor %xmm10, %xmm12
; SSE2-NEXT: movdqa %xmm5, %xmm4		; SSE2-NEXT: movdqa %xmm5, %xmm4
; SSE2-NEXT: pandn %xmm12, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: por %xmm4, %xmm1		; SSE2-NEXT: pcmpgtd %xmm4, %xmm1
; SSE2-NEXT: paddd %xmm5, %xmm1		; SSE2-NEXT: por %xmm5, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm4		; SSE2-NEXT: paddd %xmm2, %xmm6
; SSE2-NEXT: pxor %xmm9, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm2
; SSE2-NEXT: movdqa %xmm6, %xmm5
; SSE2-NEXT: pxor %xmm8, %xmm5
; SSE2-NEXT: pcmpgtd %xmm4, %xmm5
; SSE2-NEXT: pand %xmm5, %xmm2
; SSE2-NEXT: pxor %xmm10, %xmm5
; SSE2-NEXT: movdqa %xmm6, %xmm4		; SSE2-NEXT: movdqa %xmm6, %xmm4
; SSE2-NEXT: pandn %xmm5, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: por %xmm4, %xmm2		; SSE2-NEXT: pcmpgtd %xmm4, %xmm2
; SSE2-NEXT: paddd %xmm6, %xmm2		; SSE2-NEXT: por %xmm6, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm9		; SSE2-NEXT: paddd %xmm3, %xmm7
		; SSE2-NEXT: pxor %xmm8, %xmm3
; SSE2-NEXT: pxor %xmm7, %xmm8		; SSE2-NEXT: pxor %xmm7, %xmm8
; SSE2-NEXT: pcmpgtd %xmm9, %xmm8		; SSE2-NEXT: pcmpgtd %xmm8, %xmm3
; SSE2-NEXT: pand %xmm8, %xmm3		; SSE2-NEXT: por %xmm7, %xmm3
; SSE2-NEXT: pxor %xmm10, %xmm8
; SSE2-NEXT: movdqa %xmm7, %xmm4
; SSE2-NEXT: pandn %xmm8, %xmm4
; SSE2-NEXT: por %xmm4, %xmm3
; SSE2-NEXT: paddd %xmm7, %xmm3
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v16i32:		; SSSE3-LABEL: v16i32:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm0, %xmm10		; SSSE3-NEXT: paddd %xmm0, %xmm4
; SSSE3-NEXT: pxor %xmm9, %xmm10		; SSSE3-NEXT: pxor %xmm8, %xmm0
; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [2147483647,2147483647,2147483647,2147483647]		; SSSE3-NEXT: movdqa %xmm4, %xmm9
; SSSE3-NEXT: movdqa %xmm4, %xmm11		; SSSE3-NEXT: pxor %xmm8, %xmm9
; SSSE3-NEXT: pxor %xmm8, %xmm11		; SSSE3-NEXT: pcmpgtd %xmm9, %xmm0
; SSSE3-NEXT: pcmpgtd %xmm10, %xmm11		; SSSE3-NEXT: por %xmm4, %xmm0
; SSSE3-NEXT: pand %xmm11, %xmm0		; SSSE3-NEXT: paddd %xmm1, %xmm5
; SSSE3-NEXT: pcmpeqd %xmm10, %xmm10		; SSSE3-NEXT: pxor %xmm8, %xmm1
; SSSE3-NEXT: pxor %xmm10, %xmm11
; SSSE3-NEXT: movdqa %xmm4, %xmm12
; SSSE3-NEXT: pandn %xmm11, %xmm12
; SSSE3-NEXT: por %xmm12, %xmm0
; SSSE3-NEXT: paddd %xmm4, %xmm0
; SSSE3-NEXT: movdqa %xmm1, %xmm11
; SSSE3-NEXT: pxor %xmm9, %xmm11
; SSSE3-NEXT: movdqa %xmm5, %xmm12
; SSSE3-NEXT: pxor %xmm8, %xmm12
; SSSE3-NEXT: pcmpgtd %xmm11, %xmm12
; SSSE3-NEXT: pand %xmm12, %xmm1
; SSSE3-NEXT: pxor %xmm10, %xmm12
; SSSE3-NEXT: movdqa %xmm5, %xmm4		; SSSE3-NEXT: movdqa %xmm5, %xmm4
; SSSE3-NEXT: pandn %xmm12, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: por %xmm4, %xmm1		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm1
; SSSE3-NEXT: paddd %xmm5, %xmm1		; SSSE3-NEXT: por %xmm5, %xmm1
; SSSE3-NEXT: movdqa %xmm2, %xmm4		; SSSE3-NEXT: paddd %xmm2, %xmm6
; SSSE3-NEXT: pxor %xmm9, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm2
; SSSE3-NEXT: movdqa %xmm6, %xmm5
; SSSE3-NEXT: pxor %xmm8, %xmm5
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm5
; SSSE3-NEXT: pand %xmm5, %xmm2
; SSSE3-NEXT: pxor %xmm10, %xmm5
; SSSE3-NEXT: movdqa %xmm6, %xmm4		; SSSE3-NEXT: movdqa %xmm6, %xmm4
; SSSE3-NEXT: pandn %xmm5, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: por %xmm4, %xmm2		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm2
; SSSE3-NEXT: paddd %xmm6, %xmm2		; SSSE3-NEXT: por %xmm6, %xmm2
; SSSE3-NEXT: pxor %xmm3, %xmm9		; SSSE3-NEXT: paddd %xmm3, %xmm7
		; SSSE3-NEXT: pxor %xmm8, %xmm3
; SSSE3-NEXT: pxor %xmm7, %xmm8		; SSSE3-NEXT: pxor %xmm7, %xmm8
; SSSE3-NEXT: pcmpgtd %xmm9, %xmm8		; SSSE3-NEXT: pcmpgtd %xmm8, %xmm3
; SSSE3-NEXT: pand %xmm8, %xmm3		; SSSE3-NEXT: por %xmm7, %xmm3
; SSSE3-NEXT: pxor %xmm10, %xmm8
; SSSE3-NEXT: movdqa %xmm7, %xmm4
; SSSE3-NEXT: pandn %xmm8, %xmm4
; SSSE3-NEXT: por %xmm4, %xmm3
; SSSE3-NEXT: paddd %xmm7, %xmm3
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v16i32:		; SSE41-LABEL: v16i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pcmpeqd %xmm8, %xmm8		; SSE41-NEXT: pcmpeqd %xmm8, %xmm8
; SSE41-NEXT: movdqa %xmm4, %xmm9		; SSE41-NEXT: movdqa %xmm4, %xmm9
; SSE41-NEXT: pxor %xmm8, %xmm9		; SSE41-NEXT: pxor %xmm8, %xmm9
; SSE41-NEXT: pminud %xmm9, %xmm0		; SSE41-NEXT: pminud %xmm9, %xmm0
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%z = call <16 x i32> @llvm.uadd.sat.v16i32(<16 x i32> %x, <16 x i32> %y)		%z = call <16 x i32> @llvm.uadd.sat.v16i32(<16 x i32> %x, <16 x i32> %y)
ret <16 x i32> %z		ret <16 x i32> %z
}		}

define <2 x i64> @v2i64(<2 x i64> %x, <2 x i64> %y) nounwind {		define <2 x i64> @v2i64(<2 x i64> %x, <2 x i64> %y) nounwind {
; SSE2-LABEL: v2i64:		; SSE2-LABEL: v2i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSE2-NEXT: pxor %xmm0, %xmm2		; SSE2-NEXT: paddq %xmm0, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]		; SSE2-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm3		; SSE2-NEXT: pxor %xmm1, %xmm2
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: pcmpgtd %xmm2, %xmm4		; SSE2-NEXT: pcmpgtd %xmm2, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm2, %xmm3		; SSE2-NEXT: pcmpeqd %xmm0, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; SSE2-NEXT: pand %xmm5, %xmm2		; SSE2-NEXT: pand %xmm4, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; SSE2-NEXT: por %xmm2, %xmm3		; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: pcmpeqd %xmm2, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm2
; SSE2-NEXT: movdqa %xmm1, %xmm3
; SSE2-NEXT: pandn %xmm2, %xmm3
; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: paddq %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v2i64:		; SSSE3-LABEL: v2i64:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]		; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSSE3-NEXT: pxor %xmm0, %xmm2		; SSSE3-NEXT: paddq %xmm0, %xmm1
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]		; SSSE3-NEXT: pxor %xmm2, %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm3		; SSSE3-NEXT: pxor %xmm1, %xmm2
; SSSE3-NEXT: movdqa %xmm3, %xmm4		; SSSE3-NEXT: movdqa %xmm0, %xmm3
; SSSE3-NEXT: pcmpgtd %xmm2, %xmm4		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm3
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm2, %xmm3		; SSSE3-NEXT: pcmpeqd %xmm0, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; SSSE3-NEXT: pand %xmm5, %xmm2		; SSSE3-NEXT: pand %xmm4, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; SSSE3-NEXT: por %xmm2, %xmm3		; SSSE3-NEXT: por %xmm1, %xmm0
; SSSE3-NEXT: pand %xmm3, %xmm0		; SSSE3-NEXT: por %xmm2, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm2, %xmm2
; SSSE3-NEXT: pxor %xmm3, %xmm2
; SSSE3-NEXT: movdqa %xmm1, %xmm3
; SSSE3-NEXT: pandn %xmm2, %xmm3
; SSSE3-NEXT: por %xmm3, %xmm0
; SSSE3-NEXT: paddq %xmm1, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v2i64:		; SSE41-LABEL: v2i64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm2		; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]		; SSE41-NEXT: paddq %xmm0, %xmm1
; SSE41-NEXT: pxor %xmm2, %xmm0		; SSE41-NEXT: movdqa %xmm0, %xmm3
; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]		; SSE41-NEXT: pxor %xmm2, %xmm3
; SSE41-NEXT: pxor %xmm1, %xmm3		; SSE41-NEXT: pxor %xmm1, %xmm2
; SSE41-NEXT: movdqa %xmm3, %xmm4
; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; SSE41-NEXT: pand %xmm5, %xmm0
; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: pcmpeqd %xmm3, %xmm3
; SSE41-NEXT: pxor %xmm1, %xmm3
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
; SSE41-NEXT: paddq %xmm1, %xmm3
; SSE41-NEXT: movdqa %xmm3, %xmm0		; SSE41-NEXT: movdqa %xmm3, %xmm0
		; SSE41-NEXT: pcmpgtd %xmm2, %xmm0
		; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm0[0,0,2,2]
		; SSE41-NEXT: pcmpeqd %xmm3, %xmm2
		; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
		; SSE41-NEXT: pand %xmm4, %xmm2
		; SSE41-NEXT: por %xmm2, %xmm0
		; SSE41-NEXT: pcmpeqd %xmm2, %xmm2
		; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
		; SSE41-NEXT: movapd %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v2i64:		; AVX1-LABEL: v2i64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm2		; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3
; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm3
; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm4
; AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
; AVX1-NEXT: vblendvpd %xmm3, %xmm0, %xmm2, %xmm0
; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
		; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm1
		; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
		; AVX1-NEXT: vpor %xmm0, %xmm1, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: v2i64:		; AVX2-LABEL: v2i64:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2		; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm2		; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm3
; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm3
; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm4
; AVX2-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
; AVX2-NEXT: vblendvpd %xmm3, %xmm0, %xmm2, %xmm0
; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
		; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm1
		; AVX2-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
		; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: v2i64:		; AVX512-LABEL: v2i64:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vmovdqa %xmm1, %xmm2		; AVX512-NEXT: vmovdqa %xmm1, %xmm2
; AVX512-NEXT: vpternlogq $15, %xmm1, %xmm1, %xmm2		; AVX512-NEXT: vpternlogq $15, %xmm1, %xmm1, %xmm2
; AVX512-NEXT: vpminuq %xmm2, %xmm0, %xmm0		; AVX512-NEXT: vpminuq %xmm2, %xmm0, %xmm0
; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <2 x i64> @llvm.uadd.sat.v2i64(<2 x i64> %x, <2 x i64> %y)		%z = call <2 x i64> @llvm.uadd.sat.v2i64(<2 x i64> %x, <2 x i64> %y)
ret <2 x i64> %z		ret <2 x i64> %z
}		}

define <4 x i64> @v4i64(<4 x i64> %x, <4 x i64> %y) nounwind {		define <4 x i64> @v4i64(<4 x i64> %x, <4 x i64> %y) nounwind {
; SSE2-LABEL: v4i64:		; SSE2-LABEL: v4i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]
		; SSE2-NEXT: paddq %xmm0, %xmm2
		; SSE2-NEXT: pxor %xmm4, %xmm0
		; SSE2-NEXT: movdqa %xmm2, %xmm5
		; SSE2-NEXT: pxor %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm0, %xmm6		; SSE2-NEXT: movdqa %xmm0, %xmm6
; SSE2-NEXT: pxor %xmm8, %xmm6		; SSE2-NEXT: pcmpgtd %xmm5, %xmm6
; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [9223372034707292159,9223372034707292159]		; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
; SSE2-NEXT: movdqa %xmm2, %xmm7		; SSE2-NEXT: pcmpeqd %xmm0, %xmm5
; SSE2-NEXT: pxor %xmm5, %xmm7
; SSE2-NEXT: movdqa %xmm7, %xmm4
; SSE2-NEXT: pcmpgtd %xmm6, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm4[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm6, %xmm7
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]
; SSE2-NEXT: pand %xmm9, %xmm6
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSE2-NEXT: por %xmm6, %xmm4
; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: pcmpeqd %xmm6, %xmm6
; SSE2-NEXT: pxor %xmm6, %xmm4
; SSE2-NEXT: movdqa %xmm2, %xmm7
; SSE2-NEXT: pandn %xmm4, %xmm7
; SSE2-NEXT: por %xmm7, %xmm0
; SSE2-NEXT: paddq %xmm2, %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm8
; SSE2-NEXT: pxor %xmm3, %xmm5
; SSE2-NEXT: movdqa %xmm5, %xmm2
; SSE2-NEXT: pcmpgtd %xmm8, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm8, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSE2-NEXT: pand %xmm4, %xmm5		; SSE2-NEXT: pand %xmm7, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]
; SSE2-NEXT: por %xmm5, %xmm2		; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: pand %xmm2, %xmm1		; SSE2-NEXT: por %xmm5, %xmm0
; SSE2-NEXT: pxor %xmm6, %xmm2		; SSE2-NEXT: paddq %xmm1, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE2-NEXT: pxor %xmm4, %xmm1
; SSE2-NEXT: pandn %xmm2, %xmm4		; SSE2-NEXT: pxor %xmm3, %xmm4
		; SSE2-NEXT: movdqa %xmm1, %xmm2
		; SSE2-NEXT: pcmpgtd %xmm4, %xmm2
		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]
		; SSE2-NEXT: pcmpeqd %xmm1, %xmm4
		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
		; SSE2-NEXT: pand %xmm5, %xmm4
		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
		; SSE2-NEXT: por %xmm3, %xmm1
; SSE2-NEXT: por %xmm4, %xmm1		; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: paddq %xmm3, %xmm1
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v4i64:		; SSSE3-LABEL: v4i64:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]
		; SSSE3-NEXT: paddq %xmm0, %xmm2
		; SSSE3-NEXT: pxor %xmm4, %xmm0
		; SSSE3-NEXT: movdqa %xmm2, %xmm5
		; SSSE3-NEXT: pxor %xmm4, %xmm5
; SSSE3-NEXT: movdqa %xmm0, %xmm6		; SSSE3-NEXT: movdqa %xmm0, %xmm6
; SSSE3-NEXT: pxor %xmm8, %xmm6		; SSSE3-NEXT: pcmpgtd %xmm5, %xmm6
; SSSE3-NEXT: movdqa {{.*#+}} xmm5 = [9223372034707292159,9223372034707292159]		; SSSE3-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
; SSSE3-NEXT: movdqa %xmm2, %xmm7		; SSSE3-NEXT: pcmpeqd %xmm0, %xmm5
; SSSE3-NEXT: pxor %xmm5, %xmm7
; SSSE3-NEXT: movdqa %xmm7, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm6, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm9 = xmm4[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm6, %xmm7
; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]
; SSSE3-NEXT: pand %xmm9, %xmm6
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSSE3-NEXT: por %xmm6, %xmm4
; SSSE3-NEXT: pand %xmm4, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm6, %xmm6
; SSSE3-NEXT: pxor %xmm6, %xmm4
; SSSE3-NEXT: movdqa %xmm2, %xmm7
; SSSE3-NEXT: pandn %xmm4, %xmm7
; SSSE3-NEXT: por %xmm7, %xmm0
; SSSE3-NEXT: paddq %xmm2, %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm8
; SSSE3-NEXT: pxor %xmm3, %xmm5
; SSSE3-NEXT: movdqa %xmm5, %xmm2
; SSSE3-NEXT: pcmpgtd %xmm8, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm8, %xmm5
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSSE3-NEXT: pand %xmm4, %xmm5		; SSSE3-NEXT: pand %xmm7, %xmm5
; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]
; SSSE3-NEXT: por %xmm5, %xmm2		; SSSE3-NEXT: por %xmm2, %xmm0
; SSSE3-NEXT: pand %xmm2, %xmm1		; SSSE3-NEXT: por %xmm5, %xmm0
; SSSE3-NEXT: pxor %xmm6, %xmm2		; SSSE3-NEXT: paddq %xmm1, %xmm3
; SSSE3-NEXT: movdqa %xmm3, %xmm4		; SSSE3-NEXT: pxor %xmm4, %xmm1
; SSSE3-NEXT: pandn %xmm2, %xmm4		; SSSE3-NEXT: pxor %xmm3, %xmm4
		; SSSE3-NEXT: movdqa %xmm1, %xmm2
		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm2
		; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]
		; SSSE3-NEXT: pcmpeqd %xmm1, %xmm4
		; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
		; SSSE3-NEXT: pand %xmm5, %xmm4
		; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
		; SSSE3-NEXT: por %xmm3, %xmm1
; SSSE3-NEXT: por %xmm4, %xmm1		; SSSE3-NEXT: por %xmm4, %xmm1
; SSSE3-NEXT: paddq %xmm3, %xmm1
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v4i64:		; SSE41-LABEL: v4i64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm8		; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372039002259456,9223372039002259456]		; SSE41-NEXT: paddq %xmm0, %xmm2
; SSE41-NEXT: pxor %xmm7, %xmm0		; SSE41-NEXT: movdqa %xmm0, %xmm5
; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372034707292159,9223372034707292159]
; SSE41-NEXT: movdqa %xmm2, %xmm5
; SSE41-NEXT: pxor %xmm4, %xmm5		; SSE41-NEXT: pxor %xmm4, %xmm5
; SSE41-NEXT: movdqa %xmm5, %xmm6
; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
; SSE41-NEXT: pshufd {{.*#+}} xmm9 = xmm6[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]
; SSE41-NEXT: pand %xmm9, %xmm0
; SSE41-NEXT: por %xmm6, %xmm0
; SSE41-NEXT: pcmpeqd %xmm5, %xmm5
; SSE41-NEXT: movdqa %xmm2, %xmm6		; SSE41-NEXT: movdqa %xmm2, %xmm6
; SSE41-NEXT: pxor %xmm5, %xmm6		; SSE41-NEXT: pxor %xmm4, %xmm6
; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm6		; SSE41-NEXT: movdqa %xmm5, %xmm0
; SSE41-NEXT: paddq %xmm2, %xmm6		; SSE41-NEXT: pcmpgtd %xmm6, %xmm0
; SSE41-NEXT: pxor %xmm1, %xmm7		; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm0[0,0,2,2]
		; SSE41-NEXT: pcmpeqd %xmm5, %xmm6
		; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]
		; SSE41-NEXT: pand %xmm7, %xmm5
		; SSE41-NEXT: por %xmm5, %xmm0
		; SSE41-NEXT: pcmpeqd %xmm5, %xmm5
		; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm2
		; SSE41-NEXT: paddq %xmm1, %xmm3
		; SSE41-NEXT: pxor %xmm4, %xmm1
; SSE41-NEXT: pxor %xmm3, %xmm4		; SSE41-NEXT: pxor %xmm3, %xmm4
; SSE41-NEXT: movdqa %xmm4, %xmm2		; SSE41-NEXT: movdqa %xmm1, %xmm6
; SSE41-NEXT: pcmpgtd %xmm7, %xmm2		; SSE41-NEXT: pcmpgtd %xmm4, %xmm6
; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm2[0,0,2,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm7, %xmm4		; SSE41-NEXT: pcmpeqd %xmm1, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
; SSE41-NEXT: pand %xmm8, %xmm0		; SSE41-NEXT: pand %xmm7, %xmm0
; SSE41-NEXT: por %xmm2, %xmm0		; SSE41-NEXT: por %xmm6, %xmm0
; SSE41-NEXT: pxor %xmm3, %xmm5		; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm3
; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5		; SSE41-NEXT: movapd %xmm2, %xmm0
; SSE41-NEXT: paddq %xmm3, %xmm5		; SSE41-NEXT: movapd %xmm3, %xmm1
; SSE41-NEXT: movdqa %xmm6, %xmm0
; SSE41-NEXT: movdqa %xmm5, %xmm1
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v4i64:		; AVX1-LABEL: v4i64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vxorps %xmm4, %xmm4, %xmm4		; AVX1-NEXT: vxorps %xmm4, %xmm4, %xmm4
Show All 37 Lines	; AVX512-NEXT: retq
%z = call <4 x i64> @llvm.uadd.sat.v4i64(<4 x i64> %x, <4 x i64> %y)		%z = call <4 x i64> @llvm.uadd.sat.v4i64(<4 x i64> %x, <4 x i64> %y)
ret <4 x i64> %z		ret <4 x i64> %z
}		}

define <8 x i64> @v8i64(<8 x i64> %x, <8 x i64> %y) nounwind {		define <8 x i64> @v8i64(<8 x i64> %x, <8 x i64> %y) nounwind {
; SSE2-LABEL: v8i64:		; SSE2-LABEL: v8i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]		; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]
		; SSE2-NEXT: paddq %xmm0, %xmm4
		; SSE2-NEXT: pxor %xmm8, %xmm0
		; SSE2-NEXT: movdqa %xmm4, %xmm9
		; SSE2-NEXT: pxor %xmm8, %xmm9
; SSE2-NEXT: movdqa %xmm0, %xmm10		; SSE2-NEXT: movdqa %xmm0, %xmm10
; SSE2-NEXT: pxor %xmm8, %xmm10		; SSE2-NEXT: pcmpgtd %xmm9, %xmm10
; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [9223372034707292159,9223372034707292159]		; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]
; SSE2-NEXT: movdqa %xmm4, %xmm11		; SSE2-NEXT: pcmpeqd %xmm0, %xmm9
; SSE2-NEXT: pxor %xmm9, %xmm11		; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm9[1,1,3,3]
; SSE2-NEXT: movdqa %xmm11, %xmm12		; SSE2-NEXT: pand %xmm11, %xmm9
; SSE2-NEXT: pcmpgtd %xmm10, %xmm12		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm10[1,1,3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm13 = xmm12[0,0,2,2]		; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: pcmpeqd %xmm10, %xmm11		; SSE2-NEXT: por %xmm9, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm11[1,1,3,3]		; SSE2-NEXT: paddq %xmm1, %xmm5
; SSE2-NEXT: pand %xmm13, %xmm10		; SSE2-NEXT: pxor %xmm8, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm12[1,1,3,3]
; SSE2-NEXT: por %xmm10, %xmm11
; SSE2-NEXT: pand %xmm11, %xmm0
; SSE2-NEXT: pcmpeqd %xmm10, %xmm10
; SSE2-NEXT: pxor %xmm10, %xmm11
; SSE2-NEXT: movdqa %xmm4, %xmm12
; SSE2-NEXT: pandn %xmm11, %xmm12
; SSE2-NEXT: por %xmm12, %xmm0
; SSE2-NEXT: paddq %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm1, %xmm11
; SSE2-NEXT: pxor %xmm8, %xmm11
; SSE2-NEXT: movdqa %xmm5, %xmm4		; SSE2-NEXT: movdqa %xmm5, %xmm4
; SSE2-NEXT: pxor %xmm9, %xmm4
; SSE2-NEXT: movdqa %xmm4, %xmm12
; SSE2-NEXT: pcmpgtd %xmm11, %xmm12
; SSE2-NEXT: pshufd {{.*#+}} xmm13 = xmm12[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm11, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm4[1,1,3,3]
; SSE2-NEXT: pand %xmm13, %xmm11
; SSE2-NEXT: pshufd {{.*#+}} xmm12 = xmm12[1,1,3,3]
; SSE2-NEXT: por %xmm11, %xmm12
; SSE2-NEXT: pand %xmm12, %xmm1
; SSE2-NEXT: pxor %xmm10, %xmm12
; SSE2-NEXT: movdqa %xmm5, %xmm4
; SSE2-NEXT: pandn %xmm12, %xmm4
; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: paddq %xmm5, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: pxor %xmm8, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: movdqa %xmm6, %xmm5		; SSE2-NEXT: movdqa %xmm1, %xmm9
; SSE2-NEXT: pxor %xmm9, %xmm5		; SSE2-NEXT: pcmpgtd %xmm4, %xmm9
; SSE2-NEXT: movdqa %xmm5, %xmm11		; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm9[0,0,2,2]
; SSE2-NEXT: pcmpgtd %xmm4, %xmm11		; SSE2-NEXT: pcmpeqd %xmm1, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSE2-NEXT: pcmpeqd %xmm4, %xmm5		; SSE2-NEXT: pand %xmm10, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm9[1,1,3,3]
; SSE2-NEXT: pand %xmm12, %xmm4		; SSE2-NEXT: por %xmm5, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm11[1,1,3,3]		; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: por %xmm4, %xmm5		; SSE2-NEXT: paddq %xmm2, %xmm6
; SSE2-NEXT: pand %xmm5, %xmm2		; SSE2-NEXT: pxor %xmm8, %xmm2
; SSE2-NEXT: pxor %xmm10, %xmm5
; SSE2-NEXT: movdqa %xmm6, %xmm4		; SSE2-NEXT: movdqa %xmm6, %xmm4
; SSE2-NEXT: pandn %xmm5, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm4
		; SSE2-NEXT: movdqa %xmm2, %xmm5
		; SSE2-NEXT: pcmpgtd %xmm4, %xmm5
		; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm5[0,0,2,2]
		; SSE2-NEXT: pcmpeqd %xmm2, %xmm4
		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
		; SSE2-NEXT: pand %xmm9, %xmm4
		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,1,3,3]
		; SSE2-NEXT: por %xmm6, %xmm2
; SSE2-NEXT: por %xmm4, %xmm2		; SSE2-NEXT: por %xmm4, %xmm2
; SSE2-NEXT: paddq %xmm6, %xmm2		; SSE2-NEXT: paddq %xmm3, %xmm7
; SSE2-NEXT: pxor %xmm3, %xmm8		; SSE2-NEXT: pxor %xmm8, %xmm3
; SSE2-NEXT: pxor %xmm7, %xmm9		; SSE2-NEXT: pxor %xmm7, %xmm8
; SSE2-NEXT: movdqa %xmm9, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: pcmpgtd %xmm8, %xmm4		; SSE2-NEXT: pcmpgtd %xmm8, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm8, %xmm9		; SSE2-NEXT: pcmpeqd %xmm3, %xmm8
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm9[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm8[1,1,3,3]
; SSE2-NEXT: pand %xmm5, %xmm6		; SSE2-NEXT: pand %xmm5, %xmm6
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
; SSE2-NEXT: por %xmm6, %xmm4		; SSE2-NEXT: por %xmm7, %xmm3
; SSE2-NEXT: pand %xmm4, %xmm3		; SSE2-NEXT: por %xmm6, %xmm3
; SSE2-NEXT: pxor %xmm10, %xmm4
; SSE2-NEXT: movdqa %xmm7, %xmm5
; SSE2-NEXT: pandn %xmm4, %xmm5
; SSE2-NEXT: por %xmm5, %xmm3
; SSE2-NEXT: paddq %xmm7, %xmm3
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v8i64:		; SSSE3-LABEL: v8i64:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]		; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]
		; SSSE3-NEXT: paddq %xmm0, %xmm4
		; SSSE3-NEXT: pxor %xmm8, %xmm0
		; SSSE3-NEXT: movdqa %xmm4, %xmm9
		; SSSE3-NEXT: pxor %xmm8, %xmm9
; SSSE3-NEXT: movdqa %xmm0, %xmm10		; SSSE3-NEXT: movdqa %xmm0, %xmm10
; SSSE3-NEXT: pxor %xmm8, %xmm10		; SSSE3-NEXT: pcmpgtd %xmm9, %xmm10
; SSSE3-NEXT: movdqa {{.*#+}} xmm9 = [9223372034707292159,9223372034707292159]		; SSSE3-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]
; SSSE3-NEXT: movdqa %xmm4, %xmm11		; SSSE3-NEXT: pcmpeqd %xmm0, %xmm9
; SSSE3-NEXT: pxor %xmm9, %xmm11		; SSSE3-NEXT: pshufd {{.*#+}} xmm9 = xmm9[1,1,3,3]
; SSSE3-NEXT: movdqa %xmm11, %xmm12		; SSSE3-NEXT: pand %xmm11, %xmm9
; SSSE3-NEXT: pcmpgtd %xmm10, %xmm12		; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm10[1,1,3,3]
; SSSE3-NEXT: pshufd {{.*#+}} xmm13 = xmm12[0,0,2,2]		; SSSE3-NEXT: por %xmm4, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm10, %xmm11		; SSSE3-NEXT: por %xmm9, %xmm0
; SSSE3-NEXT: pshufd {{.*#+}} xmm10 = xmm11[1,1,3,3]		; SSSE3-NEXT: paddq %xmm1, %xmm5
; SSSE3-NEXT: pand %xmm13, %xmm10		; SSSE3-NEXT: pxor %xmm8, %xmm1
; SSSE3-NEXT: pshufd {{.*#+}} xmm11 = xmm12[1,1,3,3]
; SSSE3-NEXT: por %xmm10, %xmm11
; SSSE3-NEXT: pand %xmm11, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm10, %xmm10
; SSSE3-NEXT: pxor %xmm10, %xmm11
; SSSE3-NEXT: movdqa %xmm4, %xmm12
; SSSE3-NEXT: pandn %xmm11, %xmm12
; SSSE3-NEXT: por %xmm12, %xmm0
; SSSE3-NEXT: paddq %xmm4, %xmm0
; SSSE3-NEXT: movdqa %xmm1, %xmm11
; SSSE3-NEXT: pxor %xmm8, %xmm11
; SSSE3-NEXT: movdqa %xmm5, %xmm4
; SSSE3-NEXT: pxor %xmm9, %xmm4
; SSSE3-NEXT: movdqa %xmm4, %xmm12
; SSSE3-NEXT: pcmpgtd %xmm11, %xmm12
; SSSE3-NEXT: pshufd {{.*#+}} xmm13 = xmm12[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm11, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm11 = xmm4[1,1,3,3]
; SSSE3-NEXT: pand %xmm13, %xmm11
; SSSE3-NEXT: pshufd {{.*#+}} xmm12 = xmm12[1,1,3,3]
; SSSE3-NEXT: por %xmm11, %xmm12
; SSSE3-NEXT: pand %xmm12, %xmm1
; SSSE3-NEXT: pxor %xmm10, %xmm12
; SSSE3-NEXT: movdqa %xmm5, %xmm4		; SSSE3-NEXT: movdqa %xmm5, %xmm4
; SSSE3-NEXT: pandn %xmm12, %xmm4
; SSSE3-NEXT: por %xmm4, %xmm1
; SSSE3-NEXT: paddq %xmm5, %xmm1
; SSSE3-NEXT: movdqa %xmm2, %xmm4
; SSSE3-NEXT: pxor %xmm8, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: movdqa %xmm6, %xmm5		; SSSE3-NEXT: movdqa %xmm1, %xmm9
; SSSE3-NEXT: pxor %xmm9, %xmm5		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm9
; SSSE3-NEXT: movdqa %xmm5, %xmm11		; SSSE3-NEXT: pshufd {{.*#+}} xmm10 = xmm9[0,0,2,2]
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm11		; SSSE3-NEXT: pcmpeqd %xmm1, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]		; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSSE3-NEXT: pcmpeqd %xmm4, %xmm5		; SSSE3-NEXT: pand %xmm10, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm9[1,1,3,3]
; SSSE3-NEXT: pand %xmm12, %xmm4		; SSSE3-NEXT: por %xmm5, %xmm1
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm11[1,1,3,3]		; SSSE3-NEXT: por %xmm4, %xmm1
; SSSE3-NEXT: por %xmm4, %xmm5		; SSSE3-NEXT: paddq %xmm2, %xmm6
; SSSE3-NEXT: pand %xmm5, %xmm2		; SSSE3-NEXT: pxor %xmm8, %xmm2
; SSSE3-NEXT: pxor %xmm10, %xmm5
; SSSE3-NEXT: movdqa %xmm6, %xmm4		; SSSE3-NEXT: movdqa %xmm6, %xmm4
; SSSE3-NEXT: pandn %xmm5, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm4
		; SSSE3-NEXT: movdqa %xmm2, %xmm5
		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm5
		; SSSE3-NEXT: pshufd {{.*#+}} xmm9 = xmm5[0,0,2,2]
		; SSSE3-NEXT: pcmpeqd %xmm2, %xmm4
		; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
		; SSSE3-NEXT: pand %xmm9, %xmm4
		; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,1,3,3]
		; SSSE3-NEXT: por %xmm6, %xmm2
; SSSE3-NEXT: por %xmm4, %xmm2		; SSSE3-NEXT: por %xmm4, %xmm2
; SSSE3-NEXT: paddq %xmm6, %xmm2		; SSSE3-NEXT: paddq %xmm3, %xmm7
; SSSE3-NEXT: pxor %xmm3, %xmm8		; SSSE3-NEXT: pxor %xmm8, %xmm3
; SSSE3-NEXT: pxor %xmm7, %xmm9		; SSSE3-NEXT: pxor %xmm7, %xmm8
; SSSE3-NEXT: movdqa %xmm9, %xmm4		; SSSE3-NEXT: movdqa %xmm3, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm8, %xmm4		; SSSE3-NEXT: pcmpgtd %xmm8, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm8, %xmm9		; SSSE3-NEXT: pcmpeqd %xmm3, %xmm8
; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm9[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm8[1,1,3,3]
; SSSE3-NEXT: pand %xmm5, %xmm6		; SSSE3-NEXT: pand %xmm5, %xmm6
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
; SSSE3-NEXT: por %xmm6, %xmm4		; SSSE3-NEXT: por %xmm7, %xmm3
; SSSE3-NEXT: pand %xmm4, %xmm3		; SSSE3-NEXT: por %xmm6, %xmm3
; SSSE3-NEXT: pxor %xmm10, %xmm4
; SSSE3-NEXT: movdqa %xmm7, %xmm5
; SSSE3-NEXT: pandn %xmm4, %xmm5
; SSSE3-NEXT: por %xmm5, %xmm3
; SSSE3-NEXT: paddq %xmm7, %xmm3
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v8i64:		; SSE41-LABEL: v8i64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm1, %xmm9		; SSE41-NEXT: movdqa %xmm7, %xmm8
; SSE41-NEXT: movdqa %xmm0, %xmm13		; SSE41-NEXT: movdqa %xmm6, %xmm10
; SSE41-NEXT: movdqa {{.*#+}} xmm11 = [9223372039002259456,9223372039002259456]		; SSE41-NEXT: movdqa %xmm5, %xmm11
; SSE41-NEXT: pxor %xmm11, %xmm0		; SSE41-NEXT: movdqa %xmm4, %xmm12
; SSE41-NEXT: movdqa {{.*#+}} xmm12 = [9223372034707292159,9223372034707292159]		; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: movdqa %xmm4, %xmm1		; SSE41-NEXT: paddq %xmm0, %xmm12
; SSE41-NEXT: pxor %xmm12, %xmm1		; SSE41-NEXT: movdqa %xmm0, %xmm6
; SSE41-NEXT: movdqa %xmm1, %xmm8		; SSE41-NEXT: pxor %xmm7, %xmm6
; SSE41-NEXT: pcmpgtd %xmm0, %xmm8		; SSE41-NEXT: movdqa %xmm12, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm8[0,0,2,2]		; SSE41-NEXT: pxor %xmm7, %xmm4
; SSE41-NEXT: pcmpeqd %xmm0, %xmm1		; SSE41-NEXT: movdqa %xmm6, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]		; SSE41-NEXT: pcmpgtd %xmm4, %xmm0
; SSE41-NEXT: pand %xmm10, %xmm0		; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,0,2,2]
; SSE41-NEXT: por %xmm8, %xmm0		; SSE41-NEXT: pcmpeqd %xmm6, %xmm4
; SSE41-NEXT: pcmpeqd %xmm10, %xmm10		; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSE41-NEXT: movdqa %xmm4, %xmm8		; SSE41-NEXT: pand %xmm5, %xmm4
; SSE41-NEXT: pxor %xmm10, %xmm8		; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: blendvpd %xmm0, %xmm13, %xmm8		; SSE41-NEXT: pcmpeqd %xmm9, %xmm9
; SSE41-NEXT: paddq %xmm4, %xmm8		; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm12
; SSE41-NEXT: movdqa %xmm9, %xmm0		; SSE41-NEXT: paddq %xmm1, %xmm11
; SSE41-NEXT: pxor %xmm11, %xmm0		; SSE41-NEXT: pxor %xmm7, %xmm1
; SSE41-NEXT: movdqa %xmm5, %xmm1		; SSE41-NEXT: movdqa %xmm11, %xmm0
; SSE41-NEXT: pxor %xmm12, %xmm1		; SSE41-NEXT: pxor %xmm7, %xmm0
; SSE41-NEXT: movdqa %xmm1, %xmm4		; SSE41-NEXT: movdqa %xmm1, %xmm4
; SSE41-NEXT: pcmpgtd %xmm0, %xmm4		; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm4[0,0,2,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm1		; SSE41-NEXT: pcmpeqd %xmm1, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; SSE41-NEXT: pand %xmm13, %xmm0
; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: movdqa %xmm5, %xmm1
; SSE41-NEXT: pxor %xmm10, %xmm1
; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm1
; SSE41-NEXT: paddq %xmm5, %xmm1
; SSE41-NEXT: movdqa %xmm2, %xmm0
; SSE41-NEXT: pxor %xmm11, %xmm0
; SSE41-NEXT: movdqa %xmm6, %xmm4
; SSE41-NEXT: pxor %xmm12, %xmm4
; SSE41-NEXT: movdqa %xmm4, %xmm5
; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
; SSE41-NEXT: pshufd {{.*#+}} xmm9 = xmm5[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
; SSE41-NEXT: pand %xmm9, %xmm0
; SSE41-NEXT: por %xmm5, %xmm0
; SSE41-NEXT: movdqa %xmm6, %xmm4
; SSE41-NEXT: pxor %xmm10, %xmm4
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
; SSE41-NEXT: paddq %xmm6, %xmm4
; SSE41-NEXT: pxor %xmm3, %xmm11
; SSE41-NEXT: pxor %xmm7, %xmm12
; SSE41-NEXT: movdqa %xmm12, %xmm2
; SSE41-NEXT: pcmpgtd %xmm11, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm11, %xmm12
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm12[1,1,3,3]
; SSE41-NEXT: pand %xmm5, %xmm0		; SSE41-NEXT: pand %xmm5, %xmm0
; SSE41-NEXT: por %xmm2, %xmm0		; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: pxor %xmm7, %xmm10		; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm11
; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm10		; SSE41-NEXT: paddq %xmm2, %xmm10
; SSE41-NEXT: paddq %xmm7, %xmm10		; SSE41-NEXT: pxor %xmm7, %xmm2
; SSE41-NEXT: movdqa %xmm8, %xmm0		; SSE41-NEXT: movdqa %xmm10, %xmm0
; SSE41-NEXT: movdqa %xmm4, %xmm2		; SSE41-NEXT: pxor %xmm7, %xmm0
; SSE41-NEXT: movdqa %xmm10, %xmm3		; SSE41-NEXT: movdqa %xmm2, %xmm1
		; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
		; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]
		; SSE41-NEXT: pcmpeqd %xmm2, %xmm0
		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
		; SSE41-NEXT: pand %xmm4, %xmm0
		; SSE41-NEXT: por %xmm1, %xmm0
		; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm10
		; SSE41-NEXT: paddq %xmm3, %xmm8
		; SSE41-NEXT: pxor %xmm7, %xmm3
		; SSE41-NEXT: pxor %xmm8, %xmm7
		; SSE41-NEXT: movdqa %xmm3, %xmm1
		; SSE41-NEXT: pcmpgtd %xmm7, %xmm1
		; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]
		; SSE41-NEXT: pcmpeqd %xmm3, %xmm7
		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[1,1,3,3]
		; SSE41-NEXT: pand %xmm2, %xmm0
		; SSE41-NEXT: por %xmm1, %xmm0
		; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm8
		; SSE41-NEXT: movapd %xmm12, %xmm0
		; SSE41-NEXT: movapd %xmm11, %xmm1
		; SSE41-NEXT: movapd %xmm10, %xmm2
		; SSE41-NEXT: movapd %xmm8, %xmm3
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v8i64:		; AVX1-LABEL: v8i64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor %xmm4, %xmm5, %xmm5		; AVX1-NEXT: vpxor %xmm4, %xmm5, %xmm5
; AVX1-NEXT: vxorps %xmm6, %xmm6, %xmm6		; AVX1-NEXT: vxorps %xmm6, %xmm6, %xmm6
▲ Show 20 Lines • Show All 102 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/usub_sat.ll

	Show First 20 Lines • Show All 108 Lines • ▼ Show 20 Lines
	;			;
	; X64-LABEL: vec:			; X64-LABEL: vec:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; X64-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	; X64-NEXT: movdqa %xmm1, %xmm3			; X64-NEXT: movdqa %xmm1, %xmm3
	; X64-NEXT: pxor %xmm2, %xmm3			; X64-NEXT: pxor %xmm2, %xmm3
	; X64-NEXT: pxor %xmm0, %xmm2			; X64-NEXT: pxor %xmm0, %xmm2
	; X64-NEXT: pcmpgtd %xmm3, %xmm2			; X64-NEXT: pcmpgtd %xmm3, %xmm2
	; X64-NEXT: pand %xmm2, %xmm0
	; X64-NEXT: pandn %xmm1, %xmm2
	; X64-NEXT: por %xmm2, %xmm0
	; X64-NEXT: psubd %xmm1, %xmm0			; X64-NEXT: psubd %xmm1, %xmm0
				; X64-NEXT: pand %xmm2, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp = call <4 x i32> @llvm.usub.sat.v4i32(<4 x i32> %x, <4 x i32> %y);			%tmp = call <4 x i32> @llvm.usub.sat.v4i32(<4 x i32> %x, <4 x i32> %y);
	ret <4 x i32> %tmp;			ret <4 x i32> %tmp;
	}			}

llvm/test/CodeGen/X86/usub_sat_vec.ll

Show First 20 Lines • Show All 632 Lines • ▼ Show 20 Lines
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: psllq $32, %xmm1		; SSE2-NEXT: psllq $32, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSE2-NEXT: movdqa %xmm1, %xmm3		; SSE2-NEXT: movdqa %xmm1, %xmm3
; SSE2-NEXT: pxor %xmm2, %xmm3		; SSE2-NEXT: pxor %xmm2, %xmm3
; SSE2-NEXT: psllq $32, %xmm0		; SSE2-NEXT: psllq $32, %xmm0
; SSE2-NEXT: pxor %xmm0, %xmm2		; SSE2-NEXT: pxor %xmm0, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm4		; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: pcmpgtd %xmm3, %xmm4		; SSE2-NEXT: pcmpeqd %xmm3, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSE2-NEXT: pcmpgtd %xmm3, %xmm2
; SSE2-NEXT: pcmpeqd %xmm3, %xmm2		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; SSE2-NEXT: pand %xmm4, %xmm3
; SSE2-NEXT: pand %xmm5, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
; SSE2-NEXT: por %xmm2, %xmm3		; SSE2-NEXT: por %xmm2, %xmm3
; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: pandn %xmm1, %xmm3
; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: psubq %xmm1, %xmm0		; SSE2-NEXT: psubq %xmm1, %xmm0
		; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: psrlq $32, %xmm0		; SSE2-NEXT: psrlq $32, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v2i32:		; SSSE3-LABEL: v2i32:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: psllq $32, %xmm1		; SSSE3-NEXT: psllq $32, %xmm1
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]		; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSSE3-NEXT: movdqa %xmm1, %xmm3		; SSSE3-NEXT: movdqa %xmm1, %xmm3
; SSSE3-NEXT: pxor %xmm2, %xmm3		; SSSE3-NEXT: pxor %xmm2, %xmm3
; SSSE3-NEXT: psllq $32, %xmm0		; SSSE3-NEXT: psllq $32, %xmm0
; SSSE3-NEXT: pxor %xmm0, %xmm2		; SSSE3-NEXT: pxor %xmm0, %xmm2
; SSSE3-NEXT: movdqa %xmm2, %xmm4		; SSSE3-NEXT: movdqa %xmm2, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm3, %xmm4		; SSSE3-NEXT: pcmpeqd %xmm3, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSSE3-NEXT: pcmpgtd %xmm3, %xmm2
; SSSE3-NEXT: pcmpeqd %xmm3, %xmm2		; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; SSSE3-NEXT: pand %xmm4, %xmm3
; SSSE3-NEXT: pand %xmm5, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
; SSSE3-NEXT: por %xmm2, %xmm3		; SSSE3-NEXT: por %xmm2, %xmm3
; SSSE3-NEXT: pand %xmm3, %xmm0
; SSSE3-NEXT: pandn %xmm1, %xmm3
; SSSE3-NEXT: por %xmm3, %xmm0
; SSSE3-NEXT: psubq %xmm1, %xmm0		; SSSE3-NEXT: psubq %xmm1, %xmm0
		; SSSE3-NEXT: pand %xmm3, %xmm0
; SSSE3-NEXT: psrlq $32, %xmm0		; SSSE3-NEXT: psrlq $32, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v2i32:		; SSE41-LABEL: v2i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm2		; SSE41-NEXT: movdqa %xmm0, %xmm2
; SSE41-NEXT: psllq $32, %xmm1		; SSE41-NEXT: psllq $32, %xmm1
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]		; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: movdqa %xmm1, %xmm3		; SSE41-NEXT: movdqa %xmm1, %xmm3
; SSE41-NEXT: pxor %xmm0, %xmm3		; SSE41-NEXT: pxor %xmm0, %xmm3
; SSE41-NEXT: psllq $32, %xmm2		; SSE41-NEXT: psllq $32, %xmm2
; SSE41-NEXT: pxor %xmm2, %xmm0		; SSE41-NEXT: pxor %xmm2, %xmm0
; SSE41-NEXT: movdqa %xmm0, %xmm4		; SSE41-NEXT: movdqa %xmm0, %xmm4
; SSE41-NEXT: pcmpgtd %xmm3, %xmm4		; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm3, %xmm0		; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; SSE41-NEXT: pand %xmm5, %xmm0		; SSE41-NEXT: pand %xmm5, %xmm0
; SSE41-NEXT: por %xmm4, %xmm0		; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: movdqa %xmm1, %xmm3		; SSE41-NEXT: psubq %xmm1, %xmm2
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3		; SSE41-NEXT: pxor %xmm1, %xmm1
; SSE41-NEXT: psubq %xmm1, %xmm3		; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
; SSE41-NEXT: psrlq $32, %xmm3		; SSE41-NEXT: psrlq $32, %xmm1
; SSE41-NEXT: movdqa %xmm3, %xmm0		; SSE41-NEXT: movdqa %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v2i32:		; AVX1-LABEL: v2i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1		; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3		; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3
; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2		; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2
; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0
		; AVX1-NEXT: vpand %xmm0, %xmm2, %xmm0
; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0		; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: v2i32:		; AVX2-LABEL: v2i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpsllq $32, %xmm1, %xmm1		; AVX2-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]		; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3		; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3
; AVX2-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX2-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2		; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2
; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2		; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0
		; AVX2-NEXT: vpand %xmm0, %xmm2, %xmm0
; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm0		; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: v2i32:		; AVX512-LABEL: v2i32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpsllq $32, %xmm1, %xmm1		; AVX512-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX512-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vpsubq %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpsubq %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vpsrlq $32, %xmm0, %xmm0		; AVX512-NEXT: vpsrlq $32, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <2 x i32> @llvm.usub.sat.v2i32(<2 x i32> %x, <2 x i32> %y)		%z = call <2 x i32> @llvm.usub.sat.v2i32(<2 x i32> %x, <2 x i32> %y)
ret <2 x i32> %z		ret <2 x i32> %z
}		}

define <4 x i32> @v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {		define <4 x i32> @v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {
; SSE2-LABEL: v4i32:		; SSE2-LABEL: v4i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm1, %xmm3		; SSE2-NEXT: movdqa %xmm1, %xmm3
; SSE2-NEXT: pxor %xmm2, %xmm3		; SSE2-NEXT: pxor %xmm2, %xmm3
; SSE2-NEXT: pxor %xmm0, %xmm2		; SSE2-NEXT: pxor %xmm0, %xmm2
; SSE2-NEXT: pcmpgtd %xmm3, %xmm2		; SSE2-NEXT: pcmpgtd %xmm3, %xmm2
; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: pandn %xmm1, %xmm2
; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: psubd %xmm1, %xmm0		; SSE2-NEXT: psubd %xmm1, %xmm0
		; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v4i32:		; SSSE3-LABEL: v4i32:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm1, %xmm3		; SSSE3-NEXT: movdqa %xmm1, %xmm3
; SSSE3-NEXT: pxor %xmm2, %xmm3		; SSSE3-NEXT: pxor %xmm2, %xmm3
; SSSE3-NEXT: pxor %xmm0, %xmm2		; SSSE3-NEXT: pxor %xmm0, %xmm2
; SSSE3-NEXT: pcmpgtd %xmm3, %xmm2		; SSSE3-NEXT: pcmpgtd %xmm3, %xmm2
; SSSE3-NEXT: pand %xmm2, %xmm0
; SSSE3-NEXT: pandn %xmm1, %xmm2
; SSSE3-NEXT: por %xmm2, %xmm0
; SSSE3-NEXT: psubd %xmm1, %xmm0		; SSSE3-NEXT: psubd %xmm1, %xmm0
		; SSSE3-NEXT: pand %xmm2, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v4i32:		; SSE41-LABEL: v4i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pmaxud %xmm1, %xmm0		; SSE41-NEXT: pmaxud %xmm1, %xmm0
; SSE41-NEXT: psubd %xmm1, %xmm0		; SSE41-NEXT: psubd %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: v4i32:		; AVX-LABEL: v4i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpmaxud %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
; AVX-NEXT: vpsubd %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpsubd %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%z = call <4 x i32> @llvm.usub.sat.v4i32(<4 x i32> %x, <4 x i32> %y)		%z = call <4 x i32> @llvm.usub.sat.v4i32(<4 x i32> %x, <4 x i32> %y)
ret <4 x i32> %z		ret <4 x i32> %z
}		}

define <8 x i32> @v8i32(<8 x i32> %x, <8 x i32> %y) nounwind {		define <8 x i32> @v8i32(<8 x i32> %x, <8 x i32> %y) nounwind {
; SSE2-LABEL: v8i32:		; SSE2-LABEL: v8i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm2, %xmm6		; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: pxor %xmm5, %xmm6		; SSE2-NEXT: psubd %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm4		; SSE2-NEXT: pxor %xmm4, %xmm2
; SSE2-NEXT: pxor %xmm5, %xmm4		; SSE2-NEXT: pxor %xmm4, %xmm5
; SSE2-NEXT: pcmpgtd %xmm6, %xmm4		; SSE2-NEXT: pcmpgtd %xmm2, %xmm5
; SSE2-NEXT: pand %xmm4, %xmm0		; SSE2-NEXT: pand %xmm5, %xmm0
; SSE2-NEXT: pandn %xmm2, %xmm4		; SSE2-NEXT: movdqa %xmm3, %xmm2
; SSE2-NEXT: por %xmm0, %xmm4		; SSE2-NEXT: pxor %xmm4, %xmm2
; SSE2-NEXT: psubd %xmm2, %xmm4		; SSE2-NEXT: pxor %xmm1, %xmm4
; SSE2-NEXT: movdqa %xmm3, %xmm0		; SSE2-NEXT: pcmpgtd %xmm2, %xmm4
; SSE2-NEXT: pxor %xmm5, %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm5
; SSE2-NEXT: pcmpgtd %xmm0, %xmm5
; SSE2-NEXT: pand %xmm5, %xmm1
; SSE2-NEXT: pandn %xmm3, %xmm5
; SSE2-NEXT: por %xmm5, %xmm1
; SSE2-NEXT: psubd %xmm3, %xmm1		; SSE2-NEXT: psubd %xmm3, %xmm1
; SSE2-NEXT: movdqa %xmm4, %xmm0		; SSE2-NEXT: pand %xmm4, %xmm1
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v8i32:		; SSSE3-LABEL: v8i32:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm2, %xmm6		; SSSE3-NEXT: movdqa %xmm0, %xmm5
; SSSE3-NEXT: pxor %xmm5, %xmm6		; SSSE3-NEXT: psubd %xmm2, %xmm0
; SSSE3-NEXT: movdqa %xmm0, %xmm4		; SSSE3-NEXT: pxor %xmm4, %xmm2
; SSSE3-NEXT: pxor %xmm5, %xmm4		; SSSE3-NEXT: pxor %xmm4, %xmm5
; SSSE3-NEXT: pcmpgtd %xmm6, %xmm4		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm5
; SSSE3-NEXT: pand %xmm4, %xmm0		; SSSE3-NEXT: pand %xmm5, %xmm0
; SSSE3-NEXT: pandn %xmm2, %xmm4		; SSSE3-NEXT: movdqa %xmm3, %xmm2
; SSSE3-NEXT: por %xmm0, %xmm4		; SSSE3-NEXT: pxor %xmm4, %xmm2
; SSSE3-NEXT: psubd %xmm2, %xmm4		; SSSE3-NEXT: pxor %xmm1, %xmm4
; SSSE3-NEXT: movdqa %xmm3, %xmm0		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm4
; SSSE3-NEXT: pxor %xmm5, %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm5
; SSSE3-NEXT: pcmpgtd %xmm0, %xmm5
; SSSE3-NEXT: pand %xmm5, %xmm1
; SSSE3-NEXT: pandn %xmm3, %xmm5
; SSSE3-NEXT: por %xmm5, %xmm1
; SSSE3-NEXT: psubd %xmm3, %xmm1		; SSSE3-NEXT: psubd %xmm3, %xmm1
; SSSE3-NEXT: movdqa %xmm4, %xmm0		; SSSE3-NEXT: pand %xmm4, %xmm1
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v8i32:		; SSE41-LABEL: v8i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pmaxud %xmm2, %xmm0		; SSE41-NEXT: pmaxud %xmm2, %xmm0
; SSE41-NEXT: psubd %xmm2, %xmm0		; SSE41-NEXT: psubd %xmm2, %xmm0
; SSE41-NEXT: pmaxud %xmm3, %xmm1		; SSE41-NEXT: pmaxud %xmm3, %xmm1
; SSE41-NEXT: psubd %xmm3, %xmm1		; SSE41-NEXT: psubd %xmm3, %xmm1
Show All 23 Lines
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <8 x i32> @llvm.usub.sat.v8i32(<8 x i32> %x, <8 x i32> %y)		%z = call <8 x i32> @llvm.usub.sat.v8i32(<8 x i32> %x, <8 x i32> %y)
ret <8 x i32> %z		ret <8 x i32> %z
}		}

define <16 x i32> @v16i32(<16 x i32> %x, <16 x i32> %y) nounwind {		define <16 x i32> @v16i32(<16 x i32> %x, <16 x i32> %y) nounwind {
; SSE2-LABEL: v16i32:		; SSE2-LABEL: v16i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm1, %xmm8		; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm0, %xmm10		; SSE2-NEXT: movdqa %xmm0, %xmm9
; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm4, %xmm1
; SSE2-NEXT: pxor %xmm9, %xmm1
; SSE2-NEXT: pxor %xmm9, %xmm0
; SSE2-NEXT: pcmpgtd %xmm1, %xmm0
; SSE2-NEXT: pand %xmm0, %xmm10
; SSE2-NEXT: pandn %xmm4, %xmm0
; SSE2-NEXT: por %xmm10, %xmm0
; SSE2-NEXT: psubd %xmm4, %xmm0		; SSE2-NEXT: psubd %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm5, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: pxor %xmm9, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm9
; SSE2-NEXT: movdqa %xmm8, %xmm1		; SSE2-NEXT: pcmpgtd %xmm4, %xmm9
; SSE2-NEXT: pxor %xmm9, %xmm1		; SSE2-NEXT: pand %xmm9, %xmm0
; SSE2-NEXT: pcmpgtd %xmm4, %xmm1		; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: pand %xmm1, %xmm8
; SSE2-NEXT: pandn %xmm5, %xmm1
; SSE2-NEXT: por %xmm8, %xmm1
; SSE2-NEXT: psubd %xmm5, %xmm1		; SSE2-NEXT: psubd %xmm5, %xmm1
; SSE2-NEXT: movdqa %xmm6, %xmm5		; SSE2-NEXT: pxor %xmm8, %xmm5
; SSE2-NEXT: pxor %xmm9, %xmm5		; SSE2-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: pxor %xmm9, %xmm4
; SSE2-NEXT: pcmpgtd %xmm5, %xmm4		; SSE2-NEXT: pcmpgtd %xmm5, %xmm4
		; SSE2-NEXT: pand %xmm4, %xmm1
		; SSE2-NEXT: movdqa %xmm2, %xmm4
		; SSE2-NEXT: psubd %xmm6, %xmm2
		; SSE2-NEXT: pxor %xmm8, %xmm6
		; SSE2-NEXT: pxor %xmm8, %xmm4
		; SSE2-NEXT: pcmpgtd %xmm6, %xmm4
; SSE2-NEXT: pand %xmm4, %xmm2		; SSE2-NEXT: pand %xmm4, %xmm2
; SSE2-NEXT: pandn %xmm6, %xmm4		; SSE2-NEXT: movdqa %xmm7, %xmm4
; SSE2-NEXT: por %xmm2, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: psubd %xmm6, %xmm4		; SSE2-NEXT: pxor %xmm3, %xmm8
; SSE2-NEXT: movdqa %xmm7, %xmm2		; SSE2-NEXT: pcmpgtd %xmm4, %xmm8
; SSE2-NEXT: pxor %xmm9, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm9
; SSE2-NEXT: pcmpgtd %xmm2, %xmm9
; SSE2-NEXT: pand %xmm9, %xmm3
; SSE2-NEXT: pandn %xmm7, %xmm9
; SSE2-NEXT: por %xmm9, %xmm3
; SSE2-NEXT: psubd %xmm7, %xmm3		; SSE2-NEXT: psubd %xmm7, %xmm3
; SSE2-NEXT: movdqa %xmm4, %xmm2		; SSE2-NEXT: pand %xmm8, %xmm3
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v16i32:		; SSSE3-LABEL: v16i32:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa %xmm1, %xmm8		; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm0, %xmm10		; SSSE3-NEXT: movdqa %xmm0, %xmm9
; SSSE3-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm4, %xmm1
; SSSE3-NEXT: pxor %xmm9, %xmm1
; SSSE3-NEXT: pxor %xmm9, %xmm0
; SSSE3-NEXT: pcmpgtd %xmm1, %xmm0
; SSSE3-NEXT: pand %xmm0, %xmm10
; SSSE3-NEXT: pandn %xmm4, %xmm0
; SSSE3-NEXT: por %xmm10, %xmm0
; SSSE3-NEXT: psubd %xmm4, %xmm0		; SSSE3-NEXT: psubd %xmm4, %xmm0
; SSSE3-NEXT: movdqa %xmm5, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: pxor %xmm9, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm9
; SSSE3-NEXT: movdqa %xmm8, %xmm1		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm9
; SSSE3-NEXT: pxor %xmm9, %xmm1		; SSSE3-NEXT: pand %xmm9, %xmm0
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm1		; SSSE3-NEXT: movdqa %xmm1, %xmm4
; SSSE3-NEXT: pand %xmm1, %xmm8
; SSSE3-NEXT: pandn %xmm5, %xmm1
; SSSE3-NEXT: por %xmm8, %xmm1
; SSSE3-NEXT: psubd %xmm5, %xmm1		; SSSE3-NEXT: psubd %xmm5, %xmm1
; SSSE3-NEXT: movdqa %xmm6, %xmm5		; SSSE3-NEXT: pxor %xmm8, %xmm5
; SSSE3-NEXT: pxor %xmm9, %xmm5		; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: movdqa %xmm2, %xmm4
; SSSE3-NEXT: pxor %xmm9, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm5, %xmm4		; SSSE3-NEXT: pcmpgtd %xmm5, %xmm4
		; SSSE3-NEXT: pand %xmm4, %xmm1
		; SSSE3-NEXT: movdqa %xmm2, %xmm4
		; SSSE3-NEXT: psubd %xmm6, %xmm2
		; SSSE3-NEXT: pxor %xmm8, %xmm6
		; SSSE3-NEXT: pxor %xmm8, %xmm4
		; SSSE3-NEXT: pcmpgtd %xmm6, %xmm4
; SSSE3-NEXT: pand %xmm4, %xmm2		; SSSE3-NEXT: pand %xmm4, %xmm2
; SSSE3-NEXT: pandn %xmm6, %xmm4		; SSSE3-NEXT: movdqa %xmm7, %xmm4
; SSSE3-NEXT: por %xmm2, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: psubd %xmm6, %xmm4		; SSSE3-NEXT: pxor %xmm3, %xmm8
; SSSE3-NEXT: movdqa %xmm7, %xmm2		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm8
; SSSE3-NEXT: pxor %xmm9, %xmm2
; SSSE3-NEXT: pxor %xmm3, %xmm9
; SSSE3-NEXT: pcmpgtd %xmm2, %xmm9
; SSSE3-NEXT: pand %xmm9, %xmm3
; SSSE3-NEXT: pandn %xmm7, %xmm9
; SSSE3-NEXT: por %xmm9, %xmm3
; SSSE3-NEXT: psubd %xmm7, %xmm3		; SSSE3-NEXT: psubd %xmm7, %xmm3
; SSSE3-NEXT: movdqa %xmm4, %xmm2		; SSSE3-NEXT: pand %xmm8, %xmm3
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v16i32:		; SSE41-LABEL: v16i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pmaxud %xmm4, %xmm0		; SSE41-NEXT: pmaxud %xmm4, %xmm0
; SSE41-NEXT: psubd %xmm4, %xmm0		; SSE41-NEXT: psubd %xmm4, %xmm0
; SSE41-NEXT: pmaxud %xmm5, %xmm1		; SSE41-NEXT: pmaxud %xmm5, %xmm1
; SSE41-NEXT: psubd %xmm5, %xmm1		; SSE41-NEXT: psubd %xmm5, %xmm1
▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
; SSE2-NEXT: movdqa %xmm2, %xmm4		; SSE2-NEXT: movdqa %xmm2, %xmm4
; SSE2-NEXT: pcmpgtd %xmm3, %xmm4		; SSE2-NEXT: pcmpgtd %xmm3, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm3, %xmm2		; SSE2-NEXT: pcmpeqd %xmm3, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; SSE2-NEXT: pand %xmm5, %xmm2		; SSE2-NEXT: pand %xmm5, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
; SSE2-NEXT: por %xmm2, %xmm3		; SSE2-NEXT: por %xmm2, %xmm3
; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: pandn %xmm1, %xmm3
; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: psubq %xmm1, %xmm0		; SSE2-NEXT: psubq %xmm1, %xmm0
		; SSE2-NEXT: pand %xmm3, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v2i64:		; SSSE3-LABEL: v2i64:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]		; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSSE3-NEXT: movdqa %xmm1, %xmm3		; SSSE3-NEXT: movdqa %xmm1, %xmm3
; SSSE3-NEXT: pxor %xmm2, %xmm3		; SSSE3-NEXT: pxor %xmm2, %xmm3
; SSSE3-NEXT: pxor %xmm0, %xmm2		; SSSE3-NEXT: pxor %xmm0, %xmm2
; SSSE3-NEXT: movdqa %xmm2, %xmm4		; SSSE3-NEXT: movdqa %xmm2, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm3, %xmm4		; SSSE3-NEXT: pcmpgtd %xmm3, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm3, %xmm2		; SSSE3-NEXT: pcmpeqd %xmm3, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; SSSE3-NEXT: pand %xmm5, %xmm2		; SSSE3-NEXT: pand %xmm5, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
; SSSE3-NEXT: por %xmm2, %xmm3		; SSSE3-NEXT: por %xmm2, %xmm3
; SSSE3-NEXT: pand %xmm3, %xmm0
; SSSE3-NEXT: pandn %xmm1, %xmm3
; SSSE3-NEXT: por %xmm3, %xmm0
; SSSE3-NEXT: psubq %xmm1, %xmm0		; SSSE3-NEXT: psubq %xmm1, %xmm0
		; SSSE3-NEXT: pand %xmm3, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v2i64:		; SSE41-LABEL: v2i64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm2		; SSE41-NEXT: movdqa %xmm0, %xmm2
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]		; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: movdqa %xmm1, %xmm3		; SSE41-NEXT: movdqa %xmm1, %xmm3
; SSE41-NEXT: pxor %xmm0, %xmm3		; SSE41-NEXT: pxor %xmm0, %xmm3
; SSE41-NEXT: pxor %xmm2, %xmm0		; SSE41-NEXT: pxor %xmm2, %xmm0
; SSE41-NEXT: movdqa %xmm0, %xmm4		; SSE41-NEXT: movdqa %xmm0, %xmm4
; SSE41-NEXT: pcmpgtd %xmm3, %xmm4		; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm3, %xmm0		; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; SSE41-NEXT: pand %xmm5, %xmm0		; SSE41-NEXT: pand %xmm5, %xmm0
; SSE41-NEXT: por %xmm4, %xmm0		; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: movdqa %xmm1, %xmm3		; SSE41-NEXT: psubq %xmm1, %xmm2
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3		; SSE41-NEXT: pxor %xmm1, %xmm1
; SSE41-NEXT: psubq %xmm1, %xmm3		; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
; SSE41-NEXT: movdqa %xmm3, %xmm0		; SSE41-NEXT: movapd %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v2i64:		; AVX1-LABEL: v2i64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3		; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3
; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2		; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2
; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0
		; AVX1-NEXT: vpand %xmm0, %xmm2, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: v2i64:		; AVX2-LABEL: v2i64:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]		; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3		; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3
; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2		; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2
; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2		; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0
		; AVX2-NEXT: vpand %xmm0, %xmm2, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: v2i64:		; AVX512-LABEL: v2i64:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vpsubq %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpsubq %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <2 x i64> @llvm.usub.sat.v2i64(<2 x i64> %x, <2 x i64> %y)		%z = call <2 x i64> @llvm.usub.sat.v2i64(<2 x i64> %x, <2 x i64> %y)
ret <2 x i64> %z		ret <2 x i64> %z
}		}

define <4 x i64> @v4i64(<4 x i64> %x, <4 x i64> %y) nounwind {		define <4 x i64> @v4i64(<4 x i64> %x, <4 x i64> %y) nounwind {
; SSE2-LABEL: v4i64:		; SSE2-LABEL: v4i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm0, %xmm5
		; SSE2-NEXT: psubq %xmm2, %xmm0
		; SSE2-NEXT: pxor %xmm4, %xmm2
; SSE2-NEXT: pxor %xmm4, %xmm5		; SSE2-NEXT: pxor %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm0, %xmm6		; SSE2-NEXT: movdqa %xmm5, %xmm6
; SSE2-NEXT: pxor %xmm4, %xmm6		; SSE2-NEXT: pcmpgtd %xmm2, %xmm6
; SSE2-NEXT: movdqa %xmm6, %xmm7		; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
; SSE2-NEXT: pcmpgtd %xmm5, %xmm7		; SSE2-NEXT: pcmpeqd %xmm2, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm8 = xmm7[0,0,2,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,1,3,3]
; SSE2-NEXT: pcmpeqd %xmm5, %xmm6		; SSE2-NEXT: pand %xmm7, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]
; SSE2-NEXT: pand %xmm8, %xmm5		; SSE2-NEXT: por %xmm2, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]		; SSE2-NEXT: pand %xmm5, %xmm0
; SSE2-NEXT: por %xmm5, %xmm6
; SSE2-NEXT: pand %xmm6, %xmm0
; SSE2-NEXT: pandn %xmm2, %xmm6
; SSE2-NEXT: por %xmm6, %xmm0
; SSE2-NEXT: psubq %xmm2, %xmm0
; SSE2-NEXT: movdqa %xmm3, %xmm2		; SSE2-NEXT: movdqa %xmm3, %xmm2
; SSE2-NEXT: pxor %xmm4, %xmm2		; SSE2-NEXT: pxor %xmm4, %xmm2
; SSE2-NEXT: pxor %xmm1, %xmm4		; SSE2-NEXT: pxor %xmm1, %xmm4
; SSE2-NEXT: movdqa %xmm4, %xmm5		; SSE2-NEXT: movdqa %xmm4, %xmm5
; SSE2-NEXT: pcmpgtd %xmm2, %xmm5		; SSE2-NEXT: pcmpgtd %xmm2, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm2, %xmm4		; SSE2-NEXT: pcmpeqd %xmm2, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]
; SSE2-NEXT: pand %xmm6, %xmm2		; SSE2-NEXT: pand %xmm6, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
; SSE2-NEXT: por %xmm2, %xmm4		; SSE2-NEXT: por %xmm2, %xmm4
; SSE2-NEXT: pand %xmm4, %xmm1
; SSE2-NEXT: pandn %xmm3, %xmm4
; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: psubq %xmm3, %xmm1		; SSE2-NEXT: psubq %xmm3, %xmm1
		; SSE2-NEXT: pand %xmm4, %xmm1
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v4i64:		; SSSE3-LABEL: v4i64:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]
; SSSE3-NEXT: movdqa %xmm2, %xmm5		; SSSE3-NEXT: movdqa %xmm0, %xmm5
		; SSSE3-NEXT: psubq %xmm2, %xmm0
		; SSSE3-NEXT: pxor %xmm4, %xmm2
; SSSE3-NEXT: pxor %xmm4, %xmm5		; SSSE3-NEXT: pxor %xmm4, %xmm5
; SSSE3-NEXT: movdqa %xmm0, %xmm6		; SSSE3-NEXT: movdqa %xmm5, %xmm6
; SSSE3-NEXT: pxor %xmm4, %xmm6		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm6
; SSSE3-NEXT: movdqa %xmm6, %xmm7		; SSSE3-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
; SSSE3-NEXT: pcmpgtd %xmm5, %xmm7		; SSSE3-NEXT: pcmpeqd %xmm2, %xmm5
; SSSE3-NEXT: pshufd {{.*#+}} xmm8 = xmm7[0,0,2,2]		; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,1,3,3]
; SSSE3-NEXT: pcmpeqd %xmm5, %xmm6		; SSSE3-NEXT: pand %xmm7, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]
; SSSE3-NEXT: pand %xmm8, %xmm5		; SSSE3-NEXT: por %xmm2, %xmm5
; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]		; SSSE3-NEXT: pand %xmm5, %xmm0
; SSSE3-NEXT: por %xmm5, %xmm6
; SSSE3-NEXT: pand %xmm6, %xmm0
; SSSE3-NEXT: pandn %xmm2, %xmm6
; SSSE3-NEXT: por %xmm6, %xmm0
; SSSE3-NEXT: psubq %xmm2, %xmm0
; SSSE3-NEXT: movdqa %xmm3, %xmm2		; SSSE3-NEXT: movdqa %xmm3, %xmm2
; SSSE3-NEXT: pxor %xmm4, %xmm2		; SSSE3-NEXT: pxor %xmm4, %xmm2
; SSSE3-NEXT: pxor %xmm1, %xmm4		; SSSE3-NEXT: pxor %xmm1, %xmm4
; SSSE3-NEXT: movdqa %xmm4, %xmm5		; SSSE3-NEXT: movdqa %xmm4, %xmm5
; SSSE3-NEXT: pcmpgtd %xmm2, %xmm5		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm5
; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]		; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm2, %xmm4		; SSSE3-NEXT: pcmpeqd %xmm2, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]
; SSSE3-NEXT: pand %xmm6, %xmm2		; SSSE3-NEXT: pand %xmm6, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
; SSSE3-NEXT: por %xmm2, %xmm4		; SSSE3-NEXT: por %xmm2, %xmm4
; SSSE3-NEXT: pand %xmm4, %xmm1
; SSSE3-NEXT: pandn %xmm3, %xmm4
; SSSE3-NEXT: por %xmm4, %xmm1
; SSSE3-NEXT: psubq %xmm3, %xmm1		; SSSE3-NEXT: psubq %xmm3, %xmm1
		; SSSE3-NEXT: pand %xmm4, %xmm1
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v4i64:		; SSE41-LABEL: v4i64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm4		; SSE41-NEXT: movdqa %xmm0, %xmm4
; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [9223372039002259456,9223372039002259456]		; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: movdqa %xmm2, %xmm5		; SSE41-NEXT: movdqa %xmm0, %xmm5
		; SSE41-NEXT: psubq %xmm2, %xmm4
		; SSE41-NEXT: pxor %xmm6, %xmm2
; SSE41-NEXT: pxor %xmm6, %xmm5		; SSE41-NEXT: pxor %xmm6, %xmm5
; SSE41-NEXT: movdqa %xmm0, %xmm7		; SSE41-NEXT: movdqa %xmm5, %xmm0
; SSE41-NEXT: pxor %xmm6, %xmm7		; SSE41-NEXT: pcmpgtd %xmm2, %xmm0
; SSE41-NEXT: movdqa %xmm7, %xmm0		; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm0[0,0,2,2]
; SSE41-NEXT: pcmpgtd %xmm5, %xmm0		; SSE41-NEXT: pcmpeqd %xmm2, %xmm5
; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,1,3,3]
; SSE41-NEXT: pcmpeqd %xmm5, %xmm7		; SSE41-NEXT: pand %xmm7, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]		; SSE41-NEXT: por %xmm2, %xmm0
; SSE41-NEXT: pand %xmm8, %xmm5		; SSE41-NEXT: pxor %xmm2, %xmm2
; SSE41-NEXT: por %xmm5, %xmm0		; SSE41-NEXT: pxor %xmm5, %xmm5
; SSE41-NEXT: movdqa %xmm2, %xmm5
; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5		; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5
; SSE41-NEXT: psubq %xmm2, %xmm5
; SSE41-NEXT: movdqa %xmm3, %xmm0		; SSE41-NEXT: movdqa %xmm3, %xmm0
; SSE41-NEXT: pxor %xmm6, %xmm0		; SSE41-NEXT: pxor %xmm6, %xmm0
; SSE41-NEXT: pxor %xmm1, %xmm6		; SSE41-NEXT: pxor %xmm1, %xmm6
; SSE41-NEXT: movdqa %xmm6, %xmm2		; SSE41-NEXT: movdqa %xmm6, %xmm4
; SSE41-NEXT: pcmpgtd %xmm0, %xmm2		; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm6		; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]
; SSE41-NEXT: pand %xmm4, %xmm0		; SSE41-NEXT: pand %xmm7, %xmm0
; SSE41-NEXT: por %xmm2, %xmm0		; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: movdqa %xmm3, %xmm2		; SSE41-NEXT: psubq %xmm3, %xmm1
; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2		; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
; SSE41-NEXT: psubq %xmm3, %xmm2		; SSE41-NEXT: movapd %xmm5, %xmm0
; SSE41-NEXT: movdqa %xmm5, %xmm0		; SSE41-NEXT: movapd %xmm2, %xmm1
; SSE41-NEXT: movdqa %xmm2, %xmm1
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v4i64:		; AVX1-LABEL: v4i64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm4		; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm4
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
Show All 28 Lines	; AVX512-NEXT: retq
%z = call <4 x i64> @llvm.usub.sat.v4i64(<4 x i64> %x, <4 x i64> %y)		%z = call <4 x i64> @llvm.usub.sat.v4i64(<4 x i64> %x, <4 x i64> %y)
ret <4 x i64> %z		ret <4 x i64> %z
}		}

define <8 x i64> @v8i64(<8 x i64> %x, <8 x i64> %y) nounwind {		define <8 x i64> @v8i64(<8 x i64> %x, <8 x i64> %y) nounwind {
; SSE2-LABEL: v8i64:		; SSE2-LABEL: v8i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]		; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]
; SSE2-NEXT: movdqa %xmm4, %xmm9		; SSE2-NEXT: movdqa %xmm0, %xmm9
; SSE2-NEXT: pxor %xmm8, %xmm9
; SSE2-NEXT: movdqa %xmm0, %xmm10
; SSE2-NEXT: pxor %xmm8, %xmm10
; SSE2-NEXT: movdqa %xmm10, %xmm11
; SSE2-NEXT: pcmpgtd %xmm9, %xmm11
; SSE2-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm9, %xmm10
; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm10[1,1,3,3]
; SSE2-NEXT: pand %xmm12, %xmm9
; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm11[1,1,3,3]
; SSE2-NEXT: por %xmm9, %xmm10
; SSE2-NEXT: pand %xmm10, %xmm0
; SSE2-NEXT: pandn %xmm4, %xmm10
; SSE2-NEXT: por %xmm10, %xmm0
; SSE2-NEXT: psubq %xmm4, %xmm0		; SSE2-NEXT: psubq %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm5, %xmm9
; SSE2-NEXT: pxor %xmm8, %xmm9
; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: pxor %xmm8, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: movdqa %xmm4, %xmm10		; SSE2-NEXT: pxor %xmm8, %xmm9
; SSE2-NEXT: pcmpgtd %xmm9, %xmm10		; SSE2-NEXT: movdqa %xmm9, %xmm10
		; SSE2-NEXT: pcmpgtd %xmm4, %xmm10
; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm9, %xmm4		; SSE2-NEXT: pcmpeqd %xmm4, %xmm9
; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm4[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm9[1,1,3,3]
; SSE2-NEXT: pand %xmm11, %xmm9		; SSE2-NEXT: pand %xmm11, %xmm9
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm10[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm10[1,1,3,3]
; SSE2-NEXT: por %xmm9, %xmm4		; SSE2-NEXT: por %xmm9, %xmm4
; SSE2-NEXT: pand %xmm4, %xmm1		; SSE2-NEXT: pand %xmm4, %xmm0
; SSE2-NEXT: pandn %xmm5, %xmm4		; SSE2-NEXT: movdqa %xmm1, %xmm9
; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: psubq %xmm5, %xmm1		; SSE2-NEXT: psubq %xmm5, %xmm1
; SSE2-NEXT: movdqa %xmm6, %xmm4
; SSE2-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: movdqa %xmm2, %xmm5
; SSE2-NEXT: pxor %xmm8, %xmm5		; SSE2-NEXT: pxor %xmm8, %xmm5
; SSE2-NEXT: movdqa %xmm5, %xmm9		; SSE2-NEXT: pxor %xmm8, %xmm9
; SSE2-NEXT: pcmpgtd %xmm4, %xmm9		; SSE2-NEXT: movdqa %xmm9, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm9[0,0,2,2]		; SSE2-NEXT: pcmpgtd %xmm5, %xmm4
; SSE2-NEXT: pcmpeqd %xmm4, %xmm5		; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm4[0,0,2,2]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]		; SSE2-NEXT: pcmpeqd %xmm5, %xmm9
; SSE2-NEXT: pand %xmm10, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm9[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm9[1,1,3,3]
		; SSE2-NEXT: pand %xmm10, %xmm5
		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
		; SSE2-NEXT: por %xmm5, %xmm4
		; SSE2-NEXT: pand %xmm4, %xmm1
		; SSE2-NEXT: movdqa %xmm2, %xmm4
		; SSE2-NEXT: psubq %xmm6, %xmm2
		; SSE2-NEXT: pxor %xmm8, %xmm6
		; SSE2-NEXT: pxor %xmm8, %xmm4
		; SSE2-NEXT: movdqa %xmm4, %xmm5
		; SSE2-NEXT: pcmpgtd %xmm6, %xmm5
		; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm5[0,0,2,2]
		; SSE2-NEXT: pcmpeqd %xmm6, %xmm4
		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
		; SSE2-NEXT: pand %xmm9, %xmm4
		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSE2-NEXT: por %xmm4, %xmm5		; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: pand %xmm5, %xmm2		; SSE2-NEXT: pand %xmm5, %xmm2
; SSE2-NEXT: pandn %xmm6, %xmm5
; SSE2-NEXT: por %xmm5, %xmm2
; SSE2-NEXT: psubq %xmm6, %xmm2
; SSE2-NEXT: movdqa %xmm7, %xmm4		; SSE2-NEXT: movdqa %xmm7, %xmm4
; SSE2-NEXT: pxor %xmm8, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: pxor %xmm3, %xmm8		; SSE2-NEXT: pxor %xmm3, %xmm8
; SSE2-NEXT: movdqa %xmm8, %xmm5		; SSE2-NEXT: movdqa %xmm8, %xmm5
; SSE2-NEXT: pcmpgtd %xmm4, %xmm5		; SSE2-NEXT: pcmpgtd %xmm4, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm4, %xmm8		; SSE2-NEXT: pcmpeqd %xmm4, %xmm8
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm8[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm8[1,1,3,3]
; SSE2-NEXT: pand %xmm6, %xmm4		; SSE2-NEXT: pand %xmm6, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSE2-NEXT: por %xmm4, %xmm5		; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: pand %xmm5, %xmm3
; SSE2-NEXT: pandn %xmm7, %xmm5
; SSE2-NEXT: por %xmm5, %xmm3
; SSE2-NEXT: psubq %xmm7, %xmm3		; SSE2-NEXT: psubq %xmm7, %xmm3
		; SSE2-NEXT: pand %xmm5, %xmm3
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v8i64:		; SSSE3-LABEL: v8i64:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]		; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]
; SSSE3-NEXT: movdqa %xmm4, %xmm9		; SSSE3-NEXT: movdqa %xmm0, %xmm9
; SSSE3-NEXT: pxor %xmm8, %xmm9
; SSSE3-NEXT: movdqa %xmm0, %xmm10
; SSSE3-NEXT: pxor %xmm8, %xmm10
; SSSE3-NEXT: movdqa %xmm10, %xmm11
; SSSE3-NEXT: pcmpgtd %xmm9, %xmm11
; SSSE3-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm9, %xmm10
; SSSE3-NEXT: pshufd {{.*#+}} xmm9 = xmm10[1,1,3,3]
; SSSE3-NEXT: pand %xmm12, %xmm9
; SSSE3-NEXT: pshufd {{.*#+}} xmm10 = xmm11[1,1,3,3]
; SSSE3-NEXT: por %xmm9, %xmm10
; SSSE3-NEXT: pand %xmm10, %xmm0
; SSSE3-NEXT: pandn %xmm4, %xmm10
; SSSE3-NEXT: por %xmm10, %xmm0
; SSSE3-NEXT: psubq %xmm4, %xmm0		; SSSE3-NEXT: psubq %xmm4, %xmm0
; SSSE3-NEXT: movdqa %xmm5, %xmm9
; SSSE3-NEXT: pxor %xmm8, %xmm9
; SSSE3-NEXT: movdqa %xmm1, %xmm4
; SSSE3-NEXT: pxor %xmm8, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: movdqa %xmm4, %xmm10		; SSSE3-NEXT: pxor %xmm8, %xmm9
; SSSE3-NEXT: pcmpgtd %xmm9, %xmm10		; SSSE3-NEXT: movdqa %xmm9, %xmm10
		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm10
; SSSE3-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]		; SSSE3-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm9, %xmm4		; SSSE3-NEXT: pcmpeqd %xmm4, %xmm9
; SSSE3-NEXT: pshufd {{.*#+}} xmm9 = xmm4[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm9 = xmm9[1,1,3,3]
; SSSE3-NEXT: pand %xmm11, %xmm9		; SSSE3-NEXT: pand %xmm11, %xmm9
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm10[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm10[1,1,3,3]
; SSSE3-NEXT: por %xmm9, %xmm4		; SSSE3-NEXT: por %xmm9, %xmm4
; SSSE3-NEXT: pand %xmm4, %xmm1		; SSSE3-NEXT: pand %xmm4, %xmm0
; SSSE3-NEXT: pandn %xmm5, %xmm4		; SSSE3-NEXT: movdqa %xmm1, %xmm9
; SSSE3-NEXT: por %xmm4, %xmm1
; SSSE3-NEXT: psubq %xmm5, %xmm1		; SSSE3-NEXT: psubq %xmm5, %xmm1
; SSSE3-NEXT: movdqa %xmm6, %xmm4
; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: movdqa %xmm2, %xmm5
; SSSE3-NEXT: pxor %xmm8, %xmm5		; SSSE3-NEXT: pxor %xmm8, %xmm5
; SSSE3-NEXT: movdqa %xmm5, %xmm9		; SSSE3-NEXT: pxor %xmm8, %xmm9
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm9		; SSSE3-NEXT: movdqa %xmm9, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm10 = xmm9[0,0,2,2]		; SSSE3-NEXT: pcmpgtd %xmm5, %xmm4
; SSSE3-NEXT: pcmpeqd %xmm4, %xmm5		; SSSE3-NEXT: pshufd {{.*#+}} xmm10 = xmm4[0,0,2,2]
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]		; SSSE3-NEXT: pcmpeqd %xmm5, %xmm9
; SSSE3-NEXT: pand %xmm10, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm9[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm9[1,1,3,3]
		; SSSE3-NEXT: pand %xmm10, %xmm5
		; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
		; SSSE3-NEXT: por %xmm5, %xmm4
		; SSSE3-NEXT: pand %xmm4, %xmm1
		; SSSE3-NEXT: movdqa %xmm2, %xmm4
		; SSSE3-NEXT: psubq %xmm6, %xmm2
		; SSSE3-NEXT: pxor %xmm8, %xmm6
		; SSSE3-NEXT: pxor %xmm8, %xmm4
		; SSSE3-NEXT: movdqa %xmm4, %xmm5
		; SSSE3-NEXT: pcmpgtd %xmm6, %xmm5
		; SSSE3-NEXT: pshufd {{.*#+}} xmm9 = xmm5[0,0,2,2]
		; SSSE3-NEXT: pcmpeqd %xmm6, %xmm4
		; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
		; SSSE3-NEXT: pand %xmm9, %xmm4
		; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSSE3-NEXT: por %xmm4, %xmm5		; SSSE3-NEXT: por %xmm4, %xmm5
; SSSE3-NEXT: pand %xmm5, %xmm2		; SSSE3-NEXT: pand %xmm5, %xmm2
; SSSE3-NEXT: pandn %xmm6, %xmm5
; SSSE3-NEXT: por %xmm5, %xmm2
; SSSE3-NEXT: psubq %xmm6, %xmm2
; SSSE3-NEXT: movdqa %xmm7, %xmm4		; SSSE3-NEXT: movdqa %xmm7, %xmm4
; SSSE3-NEXT: pxor %xmm8, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: pxor %xmm3, %xmm8		; SSSE3-NEXT: pxor %xmm3, %xmm8
; SSSE3-NEXT: movdqa %xmm8, %xmm5		; SSSE3-NEXT: movdqa %xmm8, %xmm5
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm5		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm5
; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]		; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm4, %xmm8		; SSSE3-NEXT: pcmpeqd %xmm4, %xmm8
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm8[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm8[1,1,3,3]
; SSSE3-NEXT: pand %xmm6, %xmm4		; SSSE3-NEXT: pand %xmm6, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]		; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSSE3-NEXT: por %xmm4, %xmm5		; SSSE3-NEXT: por %xmm4, %xmm5
; SSSE3-NEXT: pand %xmm5, %xmm3
; SSSE3-NEXT: pandn %xmm7, %xmm5
; SSSE3-NEXT: por %xmm5, %xmm3
; SSSE3-NEXT: psubq %xmm7, %xmm3		; SSSE3-NEXT: psubq %xmm7, %xmm3
		; SSSE3-NEXT: pand %xmm5, %xmm3
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v8i64:		; SSE41-LABEL: v8i64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm1, %xmm8		; SSE41-NEXT: movdqa %xmm0, %xmm9
; SSE41-NEXT: movdqa %xmm0, %xmm11
; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259456,9223372039002259456]		; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: movdqa %xmm4, %xmm9		; SSE41-NEXT: movdqa %xmm0, %xmm8
; SSE41-NEXT: pxor %xmm10, %xmm9
; SSE41-NEXT: movdqa %xmm0, %xmm1
; SSE41-NEXT: pxor %xmm10, %xmm1
; SSE41-NEXT: movdqa %xmm1, %xmm0
; SSE41-NEXT: pcmpgtd %xmm9, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm0[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm9, %xmm1
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; SSE41-NEXT: pand %xmm12, %xmm1
; SSE41-NEXT: por %xmm1, %xmm0
; SSE41-NEXT: movdqa %xmm4, %xmm9
; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm9
; SSE41-NEXT: psubq %xmm4, %xmm9		; SSE41-NEXT: psubq %xmm4, %xmm9
; SSE41-NEXT: movdqa %xmm5, %xmm0		; SSE41-NEXT: pxor %xmm10, %xmm4
; SSE41-NEXT: pxor %xmm10, %xmm0		; SSE41-NEXT: pxor %xmm10, %xmm8
; SSE41-NEXT: movdqa %xmm8, %xmm1		; SSE41-NEXT: movdqa %xmm8, %xmm0
; SSE41-NEXT: pxor %xmm10, %xmm1		; SSE41-NEXT: pcmpgtd %xmm4, %xmm0
; SSE41-NEXT: movdqa %xmm1, %xmm4		; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm0[0,0,2,2]
; SSE41-NEXT: pcmpgtd %xmm0, %xmm4		; SSE41-NEXT: pcmpeqd %xmm4, %xmm8
; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm4[0,0,2,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm8[1,1,3,3]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm1		; SSE41-NEXT: pand %xmm11, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
; SSE41-NEXT: pand %xmm11, %xmm0
; SSE41-NEXT: por %xmm4, %xmm0		; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: movdqa %xmm5, %xmm1		; SSE41-NEXT: pxor %xmm8, %xmm8
; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm1		; SSE41-NEXT: pxor %xmm11, %xmm11
		; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm11
		; SSE41-NEXT: movdqa %xmm1, %xmm0
; SSE41-NEXT: psubq %xmm5, %xmm1		; SSE41-NEXT: psubq %xmm5, %xmm1
; SSE41-NEXT: movdqa %xmm6, %xmm0		; SSE41-NEXT: pxor %xmm10, %xmm5
; SSE41-NEXT: pxor %xmm10, %xmm0		; SSE41-NEXT: pxor %xmm10, %xmm0
; SSE41-NEXT: movdqa %xmm2, %xmm4		; SSE41-NEXT: movdqa %xmm0, %xmm4
; SSE41-NEXT: pxor %xmm10, %xmm4		; SSE41-NEXT: pcmpgtd %xmm5, %xmm4
; SSE41-NEXT: movdqa %xmm4, %xmm5		; SSE41-NEXT: pshufd {{.*#+}} xmm9 = xmm4[0,0,2,2]
; SSE41-NEXT: pcmpgtd %xmm0, %xmm5		; SSE41-NEXT: pcmpeqd %xmm5, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm5[0,0,2,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm4		; SSE41-NEXT: pand %xmm9, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]		; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: pand %xmm8, %xmm0		; SSE41-NEXT: pxor %xmm5, %xmm5
; SSE41-NEXT: por %xmm5, %xmm0		; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
; SSE41-NEXT: movdqa %xmm6, %xmm4		; SSE41-NEXT: movdqa %xmm2, %xmm0
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4		; SSE41-NEXT: psubq %xmm6, %xmm2
; SSE41-NEXT: psubq %xmm6, %xmm4		; SSE41-NEXT: pxor %xmm10, %xmm6
		; SSE41-NEXT: pxor %xmm10, %xmm0
		; SSE41-NEXT: movdqa %xmm0, %xmm1
		; SSE41-NEXT: pcmpgtd %xmm6, %xmm1
		; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]
		; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
		; SSE41-NEXT: pand %xmm4, %xmm0
		; SSE41-NEXT: por %xmm1, %xmm0
		; SSE41-NEXT: pxor %xmm6, %xmm6
		; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
; SSE41-NEXT: movdqa %xmm7, %xmm0		; SSE41-NEXT: movdqa %xmm7, %xmm0
; SSE41-NEXT: pxor %xmm10, %xmm0		; SSE41-NEXT: pxor %xmm10, %xmm0
; SSE41-NEXT: pxor %xmm3, %xmm10		; SSE41-NEXT: pxor %xmm3, %xmm10
; SSE41-NEXT: movdqa %xmm10, %xmm2		; SSE41-NEXT: movdqa %xmm10, %xmm1
; SSE41-NEXT: pcmpgtd %xmm0, %xmm2		; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]		; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm10		; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[1,1,3,3]		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[1,1,3,3]
; SSE41-NEXT: pand %xmm5, %xmm0		; SSE41-NEXT: pand %xmm2, %xmm0
; SSE41-NEXT: por %xmm2, %xmm0		; SSE41-NEXT: por %xmm1, %xmm0
; SSE41-NEXT: movdqa %xmm7, %xmm5		; SSE41-NEXT: psubq %xmm7, %xmm3
; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5		; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm8
; SSE41-NEXT: psubq %xmm7, %xmm5		; SSE41-NEXT: movapd %xmm11, %xmm0
; SSE41-NEXT: movdqa %xmm9, %xmm0		; SSE41-NEXT: movapd %xmm5, %xmm1
; SSE41-NEXT: movdqa %xmm4, %xmm2		; SSE41-NEXT: movapd %xmm6, %xmm2
; SSE41-NEXT: movdqa %xmm5, %xmm3		; SSE41-NEXT: movapd %xmm8, %xmm3
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v8i64:		; AVX1-LABEL: v8i64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4		; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [9223372036854775808,9223372036854775808]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm6		; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm6
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm7		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm7
▲ Show 20 Lines • Show All 90 Lines • Show Last 20 Lines