This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/X86/
-
Target/
-
X86/
3/8
X86ISelLowering.cpp
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
uadd_sat.ll
-
uadd_sat_vec.ll
-
usub_sat.ll
-
usub_sat_vec.ll

Differential D59006

[x86] improve the default expansion of uaddsat/usubsat
ClosedPublic

Authored by spatel on Mar 5 2019, 4:12 PM.

Download Raw Diff

Details

Reviewers

nikic
craig.topper
RKSimon
lebedev.ri

Commits

rG7d676dfd86fa: [x86] improve the default expansion of uaddsat/usubsat
rL356855: [x86] improve the default expansion of uaddsat/usubsat

Summary

This is yet another step towards solving PR14613 (almost there!):
https://bugs.llvm.org/show_bug.cgi?id=14613

uaddsat X, Y --> (X >u (X + Y)) ? -1 : X + Y
usubsat X, Y --> (X >u Y) ? X - Y : 0

We can't count on a sane vector ISA, so override the default (umin/umax) expansion of unsigned add/sub saturate in cases where we do not have umin/umax.

There may be some small AVX1 opportunities still lurking, but I saw regressions if we allow those transforms wholesale, so stopping here to make sure things look right/better.

Diff Detail

Event Timeline

spatel created this revision.Mar 5 2019, 4:12 PM

Herald added a project: Restricted Project. · View Herald TranscriptMar 5 2019, 4:12 PM

Herald added subscribers: hiraditya, mcrosier. · View Herald Transcript

RKSimon added inline comments.Mar 6 2019, 9:05 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
36147	This only differs from the default expansion by the optimal CondCode to use in the select - ideally we'd have a way for TLI to indicate 'preferred' comparison codes - x86/sse is probably not alone in having limited comparisons (SGT + EQ) and the others having to be custom handled.

spatel planned changes to this revision.Mar 6 2019, 9:36 AM

spatel marked an inline comment as done.

spatel added inline comments.

llvm/lib/Target/X86/X86ISelLowering.cpp
36147	Yes, if we can thread the predicate needle, we can get the optimal x86 code by changing the generic expansion, rather than adding x86-specific combines. Looking at this a bit closer: the key to making this generically better is realizing that this select shouldn't be a select if we have a vector 0/-1 mask created by the compare. In that case, we should only have a bitwise logic op (and/or), never a pblendv or pandn. Unfortunately, it seems we're missing some generic and/or x86-specific min/max transforms to back that up, so I need to chase those down. We may also be suffering from the fact that D58974 is not a generic combine. Let me know if I should deal with that one. @nikic - I just want to confirm: are the addsat/subsat tests in trunk only for x86 right now? If so, I want to duplicate them for AArch64 at least, so we know that we're making things better for more than just x86.

nikic added inline comments.Mar 6 2019, 9:47 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
36147	I just want to confirm: are the addsat/subsat tests in trunk only for x86 right now? If so, I want to duplicate them for AArch64 at least, so we know that we're making things better for more than just x86. Yes, right now we're testing codegen only for X86. I was planning to look into better AArch64 codegen soon. It's probably not a good target to test generic expansions, because iirc it has instructions covering the full set of legal vector types.

RKSimon mentioned this in rL355533: [DAGCombine] Improve select (not Cond), N1, N2 -> select Cond, N2, N1 fold.Mar 6 2019, 10:52 AM

RKSimon mentioned this in rG9d6347cfc19e: [DAGCombine] Improve select (not Cond), N1, N2 -> select Cond, N2, N1 fold.

spatel mentioned this in D59066: [TargetLowering] improve the default expansion of uaddsat/usubsat.Mar 6 2019, 6:10 PM

spatel mentioned this in rL356332: [TargetLowering] improve the default expansion of uaddsat/usubsat.Mar 17 2019, 7:57 AM

spatel mentioned this in rG6a6e808b699b: [TargetLowering] improve the default expansion of uaddsat/usubsat.

Patch updated:
We improved the generic expansion slightly with D59066. That leaves customization for x86 which is required because umin/umax are custom lowered even if we don't actually have the instructions pmaxud/pmaxuq. That's not a generic lowering problem; that's an x86 problem.

In the earlier draft, I had made this a combine, but that seems pretty clearly wrong. We're just custom lowering a few specific vector types. Test changes look pretty close what we had before.

LGTM - thanks!

llvm/lib/Target/X86/X86ISelLowering.cpp
23895	Move these down inside the "if (VT.is128BitVector())" loop ?

This revision is now accepted and ready to land.Mar 21 2019, 8:45 AM

nikic added inline comments.Mar 21 2019, 9:58 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
23895	Or also replace the usages in the i1 branch :)
23914	Instead of hardcoding specific types and subtargets, maybe check operation legality? if (Op.getOpcode() == ISD::UADDSAT && !TLI.isOperationLegal(ISD::UMIN, VT)) { // ... } if (Op.getOpcode() == ISD::USUBSAT && !TLI.isOperationLegal(ISD::UMAX, VT)) { // ... }

This LG, but i'm not sure i understand how this is related to D59066?
Here, we are clearly end up with no select in ASM.
But in D59066 we expand to this pattern.
So there is something else that is able to do the transform that we do manually in D59066?
Should D59066 be doing something else to simply trigger the existing transform?

In D59006#1438184, @lebedev.ri wrote:

This LG, but i'm not sure i understand how this is related to D59066?
Here, we are clearly end up with no select in ASM.
But in D59066 we expand to this pattern.
So there is something else that is able to do the transform that we do manually in D59066?
Should D59066 be doing something else to simply trigger the existing transform?

This case should be caught by D59174 after the select has been expanded into bitwise logic. D59066 forces bitwise logic even if the select would not usually be expanded.

In D59006#1438184, @lebedev.ri wrote:

This LG, but i'm not sure i understand how this is related to D59066?
Here, we are clearly end up with no select in ASM.
But in D59066 we expand to this pattern.
So there is something else that is able to do the transform that we do manually in D59066?
Should D59066 be doing something else to simply trigger the existing transform?

Sorry - this sequence of patches got confusing.
I started here just trying to improve x86 codegen, but then we thought other targets might benefit from something similar.
So D59066 was initially a superset of this change along with the select improvement.
But then it became clear that the generic expansion is mostly as good as it could be - if you have a decent ISA, not SSE. :)
@nikic also added the select combine to make things generally better.
So, we removed the hacks for x86 from the other patch and hopefully made it clear in this patch that we are working around x86-specific potholes.

llvm/lib/Target/X86/X86ISelLowering.cpp
23895	Yes - that was the intent. I'll do that as a preliminary NFC.
23914	Yes, that does look less fragile.

Closed by commit rL356855: [x86] improve the default expansion of uaddsat/usubsat (authored by spatel). · Explain WhyMar 24 2019, 6:54 AM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in rL357012: [InstCombine] form uaddsat from add+umin (PR14613).Mar 26 2019, 10:48 AM

spatel mentioned this in rG81e8d76f5b63: [InstCombine] form uaddsat from add+umin (PR14613).

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

51 lines

test/

CodeGen/

X86/

16 lines

891 lines

4 lines

742 lines

Diff 189414

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,849 Lines • ▼ Show 20 Lines
setTargetDAGCombine(ISD::VSELECT);		setTargetDAGCombine(ISD::VSELECT);
setTargetDAGCombine(ISD::SELECT);		setTargetDAGCombine(ISD::SELECT);
setTargetDAGCombine(ISD::SHL);		setTargetDAGCombine(ISD::SHL);
setTargetDAGCombine(ISD::SRA);		setTargetDAGCombine(ISD::SRA);
setTargetDAGCombine(ISD::SRL);		setTargetDAGCombine(ISD::SRL);
setTargetDAGCombine(ISD::OR);		setTargetDAGCombine(ISD::OR);
setTargetDAGCombine(ISD::AND);		setTargetDAGCombine(ISD::AND);
setTargetDAGCombine(ISD::ADD);		setTargetDAGCombine(ISD::ADD);
		setTargetDAGCombine(ISD::UADDSAT);
		setTargetDAGCombine(ISD::USUBSAT);
setTargetDAGCombine(ISD::FADD);		setTargetDAGCombine(ISD::FADD);
setTargetDAGCombine(ISD::FSUB);		setTargetDAGCombine(ISD::FSUB);
setTargetDAGCombine(ISD::FNEG);		setTargetDAGCombine(ISD::FNEG);
setTargetDAGCombine(ISD::FMA);		setTargetDAGCombine(ISD::FMA);
setTargetDAGCombine(ISD::FMINNUM);		setTargetDAGCombine(ISD::FMINNUM);
setTargetDAGCombine(ISD::FMAXNUM);		setTargetDAGCombine(ISD::FMAXNUM);
setTargetDAGCombine(ISD::SUB);		setTargetDAGCombine(ISD::SUB);
setTargetDAGCombine(ISD::LOAD);		setTargetDAGCombine(ISD::LOAD);
▲ Show 20 Lines • Show All 22,019 Lines • ▼ Show 20 Lines	assert(Op.getSimpleValueType().is256BitVector() &&
Op.getSimpleValueType().isInteger() &&		Op.getSimpleValueType().isInteger() &&
"Only handle AVX 256-bit vector integer operation");		"Only handle AVX 256-bit vector integer operation");
return split256IntArith(Op, DAG);		return split256IntArith(Op, DAG);
}		}

static SDValue LowerADDSAT_SUBSAT(SDValue Op, SelectionDAG &DAG) {		static SDValue LowerADDSAT_SUBSAT(SDValue Op, SelectionDAG &DAG) {
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
if (VT.getScalarType() == MVT::i1) {		if (VT.getScalarType() == MVT::i1) {
SDLoc dl(Op);		SDLoc dl(Op);
		RKSimonUnsubmitted Not Done Reply Inline Actions Move these down inside the "if (VT.is128BitVector())" loop ? RKSimon: Move these down inside the "if (VT.is128BitVector())" loop ?
		nikicUnsubmitted Not Done Reply Inline Actions Or also replace the usages in the i1 branch :) nikic: Or also replace the usages in the i1 branch :)
		spatelAuthorUnsubmitted Done Reply Inline Actions Yes - that was the intent. I'll do that as a preliminary NFC. spatel: Yes - that was the intent. I'll do that as a preliminary NFC.
switch (Op.getOpcode()) {		switch (Op.getOpcode()) {
default: llvm_unreachable("Expected saturated arithmetic opcode");		default: llvm_unreachable("Expected saturated arithmetic opcode");
case ISD::UADDSAT:		case ISD::UADDSAT:
case ISD::SADDSAT:		case ISD::SADDSAT:
return DAG.getNode(ISD::OR, dl, VT, Op.getOperand(0), Op.getOperand(1));		return DAG.getNode(ISD::OR, dl, VT, Op.getOperand(0), Op.getOperand(1));
case ISD::USUBSAT:		case ISD::USUBSAT:
case ISD::SSUBSAT:		case ISD::SSUBSAT:
return DAG.getNode(ISD::AND, dl, VT, Op.getOperand(0),		return DAG.getNode(ISD::AND, dl, VT, Op.getOperand(0),
DAG.getNOT(dl, Op.getOperand(1), VT));		DAG.getNOT(dl, Op.getOperand(1), VT));
}		}
}		}

assert(Op.getSimpleValueType().is256BitVector() &&		assert(Op.getSimpleValueType().is256BitVector() &&
Op.getSimpleValueType().isInteger() &&		Op.getSimpleValueType().isInteger() &&
"Only handle AVX 256-bit vector integer operation");		"Only handle AVX 256-bit vector integer operation");
return split256IntArith(Op, DAG);		return split256IntArith(Op, DAG);
}		}

static SDValue LowerABS(SDValue Op, const X86Subtarget &Subtarget,		static SDValue LowerABS(SDValue Op, const X86Subtarget &Subtarget,
		nikicUnsubmitted Not Done Reply Inline Actions Instead of hardcoding specific types and subtargets, maybe check operation legality? if (Op.getOpcode() == ISD::UADDSAT && !TLI.isOperationLegal(ISD::UMIN, VT)) { // ... } if (Op.getOpcode() == ISD::USUBSAT && !TLI.isOperationLegal(ISD::UMAX, VT)) { // ... } nikic: Instead of hardcoding specific types and subtargets, maybe check operation legality? ``` if…
		spatelAuthorUnsubmitted Done Reply Inline Actions Yes, that does look less fragile. spatel: Yes, that does look less fragile.
SelectionDAG &DAG) {		SelectionDAG &DAG) {
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
if (VT == MVT::i16 \|\| VT == MVT::i32 \|\| VT == MVT::i64) {		if (VT == MVT::i16 \|\| VT == MVT::i32 \|\| VT == MVT::i64) {
// Since X86 does not have CMOV for 8-bit integer, we don't convert		// Since X86 does not have CMOV for 8-bit integer, we don't convert
// 8-bit integer abs to NEG and CMOV.		// 8-bit integer abs to NEG and CMOV.
SDLoc DL(Op);		SDLoc DL(Op);
SDValue N0 = Op.getOperand(0);		SDValue N0 = Op.getOperand(0);
SDValue Neg = DAG.getNode(X86ISD::SUB, DL, DAG.getVTList(VT, MVT::i32),		SDValue Neg = DAG.getNode(X86ISD::SUB, DL, DAG.getVTList(VT, MVT::i32),
▲ Show 20 Lines • Show All 12,185 Lines • ▼ Show 20 Lines	if (isPowerOf2_64(AbsMulAmt - 1)) {
NewMul = DAG.getNode(ISD::SUB, DL, VT, NewMul, N->getOperand(0));		NewMul = DAG.getNode(ISD::SUB, DL, VT, NewMul, N->getOperand(0));
NewMul = DAG.getNode(ISD::SUB, DL, VT, NewMul, N->getOperand(0));		NewMul = DAG.getNode(ISD::SUB, DL, VT, NewMul, N->getOperand(0));
}		}
}		}

return NewMul;		return NewMul;
}		}

		/// Override the default expansion of uaddsat/usubsat to overcome the lumpy x86
		/// ISA. If:
		/// 1. There is no paddus/psubus.
		/// 2. And there is no pminu/pmaxu.
		/// 3. But there is general math for this type (ie, this isn't a 256-bit
		/// integer vector on AVX1)...
		/// Then we are better off expanding this unsigned saturated add using
		/// cmp+select rather than the default expansion that uses umin/umax.
		static SDValue combineUAddSubSat(SDNode *N, SelectionDAG &DAG,
		const X86Subtarget &Subtarget) {
		// Early exit for scalars. This is not strictly necessary (the TLI checks
		// should ensure this), but the goal is to improve vector codegen.
		EVT VT = N->getValueType(0);
		if (!VT.isVector())
		return SDValue();

		const TargetLowering &TLI = DAG.getTargetLoweringInfo();
		EVT SetCCResultType = TLI.getSetCCResultType(DAG.getDataLayout(),
		*DAG.getContext(), VT);
		SDValue X = N->getOperand(0);
		SDValue Y = N->getOperand(1);

		// uaddsat X, Y --> (X >u (X + Y)) ? -1 : X + Y
		if (N->getOpcode() == ISD::UADDSAT &&
		TLI.isOperationExpand(ISD::UADDSAT, VT) &&
		TLI.isOperationCustom(ISD::UMIN, VT) &&
		TLI.isOperationLegal(ISD::ADD, VT)) {
		SDLoc DL(N);
		SDValue Add = DAG.getNode(ISD::ADD, DL, VT, X, Y);
		SDValue Cmp = DAG.getSetCC(DL, SetCCResultType, X, Add, ISD::SETUGT);
		return DAG.getSelect(DL, VT, Cmp, DAG.getAllOnesConstant(DL, VT), Add);
		}
		RKSimonUnsubmitted Not Done Reply Inline Actions This only differs from the default expansion by the optimal CondCode to use in the select - ideally we'd have a way for TLI to indicate 'preferred' comparison codes - x86/sse is probably not alone in having limited comparisons (SGT + EQ) and the others having to be custom handled. RKSimon: This only differs from the default expansion by the optimal CondCode to use in the select…
		spatelAuthorUnsubmitted Done Reply Inline Actions Yes, if we can thread the predicate needle, we can get the optimal x86 code by changing the generic expansion, rather than adding x86-specific combines. Looking at this a bit closer: the key to making this generically better is realizing that this select shouldn't be a select if we have a vector 0/-1 mask created by the compare. In that case, we should only have a bitwise logic op (and/or), never a pblendv or pandn. Unfortunately, it seems we're missing some generic and/or x86-specific min/max transforms to back that up, so I need to chase those down. We may also be suffering from the fact that D58974 is not a generic combine. Let me know if I should deal with that one. @nikic - I just want to confirm: are the addsat/subsat tests in trunk only for x86 right now? If so, I want to duplicate them for AArch64 at least, so we know that we're making things better for more than just x86. spatel: Yes, if we can thread the predicate needle, we can get the optimal x86 code by changing the…
		nikicUnsubmitted Not Done Reply Inline Actions I just want to confirm: are the addsat/subsat tests in trunk only for x86 right now? If so, I want to duplicate them for AArch64 at least, so we know that we're making things better for more than just x86. Yes, right now we're testing codegen only for X86. I was planning to look into better AArch64 codegen soon. It's probably not a good target to test generic expansions, because iirc it has instructions covering the full set of legal vector types. nikic: > I just want to confirm: are the addsat/subsat tests in trunk only for x86 right now? If so, I…

		// usubsat X, Y --> (X >u Y) ? X - Y : 0
		if (N->getOpcode() == ISD::USUBSAT &&
		TLI.isOperationExpand(ISD::USUBSAT, VT) &&
		TLI.isOperationCustom(ISD::UMAX, VT) &&
		TLI.isOperationLegal(ISD::SUB, VT)) {
		SDLoc DL(N);
		SDValue Sub = DAG.getNode(ISD::SUB, DL, VT, X, Y);
		SDValue Cmp = DAG.getSetCC(DL, SetCCResultType, X, Y, ISD::SETUGT);
		return DAG.getSelect(DL, VT, Cmp, Sub, DAG.getConstant(0, DL, VT));
		}

		return SDValue();
		}

static SDValue combineShiftLeft(SDNode *N, SelectionDAG &DAG) {		static SDValue combineShiftLeft(SDNode *N, SelectionDAG &DAG) {
SDValue N0 = N->getOperand(0);		SDValue N0 = N->getOperand(0);
SDValue N1 = N->getOperand(1);		SDValue N1 = N->getOperand(1);
ConstantSDNode *N1C = dyn_cast<ConstantSDNode>(N1);		ConstantSDNode *N1C = dyn_cast<ConstantSDNode>(N1);
EVT VT = N0.getValueType();		EVT VT = N0.getValueType();

// fold (shl (and (setcc_c), c1), c2) -> (and setcc_c, (c1 << c2))		// fold (shl (and (setcc_c), c1), c2) -> (and setcc_c, (c1 << c2))
// since the result of setcc_c is all zero's or all ones.		// since the result of setcc_c is all zero's or all ones.
▲ Show 20 Lines • Show All 6,180 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::PerformDAGCombine(SDNode *N,
case X86ISD::CMP: return combineCMP(N, DAG);		case X86ISD::CMP: return combineCMP(N, DAG);
case ISD::ADD: return combineAdd(N, DAG, Subtarget);		case ISD::ADD: return combineAdd(N, DAG, Subtarget);
case ISD::SUB: return combineSub(N, DAG, Subtarget);		case ISD::SUB: return combineSub(N, DAG, Subtarget);
case X86ISD::ADD:		case X86ISD::ADD:
case X86ISD::SUB: return combineX86AddSub(N, DAG, DCI);		case X86ISD::SUB: return combineX86AddSub(N, DAG, DCI);
case X86ISD::SBB: return combineSBB(N, DAG);		case X86ISD::SBB: return combineSBB(N, DAG);
case X86ISD::ADC: return combineADC(N, DAG, DCI);		case X86ISD::ADC: return combineADC(N, DAG, DCI);
case ISD::MUL: return combineMul(N, DAG, DCI, Subtarget);		case ISD::MUL: return combineMul(N, DAG, DCI, Subtarget);
		case ISD::UADDSAT:
		case ISD::USUBSAT: return combineUAddSubSat(N, DAG, Subtarget);
case ISD::SHL:		case ISD::SHL:
case ISD::SRA:		case ISD::SRA:
case ISD::SRL: return combineShift(N, DAG, DCI, Subtarget);		case ISD::SRL: return combineShift(N, DAG, DCI, Subtarget);
case ISD::AND: return combineAnd(N, DAG, DCI, Subtarget);		case ISD::AND: return combineAnd(N, DAG, DCI, Subtarget);
case ISD::OR: return combineOr(N, DAG, DCI, Subtarget);		case ISD::OR: return combineOr(N, DAG, DCI, Subtarget);
case ISD::XOR: return combineXor(N, DAG, DCI, Subtarget);		case ISD::XOR: return combineXor(N, DAG, DCI, Subtarget);
case X86ISD::BEXTR: return combineBEXTR(N, DAG, DCI, Subtarget);		case X86ISD::BEXTR: return combineBEXTR(N, DAG, DCI, Subtarget);
case ISD::LOAD: return combineLoad(N, DAG, DCI, Subtarget);		case ISD::LOAD: return combineLoad(N, DAG, DCI, Subtarget);
▲ Show 20 Lines • Show All 1,282 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/uadd_sat.ll

	Show First 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; X86-NEXT: popl %esi			; X86-NEXT: popl %esi
	; X86-NEXT: popl %edi			; X86-NEXT: popl %edi
	; X86-NEXT: popl %ebx			; X86-NEXT: popl %ebx
	; X86-NEXT: retl $4			; X86-NEXT: retl $4
	;			;
	; X64-LABEL: vec:			; X64-LABEL: vec:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; X64-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	; X64-NEXT: pxor %xmm0, %xmm2			; X64-NEXT: paddd %xmm0, %xmm1
	; X64-NEXT: movdqa {{.*#+}} xmm3 = [2147483647,2147483647,2147483647,2147483647]			; X64-NEXT: pxor %xmm2, %xmm0
	; X64-NEXT: pxor %xmm1, %xmm3			; X64-NEXT: pxor %xmm1, %xmm2
	; X64-NEXT: pcmpgtd %xmm2, %xmm3			; X64-NEXT: pcmpgtd %xmm2, %xmm0
	; X64-NEXT: pand %xmm3, %xmm0			; X64-NEXT: por %xmm1, %xmm0
	; X64-NEXT: pcmpeqd %xmm2, %xmm2
	; X64-NEXT: pxor %xmm3, %xmm2
	; X64-NEXT: movdqa %xmm1, %xmm3
	; X64-NEXT: pandn %xmm2, %xmm3
	; X64-NEXT: por %xmm3, %xmm0
	; X64-NEXT: paddd %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp = call <4 x i32> @llvm.uadd.sat.v4i32(<4 x i32> %x, <4 x i32> %y);			%tmp = call <4 x i32> @llvm.uadd.sat.v4i32(<4 x i32> %x, <4 x i32> %y);
	ret <4 x i32> %tmp;			ret <4 x i32> %tmp;
	}			}

llvm/test/CodeGen/X86/uadd_sat_vec.ll

Show First 20 Lines • Show All 627 Lines • ▼ Show 20 Lines
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <16 x i1> @llvm.uadd.sat.v16i1(<16 x i1> %x, <16 x i1> %y)		%z = call <16 x i1> @llvm.uadd.sat.v16i1(<16 x i1> %x, <16 x i1> %y)
ret <16 x i1> %z		ret <16 x i1> %z
}		}

; Expanded		; Expanded

define <2 x i32> @v2i32(<2 x i32> %x, <2 x i32> %y) nounwind {		define <2 x i32> @v2i32(<2 x i32> %x, <2 x i32> %y) nounwind {
; SSE2-LABEL: v2i32:		; SSE-LABEL: v2i32:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: psllq $32, %xmm0		; SSE-NEXT: psllq $32, %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]		; SSE-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSE2-NEXT: pxor %xmm0, %xmm2		; SSE-NEXT: psllq $32, %xmm1
; SSE2-NEXT: psllq $32, %xmm1		; SSE-NEXT: paddq %xmm0, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]		; SSE-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm3		; SSE-NEXT: pxor %xmm1, %xmm2
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: pcmpgtd %xmm2, %xmm4		; SSE-NEXT: pcmpeqd %xmm2, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSE-NEXT: pcmpgtd %xmm2, %xmm0
; SSE2-NEXT: pcmpeqd %xmm2, %xmm3		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,0,2,2]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]		; SSE-NEXT: pand %xmm2, %xmm3
; SSE2-NEXT: pand %xmm5, %xmm2		; SSE-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]		; SSE-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: por %xmm2, %xmm3		; SSE-NEXT: psrlq $32, %xmm0
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE-NEXT: retq
; SSE2-NEXT: pcmpeqd %xmm2, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm2
; SSE2-NEXT: movdqa %xmm1, %xmm3
; SSE2-NEXT: pandn %xmm2, %xmm3
; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: paddq %xmm1, %xmm0
; SSE2-NEXT: psrlq $32, %xmm0
; SSE2-NEXT: retq
;
; SSSE3-LABEL: v2i32:
; SSSE3: # %bb.0:
; SSSE3-NEXT: psllq $32, %xmm0
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSSE3-NEXT: pxor %xmm0, %xmm2
; SSSE3-NEXT: psllq $32, %xmm1
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]
; SSSE3-NEXT: pxor %xmm1, %xmm3
; SSSE3-NEXT: movdqa %xmm3, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm2, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm2, %xmm3
; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
; SSSE3-NEXT: pand %xmm5, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
; SSSE3-NEXT: por %xmm2, %xmm3
; SSSE3-NEXT: pand %xmm3, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm2, %xmm2
; SSSE3-NEXT: pxor %xmm3, %xmm2
; SSSE3-NEXT: movdqa %xmm1, %xmm3
; SSSE3-NEXT: pandn %xmm2, %xmm3
; SSSE3-NEXT: por %xmm3, %xmm0
; SSSE3-NEXT: paddq %xmm1, %xmm0
; SSSE3-NEXT: psrlq $32, %xmm0
; SSSE3-NEXT: retq
;
; SSE41-LABEL: v2i32:
; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm2
; SSE41-NEXT: psllq $32, %xmm2
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: pxor %xmm2, %xmm0
; SSE41-NEXT: psllq $32, %xmm1
; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]
; SSE41-NEXT: pxor %xmm1, %xmm3
; SSE41-NEXT: movdqa %xmm3, %xmm4
; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; SSE41-NEXT: pand %xmm5, %xmm0
; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: pcmpeqd %xmm3, %xmm3
; SSE41-NEXT: pxor %xmm1, %xmm3
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
; SSE41-NEXT: paddq %xmm1, %xmm3
; SSE41-NEXT: psrlq $32, %xmm3
; SSE41-NEXT: movdqa %xmm3, %xmm0
; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v2i32:		; AVX1-LABEL: v2i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX1-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm2
; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm3		; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm4		; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3		; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX1-NEXT: vblendvpd %xmm3, %xmm0, %xmm2, %xmm0
; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
		; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm1
		; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
		; AVX1-NEXT: vpor %xmm0, %xmm1, %xmm0
; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0		; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: v2i32:		; AVX2-LABEL: v2i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX2-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2
; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm2
; AVX2-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX2-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm3		; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm4		; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm3
; AVX2-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3		; AVX2-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX2-NEXT: vblendvpd %xmm3, %xmm0, %xmm2, %xmm0
; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
		; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm1
		; AVX2-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
		; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0
; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm0		; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: v2i32:		; AVX512-LABEL: v2i32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0		; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0
; AVX512-NEXT: vpsllq $32, %xmm1, %xmm1		; AVX512-NEXT: vpsllq $32, %xmm1, %xmm1
; AVX512-NEXT: vmovdqa %xmm1, %xmm2		; AVX512-NEXT: vmovdqa %xmm1, %xmm2
; AVX512-NEXT: vpternlogq $15, %xmm1, %xmm1, %xmm2		; AVX512-NEXT: vpternlogq $15, %xmm1, %xmm1, %xmm2
; AVX512-NEXT: vpminuq %xmm2, %xmm0, %xmm0		; AVX512-NEXT: vpminuq %xmm2, %xmm0, %xmm0
; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vpsrlq $32, %xmm0, %xmm0		; AVX512-NEXT: vpsrlq $32, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <2 x i32> @llvm.uadd.sat.v2i32(<2 x i32> %x, <2 x i32> %y)		%z = call <2 x i32> @llvm.uadd.sat.v2i32(<2 x i32> %x, <2 x i32> %y)
ret <2 x i32> %z		ret <2 x i32> %z
}		}

define <4 x i32> @v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {		define <4 x i32> @v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {
; SSE2-LABEL: v4i32:		; SSE2-LABEL: v4i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: pxor %xmm0, %xmm2		; SSE2-NEXT: paddd %xmm0, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [2147483647,2147483647,2147483647,2147483647]		; SSE2-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm3		; SSE2-NEXT: pxor %xmm1, %xmm2
; SSE2-NEXT: pcmpgtd %xmm2, %xmm3		; SSE2-NEXT: pcmpgtd %xmm2, %xmm0
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: pcmpeqd %xmm2, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm2
; SSE2-NEXT: movdqa %xmm1, %xmm3
; SSE2-NEXT: pandn %xmm2, %xmm3
; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: paddd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v4i32:		; SSSE3-LABEL: v4i32:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: pxor %xmm0, %xmm2		; SSSE3-NEXT: paddd %xmm0, %xmm1
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [2147483647,2147483647,2147483647,2147483647]		; SSSE3-NEXT: pxor %xmm2, %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm3		; SSSE3-NEXT: pxor %xmm1, %xmm2
; SSSE3-NEXT: pcmpgtd %xmm2, %xmm3		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm0
; SSSE3-NEXT: pand %xmm3, %xmm0		; SSSE3-NEXT: por %xmm1, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm2, %xmm2
; SSSE3-NEXT: pxor %xmm3, %xmm2
; SSSE3-NEXT: movdqa %xmm1, %xmm3
; SSSE3-NEXT: pandn %xmm2, %xmm3
; SSSE3-NEXT: por %xmm3, %xmm0
; SSSE3-NEXT: paddd %xmm1, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v4i32:		; SSE41-LABEL: v4i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pcmpeqd %xmm2, %xmm2		; SSE41-NEXT: pcmpeqd %xmm2, %xmm2
; SSE41-NEXT: pxor %xmm1, %xmm2		; SSE41-NEXT: pxor %xmm1, %xmm2
; SSE41-NEXT: pminud %xmm2, %xmm0		; SSE41-NEXT: pminud %xmm2, %xmm0
; SSE41-NEXT: paddd %xmm1, %xmm0		; SSE41-NEXT: paddd %xmm1, %xmm0
Show All 25 Lines	; AVX512-NEXT: retq
%z = call <4 x i32> @llvm.uadd.sat.v4i32(<4 x i32> %x, <4 x i32> %y)		%z = call <4 x i32> @llvm.uadd.sat.v4i32(<4 x i32> %x, <4 x i32> %y)
ret <4 x i32> %z		ret <4 x i32> %z
}		}

define <8 x i32> @v8i32(<8 x i32> %x, <8 x i32> %y) nounwind {		define <8 x i32> @v8i32(<8 x i32> %x, <8 x i32> %y) nounwind {
; SSE2-LABEL: v8i32:		; SSE2-LABEL: v8i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm0, %xmm5		; SSE2-NEXT: paddd %xmm0, %xmm2
; SSE2-NEXT: pxor %xmm4, %xmm5		; SSE2-NEXT: pxor %xmm4, %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [2147483647,2147483647,2147483647,2147483647]
; SSE2-NEXT: movdqa %xmm2, %xmm7
; SSE2-NEXT: pxor %xmm6, %xmm7
; SSE2-NEXT: pcmpgtd %xmm5, %xmm7
; SSE2-NEXT: pand %xmm7, %xmm0
; SSE2-NEXT: pcmpeqd %xmm8, %xmm8
; SSE2-NEXT: pxor %xmm8, %xmm7
; SSE2-NEXT: movdqa %xmm2, %xmm5		; SSE2-NEXT: movdqa %xmm2, %xmm5
; SSE2-NEXT: pandn %xmm7, %xmm5		; SSE2-NEXT: pxor %xmm4, %xmm5
; SSE2-NEXT: por %xmm5, %xmm0		; SSE2-NEXT: pcmpgtd %xmm5, %xmm0
; SSE2-NEXT: paddd %xmm2, %xmm0		; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm4		; SSE2-NEXT: paddd %xmm1, %xmm3
; SSE2-NEXT: pxor %xmm3, %xmm6		; SSE2-NEXT: pxor %xmm4, %xmm1
; SSE2-NEXT: pcmpgtd %xmm4, %xmm6		; SSE2-NEXT: pxor %xmm3, %xmm4
; SSE2-NEXT: pand %xmm6, %xmm1		; SSE2-NEXT: pcmpgtd %xmm4, %xmm1
; SSE2-NEXT: pxor %xmm8, %xmm6		; SSE2-NEXT: por %xmm3, %xmm1
; SSE2-NEXT: movdqa %xmm3, %xmm2
; SSE2-NEXT: pandn %xmm6, %xmm2
; SSE2-NEXT: por %xmm2, %xmm1
; SSE2-NEXT: paddd %xmm3, %xmm1
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v8i32:		; SSSE3-LABEL: v8i32:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm0, %xmm5		; SSSE3-NEXT: paddd %xmm0, %xmm2
; SSSE3-NEXT: pxor %xmm4, %xmm5		; SSSE3-NEXT: pxor %xmm4, %xmm0
; SSSE3-NEXT: movdqa {{.*#+}} xmm6 = [2147483647,2147483647,2147483647,2147483647]
; SSSE3-NEXT: movdqa %xmm2, %xmm7
; SSSE3-NEXT: pxor %xmm6, %xmm7
; SSSE3-NEXT: pcmpgtd %xmm5, %xmm7
; SSSE3-NEXT: pand %xmm7, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm8, %xmm8
; SSSE3-NEXT: pxor %xmm8, %xmm7
; SSSE3-NEXT: movdqa %xmm2, %xmm5		; SSSE3-NEXT: movdqa %xmm2, %xmm5
; SSSE3-NEXT: pandn %xmm7, %xmm5		; SSSE3-NEXT: pxor %xmm4, %xmm5
; SSSE3-NEXT: por %xmm5, %xmm0		; SSSE3-NEXT: pcmpgtd %xmm5, %xmm0
; SSSE3-NEXT: paddd %xmm2, %xmm0		; SSSE3-NEXT: por %xmm2, %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm4		; SSSE3-NEXT: paddd %xmm1, %xmm3
; SSSE3-NEXT: pxor %xmm3, %xmm6		; SSSE3-NEXT: pxor %xmm4, %xmm1
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm6		; SSSE3-NEXT: pxor %xmm3, %xmm4
; SSSE3-NEXT: pand %xmm6, %xmm1		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm1
; SSSE3-NEXT: pxor %xmm8, %xmm6		; SSSE3-NEXT: por %xmm3, %xmm1
; SSSE3-NEXT: movdqa %xmm3, %xmm2
; SSSE3-NEXT: pandn %xmm6, %xmm2
; SSSE3-NEXT: por %xmm2, %xmm1
; SSSE3-NEXT: paddd %xmm3, %xmm1
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v8i32:		; SSE41-LABEL: v8i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pcmpeqd %xmm4, %xmm4		; SSE41-NEXT: pcmpeqd %xmm4, %xmm4
; SSE41-NEXT: movdqa %xmm2, %xmm5		; SSE41-NEXT: movdqa %xmm2, %xmm5
; SSE41-NEXT: pxor %xmm4, %xmm5		; SSE41-NEXT: pxor %xmm4, %xmm5
; SSE41-NEXT: pminud %xmm5, %xmm0		; SSE41-NEXT: pminud %xmm5, %xmm0
Show All 35 Lines
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <8 x i32> @llvm.uadd.sat.v8i32(<8 x i32> %x, <8 x i32> %y)		%z = call <8 x i32> @llvm.uadd.sat.v8i32(<8 x i32> %x, <8 x i32> %y)
ret <8 x i32> %z		ret <8 x i32> %z
}		}

define <16 x i32> @v16i32(<16 x i32> %x, <16 x i32> %y) nounwind {		define <16 x i32> @v16i32(<16 x i32> %x, <16 x i32> %y) nounwind {
; SSE2-LABEL: v16i32:		; SSE2-LABEL: v16i32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm0, %xmm10		; SSE2-NEXT: paddd %xmm0, %xmm4
; SSE2-NEXT: pxor %xmm9, %xmm10		; SSE2-NEXT: pxor %xmm8, %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [2147483647,2147483647,2147483647,2147483647]		; SSE2-NEXT: movdqa %xmm4, %xmm9
; SSE2-NEXT: movdqa %xmm4, %xmm11		; SSE2-NEXT: pxor %xmm8, %xmm9
; SSE2-NEXT: pxor %xmm8, %xmm11		; SSE2-NEXT: pcmpgtd %xmm9, %xmm0
; SSE2-NEXT: pcmpgtd %xmm10, %xmm11		; SSE2-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: pand %xmm11, %xmm0		; SSE2-NEXT: paddd %xmm1, %xmm5
; SSE2-NEXT: pcmpeqd %xmm10, %xmm10		; SSE2-NEXT: pxor %xmm8, %xmm1
; SSE2-NEXT: pxor %xmm10, %xmm11
; SSE2-NEXT: movdqa %xmm4, %xmm12
; SSE2-NEXT: pandn %xmm11, %xmm12
; SSE2-NEXT: por %xmm12, %xmm0
; SSE2-NEXT: paddd %xmm4, %xmm0
; SSE2-NEXT: movdqa %xmm1, %xmm11
; SSE2-NEXT: pxor %xmm9, %xmm11
; SSE2-NEXT: movdqa %xmm5, %xmm12
; SSE2-NEXT: pxor %xmm8, %xmm12
; SSE2-NEXT: pcmpgtd %xmm11, %xmm12
; SSE2-NEXT: pand %xmm12, %xmm1
; SSE2-NEXT: pxor %xmm10, %xmm12
; SSE2-NEXT: movdqa %xmm5, %xmm4		; SSE2-NEXT: movdqa %xmm5, %xmm4
; SSE2-NEXT: pandn %xmm12, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: por %xmm4, %xmm1		; SSE2-NEXT: pcmpgtd %xmm4, %xmm1
; SSE2-NEXT: paddd %xmm5, %xmm1		; SSE2-NEXT: por %xmm5, %xmm1
; SSE2-NEXT: movdqa %xmm2, %xmm4		; SSE2-NEXT: paddd %xmm2, %xmm6
; SSE2-NEXT: pxor %xmm9, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm2
; SSE2-NEXT: movdqa %xmm6, %xmm5
; SSE2-NEXT: pxor %xmm8, %xmm5
; SSE2-NEXT: pcmpgtd %xmm4, %xmm5
; SSE2-NEXT: pand %xmm5, %xmm2
; SSE2-NEXT: pxor %xmm10, %xmm5
; SSE2-NEXT: movdqa %xmm6, %xmm4		; SSE2-NEXT: movdqa %xmm6, %xmm4
; SSE2-NEXT: pandn %xmm5, %xmm4		; SSE2-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: por %xmm4, %xmm2		; SSE2-NEXT: pcmpgtd %xmm4, %xmm2
; SSE2-NEXT: paddd %xmm6, %xmm2		; SSE2-NEXT: por %xmm6, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm9		; SSE2-NEXT: paddd %xmm3, %xmm7
		; SSE2-NEXT: pxor %xmm8, %xmm3
; SSE2-NEXT: pxor %xmm7, %xmm8		; SSE2-NEXT: pxor %xmm7, %xmm8
; SSE2-NEXT: pcmpgtd %xmm9, %xmm8		; SSE2-NEXT: pcmpgtd %xmm8, %xmm3
; SSE2-NEXT: pand %xmm8, %xmm3		; SSE2-NEXT: por %xmm7, %xmm3
; SSE2-NEXT: pxor %xmm10, %xmm8
; SSE2-NEXT: movdqa %xmm7, %xmm4
; SSE2-NEXT: pandn %xmm8, %xmm4
; SSE2-NEXT: por %xmm4, %xmm3
; SSE2-NEXT: paddd %xmm7, %xmm3
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: v16i32:		; SSSE3-LABEL: v16i32:
; SSSE3: # %bb.0:		; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm0, %xmm10		; SSSE3-NEXT: paddd %xmm0, %xmm4
; SSSE3-NEXT: pxor %xmm9, %xmm10		; SSSE3-NEXT: pxor %xmm8, %xmm0
; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [2147483647,2147483647,2147483647,2147483647]		; SSSE3-NEXT: movdqa %xmm4, %xmm9
; SSSE3-NEXT: movdqa %xmm4, %xmm11		; SSSE3-NEXT: pxor %xmm8, %xmm9
; SSSE3-NEXT: pxor %xmm8, %xmm11		; SSSE3-NEXT: pcmpgtd %xmm9, %xmm0
; SSSE3-NEXT: pcmpgtd %xmm10, %xmm11		; SSSE3-NEXT: por %xmm4, %xmm0
; SSSE3-NEXT: pand %xmm11, %xmm0		; SSSE3-NEXT: paddd %xmm1, %xmm5
; SSSE3-NEXT: pcmpeqd %xmm10, %xmm10		; SSSE3-NEXT: pxor %xmm8, %xmm1
; SSSE3-NEXT: pxor %xmm10, %xmm11
; SSSE3-NEXT: movdqa %xmm4, %xmm12
; SSSE3-NEXT: pandn %xmm11, %xmm12
; SSSE3-NEXT: por %xmm12, %xmm0
; SSSE3-NEXT: paddd %xmm4, %xmm0
; SSSE3-NEXT: movdqa %xmm1, %xmm11
; SSSE3-NEXT: pxor %xmm9, %xmm11
; SSSE3-NEXT: movdqa %xmm5, %xmm12
; SSSE3-NEXT: pxor %xmm8, %xmm12
; SSSE3-NEXT: pcmpgtd %xmm11, %xmm12
; SSSE3-NEXT: pand %xmm12, %xmm1
; SSSE3-NEXT: pxor %xmm10, %xmm12
; SSSE3-NEXT: movdqa %xmm5, %xmm4		; SSSE3-NEXT: movdqa %xmm5, %xmm4
; SSSE3-NEXT: pandn %xmm12, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: por %xmm4, %xmm1		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm1
; SSSE3-NEXT: paddd %xmm5, %xmm1		; SSSE3-NEXT: por %xmm5, %xmm1
; SSSE3-NEXT: movdqa %xmm2, %xmm4		; SSSE3-NEXT: paddd %xmm2, %xmm6
; SSSE3-NEXT: pxor %xmm9, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm2
; SSSE3-NEXT: movdqa %xmm6, %xmm5
; SSSE3-NEXT: pxor %xmm8, %xmm5
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm5
; SSSE3-NEXT: pand %xmm5, %xmm2
; SSSE3-NEXT: pxor %xmm10, %xmm5
; SSSE3-NEXT: movdqa %xmm6, %xmm4		; SSSE3-NEXT: movdqa %xmm6, %xmm4
; SSSE3-NEXT: pandn %xmm5, %xmm4		; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: por %xmm4, %xmm2		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm2
; SSSE3-NEXT: paddd %xmm6, %xmm2		; SSSE3-NEXT: por %xmm6, %xmm2
; SSSE3-NEXT: pxor %xmm3, %xmm9		; SSSE3-NEXT: paddd %xmm3, %xmm7
		; SSSE3-NEXT: pxor %xmm8, %xmm3
; SSSE3-NEXT: pxor %xmm7, %xmm8		; SSSE3-NEXT: pxor %xmm7, %xmm8
; SSSE3-NEXT: pcmpgtd %xmm9, %xmm8		; SSSE3-NEXT: pcmpgtd %xmm8, %xmm3
; SSSE3-NEXT: pand %xmm8, %xmm3		; SSSE3-NEXT: por %xmm7, %xmm3
; SSSE3-NEXT: pxor %xmm10, %xmm8
; SSSE3-NEXT: movdqa %xmm7, %xmm4
; SSSE3-NEXT: pandn %xmm8, %xmm4
; SSSE3-NEXT: por %xmm4, %xmm3
; SSSE3-NEXT: paddd %xmm7, %xmm3
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: v16i32:		; SSE41-LABEL: v16i32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pcmpeqd %xmm8, %xmm8		; SSE41-NEXT: pcmpeqd %xmm8, %xmm8
; SSE41-NEXT: movdqa %xmm4, %xmm9		; SSE41-NEXT: movdqa %xmm4, %xmm9
; SSE41-NEXT: pxor %xmm8, %xmm9		; SSE41-NEXT: pxor %xmm8, %xmm9
; SSE41-NEXT: pminud %xmm9, %xmm0		; SSE41-NEXT: pminud %xmm9, %xmm0
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
; AVX512-NEXT: vpminud %zmm2, %zmm0, %zmm0		; AVX512-NEXT: vpminud %zmm2, %zmm0, %zmm0
; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <16 x i32> @llvm.uadd.sat.v16i32(<16 x i32> %x, <16 x i32> %y)		%z = call <16 x i32> @llvm.uadd.sat.v16i32(<16 x i32> %x, <16 x i32> %y)
ret <16 x i32> %z		ret <16 x i32> %z
}		}

define <2 x i64> @v2i64(<2 x i64> %x, <2 x i64> %y) nounwind {		define <2 x i64> @v2i64(<2 x i64> %x, <2 x i64> %y) nounwind {
; SSE2-LABEL: v2i64:		; SSE-LABEL: v2i64:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]		; SSE-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSE2-NEXT: pxor %xmm0, %xmm2		; SSE-NEXT: paddq %xmm0, %xmm1
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]		; SSE-NEXT: pxor %xmm2, %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm3		; SSE-NEXT: pxor %xmm1, %xmm2
; SSE2-NEXT: movdqa %xmm3, %xmm4		; SSE-NEXT: movdqa %xmm0, %xmm3
; SSE2-NEXT: pcmpgtd %xmm2, %xmm4		; SSE-NEXT: pcmpgtd %xmm2, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm2, %xmm3		; SSE-NEXT: pcmpeqd %xmm0, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; SSE2-NEXT: pand %xmm5, %xmm2		; SSE-NEXT: pand %xmm4, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; SSE2-NEXT: por %xmm2, %xmm3		; SSE-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: pcmpeqd %xmm2, %xmm2		; SSE-NEXT: retq
; SSE2-NEXT: pxor %xmm3, %xmm2
; SSE2-NEXT: movdqa %xmm1, %xmm3
; SSE2-NEXT: pandn %xmm2, %xmm3
; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: paddq %xmm1, %xmm0
; SSE2-NEXT: retq
;
; SSSE3-LABEL: v2i64:
; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; SSSE3-NEXT: pxor %xmm0, %xmm2
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]
; SSSE3-NEXT: pxor %xmm1, %xmm3
; SSSE3-NEXT: movdqa %xmm3, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm2, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm2, %xmm3
; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm3[1,1,3,3]
; SSSE3-NEXT: pand %xmm5, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
; SSSE3-NEXT: por %xmm2, %xmm3
; SSSE3-NEXT: pand %xmm3, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm2, %xmm2
; SSSE3-NEXT: pxor %xmm3, %xmm2
; SSSE3-NEXT: movdqa %xmm1, %xmm3
; SSSE3-NEXT: pandn %xmm2, %xmm3
; SSSE3-NEXT: por %xmm3, %xmm0
; SSSE3-NEXT: paddq %xmm1, %xmm0
; SSSE3-NEXT: retq
;
; SSE41-LABEL: v2i64:
; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm2
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: pxor %xmm2, %xmm0
; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292159,9223372034707292159]
; SSE41-NEXT: pxor %xmm1, %xmm3
; SSE41-NEXT: movdqa %xmm3, %xmm4
; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; SSE41-NEXT: pand %xmm5, %xmm0
; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: pcmpeqd %xmm3, %xmm3
; SSE41-NEXT: pxor %xmm1, %xmm3
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
; SSE41-NEXT: paddq %xmm1, %xmm3
; SSE41-NEXT: movdqa %xmm3, %xmm0
; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v2i64:		; AVX1-LABEL: v2i64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm2		; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3
; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm3
; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm4
; AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
; AVX1-NEXT: vblendvpd %xmm3, %xmm0, %xmm2, %xmm0
; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
		; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm1
		; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
		; AVX1-NEXT: vpor %xmm0, %xmm1, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: v2i64:		; AVX2-LABEL: v2i64:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2		; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm2		; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm3
; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm3
; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm4
; AVX2-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
; AVX2-NEXT: vblendvpd %xmm3, %xmm0, %xmm2, %xmm0
; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
		; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm1
		; AVX2-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
		; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: v2i64:		; AVX512-LABEL: v2i64:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vmovdqa %xmm1, %xmm2		; AVX512-NEXT: vmovdqa %xmm1, %xmm2
; AVX512-NEXT: vpternlogq $15, %xmm1, %xmm1, %xmm2		; AVX512-NEXT: vpternlogq $15, %xmm1, %xmm1, %xmm2
; AVX512-NEXT: vpminuq %xmm2, %xmm0, %xmm0		; AVX512-NEXT: vpminuq %xmm2, %xmm0, %xmm0
; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <2 x i64> @llvm.uadd.sat.v2i64(<2 x i64> %x, <2 x i64> %y)		%z = call <2 x i64> @llvm.uadd.sat.v2i64(<2 x i64> %x, <2 x i64> %y)
ret <2 x i64> %z		ret <2 x i64> %z
}		}

define <4 x i64> @v4i64(<4 x i64> %x, <4 x i64> %y) nounwind {		define <4 x i64> @v4i64(<4 x i64> %x, <4 x i64> %y) nounwind {
; SSE2-LABEL: v4i64:		; SSE-LABEL: v4i64:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]		; SSE-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]
; SSE2-NEXT: movdqa %xmm0, %xmm6		; SSE-NEXT: paddq %xmm0, %xmm2
; SSE2-NEXT: pxor %xmm8, %xmm6		; SSE-NEXT: pxor %xmm4, %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [9223372034707292159,9223372034707292159]		; SSE-NEXT: movdqa %xmm2, %xmm5
; SSE2-NEXT: movdqa %xmm2, %xmm7		; SSE-NEXT: pxor %xmm4, %xmm5
; SSE2-NEXT: pxor %xmm5, %xmm7		; SSE-NEXT: movdqa %xmm0, %xmm6
; SSE2-NEXT: movdqa %xmm7, %xmm4		; SSE-NEXT: pcmpgtd %xmm5, %xmm6
; SSE2-NEXT: pcmpgtd %xmm6, %xmm4		; SSE-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm4[0,0,2,2]		; SSE-NEXT: pcmpeqd %xmm0, %xmm5
; SSE2-NEXT: pcmpeqd %xmm6, %xmm7		; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]		; SSE-NEXT: pand %xmm7, %xmm5
; SSE2-NEXT: pand %xmm9, %xmm6		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]		; SSE-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: por %xmm6, %xmm4		; SSE-NEXT: por %xmm5, %xmm0
; SSE2-NEXT: pand %xmm4, %xmm0		; SSE-NEXT: paddq %xmm1, %xmm3
; SSE2-NEXT: pcmpeqd %xmm6, %xmm6		; SSE-NEXT: pxor %xmm4, %xmm1
; SSE2-NEXT: pxor %xmm6, %xmm4		; SSE-NEXT: pxor %xmm3, %xmm4
; SSE2-NEXT: movdqa %xmm2, %xmm7		; SSE-NEXT: movdqa %xmm1, %xmm2
; SSE2-NEXT: pandn %xmm4, %xmm7		; SSE-NEXT: pcmpgtd %xmm4, %xmm2
; SSE2-NEXT: por %xmm7, %xmm0		; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]
; SSE2-NEXT: paddq %xmm2, %xmm0		; SSE-NEXT: pcmpeqd %xmm1, %xmm4
; SSE2-NEXT: pxor %xmm1, %xmm8		; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSE2-NEXT: pxor %xmm3, %xmm5		; SSE-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: movdqa %xmm5, %xmm2		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,3,3]
; SSE2-NEXT: pcmpgtd %xmm8, %xmm2		; SSE-NEXT: por %xmm3, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]		; SSE-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: pcmpeqd %xmm8, %xmm5		; SSE-NEXT: retq
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSE2-NEXT: pand %xmm4, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; SSE2-NEXT: por %xmm5, %xmm2
; SSE2-NEXT: pand %xmm2, %xmm1
; SSE2-NEXT: pxor %xmm6, %xmm2
; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: pandn %xmm2, %xmm4
; SSE2-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: paddq %xmm3, %xmm1
; SSE2-NEXT: retq
;
; SSSE3-LABEL: v4i64:
; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]
; SSSE3-NEXT: movdqa %xmm0, %xmm6
; SSSE3-NEXT: pxor %xmm8, %xmm6
; SSSE3-NEXT: movdqa {{.*#+}} xmm5 = [9223372034707292159,9223372034707292159]
; SSSE3-NEXT: movdqa %xmm2, %xmm7
; SSSE3-NEXT: pxor %xmm5, %xmm7
; SSSE3-NEXT: movdqa %xmm7, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm6, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm9 = xmm4[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm6, %xmm7
; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]
; SSSE3-NEXT: pand %xmm9, %xmm6
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSSE3-NEXT: por %xmm6, %xmm4
; SSSE3-NEXT: pand %xmm4, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm6, %xmm6
; SSSE3-NEXT: pxor %xmm6, %xmm4
; SSSE3-NEXT: movdqa %xmm2, %xmm7
; SSSE3-NEXT: pandn %xmm4, %xmm7
; SSSE3-NEXT: por %xmm7, %xmm0
; SSSE3-NEXT: paddq %xmm2, %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm8
; SSSE3-NEXT: pxor %xmm3, %xmm5
; SSSE3-NEXT: movdqa %xmm5, %xmm2
; SSSE3-NEXT: pcmpgtd %xmm8, %xmm2
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm8, %xmm5
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSSE3-NEXT: pand %xmm4, %xmm5
; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; SSSE3-NEXT: por %xmm5, %xmm2
; SSSE3-NEXT: pand %xmm2, %xmm1
; SSSE3-NEXT: pxor %xmm6, %xmm2
; SSSE3-NEXT: movdqa %xmm3, %xmm4
; SSSE3-NEXT: pandn %xmm2, %xmm4
; SSSE3-NEXT: por %xmm4, %xmm1
; SSSE3-NEXT: paddq %xmm3, %xmm1
; SSSE3-NEXT: retq
;
; SSE41-LABEL: v4i64:
; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm8
; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: pxor %xmm7, %xmm0
; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372034707292159,9223372034707292159]
; SSE41-NEXT: movdqa %xmm2, %xmm5
; SSE41-NEXT: pxor %xmm4, %xmm5
; SSE41-NEXT: movdqa %xmm5, %xmm6
; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
; SSE41-NEXT: pshufd {{.*#+}} xmm9 = xmm6[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]
; SSE41-NEXT: pand %xmm9, %xmm0
; SSE41-NEXT: por %xmm6, %xmm0
; SSE41-NEXT: pcmpeqd %xmm5, %xmm5
; SSE41-NEXT: movdqa %xmm2, %xmm6
; SSE41-NEXT: pxor %xmm5, %xmm6
; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm6
; SSE41-NEXT: paddq %xmm2, %xmm6
; SSE41-NEXT: pxor %xmm1, %xmm7
; SSE41-NEXT: pxor %xmm3, %xmm4
; SSE41-NEXT: movdqa %xmm4, %xmm2
; SSE41-NEXT: pcmpgtd %xmm7, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm2[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm7, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
; SSE41-NEXT: pand %xmm8, %xmm0
; SSE41-NEXT: por %xmm2, %xmm0
; SSE41-NEXT: pxor %xmm3, %xmm5
; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
; SSE41-NEXT: paddq %xmm3, %xmm5
; SSE41-NEXT: movdqa %xmm6, %xmm0
; SSE41-NEXT: movdqa %xmm5, %xmm1
; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v4i64:		; AVX1-LABEL: v4i64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vxorps %xmm4, %xmm4, %xmm4		; AVX1-NEXT: vxorps %xmm4, %xmm4, %xmm4
; AVX1-NEXT: vcmptrueps %ymm4, %ymm4, %ymm4		; AVX1-NEXT: vcmptrueps %ymm4, %ymm4, %ymm4
Show All 11 Lines
; AVX1-NEXT: vpaddq %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpaddq %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: v4i64:		; AVX2-LABEL: v4i64:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]		; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm2		; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm3
; AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2
; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3
; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm3
; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm3, %ymm0
; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
		; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm1
		; AVX2-NEXT: vpcmpgtq %ymm1, %ymm3, %ymm1
		; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: v4i64:		; AVX512-LABEL: v4i64:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vmovdqa %ymm1, %ymm2		; AVX512-NEXT: vmovdqa %ymm1, %ymm2
; AVX512-NEXT: vpternlogq $15, %ymm1, %ymm1, %ymm2		; AVX512-NEXT: vpternlogq $15, %ymm1, %ymm1, %ymm2
; AVX512-NEXT: vpminuq %ymm2, %ymm0, %ymm0		; AVX512-NEXT: vpminuq %ymm2, %ymm0, %ymm0
; AVX512-NEXT: vpaddq %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpaddq %ymm1, %ymm0, %ymm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%z = call <4 x i64> @llvm.uadd.sat.v4i64(<4 x i64> %x, <4 x i64> %y)		%z = call <4 x i64> @llvm.uadd.sat.v4i64(<4 x i64> %x, <4 x i64> %y)
ret <4 x i64> %z		ret <4 x i64> %z
}		}

define <8 x i64> @v8i64(<8 x i64> %x, <8 x i64> %y) nounwind {		define <8 x i64> @v8i64(<8 x i64> %x, <8 x i64> %y) nounwind {
; SSE2-LABEL: v8i64:		; SSE-LABEL: v8i64:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]		; SSE-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]
; SSE2-NEXT: movdqa %xmm0, %xmm10		; SSE-NEXT: paddq %xmm0, %xmm4
; SSE2-NEXT: pxor %xmm8, %xmm10		; SSE-NEXT: pxor %xmm8, %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [9223372034707292159,9223372034707292159]		; SSE-NEXT: movdqa %xmm4, %xmm9
; SSE2-NEXT: movdqa %xmm4, %xmm11		; SSE-NEXT: pxor %xmm8, %xmm9
; SSE2-NEXT: pxor %xmm9, %xmm11		; SSE-NEXT: movdqa %xmm0, %xmm10
; SSE2-NEXT: movdqa %xmm11, %xmm12		; SSE-NEXT: pcmpgtd %xmm9, %xmm10
; SSE2-NEXT: pcmpgtd %xmm10, %xmm12		; SSE-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]
; SSE2-NEXT: pshufd {{.*#+}} xmm13 = xmm12[0,0,2,2]		; SSE-NEXT: pcmpeqd %xmm0, %xmm9
; SSE2-NEXT: pcmpeqd %xmm10, %xmm11		; SSE-NEXT: pshufd {{.*#+}} xmm9 = xmm9[1,1,3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm11[1,1,3,3]		; SSE-NEXT: pand %xmm11, %xmm9
; SSE2-NEXT: pand %xmm13, %xmm10		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm10[1,1,3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm12[1,1,3,3]		; SSE-NEXT: por %xmm4, %xmm0
; SSE2-NEXT: por %xmm10, %xmm11		; SSE-NEXT: por %xmm9, %xmm0
; SSE2-NEXT: pand %xmm11, %xmm0		; SSE-NEXT: paddq %xmm1, %xmm5
; SSE2-NEXT: pcmpeqd %xmm10, %xmm10		; SSE-NEXT: pxor %xmm8, %xmm1
; SSE2-NEXT: pxor %xmm10, %xmm11		; SSE-NEXT: movdqa %xmm5, %xmm4
; SSE2-NEXT: movdqa %xmm4, %xmm12		; SSE-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: pandn %xmm11, %xmm12		; SSE-NEXT: movdqa %xmm1, %xmm9
; SSE2-NEXT: por %xmm12, %xmm0		; SSE-NEXT: pcmpgtd %xmm4, %xmm9
; SSE2-NEXT: paddq %xmm4, %xmm0		; SSE-NEXT: pshufd {{.*#+}} xmm10 = xmm9[0,0,2,2]
; SSE2-NEXT: movdqa %xmm1, %xmm11		; SSE-NEXT: pcmpeqd %xmm1, %xmm4
; SSE2-NEXT: pxor %xmm8, %xmm11		; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSE2-NEXT: movdqa %xmm5, %xmm4		; SSE-NEXT: pand %xmm10, %xmm4
; SSE2-NEXT: pxor %xmm9, %xmm4		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm9[1,1,3,3]
; SSE2-NEXT: movdqa %xmm4, %xmm12		; SSE-NEXT: por %xmm5, %xmm1
; SSE2-NEXT: pcmpgtd %xmm11, %xmm12		; SSE-NEXT: por %xmm4, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm13 = xmm12[0,0,2,2]		; SSE-NEXT: paddq %xmm2, %xmm6
; SSE2-NEXT: pcmpeqd %xmm11, %xmm4		; SSE-NEXT: pxor %xmm8, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm4[1,1,3,3]		; SSE-NEXT: movdqa %xmm6, %xmm4
; SSE2-NEXT: pand %xmm13, %xmm11		; SSE-NEXT: pxor %xmm8, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm12 = xmm12[1,1,3,3]		; SSE-NEXT: movdqa %xmm2, %xmm5
; SSE2-NEXT: por %xmm11, %xmm12		; SSE-NEXT: pcmpgtd %xmm4, %xmm5
; SSE2-NEXT: pand %xmm12, %xmm1		; SSE-NEXT: pshufd {{.*#+}} xmm9 = xmm5[0,0,2,2]
; SSE2-NEXT: pxor %xmm10, %xmm12		; SSE-NEXT: pcmpeqd %xmm2, %xmm4
; SSE2-NEXT: movdqa %xmm5, %xmm4		; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSE2-NEXT: pandn %xmm12, %xmm4		; SSE-NEXT: pand %xmm9, %xmm4
; SSE2-NEXT: por %xmm4, %xmm1		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,1,3,3]
; SSE2-NEXT: paddq %xmm5, %xmm1		; SSE-NEXT: por %xmm6, %xmm2
; SSE2-NEXT: movdqa %xmm2, %xmm4		; SSE-NEXT: por %xmm4, %xmm2
; SSE2-NEXT: pxor %xmm8, %xmm4		; SSE-NEXT: paddq %xmm3, %xmm7
; SSE2-NEXT: movdqa %xmm6, %xmm5		; SSE-NEXT: pxor %xmm8, %xmm3
; SSE2-NEXT: pxor %xmm9, %xmm5		; SSE-NEXT: pxor %xmm7, %xmm8
; SSE2-NEXT: movdqa %xmm5, %xmm11		; SSE-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: pcmpgtd %xmm4, %xmm11		; SSE-NEXT: pcmpgtd %xmm8, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]		; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm4, %xmm5		; SSE-NEXT: pcmpeqd %xmm3, %xmm8
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]		; SSE-NEXT: pshufd {{.*#+}} xmm6 = xmm8[1,1,3,3]
; SSE2-NEXT: pand %xmm12, %xmm4		; SSE-NEXT: pand %xmm5, %xmm6
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm11[1,1,3,3]		; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
; SSE2-NEXT: por %xmm4, %xmm5		; SSE-NEXT: por %xmm7, %xmm3
; SSE2-NEXT: pand %xmm5, %xmm2		; SSE-NEXT: por %xmm6, %xmm3
; SSE2-NEXT: pxor %xmm10, %xmm5		; SSE-NEXT: retq
; SSE2-NEXT: movdqa %xmm6, %xmm4
; SSE2-NEXT: pandn %xmm5, %xmm4
; SSE2-NEXT: por %xmm4, %xmm2
; SSE2-NEXT: paddq %xmm6, %xmm2
; SSE2-NEXT: pxor %xmm3, %xmm8
; SSE2-NEXT: pxor %xmm7, %xmm9
; SSE2-NEXT: movdqa %xmm9, %xmm4
; SSE2-NEXT: pcmpgtd %xmm8, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSE2-NEXT: pcmpeqd %xmm8, %xmm9
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm9[1,1,3,3]
; SSE2-NEXT: pand %xmm5, %xmm6
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSE2-NEXT: por %xmm6, %xmm4
; SSE2-NEXT: pand %xmm4, %xmm3
; SSE2-NEXT: pxor %xmm10, %xmm4
; SSE2-NEXT: movdqa %xmm7, %xmm5
; SSE2-NEXT: pandn %xmm4, %xmm5
; SSE2-NEXT: por %xmm5, %xmm3
; SSE2-NEXT: paddq %xmm7, %xmm3
; SSE2-NEXT: retq
;
; SSSE3-LABEL: v8i64:
; SSSE3: # %bb.0:
; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]
; SSSE3-NEXT: movdqa %xmm0, %xmm10
; SSSE3-NEXT: pxor %xmm8, %xmm10
; SSSE3-NEXT: movdqa {{.*#+}} xmm9 = [9223372034707292159,9223372034707292159]
; SSSE3-NEXT: movdqa %xmm4, %xmm11
; SSSE3-NEXT: pxor %xmm9, %xmm11
; SSSE3-NEXT: movdqa %xmm11, %xmm12
; SSSE3-NEXT: pcmpgtd %xmm10, %xmm12
; SSSE3-NEXT: pshufd {{.*#+}} xmm13 = xmm12[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm10, %xmm11
; SSSE3-NEXT: pshufd {{.*#+}} xmm10 = xmm11[1,1,3,3]
; SSSE3-NEXT: pand %xmm13, %xmm10
; SSSE3-NEXT: pshufd {{.*#+}} xmm11 = xmm12[1,1,3,3]
; SSSE3-NEXT: por %xmm10, %xmm11
; SSSE3-NEXT: pand %xmm11, %xmm0
; SSSE3-NEXT: pcmpeqd %xmm10, %xmm10
; SSSE3-NEXT: pxor %xmm10, %xmm11
; SSSE3-NEXT: movdqa %xmm4, %xmm12
; SSSE3-NEXT: pandn %xmm11, %xmm12
; SSSE3-NEXT: por %xmm12, %xmm0
; SSSE3-NEXT: paddq %xmm4, %xmm0
; SSSE3-NEXT: movdqa %xmm1, %xmm11
; SSSE3-NEXT: pxor %xmm8, %xmm11
; SSSE3-NEXT: movdqa %xmm5, %xmm4
; SSSE3-NEXT: pxor %xmm9, %xmm4
; SSSE3-NEXT: movdqa %xmm4, %xmm12
; SSSE3-NEXT: pcmpgtd %xmm11, %xmm12
; SSSE3-NEXT: pshufd {{.*#+}} xmm13 = xmm12[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm11, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm11 = xmm4[1,1,3,3]
; SSSE3-NEXT: pand %xmm13, %xmm11
; SSSE3-NEXT: pshufd {{.*#+}} xmm12 = xmm12[1,1,3,3]
; SSSE3-NEXT: por %xmm11, %xmm12
; SSSE3-NEXT: pand %xmm12, %xmm1
; SSSE3-NEXT: pxor %xmm10, %xmm12
; SSSE3-NEXT: movdqa %xmm5, %xmm4
; SSSE3-NEXT: pandn %xmm12, %xmm4
; SSSE3-NEXT: por %xmm4, %xmm1
; SSSE3-NEXT: paddq %xmm5, %xmm1
; SSSE3-NEXT: movdqa %xmm2, %xmm4
; SSSE3-NEXT: pxor %xmm8, %xmm4
; SSSE3-NEXT: movdqa %xmm6, %xmm5
; SSSE3-NEXT: pxor %xmm9, %xmm5
; SSSE3-NEXT: movdqa %xmm5, %xmm11
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm11
; SSSE3-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm4, %xmm5
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
; SSSE3-NEXT: pand %xmm12, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm11[1,1,3,3]
; SSSE3-NEXT: por %xmm4, %xmm5
; SSSE3-NEXT: pand %xmm5, %xmm2
; SSSE3-NEXT: pxor %xmm10, %xmm5
; SSSE3-NEXT: movdqa %xmm6, %xmm4
; SSSE3-NEXT: pandn %xmm5, %xmm4
; SSSE3-NEXT: por %xmm4, %xmm2
; SSSE3-NEXT: paddq %xmm6, %xmm2
; SSSE3-NEXT: pxor %xmm3, %xmm8
; SSSE3-NEXT: pxor %xmm7, %xmm9
; SSSE3-NEXT: movdqa %xmm9, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm8, %xmm4
; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; SSSE3-NEXT: pcmpeqd %xmm8, %xmm9
; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm9[1,1,3,3]
; SSSE3-NEXT: pand %xmm5, %xmm6
; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSSE3-NEXT: por %xmm6, %xmm4
; SSSE3-NEXT: pand %xmm4, %xmm3
; SSSE3-NEXT: pxor %xmm10, %xmm4
; SSSE3-NEXT: movdqa %xmm7, %xmm5
; SSSE3-NEXT: pandn %xmm4, %xmm5
; SSSE3-NEXT: por %xmm5, %xmm3
; SSSE3-NEXT: paddq %xmm7, %xmm3
; SSSE3-NEXT: retq
;
; SSE41-LABEL: v8i64:
; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm1, %xmm9
; SSE41-NEXT: movdqa %xmm0, %xmm13
; SSE41-NEXT: movdqa {{.*#+}} xmm11 = [9223372039002259456,9223372039002259456]
; SSE41-NEXT: pxor %xmm11, %xmm0
; SSE41-NEXT: movdqa {{.*#+}} xmm12 = [9223372034707292159,9223372034707292159]
; SSE41-NEXT: movdqa %xmm4, %xmm1
; SSE41-NEXT: pxor %xmm12, %xmm1
; SSE41-NEXT: movdqa %xmm1, %xmm8
; SSE41-NEXT: pcmpgtd %xmm0, %xmm8
; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm8[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
; SSE41-NEXT: pand %xmm10, %xmm0
; SSE41-NEXT: por %xmm8, %xmm0
; SSE41-NEXT: pcmpeqd %xmm10, %xmm10
; SSE41-NEXT: movdqa %xmm4, %xmm8
; SSE41-NEXT: pxor %xmm10, %xmm8
; SSE41-NEXT: blendvpd %xmm0, %xmm13, %xmm8
; SSE41-NEXT: paddq %xmm4, %xmm8
; SSE41-NEXT: movdqa %xmm9, %xmm0
; SSE41-NEXT: pxor %xmm11, %xmm0
; SSE41-NEXT: movdqa %xmm5, %xmm1
; SSE41-NEXT: pxor %xmm12, %xmm1
; SSE41-NEXT: movdqa %xmm1, %xmm4
; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm4[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
; SSE41-NEXT: pand %xmm13, %xmm0
; SSE41-NEXT: por %xmm4, %xmm0
; SSE41-NEXT: movdqa %xmm5, %xmm1
; SSE41-NEXT: pxor %xmm10, %xmm1
; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm1
; SSE41-NEXT: paddq %xmm5, %xmm1
; SSE41-NEXT: movdqa %xmm2, %xmm0
; SSE41-NEXT: pxor %xmm11, %xmm0
; SSE41-NEXT: movdqa %xmm6, %xmm4
; SSE41-NEXT: pxor %xmm12, %xmm4
; SSE41-NEXT: movdqa %xmm4, %xmm5
; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
; SSE41-NEXT: pshufd {{.*#+}} xmm9 = xmm5[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
; SSE41-NEXT: pand %xmm9, %xmm0
; SSE41-NEXT: por %xmm5, %xmm0
; SSE41-NEXT: movdqa %xmm6, %xmm4
; SSE41-NEXT: pxor %xmm10, %xmm4
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
; SSE41-NEXT: paddq %xmm6, %xmm4
; SSE41-NEXT: pxor %xmm3, %xmm11
; SSE41-NEXT: pxor %xmm7, %xmm12
; SSE41-NEXT: movdqa %xmm12, %xmm2
; SSE41-NEXT: pcmpgtd %xmm11, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]
; SSE41-NEXT: pcmpeqd %xmm11, %xmm12
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm12[1,1,3,3]
; SSE41-NEXT: pand %xmm5, %xmm0
; SSE41-NEXT: por %xmm2, %xmm0
; SSE41-NEXT: pxor %xmm7, %xmm10
; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm10
; SSE41-NEXT: paddq %xmm7, %xmm10
; SSE41-NEXT: movdqa %xmm8, %xmm0
; SSE41-NEXT: movdqa %xmm4, %xmm2
; SSE41-NEXT: movdqa %xmm10, %xmm3
; SSE41-NEXT: retq
;		;
; AVX1-LABEL: v8i64:		; AVX1-LABEL: v8i64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vpxor %xmm4, %xmm5, %xmm5		; AVX1-NEXT: vpxor %xmm4, %xmm5, %xmm5
; AVX1-NEXT: vxorps %xmm6, %xmm6, %xmm6		; AVX1-NEXT: vxorps %xmm6, %xmm6, %xmm6
; AVX1-NEXT: vcmptrueps %ymm6, %ymm6, %ymm8		; AVX1-NEXT: vcmptrueps %ymm6, %ymm6, %ymm8
Show All 28 Lines
; AVX1-NEXT: vpaddq %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vpaddq %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: v8i64:		; AVX2-LABEL: v8i64:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]		; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm5		; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm5
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm6 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
; AVX2-NEXT: vpxor %ymm6, %ymm2, %ymm7
; AVX2-NEXT: vpcmpgtq %ymm5, %ymm7, %ymm5
; AVX2-NEXT: vpcmpeqd %ymm7, %ymm7, %ymm7
; AVX2-NEXT: vpxor %ymm7, %ymm2, %ymm8
; AVX2-NEXT: vblendvpd %ymm5, %ymm0, %ymm8, %ymm0
; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
		; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm2
		; AVX2-NEXT: vpcmpgtq %ymm2, %ymm5, %ymm2
		; AVX2-NEXT: vpor %ymm0, %ymm2, %ymm0
; AVX2-NEXT: vpxor %ymm4, %ymm1, %ymm2		; AVX2-NEXT: vpxor %ymm4, %ymm1, %ymm2
; AVX2-NEXT: vpxor %ymm6, %ymm3, %ymm4
; AVX2-NEXT: vpcmpgtq %ymm2, %ymm4, %ymm2
; AVX2-NEXT: vpxor %ymm7, %ymm3, %ymm4
; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm4, %ymm1
; AVX2-NEXT: vpaddq %ymm3, %ymm1, %ymm1		; AVX2-NEXT: vpaddq %ymm3, %ymm1, %ymm1
		; AVX2-NEXT: vpxor %ymm4, %ymm1, %ymm3
		; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2
		; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: v8i64:		; AVX512-LABEL: v8i64:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vmovdqa64 %zmm1, %zmm2		; AVX512-NEXT: vmovdqa64 %zmm1, %zmm2
; AVX512-NEXT: vpternlogq $15, %zmm1, %zmm1, %zmm2		; AVX512-NEXT: vpternlogq $15, %zmm1, %zmm1, %zmm2
; AVX512-NEXT: vpminuq %zmm2, %zmm0, %zmm0		; AVX512-NEXT: vpminuq %zmm2, %zmm0, %zmm0
; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/usub_sat.ll

	Show First 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	;			;
	; X64-LABEL: vec:			; X64-LABEL: vec:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; X64-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	; X64-NEXT: movdqa %xmm1, %xmm3			; X64-NEXT: movdqa %xmm1, %xmm3
	; X64-NEXT: pxor %xmm2, %xmm3			; X64-NEXT: pxor %xmm2, %xmm3
	; X64-NEXT: pxor %xmm0, %xmm2			; X64-NEXT: pxor %xmm0, %xmm2
	; X64-NEXT: pcmpgtd %xmm3, %xmm2			; X64-NEXT: pcmpgtd %xmm3, %xmm2
	; X64-NEXT: pand %xmm2, %xmm0
	; X64-NEXT: pandn %xmm1, %xmm2
	; X64-NEXT: por %xmm2, %xmm0
	; X64-NEXT: psubd %xmm1, %xmm0			; X64-NEXT: psubd %xmm1, %xmm0
				; X64-NEXT: pand %xmm2, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp = call <4 x i32> @llvm.usub.sat.v4i32(<4 x i32> %x, <4 x i32> %y);			%tmp = call <4 x i32> @llvm.usub.sat.v4i32(<4 x i32> %x, <4 x i32> %y);
	ret <4 x i32> %tmp;			ret <4 x i32> %tmp;
	}			}

llvm/test/CodeGen/X86/usub_sat_vec.ll

	Show First 20 Lines • Show All 625 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%z = call <16 x i1> @llvm.usub.sat.v16i1(<16 x i1> %x, <16 x i1> %y)			%z = call <16 x i1> @llvm.usub.sat.v16i1(<16 x i1> %x, <16 x i1> %y)
	ret <16 x i1> %z			ret <16 x i1> %z
	}			}

	; Expanded			; Expanded

	define <2 x i32> @v2i32(<2 x i32> %x, <2 x i32> %y) nounwind {			define <2 x i32> @v2i32(<2 x i32> %x, <2 x i32> %y) nounwind {
	; SSE2-LABEL: v2i32:			; SSE-LABEL: v2i32:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: psllq $32, %xmm1			; SSE-NEXT: psllq $32, %xmm1
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
	; SSE2-NEXT: movdqa %xmm1, %xmm3			; SSE-NEXT: movdqa %xmm1, %xmm3
	; SSE2-NEXT: pxor %xmm2, %xmm3			; SSE-NEXT: pxor %xmm2, %xmm3
	; SSE2-NEXT: psllq $32, %xmm0			; SSE-NEXT: psllq $32, %xmm0
	; SSE2-NEXT: pxor %xmm0, %xmm2			; SSE-NEXT: pxor %xmm0, %xmm2
	; SSE2-NEXT: movdqa %xmm2, %xmm4			; SSE-NEXT: movdqa %xmm2, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm3, %xmm4			; SSE-NEXT: pcmpeqd %xmm3, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE-NEXT: pcmpgtd %xmm3, %xmm2
	; SSE2-NEXT: pcmpeqd %xmm3, %xmm2			; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; SSE-NEXT: pand %xmm4, %xmm3
	; SSE2-NEXT: pand %xmm5, %xmm2			; SSE-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE-NEXT: psubq %xmm1, %xmm0
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE-NEXT: psrlq $32, %xmm0
	; SSE2-NEXT: pandn %xmm1, %xmm3			; SSE-NEXT: retq
	; SSE2-NEXT: por %xmm3, %xmm0
	; SSE2-NEXT: psubq %xmm1, %xmm0
	; SSE2-NEXT: psrlq $32, %xmm0
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: v2i32:
	; SSSE3: # %bb.0:
	; SSSE3-NEXT: psllq $32, %xmm1
	; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
	; SSSE3-NEXT: movdqa %xmm1, %xmm3
	; SSSE3-NEXT: pxor %xmm2, %xmm3
	; SSSE3-NEXT: psllq $32, %xmm0
	; SSSE3-NEXT: pxor %xmm0, %xmm2
	; SSSE3-NEXT: movdqa %xmm2, %xmm4
	; SSSE3-NEXT: pcmpgtd %xmm3, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm3, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSSE3-NEXT: pand %xmm5, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
	; SSSE3-NEXT: por %xmm2, %xmm3
	; SSSE3-NEXT: pand %xmm3, %xmm0
	; SSSE3-NEXT: pandn %xmm1, %xmm3
	; SSSE3-NEXT: por %xmm3, %xmm0
	; SSSE3-NEXT: psubq %xmm1, %xmm0
	; SSSE3-NEXT: psrlq $32, %xmm0
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: v2i32:
	; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: psllq $32, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: pxor %xmm0, %xmm3
	; SSE41-NEXT: psllq $32, %xmm2
	; SSE41-NEXT: pxor %xmm2, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: psubq %xmm1, %xmm3
	; SSE41-NEXT: psrlq $32, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: v2i32:			; AVX1-LABEL: v2i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1			; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0			; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0
				; AVX1-NEXT: vpand %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: v2i32:			; AVX2-LABEL: v2i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllq $32, %xmm1, %xmm1			; AVX2-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3			; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3
	; AVX2-NEXT: vpsllq $32, %xmm0, %xmm0			; AVX2-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2
	; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpand %xmm0, %xmm2, %xmm0
	; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm0			; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: v2i32:			; AVX512-LABEL: v2i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpsllq $32, %xmm1, %xmm1			; AVX512-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0			; AVX512-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX512-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlq $32, %xmm0, %xmm0			; AVX512-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%z = call <2 x i32> @llvm.usub.sat.v2i32(<2 x i32> %x, <2 x i32> %y)			%z = call <2 x i32> @llvm.usub.sat.v2i32(<2 x i32> %x, <2 x i32> %y)
	ret <2 x i32> %z			ret <2 x i32> %z
	}			}

	define <4 x i32> @v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {			define <4 x i32> @v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {
	; SSE2-LABEL: v4i32:			; SSE2-LABEL: v4i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	; SSE2-NEXT: movdqa %xmm1, %xmm3			; SSE2-NEXT: movdqa %xmm1, %xmm3
	; SSE2-NEXT: pxor %xmm2, %xmm3			; SSE2-NEXT: pxor %xmm2, %xmm3
	; SSE2-NEXT: pxor %xmm0, %xmm2			; SSE2-NEXT: pxor %xmm0, %xmm2
	; SSE2-NEXT: pcmpgtd %xmm3, %xmm2			; SSE2-NEXT: pcmpgtd %xmm3, %xmm2
	; SSE2-NEXT: pand %xmm2, %xmm0
	; SSE2-NEXT: pandn %xmm1, %xmm2
	; SSE2-NEXT: por %xmm2, %xmm0
	; SSE2-NEXT: psubd %xmm1, %xmm0			; SSE2-NEXT: psubd %xmm1, %xmm0
				; SSE2-NEXT: pand %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: v4i32:			; SSSE3-LABEL: v4i32:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	; SSSE3-NEXT: movdqa %xmm1, %xmm3			; SSSE3-NEXT: movdqa %xmm1, %xmm3
	; SSSE3-NEXT: pxor %xmm2, %xmm3			; SSSE3-NEXT: pxor %xmm2, %xmm3
	; SSSE3-NEXT: pxor %xmm0, %xmm2			; SSSE3-NEXT: pxor %xmm0, %xmm2
	; SSSE3-NEXT: pcmpgtd %xmm3, %xmm2			; SSSE3-NEXT: pcmpgtd %xmm3, %xmm2
	; SSSE3-NEXT: pand %xmm2, %xmm0
	; SSSE3-NEXT: pandn %xmm1, %xmm2
	; SSSE3-NEXT: por %xmm2, %xmm0
	; SSSE3-NEXT: psubd %xmm1, %xmm0			; SSSE3-NEXT: psubd %xmm1, %xmm0
				; SSSE3-NEXT: pand %xmm2, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: v4i32:			; SSE41-LABEL: v4i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmaxud %xmm1, %xmm0			; SSE41-NEXT: pmaxud %xmm1, %xmm0
	; SSE41-NEXT: psubd %xmm1, %xmm0			; SSE41-NEXT: psubd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: v4i32:			; AVX-LABEL: v4i32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpmaxud %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%z = call <4 x i32> @llvm.usub.sat.v4i32(<4 x i32> %x, <4 x i32> %y)			%z = call <4 x i32> @llvm.usub.sat.v4i32(<4 x i32> %x, <4 x i32> %y)
	ret <4 x i32> %z			ret <4 x i32> %z
	}			}

	define <8 x i32> @v8i32(<8 x i32> %x, <8 x i32> %y) nounwind {			define <8 x i32> @v8i32(<8 x i32> %x, <8 x i32> %y) nounwind {
	; SSE2-LABEL: v8i32:			; SSE2-LABEL: v8i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648,2147483648,2147483648]			; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
	; SSE2-NEXT: movdqa %xmm2, %xmm6			; SSE2-NEXT: movdqa %xmm0, %xmm5
	; SSE2-NEXT: pxor %xmm5, %xmm6			; SSE2-NEXT: psubd %xmm2, %xmm0
	; SSE2-NEXT: movdqa %xmm0, %xmm4			; SSE2-NEXT: pxor %xmm4, %xmm2
	; SSE2-NEXT: pxor %xmm5, %xmm4			; SSE2-NEXT: pxor %xmm4, %xmm5
	; SSE2-NEXT: pcmpgtd %xmm6, %xmm4			; SSE2-NEXT: pcmpgtd %xmm2, %xmm5
	; SSE2-NEXT: pand %xmm4, %xmm0			; SSE2-NEXT: pand %xmm5, %xmm0
	; SSE2-NEXT: pandn %xmm2, %xmm4			; SSE2-NEXT: movdqa %xmm3, %xmm2
	; SSE2-NEXT: por %xmm0, %xmm4			; SSE2-NEXT: pxor %xmm4, %xmm2
	; SSE2-NEXT: psubd %xmm2, %xmm4			; SSE2-NEXT: pxor %xmm1, %xmm4
	; SSE2-NEXT: movdqa %xmm3, %xmm0			; SSE2-NEXT: pcmpgtd %xmm2, %xmm4
	; SSE2-NEXT: pxor %xmm5, %xmm0
	; SSE2-NEXT: pxor %xmm1, %xmm5
	; SSE2-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE2-NEXT: pand %xmm5, %xmm1
	; SSE2-NEXT: pandn %xmm3, %xmm5
	; SSE2-NEXT: por %xmm5, %xmm1
	; SSE2-NEXT: psubd %xmm3, %xmm1			; SSE2-NEXT: psubd %xmm3, %xmm1
	; SSE2-NEXT: movdqa %xmm4, %xmm0			; SSE2-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: v8i32:			; SSSE3-LABEL: v8i32:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648,2147483648,2147483648]			; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
	; SSSE3-NEXT: movdqa %xmm2, %xmm6			; SSSE3-NEXT: movdqa %xmm0, %xmm5
	; SSSE3-NEXT: pxor %xmm5, %xmm6			; SSSE3-NEXT: psubd %xmm2, %xmm0
	; SSSE3-NEXT: movdqa %xmm0, %xmm4			; SSSE3-NEXT: pxor %xmm4, %xmm2
	; SSSE3-NEXT: pxor %xmm5, %xmm4			; SSSE3-NEXT: pxor %xmm4, %xmm5
	; SSSE3-NEXT: pcmpgtd %xmm6, %xmm4			; SSSE3-NEXT: pcmpgtd %xmm2, %xmm5
	; SSSE3-NEXT: pand %xmm4, %xmm0			; SSSE3-NEXT: pand %xmm5, %xmm0
	; SSSE3-NEXT: pandn %xmm2, %xmm4			; SSSE3-NEXT: movdqa %xmm3, %xmm2
	; SSSE3-NEXT: por %xmm0, %xmm4			; SSSE3-NEXT: pxor %xmm4, %xmm2
	; SSSE3-NEXT: psubd %xmm2, %xmm4			; SSSE3-NEXT: pxor %xmm1, %xmm4
	; SSSE3-NEXT: movdqa %xmm3, %xmm0			; SSSE3-NEXT: pcmpgtd %xmm2, %xmm4
	; SSSE3-NEXT: pxor %xmm5, %xmm0
	; SSSE3-NEXT: pxor %xmm1, %xmm5
	; SSSE3-NEXT: pcmpgtd %xmm0, %xmm5
	; SSSE3-NEXT: pand %xmm5, %xmm1
	; SSSE3-NEXT: pandn %xmm3, %xmm5
	; SSSE3-NEXT: por %xmm5, %xmm1
	; SSSE3-NEXT: psubd %xmm3, %xmm1			; SSSE3-NEXT: psubd %xmm3, %xmm1
	; SSSE3-NEXT: movdqa %xmm4, %xmm0			; SSSE3-NEXT: pand %xmm4, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: v8i32:			; SSE41-LABEL: v8i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmaxud %xmm2, %xmm0			; SSE41-NEXT: pmaxud %xmm2, %xmm0
	; SSE41-NEXT: psubd %xmm2, %xmm0			; SSE41-NEXT: psubd %xmm2, %xmm0
	; SSE41-NEXT: pmaxud %xmm3, %xmm1			; SSE41-NEXT: pmaxud %xmm3, %xmm1
	; SSE41-NEXT: psubd %xmm3, %xmm1			; SSE41-NEXT: psubd %xmm3, %xmm1
	Show All 23 Lines
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%z = call <8 x i32> @llvm.usub.sat.v8i32(<8 x i32> %x, <8 x i32> %y)			%z = call <8 x i32> @llvm.usub.sat.v8i32(<8 x i32> %x, <8 x i32> %y)
	ret <8 x i32> %z			ret <8 x i32> %z
	}			}

	define <16 x i32> @v16i32(<16 x i32> %x, <16 x i32> %y) nounwind {			define <16 x i32> @v16i32(<16 x i32> %x, <16 x i32> %y) nounwind {
	; SSE2-LABEL: v16i32:			; SSE2-LABEL: v16i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa %xmm1, %xmm8			; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [2147483648,2147483648,2147483648,2147483648]
	; SSE2-NEXT: movdqa %xmm0, %xmm10			; SSE2-NEXT: movdqa %xmm0, %xmm9
	; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]
	; SSE2-NEXT: movdqa %xmm4, %xmm1
	; SSE2-NEXT: pxor %xmm9, %xmm1
	; SSE2-NEXT: pxor %xmm9, %xmm0
	; SSE2-NEXT: pcmpgtd %xmm1, %xmm0
	; SSE2-NEXT: pand %xmm0, %xmm10
	; SSE2-NEXT: pandn %xmm4, %xmm0
	; SSE2-NEXT: por %xmm10, %xmm0
	; SSE2-NEXT: psubd %xmm4, %xmm0			; SSE2-NEXT: psubd %xmm4, %xmm0
	; SSE2-NEXT: movdqa %xmm5, %xmm4			; SSE2-NEXT: pxor %xmm8, %xmm4
	; SSE2-NEXT: pxor %xmm9, %xmm4			; SSE2-NEXT: pxor %xmm8, %xmm9
	; SSE2-NEXT: movdqa %xmm8, %xmm1			; SSE2-NEXT: pcmpgtd %xmm4, %xmm9
	; SSE2-NEXT: pxor %xmm9, %xmm1			; SSE2-NEXT: pand %xmm9, %xmm0
	; SSE2-NEXT: pcmpgtd %xmm4, %xmm1			; SSE2-NEXT: movdqa %xmm1, %xmm4
	; SSE2-NEXT: pand %xmm1, %xmm8
	; SSE2-NEXT: pandn %xmm5, %xmm1
	; SSE2-NEXT: por %xmm8, %xmm1
	; SSE2-NEXT: psubd %xmm5, %xmm1			; SSE2-NEXT: psubd %xmm5, %xmm1
	; SSE2-NEXT: movdqa %xmm6, %xmm5			; SSE2-NEXT: pxor %xmm8, %xmm5
	; SSE2-NEXT: pxor %xmm9, %xmm5			; SSE2-NEXT: pxor %xmm8, %xmm4
	; SSE2-NEXT: movdqa %xmm2, %xmm4
	; SSE2-NEXT: pxor %xmm9, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm5, %xmm4			; SSE2-NEXT: pcmpgtd %xmm5, %xmm4
				; SSE2-NEXT: pand %xmm4, %xmm1
				; SSE2-NEXT: movdqa %xmm2, %xmm4
				; SSE2-NEXT: psubd %xmm6, %xmm2
				; SSE2-NEXT: pxor %xmm8, %xmm6
				; SSE2-NEXT: pxor %xmm8, %xmm4
				; SSE2-NEXT: pcmpgtd %xmm6, %xmm4
	; SSE2-NEXT: pand %xmm4, %xmm2			; SSE2-NEXT: pand %xmm4, %xmm2
	; SSE2-NEXT: pandn %xmm6, %xmm4			; SSE2-NEXT: movdqa %xmm7, %xmm4
	; SSE2-NEXT: por %xmm2, %xmm4			; SSE2-NEXT: pxor %xmm8, %xmm4
	; SSE2-NEXT: psubd %xmm6, %xmm4			; SSE2-NEXT: pxor %xmm3, %xmm8
	; SSE2-NEXT: movdqa %xmm7, %xmm2			; SSE2-NEXT: pcmpgtd %xmm4, %xmm8
	; SSE2-NEXT: pxor %xmm9, %xmm2
	; SSE2-NEXT: pxor %xmm3, %xmm9
	; SSE2-NEXT: pcmpgtd %xmm2, %xmm9
	; SSE2-NEXT: pand %xmm9, %xmm3
	; SSE2-NEXT: pandn %xmm7, %xmm9
	; SSE2-NEXT: por %xmm9, %xmm3
	; SSE2-NEXT: psubd %xmm7, %xmm3			; SSE2-NEXT: psubd %xmm7, %xmm3
	; SSE2-NEXT: movdqa %xmm4, %xmm2			; SSE2-NEXT: pand %xmm8, %xmm3
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: v16i32:			; SSSE3-LABEL: v16i32:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: movdqa %xmm1, %xmm8			; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [2147483648,2147483648,2147483648,2147483648]
	; SSSE3-NEXT: movdqa %xmm0, %xmm10			; SSSE3-NEXT: movdqa %xmm0, %xmm9
	; SSSE3-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]
	; SSSE3-NEXT: movdqa %xmm4, %xmm1
	; SSSE3-NEXT: pxor %xmm9, %xmm1
	; SSSE3-NEXT: pxor %xmm9, %xmm0
	; SSSE3-NEXT: pcmpgtd %xmm1, %xmm0
	; SSSE3-NEXT: pand %xmm0, %xmm10
	; SSSE3-NEXT: pandn %xmm4, %xmm0
	; SSSE3-NEXT: por %xmm10, %xmm0
	; SSSE3-NEXT: psubd %xmm4, %xmm0			; SSSE3-NEXT: psubd %xmm4, %xmm0
	; SSSE3-NEXT: movdqa %xmm5, %xmm4			; SSSE3-NEXT: pxor %xmm8, %xmm4
	; SSSE3-NEXT: pxor %xmm9, %xmm4			; SSSE3-NEXT: pxor %xmm8, %xmm9
	; SSSE3-NEXT: movdqa %xmm8, %xmm1			; SSSE3-NEXT: pcmpgtd %xmm4, %xmm9
	; SSSE3-NEXT: pxor %xmm9, %xmm1			; SSSE3-NEXT: pand %xmm9, %xmm0
	; SSSE3-NEXT: pcmpgtd %xmm4, %xmm1			; SSSE3-NEXT: movdqa %xmm1, %xmm4
	; SSSE3-NEXT: pand %xmm1, %xmm8
	; SSSE3-NEXT: pandn %xmm5, %xmm1
	; SSSE3-NEXT: por %xmm8, %xmm1
	; SSSE3-NEXT: psubd %xmm5, %xmm1			; SSSE3-NEXT: psubd %xmm5, %xmm1
	; SSSE3-NEXT: movdqa %xmm6, %xmm5			; SSSE3-NEXT: pxor %xmm8, %xmm5
	; SSSE3-NEXT: pxor %xmm9, %xmm5			; SSSE3-NEXT: pxor %xmm8, %xmm4
	; SSSE3-NEXT: movdqa %xmm2, %xmm4
	; SSSE3-NEXT: pxor %xmm9, %xmm4
	; SSSE3-NEXT: pcmpgtd %xmm5, %xmm4			; SSSE3-NEXT: pcmpgtd %xmm5, %xmm4
				; SSSE3-NEXT: pand %xmm4, %xmm1
				; SSSE3-NEXT: movdqa %xmm2, %xmm4
				; SSSE3-NEXT: psubd %xmm6, %xmm2
				; SSSE3-NEXT: pxor %xmm8, %xmm6
				; SSSE3-NEXT: pxor %xmm8, %xmm4
				; SSSE3-NEXT: pcmpgtd %xmm6, %xmm4
	; SSSE3-NEXT: pand %xmm4, %xmm2			; SSSE3-NEXT: pand %xmm4, %xmm2
	; SSSE3-NEXT: pandn %xmm6, %xmm4			; SSSE3-NEXT: movdqa %xmm7, %xmm4
	; SSSE3-NEXT: por %xmm2, %xmm4			; SSSE3-NEXT: pxor %xmm8, %xmm4
	; SSSE3-NEXT: psubd %xmm6, %xmm4			; SSSE3-NEXT: pxor %xmm3, %xmm8
	; SSSE3-NEXT: movdqa %xmm7, %xmm2			; SSSE3-NEXT: pcmpgtd %xmm4, %xmm8
	; SSSE3-NEXT: pxor %xmm9, %xmm2
	; SSSE3-NEXT: pxor %xmm3, %xmm9
	; SSSE3-NEXT: pcmpgtd %xmm2, %xmm9
	; SSSE3-NEXT: pand %xmm9, %xmm3
	; SSSE3-NEXT: pandn %xmm7, %xmm9
	; SSSE3-NEXT: por %xmm9, %xmm3
	; SSSE3-NEXT: psubd %xmm7, %xmm3			; SSSE3-NEXT: psubd %xmm7, %xmm3
	; SSSE3-NEXT: movdqa %xmm4, %xmm2			; SSSE3-NEXT: pand %xmm8, %xmm3
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: v16i32:			; SSE41-LABEL: v16i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmaxud %xmm4, %xmm0			; SSE41-NEXT: pmaxud %xmm4, %xmm0
	; SSE41-NEXT: psubd %xmm4, %xmm0			; SSE41-NEXT: psubd %xmm4, %xmm0
	; SSE41-NEXT: pmaxud %xmm5, %xmm1			; SSE41-NEXT: pmaxud %xmm5, %xmm1
	; SSE41-NEXT: psubd %xmm5, %xmm1			; SSE41-NEXT: psubd %xmm5, %xmm1
	Show All 34 Lines
	; AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsubd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpsubd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%z = call <16 x i32> @llvm.usub.sat.v16i32(<16 x i32> %x, <16 x i32> %y)			%z = call <16 x i32> @llvm.usub.sat.v16i32(<16 x i32> %x, <16 x i32> %y)
	ret <16 x i32> %z			ret <16 x i32> %z
	}			}

	define <2 x i64> @v2i64(<2 x i64> %x, <2 x i64> %y) nounwind {			define <2 x i64> @v2i64(<2 x i64> %x, <2 x i64> %y) nounwind {
	; SSE2-LABEL: v2i64:			; SSE-LABEL: v2i64:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
	; SSE2-NEXT: movdqa %xmm1, %xmm3			; SSE-NEXT: movdqa %xmm1, %xmm3
	; SSE2-NEXT: pxor %xmm2, %xmm3			; SSE-NEXT: pxor %xmm2, %xmm3
	; SSE2-NEXT: pxor %xmm0, %xmm2			; SSE-NEXT: pxor %xmm0, %xmm2
	; SSE2-NEXT: movdqa %xmm2, %xmm4			; SSE-NEXT: movdqa %xmm2, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm3, %xmm4			; SSE-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm3, %xmm2			; SSE-NEXT: pcmpeqd %xmm3, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSE2-NEXT: pand %xmm5, %xmm2			; SSE-NEXT: pand %xmm5, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE-NEXT: psubq %xmm1, %xmm0
	; SSE2-NEXT: pandn %xmm1, %xmm3			; SSE-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: por %xmm3, %xmm0			; SSE-NEXT: retq
	; SSE2-NEXT: psubq %xmm1, %xmm0
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: v2i64:
	; SSSE3: # %bb.0:
	; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
	; SSSE3-NEXT: movdqa %xmm1, %xmm3
	; SSSE3-NEXT: pxor %xmm2, %xmm3
	; SSSE3-NEXT: pxor %xmm0, %xmm2
	; SSSE3-NEXT: movdqa %xmm2, %xmm4
	; SSSE3-NEXT: pcmpgtd %xmm3, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm3, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
	; SSSE3-NEXT: pand %xmm5, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,1,3,3]
	; SSSE3-NEXT: por %xmm2, %xmm3
	; SSSE3-NEXT: pand %xmm3, %xmm0
	; SSSE3-NEXT: pandn %xmm1, %xmm3
	; SSSE3-NEXT: por %xmm3, %xmm0
	; SSSE3-NEXT: psubq %xmm1, %xmm0
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: v2i64:
	; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: pxor %xmm0, %xmm3
	; SSE41-NEXT: pxor %xmm2, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: psubq %xmm1, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: v2i64:			; AVX1-LABEL: v2i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3			; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3
	; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0
				; AVX1-NEXT: vpand %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: v2i64:			; AVX2-LABEL: v2i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3			; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3
	; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2
	; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpand %xmm0, %xmm2, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: v2i64:			; AVX512-LABEL: v2i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%z = call <2 x i64> @llvm.usub.sat.v2i64(<2 x i64> %x, <2 x i64> %y)			%z = call <2 x i64> @llvm.usub.sat.v2i64(<2 x i64> %x, <2 x i64> %y)
	ret <2 x i64> %z			ret <2 x i64> %z
	}			}

	define <4 x i64> @v4i64(<4 x i64> %x, <4 x i64> %y) nounwind {			define <4 x i64> @v4i64(<4 x i64> %x, <4 x i64> %y) nounwind {
	; SSE2-LABEL: v4i64:			; SSE-LABEL: v4i64:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]			; SSE-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]
	; SSE2-NEXT: movdqa %xmm2, %xmm5			; SSE-NEXT: movdqa %xmm0, %xmm5
	; SSE2-NEXT: pxor %xmm4, %xmm5			; SSE-NEXT: psubq %xmm2, %xmm0
	; SSE2-NEXT: movdqa %xmm0, %xmm6			; SSE-NEXT: pxor %xmm4, %xmm2
	; SSE2-NEXT: pxor %xmm4, %xmm6			; SSE-NEXT: pxor %xmm4, %xmm5
	; SSE2-NEXT: movdqa %xmm6, %xmm7			; SSE-NEXT: movdqa %xmm5, %xmm6
	; SSE2-NEXT: pcmpgtd %xmm5, %xmm7			; SSE-NEXT: pcmpgtd %xmm2, %xmm6
	; SSE2-NEXT: pshufd {{.*#+}} xmm8 = xmm7[0,0,2,2]			; SSE-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm5, %xmm6			; SSE-NEXT: pcmpeqd %xmm2, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm5[1,1,3,3]
	; SSE2-NEXT: pand %xmm8, %xmm5			; SSE-NEXT: pand %xmm7, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]
	; SSE2-NEXT: por %xmm5, %xmm6			; SSE-NEXT: por %xmm2, %xmm5
	; SSE2-NEXT: pand %xmm6, %xmm0			; SSE-NEXT: pand %xmm5, %xmm0
	; SSE2-NEXT: pandn %xmm2, %xmm6			; SSE-NEXT: movdqa %xmm3, %xmm2
	; SSE2-NEXT: por %xmm6, %xmm0			; SSE-NEXT: pxor %xmm4, %xmm2
	; SSE2-NEXT: psubq %xmm2, %xmm0			; SSE-NEXT: pxor %xmm1, %xmm4
	; SSE2-NEXT: movdqa %xmm3, %xmm2			; SSE-NEXT: movdqa %xmm4, %xmm5
	; SSE2-NEXT: pxor %xmm4, %xmm2			; SSE-NEXT: pcmpgtd %xmm2, %xmm5
	; SSE2-NEXT: pxor %xmm1, %xmm4			; SSE-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
	; SSE2-NEXT: movdqa %xmm4, %xmm5			; SSE-NEXT: pcmpeqd %xmm2, %xmm4
	; SSE2-NEXT: pcmpgtd %xmm2, %xmm5			; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE-NEXT: pand %xmm6, %xmm2
	; SSE2-NEXT: pcmpeqd %xmm2, %xmm4			; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]			; SSE-NEXT: por %xmm2, %xmm4
	; SSE2-NEXT: pand %xmm6, %xmm2			; SSE-NEXT: psubq %xmm3, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]			; SSE-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: por %xmm2, %xmm4			; SSE-NEXT: retq
	; SSE2-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: pandn %xmm3, %xmm4
	; SSE2-NEXT: por %xmm4, %xmm1
	; SSE2-NEXT: psubq %xmm3, %xmm1
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: v4i64:
	; SSSE3: # %bb.0:
	; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259456,9223372039002259456]
	; SSSE3-NEXT: movdqa %xmm2, %xmm5
	; SSSE3-NEXT: pxor %xmm4, %xmm5
	; SSSE3-NEXT: movdqa %xmm0, %xmm6
	; SSSE3-NEXT: pxor %xmm4, %xmm6
	; SSSE3-NEXT: movdqa %xmm6, %xmm7
	; SSSE3-NEXT: pcmpgtd %xmm5, %xmm7
	; SSSE3-NEXT: pshufd {{.*#+}} xmm8 = xmm7[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm5, %xmm6
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]
	; SSSE3-NEXT: pand %xmm8, %xmm5
	; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]
	; SSSE3-NEXT: por %xmm5, %xmm6
	; SSSE3-NEXT: pand %xmm6, %xmm0
	; SSSE3-NEXT: pandn %xmm2, %xmm6
	; SSSE3-NEXT: por %xmm6, %xmm0
	; SSSE3-NEXT: psubq %xmm2, %xmm0
	; SSSE3-NEXT: movdqa %xmm3, %xmm2
	; SSSE3-NEXT: pxor %xmm4, %xmm2
	; SSSE3-NEXT: pxor %xmm1, %xmm4
	; SSSE3-NEXT: movdqa %xmm4, %xmm5
	; SSSE3-NEXT: pcmpgtd %xmm2, %xmm5
	; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm2, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm4[1,1,3,3]
	; SSSE3-NEXT: pand %xmm6, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
	; SSSE3-NEXT: por %xmm2, %xmm4
	; SSSE3-NEXT: pand %xmm4, %xmm1
	; SSSE3-NEXT: pandn %xmm3, %xmm4
	; SSSE3-NEXT: por %xmm4, %xmm1
	; SSSE3-NEXT: psubq %xmm3, %xmm1
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: v4i64:
	; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm5
	; SSE41-NEXT: pxor %xmm6, %xmm5
	; SSE41-NEXT: movdqa %xmm0, %xmm7
	; SSE41-NEXT: pxor %xmm6, %xmm7
	; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm5, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]
	; SSE41-NEXT: pand %xmm8, %xmm5
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5
	; SSE41-NEXT: psubq %xmm2, %xmm5
	; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm6
	; SSE41-NEXT: movdqa %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movdqa %xmm3, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: psubq %xmm3, %xmm2
	; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: v4i64:			; AVX1-LABEL: v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]
	; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm4			; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm4
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm5			; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm5
	Show All 10 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: v4i64:			; AVX2-LABEL: v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3			; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3
	; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: vpand %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: v4i64:			; AVX512-LABEL: v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmaxuq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmaxuq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsubq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpsubq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%z = call <4 x i64> @llvm.usub.sat.v4i64(<4 x i64> %x, <4 x i64> %y)			%z = call <4 x i64> @llvm.usub.sat.v4i64(<4 x i64> %x, <4 x i64> %y)
	ret <4 x i64> %z			ret <4 x i64> %z
	}			}

	define <8 x i64> @v8i64(<8 x i64> %x, <8 x i64> %y) nounwind {			define <8 x i64> @v8i64(<8 x i64> %x, <8 x i64> %y) nounwind {
	; SSE2-LABEL: v8i64:			; SSE-LABEL: v8i64:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]			; SSE-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]
	; SSE2-NEXT: movdqa %xmm4, %xmm9			; SSE-NEXT: movdqa %xmm0, %xmm9
	; SSE2-NEXT: pxor %xmm8, %xmm9			; SSE-NEXT: psubq %xmm4, %xmm0
	; SSE2-NEXT: movdqa %xmm0, %xmm10			; SSE-NEXT: pxor %xmm8, %xmm4
	; SSE2-NEXT: pxor %xmm8, %xmm10			; SSE-NEXT: pxor %xmm8, %xmm9
	; SSE2-NEXT: movdqa %xmm10, %xmm11			; SSE-NEXT: movdqa %xmm9, %xmm10
	; SSE2-NEXT: pcmpgtd %xmm9, %xmm11			; SSE-NEXT: pcmpgtd %xmm4, %xmm10
	; SSE2-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]			; SSE-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm9, %xmm10			; SSE-NEXT: pcmpeqd %xmm4, %xmm9
	; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm10[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm9 = xmm9[1,1,3,3]
	; SSE2-NEXT: pand %xmm12, %xmm9			; SSE-NEXT: pand %xmm11, %xmm9
	; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm11[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm10[1,1,3,3]
	; SSE2-NEXT: por %xmm9, %xmm10			; SSE-NEXT: por %xmm9, %xmm4
	; SSE2-NEXT: pand %xmm10, %xmm0			; SSE-NEXT: pand %xmm4, %xmm0
	; SSE2-NEXT: pandn %xmm4, %xmm10			; SSE-NEXT: movdqa %xmm1, %xmm9
	; SSE2-NEXT: por %xmm10, %xmm0			; SSE-NEXT: psubq %xmm5, %xmm1
	; SSE2-NEXT: psubq %xmm4, %xmm0			; SSE-NEXT: pxor %xmm8, %xmm5
	; SSE2-NEXT: movdqa %xmm5, %xmm9			; SSE-NEXT: pxor %xmm8, %xmm9
	; SSE2-NEXT: pxor %xmm8, %xmm9			; SSE-NEXT: movdqa %xmm9, %xmm4
	; SSE2-NEXT: movdqa %xmm1, %xmm4			; SSE-NEXT: pcmpgtd %xmm5, %xmm4
	; SSE2-NEXT: pxor %xmm8, %xmm4			; SSE-NEXT: pshufd {{.*#+}} xmm10 = xmm4[0,0,2,2]
	; SSE2-NEXT: movdqa %xmm4, %xmm10			; SSE-NEXT: pcmpeqd %xmm5, %xmm9
	; SSE2-NEXT: pcmpgtd %xmm9, %xmm10			; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm9[1,1,3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]			; SSE-NEXT: pand %xmm10, %xmm5
	; SSE2-NEXT: pcmpeqd %xmm9, %xmm4			; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm9 = xmm4[1,1,3,3]			; SSE-NEXT: por %xmm5, %xmm4
	; SSE2-NEXT: pand %xmm11, %xmm9			; SSE-NEXT: pand %xmm4, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm10[1,1,3,3]			; SSE-NEXT: movdqa %xmm2, %xmm4
	; SSE2-NEXT: por %xmm9, %xmm4			; SSE-NEXT: psubq %xmm6, %xmm2
	; SSE2-NEXT: pand %xmm4, %xmm1			; SSE-NEXT: pxor %xmm8, %xmm6
	; SSE2-NEXT: pandn %xmm5, %xmm4			; SSE-NEXT: pxor %xmm8, %xmm4
	; SSE2-NEXT: por %xmm4, %xmm1			; SSE-NEXT: movdqa %xmm4, %xmm5
	; SSE2-NEXT: psubq %xmm5, %xmm1			; SSE-NEXT: pcmpgtd %xmm6, %xmm5
	; SSE2-NEXT: movdqa %xmm6, %xmm4			; SSE-NEXT: pshufd {{.*#+}} xmm9 = xmm5[0,0,2,2]
	; SSE2-NEXT: pxor %xmm8, %xmm4			; SSE-NEXT: pcmpeqd %xmm6, %xmm4
	; SSE2-NEXT: movdqa %xmm2, %xmm5			; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
	; SSE2-NEXT: pxor %xmm8, %xmm5			; SSE-NEXT: pand %xmm9, %xmm4
	; SSE2-NEXT: movdqa %xmm5, %xmm9			; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; SSE2-NEXT: pcmpgtd %xmm4, %xmm9			; SSE-NEXT: por %xmm4, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm10 = xmm9[0,0,2,2]			; SSE-NEXT: pand %xmm5, %xmm2
	; SSE2-NEXT: pcmpeqd %xmm4, %xmm5			; SSE-NEXT: movdqa %xmm7, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]			; SSE-NEXT: pxor %xmm8, %xmm4
	; SSE2-NEXT: pand %xmm10, %xmm4			; SSE-NEXT: pxor %xmm3, %xmm8
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm9[1,1,3,3]			; SSE-NEXT: movdqa %xmm8, %xmm5
	; SSE2-NEXT: por %xmm4, %xmm5			; SSE-NEXT: pcmpgtd %xmm4, %xmm5
	; SSE2-NEXT: pand %xmm5, %xmm2			; SSE-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
	; SSE2-NEXT: pandn %xmm6, %xmm5			; SSE-NEXT: pcmpeqd %xmm4, %xmm8
	; SSE2-NEXT: por %xmm5, %xmm2			; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm8[1,1,3,3]
	; SSE2-NEXT: psubq %xmm6, %xmm2			; SSE-NEXT: pand %xmm6, %xmm4
	; SSE2-NEXT: movdqa %xmm7, %xmm4			; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; SSE2-NEXT: pxor %xmm8, %xmm4			; SSE-NEXT: por %xmm4, %xmm5
	; SSE2-NEXT: pxor %xmm3, %xmm8			; SSE-NEXT: psubq %xmm7, %xmm3
	; SSE2-NEXT: movdqa %xmm8, %xmm5			; SSE-NEXT: pand %xmm5, %xmm3
	; SSE2-NEXT: pcmpgtd %xmm4, %xmm5			; SSE-NEXT: retq
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm4, %xmm8
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm8[1,1,3,3]
	; SSE2-NEXT: pand %xmm6, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; SSE2-NEXT: por %xmm4, %xmm5
	; SSE2-NEXT: pand %xmm5, %xmm3
	; SSE2-NEXT: pandn %xmm7, %xmm5
	; SSE2-NEXT: por %xmm5, %xmm3
	; SSE2-NEXT: psubq %xmm7, %xmm3
	; SSE2-NEXT: retq
	;
	; SSSE3-LABEL: v8i64:
	; SSSE3: # %bb.0:
	; SSSE3-NEXT: movdqa {{.*#+}} xmm8 = [9223372039002259456,9223372039002259456]
	; SSSE3-NEXT: movdqa %xmm4, %xmm9
	; SSSE3-NEXT: pxor %xmm8, %xmm9
	; SSSE3-NEXT: movdqa %xmm0, %xmm10
	; SSSE3-NEXT: pxor %xmm8, %xmm10
	; SSSE3-NEXT: movdqa %xmm10, %xmm11
	; SSSE3-NEXT: pcmpgtd %xmm9, %xmm11
	; SSSE3-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm9, %xmm10
	; SSSE3-NEXT: pshufd {{.*#+}} xmm9 = xmm10[1,1,3,3]
	; SSSE3-NEXT: pand %xmm12, %xmm9
	; SSSE3-NEXT: pshufd {{.*#+}} xmm10 = xmm11[1,1,3,3]
	; SSSE3-NEXT: por %xmm9, %xmm10
	; SSSE3-NEXT: pand %xmm10, %xmm0
	; SSSE3-NEXT: pandn %xmm4, %xmm10
	; SSSE3-NEXT: por %xmm10, %xmm0
	; SSSE3-NEXT: psubq %xmm4, %xmm0
	; SSSE3-NEXT: movdqa %xmm5, %xmm9
	; SSSE3-NEXT: pxor %xmm8, %xmm9
	; SSSE3-NEXT: movdqa %xmm1, %xmm4
	; SSSE3-NEXT: pxor %xmm8, %xmm4
	; SSSE3-NEXT: movdqa %xmm4, %xmm10
	; SSSE3-NEXT: pcmpgtd %xmm9, %xmm10
	; SSSE3-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm9, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm9 = xmm4[1,1,3,3]
	; SSSE3-NEXT: pand %xmm11, %xmm9
	; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm10[1,1,3,3]
	; SSSE3-NEXT: por %xmm9, %xmm4
	; SSSE3-NEXT: pand %xmm4, %xmm1
	; SSSE3-NEXT: pandn %xmm5, %xmm4
	; SSSE3-NEXT: por %xmm4, %xmm1
	; SSSE3-NEXT: psubq %xmm5, %xmm1
	; SSSE3-NEXT: movdqa %xmm6, %xmm4
	; SSSE3-NEXT: pxor %xmm8, %xmm4
	; SSSE3-NEXT: movdqa %xmm2, %xmm5
	; SSSE3-NEXT: pxor %xmm8, %xmm5
	; SSSE3-NEXT: movdqa %xmm5, %xmm9
	; SSSE3-NEXT: pcmpgtd %xmm4, %xmm9
	; SSSE3-NEXT: pshufd {{.*#+}} xmm10 = xmm9[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm4, %xmm5
	; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
	; SSSE3-NEXT: pand %xmm10, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm9[1,1,3,3]
	; SSSE3-NEXT: por %xmm4, %xmm5
	; SSSE3-NEXT: pand %xmm5, %xmm2
	; SSSE3-NEXT: pandn %xmm6, %xmm5
	; SSSE3-NEXT: por %xmm5, %xmm2
	; SSSE3-NEXT: psubq %xmm6, %xmm2
	; SSSE3-NEXT: movdqa %xmm7, %xmm4
	; SSSE3-NEXT: pxor %xmm8, %xmm4
	; SSSE3-NEXT: pxor %xmm3, %xmm8
	; SSSE3-NEXT: movdqa %xmm8, %xmm5
	; SSSE3-NEXT: pcmpgtd %xmm4, %xmm5
	; SSSE3-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
	; SSSE3-NEXT: pcmpeqd %xmm4, %xmm8
	; SSSE3-NEXT: pshufd {{.*#+}} xmm4 = xmm8[1,1,3,3]
	; SSSE3-NEXT: pand %xmm6, %xmm4
	; SSSE3-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
	; SSSE3-NEXT: por %xmm4, %xmm5
	; SSSE3-NEXT: pand %xmm5, %xmm3
	; SSSE3-NEXT: pandn %xmm7, %xmm5
	; SSSE3-NEXT: por %xmm5, %xmm3
	; SSSE3-NEXT: psubq %xmm7, %xmm3
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: v8i64:
	; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm1, %xmm8
	; SSE41-NEXT: movdqa %xmm0, %xmm11
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm4, %xmm9
	; SSE41-NEXT: pxor %xmm10, %xmm9
	; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pxor %xmm10, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm0[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE41-NEXT: pand %xmm12, %xmm1
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm9
	; SSE41-NEXT: psubq %xmm4, %xmm9
	; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm8, %xmm1
	; SSE41-NEXT: pxor %xmm10, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: pand %xmm11, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm1
	; SSE41-NEXT: psubq %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm4
	; SSE41-NEXT: pxor %xmm10, %xmm4
	; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm5[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
	; SSE41-NEXT: pand %xmm8, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: psubq %xmm6, %xmm4
	; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm10
	; SSE41-NEXT: movdqa %xmm10, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movdqa %xmm7, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5
	; SSE41-NEXT: psubq %xmm7, %xmm5
	; SSE41-NEXT: movdqa %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm5, %xmm3
	; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: v8i64:			; AVX1-LABEL: v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [9223372036854775808,9223372036854775808]
	; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm6			; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm6
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm7			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm7
	; AVX1-NEXT: vpxor %xmm5, %xmm7, %xmm7			; AVX1-NEXT: vpxor %xmm5, %xmm7, %xmm7
	Show All 24 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: v8i64:			; AVX2-LABEL: v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; AVX2-NEXT: vpxor %ymm4, %ymm2, %ymm5			; AVX2-NEXT: vpxor %ymm4, %ymm2, %ymm5
	; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm6			; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm6
	; AVX2-NEXT: vpcmpgtq %ymm5, %ymm6, %ymm5			; AVX2-NEXT: vpcmpgtq %ymm5, %ymm6, %ymm5
	; AVX2-NEXT: vblendvpd %ymm5, %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpsubq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpsubq %ymm2, %ymm0, %ymm0
				; AVX2-NEXT: vpand %ymm0, %ymm5, %ymm0
	; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm2			; AVX2-NEXT: vpxor %ymm4, %ymm3, %ymm2
	; AVX2-NEXT: vpxor %ymm4, %ymm1, %ymm4			; AVX2-NEXT: vpxor %ymm4, %ymm1, %ymm4
	; AVX2-NEXT: vpcmpgtq %ymm2, %ymm4, %ymm2			; AVX2-NEXT: vpcmpgtq %ymm2, %ymm4, %ymm2
	; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm3, %ymm1
	; AVX2-NEXT: vpsubq %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpsubq %ymm3, %ymm1, %ymm1
				; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: v8i64:			; AVX512-LABEL: v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsubq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpsubq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%z = call <8 x i64> @llvm.usub.sat.v8i64(<8 x i64> %x, <8 x i64> %y)			%z = call <8 x i64> @llvm.usub.sat.v8i64(<8 x i64> %x, <8 x i64> %y)
	▲ Show 20 Lines • Show All 42 Lines • Show Last 20 Lines