This is an archive of the discontinued LLVM Phabricator instance.

[DAG] Move basic USUBSAT pattern matches from X86 to DAGCombine
ClosedPublic

Authored by RKSimon on Feb 10 2021, 6:04 AM.

Download Raw Diff

Details

Reviewers

craig.topper
dmgreen
arsenm
spatel
nikic
efriedma

Commits

rG4841a225b754: [DAG] Move basic USUBSAT pattern matches from X86 to DAGCombine

Summary

Begin transitioning the X86 vector code to recognise sub(umax(a,b) ,b) or sub(a,umin(a,b)) USUBSAT patterns more generic and available to all targets.

This initial patch just moves the basic umin/umax patterns to DAG, removing some vector-only checks on the way - these are some of the patterns that the legalizer will try to expand back to so we can be reasonably relaxed about matching these pre-legalization.

We can handle the trunc(sub(..))) variants as well, which helps with patterns where we were promoting to a wider type to detect overflow/saturation.

The remaining x86 code requires some cleanup first - some of it isn't actually tested etc. I also need to resurrect D25987.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

RKSimon created this revision.Feb 10 2021, 6:04 AM

Herald added subscribers: ecnelises, kerbowa, pengfei and 3 others. · View Herald TranscriptFeb 10 2021, 6:04 AM

RKSimon requested review of this revision.Feb 10 2021, 6:04 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 10 2021, 6:04 AM

Herald added a subscriber: wdng. · View Herald Transcript

Harbormaster completed remote builds in B88623: Diff 322664.Feb 10 2021, 6:38 AM

nikic added inline comments.Feb 10 2021, 11:49 AM

llvm/test/CodeGen/AArch64/usub_sat.ll
35	Why are tests that directly use usub.sat intrinsics affected by this? Are we doing something weird like first expanding them to min/max sub and then combining them back to usubsat on the extended type?

craig.topper added inline comments.Feb 10 2021, 7:45 PM

llvm/test/CodeGen/AArch64/usub_sat.ll
35	I think type legalization expands it when it promotes the type. For USUBSAT, the expansion isn't necessary. Promoting the operands by zero extending would have been enough since the saturating value is 0 so is not affected by the promoted type. This is different than UADDSAT where the saturation value is UINT_MAX of the original type.

RKSimon added inline comments.Feb 11 2021, 2:44 AM

llvm/test/CodeGen/AArch64/usub_sat.ll
35	Its a (nice?) sideeffect of the args actually being passed as zeroext i32 - we start off with a usubsat i16, which gets promoted to a i32 expanded sequence, but we're still before legalops, and as we know we have zero'd upper bits the new combine reforms the usubsat i32 pattern, which then expands to the shorter i32 codegen.

craig.topper added inline comments.Feb 11 2021, 8:43 AM

llvm/test/CodeGen/AArch64/usub_sat.ll
35	I thought the zero upper bits is only checked if we look through a truncate. If we change the type legalizer to preserve USUBSAT we pick up an improvement on at least one additional X86 test.

RKSimon added inline comments.Feb 11 2021, 10:17 AM

llvm/test/CodeGen/AArch64/usub_sat.ll
35	Sorry my mistake - I was getting mixed and was using other targets tests against aarch64. Are you proposing we emit the promoted USUBSAT inside DAGTypeLegalizer::PromoteIntRes_ADDSUBSHLSAT ?

craig.topper added inline comments.Feb 11 2021, 11:45 AM

llvm/test/CodeGen/AArch64/usub_sat.ll
35	Yes. It already zero extended the operands so it should be safe I think. It picks up a couple improvements to X86/usub_sat_plus.ll that get broken by SimplifyDemandedBits before the combine in this patch has a chance to kick in.

RKSimon added inline comments.Feb 11 2021, 12:52 PM

llvm/test/CodeGen/AArch64/usub_sat.ll
35	Yes I can do that - do you have any objection to me doing that as a follow-up patch for review after this one has landed?

craig.topper added inline comments.Feb 11 2021, 1:09 PM

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
3149	Is this equivalent to something like if (!DAG.MaskedValueIsZero(LHS, APInt::getBitsSetFrom(SubVT.getScalarSizeInBits(), DstVT.getScalarSizeInBits())
llvm/test/CodeGen/AArch64/usub_sat.ll
35	No objection

RKSimon added inline comments.Feb 11 2021, 1:22 PM

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
3149	Yes - missed that one when I moved this from x86......

Use SelectionDAG::MaskedValueIsZero

Harbormaster completed remote builds in B88969: Diff 323273.Feb 12 2021, 4:51 AM

RKSimon mentioned this in D96609: [X86][AVX] Truncate vectors with PACKSS/PACKUS on AVX2 targets.Feb 12 2021, 7:28 AM

LGTM

This revision is now accepted and ready to land.Feb 12 2021, 9:24 AM

Closed by commit rG4841a225b754: [DAG] Move basic USUBSAT pattern matches from X86 to DAGCombine (authored by RKSimon). · Explain WhyFeb 12 2021, 10:24 AM

This revision was automatically updated to reflect the committed changes.

RKSimon added a commit: rG4841a225b754: [DAG] Move basic USUBSAT pattern matches from X86 to DAGCombine.

RKSimon mentioned this in D96622: [DAG] PromoteIntRes_ADDSUBSHLSAT - use promoted ISD::USUBSAT directly.Feb 12 2021, 11:16 AM

RKSimon mentioned this in rG60ba5397dfbf: [DAG] PromoteIntRes_ADDSUBSHLSAT - use promoted ISD::USUBSAT directly.Feb 13 2021, 4:35 AM

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

65 lines

Target/

X86/

X86ISelLowering.cpp

29 lines

test/

CodeGen/

AArch64/

usub_sat.ll

21 lines

usub_sat_plus.ll

21 lines

AMDGPU/

usubsat.ll

12 lines

ARM/

usub_sat.ll

51 lines

X86/

psubus.ll

242 lines

usub_sat.ll

22 lines

Diff 323386

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 543 Lines • ▼ Show 20 Lines	private:
SDValue convertSelectOfFPConstantsToLoadOffset(		SDValue convertSelectOfFPConstantsToLoadOffset(
const SDLoc &DL, SDValue N0, SDValue N1, SDValue N2, SDValue N3,		const SDLoc &DL, SDValue N0, SDValue N1, SDValue N2, SDValue N3,
ISD::CondCode CC);		ISD::CondCode CC);
SDValue foldSignChangeInBitcast(SDNode *N);		SDValue foldSignChangeInBitcast(SDNode *N);
SDValue foldSelectCCToShiftAnd(const SDLoc &DL, SDValue N0, SDValue N1,		SDValue foldSelectCCToShiftAnd(const SDLoc &DL, SDValue N0, SDValue N1,
SDValue N2, SDValue N3, ISD::CondCode CC);		SDValue N2, SDValue N3, ISD::CondCode CC);
SDValue foldLogicOfSetCCs(bool IsAnd, SDValue N0, SDValue N1,		SDValue foldLogicOfSetCCs(bool IsAnd, SDValue N0, SDValue N1,
const SDLoc &DL);		const SDLoc &DL);
		SDValue foldSubToUSubSat(EVT DstVT, SDNode *N);
SDValue unfoldMaskedMerge(SDNode *N);		SDValue unfoldMaskedMerge(SDNode *N);
SDValue unfoldExtremeBitClearingToShifts(SDNode *N);		SDValue unfoldExtremeBitClearingToShifts(SDNode *N);
SDValue SimplifySetCC(EVT VT, SDValue N0, SDValue N1, ISD::CondCode Cond,		SDValue SimplifySetCC(EVT VT, SDValue N0, SDValue N1, ISD::CondCode Cond,
const SDLoc &DL, bool foldBooleans);		const SDLoc &DL, bool foldBooleans);
SDValue rebuildSetCC(SDValue N);		SDValue rebuildSetCC(SDValue N);

bool isSetCCEquivalent(SDValue N, SDValue &LHS, SDValue &RHS,		bool isSetCCEquivalent(SDValue N, SDValue &LHS, SDValue &RHS,
SDValue &CC, bool MatchStrict = false) const;		SDValue &CC, bool MatchStrict = false) const;
▲ Show 20 Lines • Show All 2,560 Lines • ▼ Show 20 Lines	if (auto R = combineADDCARRYDiamond(*this, DAG, N0, Y, CarryIn, N))
return R;		return R;
if (auto R = combineADDCARRYDiamond(*this, DAG, N0, CarryIn, Y, N))		if (auto R = combineADDCARRYDiamond(*this, DAG, N0, CarryIn, Y, N))
return R;		return R;
}		}

return SDValue();		return SDValue();
}		}

		// Try to find umax(a,b) - b or a - umin(a,b) patterns that may be converted to
		// usubsat(a,b), optionally as a truncated type.
		SDValue DAGCombiner::foldSubToUSubSat(EVT DstVT, SDNode *N) {
		if (N->getOpcode() != ISD::SUB \|\|
		!(!LegalOperations \|\| hasOperation(ISD::USUBSAT, DstVT)))
		return SDValue();

		EVT SubVT = N->getValueType(0);
		SDValue Op0 = N->getOperand(0);
		SDValue Op1 = N->getOperand(1);
		assert(DstVT.getScalarSizeInBits() <= SubVT.getScalarSizeInBits() &&
		"Illegal truncation");

		auto TruncatedUSUBSAT = [&](SDValue LHS, SDValue RHS) {
		SDLoc DL(N);
		if (DstVT == SubVT)
		return DAG.getNode(ISD::USUBSAT, DL, DstVT, LHS, RHS);

		// If the LHS is zero-extended then we can perform the USUBSAT as DstVT by
		// clamping RHS.
		APInt UpperBits = APInt::getBitsSetFrom(SubVT.getScalarSizeInBits(),
		craig.topperUnsubmitted Not Done Reply Inline Actions Is this equivalent to something like if (!DAG.MaskedValueIsZero(LHS, APInt::getBitsSetFrom(SubVT.getScalarSizeInBits(), DstVT.getScalarSizeInBits()) craig.topper: Is this equivalent to something like if (!DAG.MaskedValueIsZero(LHS, APInt::getBitsSetFrom…
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Yes - missed that one when I moved this from x86...... RKSimon: Yes - missed that one when I moved this from x86......
		DstVT.getScalarSizeInBits());
		if (!DAG.MaskedValueIsZero(LHS, UpperBits))
		return SDValue();

		SDValue SatLimit =
		DAG.getConstant(APInt::getLowBitsSet(SubVT.getScalarSizeInBits(),
		DstVT.getScalarSizeInBits()),
		DL, SubVT);
		RHS = DAG.getNode(ISD::UMIN, DL, SubVT, RHS, SatLimit);
		RHS = DAG.getZExtOrTrunc(RHS, DL, DstVT);
		LHS = DAG.getZExtOrTrunc(LHS, DL, DstVT);
		return DAG.getNode(ISD::USUBSAT, DL, DstVT, LHS, RHS);
		};

		// Try to find umax(a,b) - b or a - umin(a,b) patterns
		// they may be converted to usubsat(a,b).
		if (Op0.getOpcode() == ISD::UMAX) {
		SDValue MaxLHS = Op0.getOperand(0);
		SDValue MaxRHS = Op0.getOperand(1);
		if (MaxLHS == Op1)
		return TruncatedUSUBSAT(MaxRHS, Op1);
		if (MaxRHS == Op1)
		return TruncatedUSUBSAT(MaxLHS, Op1);
		}

		if (Op1.getOpcode() == ISD::UMIN) {
		SDValue MinLHS = Op1.getOperand(0);
		SDValue MinRHS = Op1.getOperand(1);
		if (MinLHS == Op0)
		return TruncatedUSUBSAT(Op0, MinRHS);
		if (MinRHS == Op0)
		return TruncatedUSUBSAT(Op0, MinLHS);
		}

		return SDValue();
		}

// Since it may not be valid to emit a fold to zero for vector initializers		// Since it may not be valid to emit a fold to zero for vector initializers
// check if we can before folding.		// check if we can before folding.
static SDValue tryFoldToZero(const SDLoc &DL, const TargetLowering &TLI, EVT VT,		static SDValue tryFoldToZero(const SDLoc &DL, const TargetLowering &TLI, EVT VT,
SelectionDAG &DAG, bool LegalOperations) {		SelectionDAG &DAG, bool LegalOperations) {
if (!VT.isVector())		if (!VT.isVector())
return DAG.getConstant(0, DL, VT);		return DAG.getConstant(0, DL, VT);
if (!LegalOperations \|\| TLI.isOperationLegal(ISD::BUILD_VECTOR, VT))		if (!LegalOperations \|\| TLI.isOperationLegal(ISD::BUILD_VECTOR, VT))
return DAG.getConstant(0, DL, VT);		return DAG.getConstant(0, DL, VT);
▲ Show 20 Lines • Show All 202 Lines • ▼ Show 20 Lines	if (SDValue V = foldAddSubBoolOfMaskedVal(N, DAG))
return V;		return V;

if (SDValue V = foldAddSubOfSignBit(N, DAG))		if (SDValue V = foldAddSubOfSignBit(N, DAG))
return V;		return V;

if (SDValue V = foldAddSubMasked1(false, N0, N1, DAG, SDLoc(N)))		if (SDValue V = foldAddSubMasked1(false, N0, N1, DAG, SDLoc(N)))
return V;		return V;

		if (SDValue V = foldSubToUSubSat(VT, N))
		return V;

// (x - y) - 1 -> add (xor y, -1), x		// (x - y) - 1 -> add (xor y, -1), x
if (N0.hasOneUse() && N0.getOpcode() == ISD::SUB && isOneOrOneSplat(N1)) {		if (N0.hasOneUse() && N0.getOpcode() == ISD::SUB && isOneOrOneSplat(N1)) {
SDValue Xor = DAG.getNode(ISD::XOR, DL, VT, N0.getOperand(1),		SDValue Xor = DAG.getNode(ISD::XOR, DL, VT, N0.getOperand(1),
DAG.getAllOnesConstant(DL, VT));		DAG.getAllOnesConstant(DL, VT));
return DAG.getNode(ISD::ADD, DL, VT, Xor, N0.getOperand(0));		return DAG.getNode(ISD::ADD, DL, VT, Xor, N0.getOperand(0));
}		}

// Look for:		// Look for:
▲ Show 20 Lines • Show All 8,457 Lines • ▼ Show 20 Lines	if (Known.getBitWidth() - Known.countMinLeadingZeros() <= Log2_32(Size)) {
if (AmtVT != Amt.getValueType()) {		if (AmtVT != Amt.getValueType()) {
Amt = DAG.getZExtOrTrunc(Amt, SL, AmtVT);		Amt = DAG.getZExtOrTrunc(Amt, SL, AmtVT);
AddToWorklist(Amt.getNode());		AddToWorklist(Amt.getNode());
}		}
return DAG.getNode(ISD::SHL, SL, VT, Trunc, Amt);		return DAG.getNode(ISD::SHL, SL, VT, Trunc, Amt);
}		}
}		}

		if (SDValue V = foldSubToUSubSat(VT, N0.getNode()))
		return V;

// Attempt to pre-truncate BUILD_VECTOR sources.		// Attempt to pre-truncate BUILD_VECTOR sources.
if (N0.getOpcode() == ISD::BUILD_VECTOR && !LegalOperations &&		if (N0.getOpcode() == ISD::BUILD_VECTOR && !LegalOperations &&
TLI.isTruncateFree(SrcVT.getScalarType(), VT.getScalarType()) &&		TLI.isTruncateFree(SrcVT.getScalarType(), VT.getScalarType()) &&
// Avoid creating illegal types if running after type legalizer.		// Avoid creating illegal types if running after type legalizer.
(!LegalTypes \|\| TLI.isTypeLegal(VT.getScalarType()))) {		(!LegalTypes \|\| TLI.isTypeLegal(VT.getScalarType()))) {
SDLoc DL(N);		SDLoc DL(N);
EVT SVT = VT.getScalarType();		EVT SVT = VT.getScalarType();
SmallVector<SDValue, 8> TruncOps;		SmallVector<SDValue, 8> TruncOps;
▲ Show 20 Lines • Show All 10,930 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 49,142 Lines • ▼ Show 20 Lines	static SDValue combineSubToSubus(SDNode *N, SelectionDAG &DAG,
// PSUBUS is supported, starting from SSE2.		// PSUBUS is supported, starting from SSE2.
EVT EltVT = VT.getVectorElementType();		EVT EltVT = VT.getVectorElementType();
if (!(Subtarget.hasSSE2() &&		if (!(Subtarget.hasSSE2() &&
(EltVT == MVT::i8 \|\| EltVT == MVT::i16 \|\| VT == MVT::v8i32 \|\|		(EltVT == MVT::i8 \|\| EltVT == MVT::i16 \|\| VT == MVT::v8i32 \|\|
VT == MVT::v8i64 \|\| VT == MVT::v16i32)))		VT == MVT::v8i64 \|\| VT == MVT::v16i32)))
return SDValue();		return SDValue();

SDValue SubusLHS, SubusRHS;		SDValue SubusLHS, SubusRHS;
// Try to find umax(a,b) - b or a - umin(a,b) patterns		if (Op1.getOpcode() == ISD::TRUNCATE &&
// they may be converted to subus(a,b).
// TODO: Need to add IR canonicalization for this code.
if (Op0.getOpcode() == ISD::UMAX) {
SubusRHS = Op1;
SDValue MaxLHS = Op0.getOperand(0);
SDValue MaxRHS = Op0.getOperand(1);
if (MaxLHS == Op1)
SubusLHS = MaxRHS;
else if (MaxRHS == Op1)
SubusLHS = MaxLHS;
else
return SDValue();
} else if (Op1.getOpcode() == ISD::UMIN) {
SubusLHS = Op0;
SDValue MinLHS = Op1.getOperand(0);
SDValue MinRHS = Op1.getOperand(1);
if (MinLHS == Op0)
SubusRHS = MinRHS;
else if (MinRHS == Op0)
SubusRHS = MinLHS;
else
return SDValue();
} else if (Op1.getOpcode() == ISD::TRUNCATE &&
Op1.getOperand(0).getOpcode() == ISD::UMIN &&		Op1.getOperand(0).getOpcode() == ISD::UMIN &&
(EltVT == MVT::i8 \|\| EltVT == MVT::i16)) {		(EltVT == MVT::i8 \|\| EltVT == MVT::i16)) {
// Special case where the UMIN has been truncated. Try to push the truncate		// Special case where the UMIN has been truncated. Try to push the truncate
// further up. This is similar to the i32/i64 special processing.		// further up. This is similar to the i32/i64 special processing.
SubusLHS = Op0;		SubusLHS = Op0;
SDValue MinLHS = Op1.getOperand(0).getOperand(0);		SDValue MinLHS = Op1.getOperand(0).getOperand(0);
SDValue MinRHS = Op1.getOperand(0).getOperand(1);		SDValue MinRHS = Op1.getOperand(0).getOperand(1);
EVT TruncVT = Op1.getOperand(0).getValueType();		EVT TruncVT = Op1.getOperand(0).getValueType();
if (!(Subtarget.hasSSE2() &&		if (!(Subtarget.hasSSE2() &&
(TruncVT == MVT::v8i32 \|\| TruncVT == MVT::v8i64 \|\|		(TruncVT == MVT::v8i32 \|\| TruncVT == MVT::v8i64 \|\|
▲ Show 20 Lines • Show All 2,612 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/usub_sat.ll

	Show All 24 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%tmp = call i64 @llvm.usub.sat.i64(i64 %x, i64 %y);			%tmp = call i64 @llvm.usub.sat.i64(i64 %x, i64 %y);
	ret i64 %tmp;			ret i64 %tmp;
	}			}

	define i16 @func16(i16 %x, i16 %y) nounwind {			define i16 @func16(i16 %x, i16 %y) nounwind {
	; CHECK-LABEL: func16:			; CHECK-LABEL: func16:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: and w8, w1, #0xffff			; CHECK-NEXT: and w8, w0, #0xffff
	; CHECK-NEXT: and w9, w0, #0xffff			; CHECK-NEXT: subs w8, w8, w1, uxth
	; CHECK-NEXT: cmp w9, w8			; CHECK-NEXT: csel w0, wzr, w8, lo
				nikicUnsubmitted Not Done Reply Inline Actions Why are tests that directly use usub.sat intrinsics affected by this? Are we doing something weird like first expanding them to min/max sub and then combining them back to usubsat on the extended type? nikic: Why are tests that directly use usub.sat intrinsics affected by this? Are we doing something…
				craig.topperUnsubmitted Not Done Reply Inline Actions I think type legalization expands it when it promotes the type. For USUBSAT, the expansion isn't necessary. Promoting the operands by zero extending would have been enough since the saturating value is 0 so is not affected by the promoted type. This is different than UADDSAT where the saturation value is UINT_MAX of the original type. craig.topper: I think type legalization expands it when it promotes the type. For USUBSAT, the expansion…
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Its a (nice?) sideeffect of the args actually being passed as zeroext i32 - we start off with a usubsat i16, which gets promoted to a i32 expanded sequence, but we're still before legalops, and as we know we have zero'd upper bits the new combine reforms the usubsat i32 pattern, which then expands to the shorter i32 codegen. RKSimon: Its a (nice?) sideeffect of the args actually being passed as zeroext i32 - we start off with a…
				craig.topperUnsubmitted Not Done Reply Inline Actions I thought the zero upper bits is only checked if we look through a truncate. If we change the type legalizer to preserve USUBSAT we pick up an improvement on at least one additional X86 test. craig.topper: I thought the zero upper bits is only checked if we look through a truncate. If we change the…
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Sorry my mistake - I was getting mixed and was using other targets tests against aarch64. Are you proposing we emit the promoted USUBSAT inside DAGTypeLegalizer::PromoteIntRes_ADDSUBSHLSAT ? RKSimon: Sorry my mistake - I was getting mixed and was using other targets tests against aarch64. Are…
				craig.topperUnsubmitted Not Done Reply Inline Actions Yes. It already zero extended the operands so it should be safe I think. It picks up a couple improvements to X86/usub_sat_plus.ll that get broken by SimplifyDemandedBits before the combine in this patch has a chance to kick in. craig.topper: Yes. It already zero extended the operands so it should be safe I think. It picks up a couple…
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Yes I can do that - do you have any objection to me doing that as a follow-up patch for review after this one has landed? RKSimon: Yes I can do that - do you have any objection to me doing that as a follow-up patch for review…
				craig.topperUnsubmitted Not Done Reply Inline Actions No objection craig.topper: No objection
	; CHECK-NEXT: csel w9, w9, w8, hi
	; CHECK-NEXT: sub w0, w9, w8
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%tmp = call i16 @llvm.usub.sat.i16(i16 %x, i16 %y);			%tmp = call i16 @llvm.usub.sat.i16(i16 %x, i16 %y);
	ret i16 %tmp;			ret i16 %tmp;
	}			}

	define i8 @func8(i8 %x, i8 %y) nounwind {			define i8 @func8(i8 %x, i8 %y) nounwind {
	; CHECK-LABEL: func8:			; CHECK-LABEL: func8:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: and w8, w1, #0xff			; CHECK-NEXT: and w8, w0, #0xff
	; CHECK-NEXT: and w9, w0, #0xff			; CHECK-NEXT: subs w8, w8, w1, uxtb
	; CHECK-NEXT: cmp w9, w8			; CHECK-NEXT: csel w0, wzr, w8, lo
	; CHECK-NEXT: csel w9, w9, w8, hi
	; CHECK-NEXT: sub w0, w9, w8
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%tmp = call i8 @llvm.usub.sat.i8(i8 %x, i8 %y);			%tmp = call i8 @llvm.usub.sat.i8(i8 %x, i8 %y);
	ret i8 %tmp;			ret i8 %tmp;
	}			}

	define i4 @func3(i4 %x, i4 %y) nounwind {			define i4 @func3(i4 %x, i4 %y) nounwind {
	; CHECK-LABEL: func3:			; CHECK-LABEL: func3:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: and w8, w1, #0xf			; CHECK-NEXT: and w8, w1, #0xf
	; CHECK-NEXT: and w9, w0, #0xf			; CHECK-NEXT: and w9, w0, #0xf
	; CHECK-NEXT: cmp w9, w8			; CHECK-NEXT: subs w8, w9, w8
	; CHECK-NEXT: csel w9, w9, w8, hi			; CHECK-NEXT: csel w0, wzr, w8, lo
	; CHECK-NEXT: sub w0, w9, w8
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%tmp = call i4 @llvm.usub.sat.i4(i4 %x, i4 %y);			%tmp = call i4 @llvm.usub.sat.i4(i4 %x, i4 %y);
	ret i4 %tmp;			ret i4 %tmp;
	}			}

llvm/test/CodeGen/AArch64/usub_sat_plus.ll

Show All 27 Lines	; CHECK-NEXT: ret
%a = mul i64 %y, %z		%a = mul i64 %y, %z
%tmp = call i64 @llvm.usub.sat.i64(i64 %x, i64 %z)		%tmp = call i64 @llvm.usub.sat.i64(i64 %x, i64 %z)
ret i64 %tmp		ret i64 %tmp
}		}

define i16 @func16(i16 %x, i16 %y, i16 %z) nounwind {		define i16 @func16(i16 %x, i16 %y, i16 %z) nounwind {
; CHECK-LABEL: func16:		; CHECK-LABEL: func16:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: mul w9, w1, w2
; CHECK-NEXT: and w8, w0, #0xffff		; CHECK-NEXT: and w8, w0, #0xffff
; CHECK-NEXT: and w9, w9, #0xffff		; CHECK-NEXT: mul w9, w1, w2
; CHECK-NEXT: cmp w8, w9		; CHECK-NEXT: subs w8, w8, w9, uxth
; CHECK-NEXT: csel w8, w8, w9, hi		; CHECK-NEXT: csel w0, wzr, w8, lo
; CHECK-NEXT: sub w0, w8, w9
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%a = mul i16 %y, %z		%a = mul i16 %y, %z
%tmp = call i16 @llvm.usub.sat.i16(i16 %x, i16 %a)		%tmp = call i16 @llvm.usub.sat.i16(i16 %x, i16 %a)
ret i16 %tmp		ret i16 %tmp
}		}

define i8 @func8(i8 %x, i8 %y, i8 %z) nounwind {		define i8 @func8(i8 %x, i8 %y, i8 %z) nounwind {
; CHECK-LABEL: func8:		; CHECK-LABEL: func8:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: mul w9, w1, w2
; CHECK-NEXT: and w8, w0, #0xff		; CHECK-NEXT: and w8, w0, #0xff
; CHECK-NEXT: and w9, w9, #0xff		; CHECK-NEXT: mul w9, w1, w2
; CHECK-NEXT: cmp w8, w9		; CHECK-NEXT: subs w8, w8, w9, uxtb
; CHECK-NEXT: csel w8, w8, w9, hi		; CHECK-NEXT: csel w0, wzr, w8, lo
; CHECK-NEXT: sub w0, w8, w9
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%a = mul i8 %y, %z		%a = mul i8 %y, %z
%tmp = call i8 @llvm.usub.sat.i8(i8 %x, i8 %a)		%tmp = call i8 @llvm.usub.sat.i8(i8 %x, i8 %a)
ret i8 %tmp		ret i8 %tmp
}		}

define i4 @func4(i4 %x, i4 %y, i4 %z) nounwind {		define i4 @func4(i4 %x, i4 %y, i4 %z) nounwind {
; CHECK-LABEL: func4:		; CHECK-LABEL: func4:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: mul w9, w1, w2		; CHECK-NEXT: mul w9, w1, w2
; CHECK-NEXT: and w8, w0, #0xf		; CHECK-NEXT: and w8, w0, #0xf
; CHECK-NEXT: and w9, w9, #0xf		; CHECK-NEXT: and w9, w9, #0xf
; CHECK-NEXT: cmp w8, w9		; CHECK-NEXT: subs w8, w8, w9
; CHECK-NEXT: csel w8, w8, w9, hi		; CHECK-NEXT: csel w0, wzr, w8, lo
; CHECK-NEXT: sub w0, w8, w9
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%a = mul i4 %y, %z		%a = mul i4 %y, %z
%tmp = call i4 @llvm.usub.sat.i4(i4 %x, i4 %a)		%tmp = call i4 @llvm.usub.sat.i4(i4 %x, i4 %a)
ret i4 %tmp		ret i4 %tmp
}		}

llvm/test/CodeGen/AMDGPU/usubsat.ll

Show First 20 Lines • Show All 119 Lines • ▼ Show 20 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define <3 x i16> @v_usubsat_v3i16(<3 x i16> %lhs, <3 x i16> %rhs) {		define <3 x i16> @v_usubsat_v3i16(<3 x i16> %lhs, <3 x i16> %rhs) {
; GFX6-LABEL: v_usubsat_v3i16:		; GFX6-LABEL: v_usubsat_v3i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_and_b32_e32 v7, s4, v3		; GFX6-NEXT: v_and_b32_e32 v6, s4, v3
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0		; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_and_b32_e32 v8, s4, v4		; GFX6-NEXT: v_and_b32_e32 v7, s4, v4
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
; GFX6-NEXT: v_max_u32_e32 v1, v1, v8		; GFX6-NEXT: v_max_u32_e32 v1, v1, v7
; GFX6-NEXT: v_max_u32_e32 v0, v0, v7		; GFX6-NEXT: v_max_u32_e32 v0, v0, v6
; GFX6-NEXT: v_and_b32_e32 v6, s4, v5		; GFX6-NEXT: v_and_b32_e32 v5, s4, v5
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v4		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v4
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v3		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v3
; GFX6-NEXT: v_max_u32_e32 v2, v2, v6		; GFX6-NEXT: v_max_u32_e32 v2, v2, v5
; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v2, v5		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v2, v5
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0		; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_and_b32_e32 v2, s4, v3		; GFX6-NEXT: v_and_b32_e32 v2, s4, v3
; GFX6-NEXT: v_alignbit_b32 v1, v3, v1, 16		; GFX6-NEXT: v_alignbit_b32 v1, v3, v1, 16
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
▲ Show 20 Lines • Show All 346 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/usub_sat.ll

	Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; CHECK-ARM-NEXT: bx lr			; CHECK-ARM-NEXT: bx lr
	%tmp = call i64 @llvm.usub.sat.i64(i64 %x, i64 %y)			%tmp = call i64 @llvm.usub.sat.i64(i64 %x, i64 %y)
	ret i64 %tmp			ret i64 %tmp
	}			}

	define zeroext i16 @func16(i16 zeroext %x, i16 zeroext %y) nounwind {			define zeroext i16 @func16(i16 zeroext %x, i16 zeroext %y) nounwind {
	; CHECK-T1-LABEL: func16:			; CHECK-T1-LABEL: func16:
	; CHECK-T1: @ %bb.0:			; CHECK-T1: @ %bb.0:
	; CHECK-T1-NEXT: cmp r0, r1			; CHECK-T1-NEXT: subs r0, r0, r1
	; CHECK-T1-NEXT: bhi .LBB2_2			; CHECK-T1-NEXT: bhs .LBB2_2
	; CHECK-T1-NEXT: @ %bb.1:			; CHECK-T1-NEXT: @ %bb.1:
	; CHECK-T1-NEXT: mov r0, r1			; CHECK-T1-NEXT: movs r0, #0
	; CHECK-T1-NEXT: .LBB2_2:			; CHECK-T1-NEXT: .LBB2_2:
	; CHECK-T1-NEXT: subs r0, r0, r1
	; CHECK-T1-NEXT: uxth r0, r0			; CHECK-T1-NEXT: uxth r0, r0
	; CHECK-T1-NEXT: bx lr			; CHECK-T1-NEXT: bx lr
	;			;
	; CHECK-T2-LABEL: func16:			; CHECK-T2-LABEL: func16:
	; CHECK-T2: @ %bb.0:			; CHECK-T2: @ %bb.0:
	; CHECK-T2-NEXT: cmp r0, r1
	; CHECK-T2-NEXT: it ls
	; CHECK-T2-NEXT: movls r0, r1
	; CHECK-T2-NEXT: subs r0, r0, r1			; CHECK-T2-NEXT: subs r0, r0, r1
				; CHECK-T2-NEXT: it lo
				; CHECK-T2-NEXT: movlo r0, #0
	; CHECK-T2-NEXT: uxth r0, r0			; CHECK-T2-NEXT: uxth r0, r0
	; CHECK-T2-NEXT: bx lr			; CHECK-T2-NEXT: bx lr
	;			;
	; CHECK-ARM-LABEL: func16:			; CHECK-ARM-LABEL: func16:
	; CHECK-ARM: @ %bb.0:			; CHECK-ARM: @ %bb.0:
	; CHECK-ARM-NEXT: cmp r0, r1			; CHECK-ARM-NEXT: subs r0, r0, r1
	; CHECK-ARM-NEXT: movls r0, r1			; CHECK-ARM-NEXT: movlo r0, #0
	; CHECK-ARM-NEXT: sub r0, r0, r1
	; CHECK-ARM-NEXT: uxth r0, r0			; CHECK-ARM-NEXT: uxth r0, r0
	; CHECK-ARM-NEXT: bx lr			; CHECK-ARM-NEXT: bx lr
	%tmp = call i16 @llvm.usub.sat.i16(i16 %x, i16 %y)			%tmp = call i16 @llvm.usub.sat.i16(i16 %x, i16 %y)
	ret i16 %tmp			ret i16 %tmp
	}			}

	define zeroext i8 @func8(i8 zeroext %x, i8 zeroext %y) nounwind {			define zeroext i8 @func8(i8 zeroext %x, i8 zeroext %y) nounwind {
	; CHECK-T1-LABEL: func8:			; CHECK-T1-LABEL: func8:
	; CHECK-T1: @ %bb.0:			; CHECK-T1: @ %bb.0:
	; CHECK-T1-NEXT: cmp r0, r1			; CHECK-T1-NEXT: subs r0, r0, r1
	; CHECK-T1-NEXT: bhi .LBB3_2			; CHECK-T1-NEXT: bhs .LBB3_2
	; CHECK-T1-NEXT: @ %bb.1:			; CHECK-T1-NEXT: @ %bb.1:
	; CHECK-T1-NEXT: mov r0, r1			; CHECK-T1-NEXT: movs r0, #0
	; CHECK-T1-NEXT: .LBB3_2:			; CHECK-T1-NEXT: .LBB3_2:
	; CHECK-T1-NEXT: subs r0, r0, r1
	; CHECK-T1-NEXT: uxtb r0, r0			; CHECK-T1-NEXT: uxtb r0, r0
	; CHECK-T1-NEXT: bx lr			; CHECK-T1-NEXT: bx lr
	;			;
	; CHECK-T2-LABEL: func8:			; CHECK-T2-LABEL: func8:
	; CHECK-T2: @ %bb.0:			; CHECK-T2: @ %bb.0:
	; CHECK-T2-NEXT: cmp r0, r1
	; CHECK-T2-NEXT: it ls
	; CHECK-T2-NEXT: movls r0, r1
	; CHECK-T2-NEXT: subs r0, r0, r1			; CHECK-T2-NEXT: subs r0, r0, r1
				; CHECK-T2-NEXT: it lo
				; CHECK-T2-NEXT: movlo r0, #0
	; CHECK-T2-NEXT: uxtb r0, r0			; CHECK-T2-NEXT: uxtb r0, r0
	; CHECK-T2-NEXT: bx lr			; CHECK-T2-NEXT: bx lr
	;			;
	; CHECK-ARM-LABEL: func8:			; CHECK-ARM-LABEL: func8:
	; CHECK-ARM: @ %bb.0:			; CHECK-ARM: @ %bb.0:
	; CHECK-ARM-NEXT: cmp r0, r1			; CHECK-ARM-NEXT: subs r0, r0, r1
	; CHECK-ARM-NEXT: movls r0, r1			; CHECK-ARM-NEXT: movlo r0, #0
	; CHECK-ARM-NEXT: sub r0, r0, r1
	; CHECK-ARM-NEXT: uxtb r0, r0			; CHECK-ARM-NEXT: uxtb r0, r0
	; CHECK-ARM-NEXT: bx lr			; CHECK-ARM-NEXT: bx lr
	%tmp = call i8 @llvm.usub.sat.i8(i8 %x, i8 %y)			%tmp = call i8 @llvm.usub.sat.i8(i8 %x, i8 %y)
	ret i8 %tmp			ret i8 %tmp
	}			}

	define zeroext i4 @func3(i4 zeroext %x, i4 zeroext %y) nounwind {			define zeroext i4 @func3(i4 zeroext %x, i4 zeroext %y) nounwind {
	; CHECK-T1-LABEL: func3:			; CHECK-T1-LABEL: func3:
	; CHECK-T1: @ %bb.0:			; CHECK-T1: @ %bb.0:
	; CHECK-T1-NEXT: cmp r0, r1			; CHECK-T1-NEXT: subs r1, r0, r1
	; CHECK-T1-NEXT: bhi .LBB4_2			; CHECK-T1-NEXT: bhs .LBB4_2
	; CHECK-T1-NEXT: @ %bb.1:			; CHECK-T1-NEXT: @ %bb.1:
	; CHECK-T1-NEXT: mov r0, r1			; CHECK-T1-NEXT: movs r1, #0
	; CHECK-T1-NEXT: .LBB4_2:			; CHECK-T1-NEXT: .LBB4_2:
	; CHECK-T1-NEXT: subs r1, r0, r1
	; CHECK-T1-NEXT: movs r0, #15			; CHECK-T1-NEXT: movs r0, #15
	; CHECK-T1-NEXT: ands r0, r1			; CHECK-T1-NEXT: ands r0, r1
	; CHECK-T1-NEXT: bx lr			; CHECK-T1-NEXT: bx lr
	;			;
	; CHECK-T2-LABEL: func3:			; CHECK-T2-LABEL: func3:
	; CHECK-T2: @ %bb.0:			; CHECK-T2: @ %bb.0:
	; CHECK-T2-NEXT: cmp r0, r1
	; CHECK-T2-NEXT: it ls
	; CHECK-T2-NEXT: movls r0, r1
	; CHECK-T2-NEXT: subs r0, r0, r1			; CHECK-T2-NEXT: subs r0, r0, r1
				; CHECK-T2-NEXT: it lo
				; CHECK-T2-NEXT: movlo r0, #0
	; CHECK-T2-NEXT: and r0, r0, #15			; CHECK-T2-NEXT: and r0, r0, #15
	; CHECK-T2-NEXT: bx lr			; CHECK-T2-NEXT: bx lr
	;			;
	; CHECK-ARM-LABEL: func3:			; CHECK-ARM-LABEL: func3:
	; CHECK-ARM: @ %bb.0:			; CHECK-ARM: @ %bb.0:
	; CHECK-ARM-NEXT: cmp r0, r1			; CHECK-ARM-NEXT: subs r0, r0, r1
	; CHECK-ARM-NEXT: movls r0, r1			; CHECK-ARM-NEXT: movlo r0, #0
	; CHECK-ARM-NEXT: sub r0, r0, r1
	; CHECK-ARM-NEXT: and r0, r0, #15			; CHECK-ARM-NEXT: and r0, r0, #15
	; CHECK-ARM-NEXT: bx lr			; CHECK-ARM-NEXT: bx lr
	%tmp = call i4 @llvm.usub.sat.i4(i4 %x, i4 %y)			%tmp = call i4 @llvm.usub.sat.i4(i4 %x, i4 %y)
	ret i4 %tmp			ret i4 %tmp
	}			}

llvm/test/CodeGen/X86/psubus.ll

Show First 20 Lines • Show All 1,401 Lines • ▼ Show 20 Lines
; SSE2-NEXT: pslld $16, %xmm5		; SSE2-NEXT: pslld $16, %xmm5
; SSE2-NEXT: psrad $16, %xmm5		; SSE2-NEXT: psrad $16, %xmm5
; SSE2-NEXT: packssdw %xmm6, %xmm5		; SSE2-NEXT: packssdw %xmm6, %xmm5
; SSE2-NEXT: psubusw %xmm5, %xmm0		; SSE2-NEXT: psubusw %xmm5, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: psubus_8i32_max:		; SSSE3-LABEL: psubus_8i32_max:
; SSSE3: # %bb.0: # %vector.ph		; SSSE3: # %bb.0: # %vector.ph
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa %xmm2, %xmm4
; SSSE3-NEXT: movdqa %xmm2, %xmm5		; SSSE3-NEXT: pxor %xmm3, %xmm4
; SSSE3-NEXT: pxor %xmm4, %xmm5		; SSSE3-NEXT: movdqa {{.*#+}} xmm5 = [2147549183,2147549183,2147549183,2147549183]
; SSSE3-NEXT: movdqa {{.*#+}} xmm6 = [2147549183,2147549183,2147549183,2147549183]		; SSSE3-NEXT: movdqa %xmm5, %xmm6
; SSSE3-NEXT: movdqa %xmm6, %xmm7
; SSSE3-NEXT: pcmpgtd %xmm5, %xmm7
; SSSE3-NEXT: movdqa {{.*#+}} xmm5 = [65535,65535,65535,65535]
; SSSE3-NEXT: pand %xmm7, %xmm2
; SSSE3-NEXT: pandn %xmm5, %xmm7
; SSSE3-NEXT: por %xmm2, %xmm7
; SSSE3-NEXT: pshufb %xmm3, %xmm7
; SSSE3-NEXT: pxor %xmm1, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm6		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm6
; SSSE3-NEXT: pand %xmm6, %xmm1		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [65535,65535,65535,65535]
; SSSE3-NEXT: pandn %xmm5, %xmm6		; SSSE3-NEXT: pand %xmm6, %xmm2
; SSSE3-NEXT: por %xmm1, %xmm6		; SSSE3-NEXT: pandn %xmm4, %xmm6
; SSSE3-NEXT: pshufb %xmm3, %xmm6		; SSSE3-NEXT: por %xmm2, %xmm6
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm6 = xmm6[0],xmm7[0]		; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; SSSE3-NEXT: psubusw %xmm6, %xmm0		; SSSE3-NEXT: pshufb %xmm2, %xmm6
		; SSSE3-NEXT: pxor %xmm1, %xmm3
		; SSSE3-NEXT: pcmpgtd %xmm3, %xmm5
		; SSSE3-NEXT: pand %xmm5, %xmm1
		; SSSE3-NEXT: pandn %xmm4, %xmm5
		; SSSE3-NEXT: por %xmm1, %xmm5
		; SSSE3-NEXT: pshufb %xmm2, %xmm5
		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm6[0]
		; SSSE3-NEXT: psubusw %xmm5, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: psubus_8i32_max:		; SSE41-LABEL: psubus_8i32_max:
; SSE41: # %bb.0: # %vector.ph		; SSE41: # %bb.0: # %vector.ph
; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [65535,65535,65535,65535]		; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [65535,65535,65535,65535]
; SSE41-NEXT: pminud %xmm3, %xmm2		; SSE41-NEXT: pminud %xmm3, %xmm2
; SSE41-NEXT: pminud %xmm3, %xmm1		; SSE41-NEXT: pminud %xmm3, %xmm1
; SSE41-NEXT: packusdw %xmm2, %xmm1		; SSE41-NEXT: packusdw %xmm2, %xmm1
▲ Show 20 Lines • Show All 228 Lines • ▼ Show 20 Lines
; SSE41-NEXT: packusdw %xmm3, %xmm6		; SSE41-NEXT: packusdw %xmm3, %xmm6
; SSE41-NEXT: packusdw %xmm4, %xmm6		; SSE41-NEXT: packusdw %xmm4, %xmm6
; SSE41-NEXT: psubusw %xmm6, %xmm8		; SSE41-NEXT: psubusw %xmm6, %xmm8
; SSE41-NEXT: movdqa %xmm8, %xmm0		; SSE41-NEXT: movdqa %xmm8, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: psubus_8i64_max:		; AVX1-LABEL: psubus_8i64_max:
; AVX1: # %bb.0: # %vector.ph		; AVX1: # %bb.0: # %vector.ph
; AVX1-NEXT: vmovapd {{.*#+}} xmm3 = [65535,65535]		; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [9223372036854775808,9223372036854775808]		; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm5
; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm6		; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [9223372036854841343,9223372036854841343]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [9223372036854841343,9223372036854841343]		; AVX1-NEXT: vpcmpgtq %xmm5, %xmm6, %xmm5
; AVX1-NEXT: vpcmpgtq %xmm6, %xmm7, %xmm6		; AVX1-NEXT: vmovapd {{.*#+}} xmm7 = [65535,65535]
; AVX1-NEXT: vblendvpd %xmm6, %xmm4, %xmm3, %xmm4		; AVX1-NEXT: vblendvpd %xmm5, %xmm3, %xmm7, %xmm3
; AVX1-NEXT: vpxor %xmm5, %xmm2, %xmm6		; AVX1-NEXT: vpxor %xmm4, %xmm2, %xmm5
; AVX1-NEXT: vpcmpgtq %xmm6, %xmm7, %xmm6		; AVX1-NEXT: vpcmpgtq %xmm5, %xmm6, %xmm5
; AVX1-NEXT: vblendvpd %xmm6, %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vblendvpd %xmm5, %xmm2, %xmm7, %xmm2
; AVX1-NEXT: vpackusdw %xmm4, %xmm2, %xmm2		; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX1-NEXT: vpxor %xmm5, %xmm4, %xmm6		; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm5
; AVX1-NEXT: vpcmpgtq %xmm6, %xmm7, %xmm6		; AVX1-NEXT: vpcmpgtq %xmm5, %xmm6, %xmm5
; AVX1-NEXT: vblendvpd %xmm6, %xmm4, %xmm3, %xmm4		; AVX1-NEXT: vblendvpd %xmm5, %xmm3, %xmm7, %xmm3
; AVX1-NEXT: vpxor %xmm5, %xmm1, %xmm5		; AVX1-NEXT: vpxor %xmm4, %xmm1, %xmm4
; AVX1-NEXT: vpcmpgtq %xmm5, %xmm7, %xmm5		; AVX1-NEXT: vpcmpgtq %xmm4, %xmm6, %xmm4
; AVX1-NEXT: vblendvpd %xmm5, %xmm1, %xmm3, %xmm1		; AVX1-NEXT: vblendvpd %xmm4, %xmm1, %xmm7, %xmm1
; AVX1-NEXT: vpackusdw %xmm4, %xmm1, %xmm1		; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpsubusw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpsubusw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: psubus_8i64_max:		; AVX2-LABEL: psubus_8i64_max:
; AVX2: # %bb.0: # %vector.ph		; AVX2: # %bb.0: # %vector.ph
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]		; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
Show All 27 Lines	vector.ph:
%res = trunc <8 x i64> %sub to <8 x i16>		%res = trunc <8 x i64> %sub to <8 x i16>
ret <8 x i16> %res		ret <8 x i16> %res
}		}

define <16 x i16> @psubus_16i32_max(<16 x i16> %x, <16 x i32> %y) nounwind {		define <16 x i16> @psubus_16i32_max(<16 x i16> %x, <16 x i32> %y) nounwind {
; SSE2-LABEL: psubus_16i32_max:		; SSE2-LABEL: psubus_16i32_max:
; SSE2: # %bb.0: # %vector.ph		; SSE2: # %bb.0: # %vector.ph
; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]		; SSE2-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]
; SSE2-NEXT: movdqa %xmm5, %xmm8		; SSE2-NEXT: movdqa %xmm3, %xmm8
; SSE2-NEXT: pxor %xmm9, %xmm8		; SSE2-NEXT: pxor %xmm9, %xmm8
; SSE2-NEXT: movdqa {{.*#+}} xmm7 = [2147549183,2147549183,2147549183,2147549183]		; SSE2-NEXT: movdqa {{.*#+}} xmm10 = [2147549183,2147549183,2147549183,2147549183]
; SSE2-NEXT: movdqa %xmm7, %xmm6		; SSE2-NEXT: movdqa %xmm10, %xmm6
; SSE2-NEXT: pcmpgtd %xmm8, %xmm6		; SSE2-NEXT: pcmpgtd %xmm8, %xmm6
; SSE2-NEXT: pcmpeqd %xmm8, %xmm8		; SSE2-NEXT: pcmpeqd %xmm8, %xmm8
; SSE2-NEXT: pand %xmm6, %xmm5
; SSE2-NEXT: pxor %xmm8, %xmm6
; SSE2-NEXT: por %xmm5, %xmm6
; SSE2-NEXT: pslld $16, %xmm6
; SSE2-NEXT: psrad $16, %xmm6
; SSE2-NEXT: movdqa %xmm4, %xmm10
; SSE2-NEXT: pxor %xmm9, %xmm10
; SSE2-NEXT: movdqa %xmm7, %xmm5
; SSE2-NEXT: pcmpgtd %xmm10, %xmm5
; SSE2-NEXT: pand %xmm5, %xmm4
; SSE2-NEXT: pxor %xmm8, %xmm5
; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: pslld $16, %xmm5
; SSE2-NEXT: psrad $16, %xmm5
; SSE2-NEXT: packssdw %xmm6, %xmm5
; SSE2-NEXT: movdqa %xmm3, %xmm4
; SSE2-NEXT: pxor %xmm9, %xmm4
; SSE2-NEXT: movdqa %xmm7, %xmm6
; SSE2-NEXT: pcmpgtd %xmm4, %xmm6
; SSE2-NEXT: pand %xmm6, %xmm3		; SSE2-NEXT: pand %xmm6, %xmm3
; SSE2-NEXT: pxor %xmm8, %xmm6		; SSE2-NEXT: pxor %xmm8, %xmm6
; SSE2-NEXT: por %xmm3, %xmm6		; SSE2-NEXT: por %xmm3, %xmm6
; SSE2-NEXT: pslld $16, %xmm6		; SSE2-NEXT: pslld $16, %xmm6
; SSE2-NEXT: psrad $16, %xmm6		; SSE2-NEXT: psrad $16, %xmm6
; SSE2-NEXT: pxor %xmm2, %xmm9		; SSE2-NEXT: movdqa %xmm2, %xmm3
; SSE2-NEXT: pcmpgtd %xmm9, %xmm7		; SSE2-NEXT: pxor %xmm9, %xmm3
; SSE2-NEXT: pxor %xmm7, %xmm8		; SSE2-NEXT: movdqa %xmm10, %xmm7
; SSE2-NEXT: pand %xmm2, %xmm7		; SSE2-NEXT: pcmpgtd %xmm3, %xmm7
; SSE2-NEXT: por %xmm8, %xmm7		; SSE2-NEXT: pand %xmm7, %xmm2
		; SSE2-NEXT: pxor %xmm8, %xmm7
		; SSE2-NEXT: por %xmm2, %xmm7
; SSE2-NEXT: pslld $16, %xmm7		; SSE2-NEXT: pslld $16, %xmm7
; SSE2-NEXT: psrad $16, %xmm7		; SSE2-NEXT: psrad $16, %xmm7
; SSE2-NEXT: packssdw %xmm6, %xmm7		; SSE2-NEXT: packssdw %xmm6, %xmm7
; SSE2-NEXT: psubusw %xmm7, %xmm0		; SSE2-NEXT: psubusw %xmm7, %xmm0
; SSE2-NEXT: psubusw %xmm5, %xmm1		; SSE2-NEXT: movdqa %xmm5, %xmm2
		; SSE2-NEXT: pxor %xmm9, %xmm2
		; SSE2-NEXT: movdqa %xmm10, %xmm3
		; SSE2-NEXT: pcmpgtd %xmm2, %xmm3
		; SSE2-NEXT: pand %xmm3, %xmm5
		; SSE2-NEXT: pxor %xmm8, %xmm3
		; SSE2-NEXT: por %xmm5, %xmm3
		; SSE2-NEXT: pslld $16, %xmm3
		; SSE2-NEXT: psrad $16, %xmm3
		; SSE2-NEXT: pxor %xmm4, %xmm9
		; SSE2-NEXT: pcmpgtd %xmm9, %xmm10
		; SSE2-NEXT: pxor %xmm10, %xmm8
		; SSE2-NEXT: pand %xmm4, %xmm10
		; SSE2-NEXT: por %xmm8, %xmm10
		; SSE2-NEXT: pslld $16, %xmm10
		; SSE2-NEXT: psrad $16, %xmm10
		; SSE2-NEXT: packssdw %xmm3, %xmm10
		; SSE2-NEXT: psubusw %xmm10, %xmm1
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: psubus_16i32_max:		; SSSE3-LABEL: psubus_16i32_max:
; SSSE3: # %bb.0: # %vector.ph		; SSSE3: # %bb.0: # %vector.ph
; SSSE3-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa %xmm5, %xmm8		; SSSE3-NEXT: movdqa %xmm3, %xmm8
; SSSE3-NEXT: pxor %xmm9, %xmm8		; SSSE3-NEXT: pxor %xmm9, %xmm8
; SSSE3-NEXT: movdqa {{.*#+}} xmm7 = [2147549183,2147549183,2147549183,2147549183]		; SSSE3-NEXT: movdqa {{.*#+}} xmm10 = [2147549183,2147549183,2147549183,2147549183]
; SSSE3-NEXT: movdqa %xmm7, %xmm6		; SSSE3-NEXT: movdqa %xmm10, %xmm6
; SSSE3-NEXT: pcmpgtd %xmm8, %xmm6		; SSSE3-NEXT: pcmpgtd %xmm8, %xmm6
; SSSE3-NEXT: pcmpeqd %xmm8, %xmm8		; SSSE3-NEXT: pcmpeqd %xmm8, %xmm8
; SSSE3-NEXT: pand %xmm6, %xmm5
; SSSE3-NEXT: pxor %xmm8, %xmm6
; SSSE3-NEXT: por %xmm5, %xmm6
; SSSE3-NEXT: pslld $16, %xmm6
; SSSE3-NEXT: psrad $16, %xmm6
; SSSE3-NEXT: movdqa %xmm4, %xmm10
; SSSE3-NEXT: pxor %xmm9, %xmm10
; SSSE3-NEXT: movdqa %xmm7, %xmm5
; SSSE3-NEXT: pcmpgtd %xmm10, %xmm5
; SSSE3-NEXT: pand %xmm5, %xmm4
; SSSE3-NEXT: pxor %xmm8, %xmm5
; SSSE3-NEXT: por %xmm4, %xmm5
; SSSE3-NEXT: pslld $16, %xmm5
; SSSE3-NEXT: psrad $16, %xmm5
; SSSE3-NEXT: packssdw %xmm6, %xmm5
; SSSE3-NEXT: movdqa %xmm3, %xmm4
; SSSE3-NEXT: pxor %xmm9, %xmm4
; SSSE3-NEXT: movdqa %xmm7, %xmm6
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm6
; SSSE3-NEXT: pand %xmm6, %xmm3		; SSSE3-NEXT: pand %xmm6, %xmm3
; SSSE3-NEXT: pxor %xmm8, %xmm6		; SSSE3-NEXT: pxor %xmm8, %xmm6
; SSSE3-NEXT: por %xmm3, %xmm6		; SSSE3-NEXT: por %xmm3, %xmm6
; SSSE3-NEXT: pslld $16, %xmm6		; SSSE3-NEXT: pslld $16, %xmm6
; SSSE3-NEXT: psrad $16, %xmm6		; SSSE3-NEXT: psrad $16, %xmm6
; SSSE3-NEXT: pxor %xmm2, %xmm9		; SSSE3-NEXT: movdqa %xmm2, %xmm3
; SSSE3-NEXT: pcmpgtd %xmm9, %xmm7		; SSSE3-NEXT: pxor %xmm9, %xmm3
; SSSE3-NEXT: pxor %xmm7, %xmm8		; SSSE3-NEXT: movdqa %xmm10, %xmm7
; SSSE3-NEXT: pand %xmm2, %xmm7		; SSSE3-NEXT: pcmpgtd %xmm3, %xmm7
; SSSE3-NEXT: por %xmm8, %xmm7		; SSSE3-NEXT: pand %xmm7, %xmm2
		; SSSE3-NEXT: pxor %xmm8, %xmm7
		; SSSE3-NEXT: por %xmm2, %xmm7
; SSSE3-NEXT: pslld $16, %xmm7		; SSSE3-NEXT: pslld $16, %xmm7
; SSSE3-NEXT: psrad $16, %xmm7		; SSSE3-NEXT: psrad $16, %xmm7
; SSSE3-NEXT: packssdw %xmm6, %xmm7		; SSSE3-NEXT: packssdw %xmm6, %xmm7
; SSSE3-NEXT: psubusw %xmm7, %xmm0		; SSSE3-NEXT: psubusw %xmm7, %xmm0
; SSSE3-NEXT: psubusw %xmm5, %xmm1		; SSSE3-NEXT: movdqa %xmm5, %xmm2
		; SSSE3-NEXT: pxor %xmm9, %xmm2
		; SSSE3-NEXT: movdqa %xmm10, %xmm3
		; SSSE3-NEXT: pcmpgtd %xmm2, %xmm3
		; SSSE3-NEXT: pand %xmm3, %xmm5
		; SSSE3-NEXT: pxor %xmm8, %xmm3
		; SSSE3-NEXT: por %xmm5, %xmm3
		; SSSE3-NEXT: pslld $16, %xmm3
		; SSSE3-NEXT: psrad $16, %xmm3
		; SSSE3-NEXT: pxor %xmm4, %xmm9
		; SSSE3-NEXT: pcmpgtd %xmm9, %xmm10
		; SSSE3-NEXT: pxor %xmm10, %xmm8
		; SSSE3-NEXT: pand %xmm4, %xmm10
		; SSSE3-NEXT: por %xmm8, %xmm10
		; SSSE3-NEXT: pslld $16, %xmm10
		; SSSE3-NEXT: psrad $16, %xmm10
		; SSSE3-NEXT: packssdw %xmm3, %xmm10
		; SSSE3-NEXT: psubusw %xmm10, %xmm1
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: psubus_16i32_max:		; SSE41-LABEL: psubus_16i32_max:
; SSE41: # %bb.0: # %vector.ph		; SSE41: # %bb.0: # %vector.ph
; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [65535,65535,65535,65535]		; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [65535,65535,65535,65535]
; SSE41-NEXT: pminud %xmm6, %xmm5
; SSE41-NEXT: pminud %xmm6, %xmm4
; SSE41-NEXT: packusdw %xmm5, %xmm4
; SSE41-NEXT: pminud %xmm6, %xmm3		; SSE41-NEXT: pminud %xmm6, %xmm3
; SSE41-NEXT: pminud %xmm6, %xmm2		; SSE41-NEXT: pminud %xmm6, %xmm2
; SSE41-NEXT: packusdw %xmm3, %xmm2		; SSE41-NEXT: packusdw %xmm3, %xmm2
; SSE41-NEXT: psubusw %xmm2, %xmm0		; SSE41-NEXT: psubusw %xmm2, %xmm0
		; SSE41-NEXT: pminud %xmm6, %xmm5
		; SSE41-NEXT: pminud %xmm6, %xmm4
		; SSE41-NEXT: packusdw %xmm5, %xmm4
; SSE41-NEXT: psubusw %xmm4, %xmm1		; SSE41-NEXT: psubusw %xmm4, %xmm1
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: psubus_16i32_max:		; AVX1-LABEL: psubus_16i32_max:
; AVX1: # %bb.0: # %vector.ph		; AVX1: # %bb.0: # %vector.ph
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [65535,65535,65535,65535]
; AVX1-NEXT: vpminud %xmm4, %xmm3, %xmm3
; AVX1-NEXT: vpminud %xmm4, %xmm1, %xmm1
; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3
		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [65535,65535,65535,65535]
; AVX1-NEXT: vpminud %xmm4, %xmm3, %xmm3		; AVX1-NEXT: vpminud %xmm4, %xmm3, %xmm3
; AVX1-NEXT: vpminud %xmm4, %xmm2, %xmm2		; AVX1-NEXT: vpminud %xmm4, %xmm2, %xmm2
; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX1-NEXT: vpsubusw %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpsubusw %xmm2, %xmm3, %xmm2
		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
		; AVX1-NEXT: vpminud %xmm4, %xmm3, %xmm3
		; AVX1-NEXT: vpminud %xmm4, %xmm1, %xmm1
		; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vpsubusw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpsubusw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: psubus_16i32_max:		; AVX2-LABEL: psubus_16i32_max:
; AVX2: # %bb.0: # %vector.ph		; AVX2: # %bb.0: # %vector.ph
; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm3 = [65535,65535,65535,65535,65535,65535,65535,65535]		; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm3 = [65535,65535,65535,65535,65535,65535,65535,65535]
; AVX2-NEXT: vpminud %ymm3, %ymm2, %ymm2		; AVX2-NEXT: vpminud %ymm3, %ymm2, %ymm2
Show All 40 Lines
; SSE2-NEXT: pslld $16, %xmm5		; SSE2-NEXT: pslld $16, %xmm5
; SSE2-NEXT: psrad $16, %xmm5		; SSE2-NEXT: psrad $16, %xmm5
; SSE2-NEXT: packssdw %xmm6, %xmm5		; SSE2-NEXT: packssdw %xmm6, %xmm5
; SSE2-NEXT: psubusw %xmm5, %xmm0		; SSE2-NEXT: psubusw %xmm5, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: psubus_i16_i32_max_swapped:		; SSSE3-LABEL: psubus_i16_i32_max_swapped:
; SSSE3: # %bb.0: # %vector.ph		; SSSE3: # %bb.0: # %vector.ph
; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648,2147483648,2147483648]
; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]		; SSSE3-NEXT: movdqa %xmm2, %xmm4
; SSSE3-NEXT: movdqa %xmm2, %xmm5		; SSSE3-NEXT: pxor %xmm3, %xmm4
; SSSE3-NEXT: pxor %xmm4, %xmm5		; SSSE3-NEXT: movdqa {{.*#+}} xmm5 = [2147549183,2147549183,2147549183,2147549183]
; SSSE3-NEXT: movdqa {{.*#+}} xmm6 = [2147549183,2147549183,2147549183,2147549183]		; SSSE3-NEXT: movdqa %xmm5, %xmm6
; SSSE3-NEXT: movdqa %xmm6, %xmm7
; SSSE3-NEXT: pcmpgtd %xmm5, %xmm7
; SSSE3-NEXT: movdqa {{.*#+}} xmm5 = [65535,65535,65535,65535]
; SSSE3-NEXT: pand %xmm7, %xmm2
; SSSE3-NEXT: pandn %xmm5, %xmm7
; SSSE3-NEXT: por %xmm2, %xmm7
; SSSE3-NEXT: pshufb %xmm3, %xmm7
; SSSE3-NEXT: pxor %xmm1, %xmm4
; SSSE3-NEXT: pcmpgtd %xmm4, %xmm6		; SSSE3-NEXT: pcmpgtd %xmm4, %xmm6
; SSSE3-NEXT: pand %xmm6, %xmm1		; SSSE3-NEXT: movdqa {{.*#+}} xmm4 = [65535,65535,65535,65535]
; SSSE3-NEXT: pandn %xmm5, %xmm6		; SSSE3-NEXT: pand %xmm6, %xmm2
; SSSE3-NEXT: por %xmm1, %xmm6		; SSSE3-NEXT: pandn %xmm4, %xmm6
; SSSE3-NEXT: pshufb %xmm3, %xmm6		; SSSE3-NEXT: por %xmm2, %xmm6
; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm6 = xmm6[0],xmm7[0]		; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; SSSE3-NEXT: psubusw %xmm6, %xmm0		; SSSE3-NEXT: pshufb %xmm2, %xmm6
		; SSSE3-NEXT: pxor %xmm1, %xmm3
		; SSSE3-NEXT: pcmpgtd %xmm3, %xmm5
		; SSSE3-NEXT: pand %xmm5, %xmm1
		; SSSE3-NEXT: pandn %xmm4, %xmm5
		; SSSE3-NEXT: por %xmm1, %xmm5
		; SSSE3-NEXT: pshufb %xmm2, %xmm5
		; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm5 = xmm5[0],xmm6[0]
		; SSSE3-NEXT: psubusw %xmm5, %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: psubus_i16_i32_max_swapped:		; SSE41-LABEL: psubus_i16_i32_max_swapped:
; SSE41: # %bb.0: # %vector.ph		; SSE41: # %bb.0: # %vector.ph
; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [65535,65535,65535,65535]		; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [65535,65535,65535,65535]
; SSE41-NEXT: pminud %xmm3, %xmm2		; SSE41-NEXT: pminud %xmm3, %xmm2
; SSE41-NEXT: pminud %xmm3, %xmm1		; SSE41-NEXT: pminud %xmm3, %xmm1
; SSE41-NEXT: packusdw %xmm2, %xmm1		; SSE41-NEXT: packusdw %xmm2, %xmm1
▲ Show 20 Lines • Show All 635 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/usub_sat.ll

	Show First 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp = call i8 @llvm.usub.sat.i8(i8 %x, i8 %y)			%tmp = call i8 @llvm.usub.sat.i8(i8 %x, i8 %y)
	ret i8 %tmp			ret i8 %tmp
	}			}

	define zeroext i4 @func3(i4 zeroext %x, i4 zeroext %y) nounwind {			define zeroext i4 @func3(i4 zeroext %x, i4 zeroext %y) nounwind {
	; X86-LABEL: func3:			; X86-LABEL: func3:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebx
	; X86-NEXT: movb {{[0-9]+}}(%esp), %al			; X86-NEXT: movb {{[0-9]+}}(%esp), %al
	; X86-NEXT: movb {{[0-9]+}}(%esp), %cl			; X86-NEXT: xorl %ecx, %ecx
	; X86-NEXT: movzbl %cl, %edx			; X86-NEXT: subb {{[0-9]+}}(%esp), %al
	; X86-NEXT: movzbl %al, %ebx			; X86-NEXT: movzbl %al, %eax
	; X86-NEXT: cmpb %al, %cl			; X86-NEXT: cmovbl %ecx, %eax
	; X86-NEXT: cmoval %edx, %ebx
	; X86-NEXT: subb %al, %bl
	; X86-NEXT: movzbl %bl, %eax
	; X86-NEXT: andl $15, %eax			; X86-NEXT: andl $15, %eax
	; X86-NEXT: popl %ebx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: func3:			; X64-LABEL: func3:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: cmpb %sil, %dil			; X64-NEXT: xorl %ecx, %ecx
	; X64-NEXT: movl %esi, %eax			; X64-NEXT: subb %sil, %dil
	; X64-NEXT: cmoval %edi, %eax			; X64-NEXT: movzbl %dil, %eax
	; X64-NEXT: subb %sil, %al			; X64-NEXT: cmovbl %ecx, %eax
	; X64-NEXT: movzbl %al, %eax
	; X64-NEXT: andl $15, %eax			; X64-NEXT: andl $15, %eax
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp = call i4 @llvm.usub.sat.i4(i4 %x, i4 %y)			%tmp = call i4 @llvm.usub.sat.i4(i4 %x, i4 %y)
	ret i4 %tmp			ret i4 %tmp
	}			}

	define <4 x i32> @vec(<4 x i32> %x, <4 x i32> %y) nounwind {			define <4 x i32> @vec(<4 x i32> %x, <4 x i32> %y) nounwind {
	; X86-LABEL: vec:			; X86-LABEL: vec:
	Show All 40 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[DAG] Move basic USUBSAT pattern matches from X86 to DAGCombineClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 323386

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/AArch64/usub_sat.ll

llvm/test/CodeGen/AArch64/usub_sat_plus.ll

llvm/test/CodeGen/AMDGPU/usubsat.ll

llvm/test/CodeGen/ARM/usub_sat.ll

llvm/test/CodeGen/X86/psubus.ll

llvm/test/CodeGen/X86/usub_sat.ll

[DAG] Move basic USUBSAT pattern matches from X86 to DAGCombine
ClosedPublic