This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
include/llvm/
-
llvm/
-
CodeGen/GlobalISel/
-
GlobalISel/
-
LegalizerHelper.h
-
Support/
-
TargetOpcodes.def
-
Target/
-
GenericOpcodes.td
-
lib/
-
CodeGen/GlobalISel/
-
GlobalISel/
-
IRTranslator.cpp
5/8
LegalizerHelper.cpp
-
Target/AMDGPU/
-
AMDGPU/
1/3
AMDGPULegalizerInfo.cpp
-
test/CodeGen/
-
CodeGen/
-
AArch64/GlobalISel/
-
GlobalISel/
-
legalizer-info-validation.mir
-
AMDGPU/GlobalISel/
-
GlobalISel/
1/1
irtranslator-sat.ll
3/7
legalize-sat.mir

Differential D73051

[GlobalISel][AMDGPU] Legalize saturating add/subtract
ClosedPublic

Authored by arsenm on Jan 20 2020, 8:36 AM.

Download Raw Diff

Details

Reviewers

Petar.Avramovic
aemerson
aditya_nandakumar
dsanders
volkan
bogner
rovka
paquette
foad

Summary

Add support in LegalizerHelper for lowering G_SADDSAT etc. either using
add/subtract-with-overflow or using max/min instructions.

Enable this lowering for AMDGPU so it can be tested. The legalization
rules are still approximate and skips out on using the clamp bit to
treat these as legal, which has never been used before. This also
doesn't yet try to deal with expanding SALU cases.

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	1,590 ms	libc++.std/thread/thread_mutex/thread_mutex_requirements/thread_mutex_requirements_mutex/thread_mutex_class::Unknown Unit Message ("")

Event Timeline

foad created this revision.Jan 20 2020, 8:36 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 20 2020, 8:36 AM

Herald added subscribers: kerbowa, Petar.Avramovic, volkan and 11 others. · View Herald Transcript

Unit tests: pass. 62011 tests passed, 0 failed and 783 were skipped.

clang-tidy: unknown.

clang-format: fail. Please format your changes with clang-format by running git-clang-format HEAD^ or applying this patch.

Build artifacts: diff.json, clang-format.patch, CMakeCache.txt, console-log.txt, test-results.xml

Add legalize tests for signed 16-bit operations.

Harbormaster failed remote builds in B44408: Diff 239145!Jan 20 2020, 9:02 AM

Unit tests: pass. 62011 tests passed, 0 failed and 783 were skipped.

clang-tidy: unknown.

clang-format: fail. Please format your changes with clang-format by running git-clang-format HEAD^ or applying this patch.

Build artifacts: diff.json, clang-format.patch, CMakeCache.txt, console-log.txt, test-results.xml

Harbormaster failed remote builds in B44413: Diff 239151!Jan 20 2020, 9:21 AM

arsenm added inline comments.Jan 20 2020, 1:04 PM

llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp
3861–3864	I think this won't produce what we want with VOP3P instructions. For v3+s16, we would want G_UMIN to fewerElementsVector to v2s16, which won't be any of these. We would get vector min after lowering
4536	You can do .getReg(0) instead of ->getOperand(0).getReg()
4549–4550	Just .getReg(0)/1 works
4551–4552	Just passing -1/0 to buildConstant should work
llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
307	Bot is wrong here
llvm/test/CodeGen/AMDGPU/GlobalISel/irtranslator-sat.ll
4	Should probably just use update_mir_test_checks on this
llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-sat.mir
3	This should get an explicit -mcpu. Maybe a runline for with/without i16 instructions
255	Should add at least a v2s16, v3s16, v4s16, v2i32, and s64 test

arsenm added inline comments.Jan 20 2020, 1:06 PM

llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-sat.mir
3	Really need at least a VI and gfx9+

arsenm added inline comments.Jan 20 2020, 1:30 PM

llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp
4532	I think it would also be beneficial to implement this in terms of two helper functions for the two different expansions. That way it's more flexible if a target wants to contextually use different strategies in a custom lowering

Rebase and address some review comments.

foad added reviewers: arsenm, Petar.Avramovic, aemerson, aditya_nandakumar, dsanders, volkan, bogner, rovka, paquette.Jan 23 2020, 4:23 AM

foad marked 4 inline comments as done.Jan 23 2020, 4:35 AM

foad added inline comments.

llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp
3861–3864	Right, this requires more thought. I was hoping to reuse the exisiting isSupported logic without thinking too hard about it.
4532	Are there precedents for that kind of helper function that the target calls directly, instead of via the standard lower() action?
llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-sat.mir
3	What sort of run line do I need to disable i16 instructions?
255	That would require G_SADDO (et al) to be legalizable for all those types, which it currently is not. Do I need to tackle that first, before proceeding with this patch?

Unit tests: fail. 62131 tests passed, 1 failed and 808 were skipped.

failed: libc++.std/thread/thread_mutex/thread_mutex_requirements/thread_mutex_requirements_mutex/thread_mutex_class/try_lock.pass.cpp

clang-tidy: fail. clang-tidy found 0 errors and 4 warnings.

clang-format: fail. Please format your changes with clang-format by running git-clang-format HEAD^ or applying this patch.

Build artifacts: diff.json, clang-tidy.txt, clang-format.patch, CMakeCache.txt, console-log.txt, test-results.xml

Harbormaster failed remote builds in B44700: Diff 239851!Jan 23 2020, 4:41 AM

arsenm added inline comments.Jan 23 2020, 4:55 AM

llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp
4532	We use Helper.lowerFMinNumMaxNum directly in AMDGPULegalizerInfo. I'm specifically thinking we want to switch which expansion is used on AMDGPU based on whether it's scalar or vector, so we would make these legal and then use the helpers in applyMappingImpl
llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-sat.mir
3	Use a target without one. I usually use a Tahiti, Fiji, and gfx900 run line
255	You can add the tests and use -global-isel-abort=0, and they just won't legalize and defer it to a later patch. Handling the vector cases at least should be as easy as adding the instructions to the fewerElementsVector switch

When you commit can you split this into one patch to add the opcode/irtranslator support and another for the legalizer changes.

Can't we also set op_sel on v_add_i32 to get saturating behavior?

Split opcode/irtranslator stuff out into D76600.

Use separate helper functions for expanding in terms of max/min or in terms of addo/subo.

foad retitled this revision from [GlobalISel][AMDGPU] Saturating add/subtract to [GlobalISel][AMDGPU] Legalize saturating add/subtract.Mar 23 2020, 5:04 AM

foad edited the summary of this revision. (Show Details)

foad added a parent revision: D76600: [GlobalISel] Add generic opcodes for saturating add/subtract.

Harbormaster failed remote builds in B50098: Diff 251997!Mar 23 2020, 6:31 AM

Can you also add some end to end IR tests make sure to stress SALU vs. VALU for a mix of scalar and vector types

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1957–1958	By scalar vs. vector, I meant SGPR vs. VGPR. I haven't looked at whether this registers a real improvement here

ping?

ping. Are you going to get back to this soon, or should I adopt this? This is on the shortlist of remaining operations falling back in the OpenCL conformance tests

In D73051#2133179, @arsenm wrote:

ping. Are you going to get back to this soon, or should I adopt this? This is on the shortlist of remaining operations falling back in the OpenCL conformance tests

In the short term I don't have time to work on this, so I would be happy for you to commandeer it.

arsenm commandeered this revision.Jul 13 2020, 5:21 AM

arsenm edited reviewers, added: foad; removed: arsenm.

Rebase on other patches. Don't use custom lowering, and define legality rules as a placeholder until the clamp modifier is used

arsenm added a child revision: D83715: AMDGPU/GlobalISel: Use clamp modifier for [us]addsat/[us]subsat.Jul 13 2020, 1:24 PM

Map to VALU for now

Add gfx10 checks and expect different legality in the next patch

arsenm added a child revision: D83891: AMDGPU/GlobalISel: Try to promote to use packed saturating add/sub.Jul 15 2020, 10:58 AM

arsenm mentioned this in D83884: GlobalISel: Make type for lower action more consistently optional.Jul 15 2020, 1:18 PM

arsenm added a child revision: D83964: GlobalISel: Augment addsat/subsat lowering with an optional type.Jul 16 2020, 9:59 AM

ping

LGTM, thanks.

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
269	This comment seems to be in an odd place (not next to the saturating operations) and/or redundant with the assert just above?
llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-saddsat.mir
491–492 ↗	(On Diff #278040)	Just curious: can't G_CONSTANT represent vector constants directly?

This revision is now accepted and ready to land.Jul 23 2020, 1:35 AM

b35833b84e95c42ca7166232e193b2b8e221b56a

llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-saddsat.mir
491–492 ↗	(On Diff #278040)	No

Revision Contents

Path

Size

llvm/

include/

llvm/

CodeGen/

GlobalISel/

LegalizerHelper.h

6 lines

Support/

TargetOpcodes.def

12 lines

Target/

GenericOpcodes.td

36 lines

lib/

CodeGen/

GlobalISel/

IRTranslator.cpp

8 lines

LegalizerHelper.cpp

82 lines

Target/

AMDGPU/

AMDGPULegalizerInfo.cpp

2 lines

test/

CodeGen/

AArch64/

GlobalISel/

legalizer-info-validation.mir

12 lines

AMDGPU/

GlobalISel/

irtranslator-sat.ll

318 lines

legalize-sat.mir

215 lines

Diff 239851

llvm/include/llvm/CodeGen/GlobalISel/LegalizerHelper.h

Show All 22 Lines
#include "llvm/CodeGen/GlobalISel/CallLowering.h"		#include "llvm/CodeGen/GlobalISel/CallLowering.h"
#include "llvm/CodeGen/GlobalISel/MachineIRBuilder.h"		#include "llvm/CodeGen/GlobalISel/MachineIRBuilder.h"
#include "llvm/CodeGen/LowLevelType.h"		#include "llvm/CodeGen/LowLevelType.h"
#include "llvm/CodeGen/MachineFunctionPass.h"		#include "llvm/CodeGen/MachineFunctionPass.h"
#include "llvm/CodeGen/RuntimeLibcalls.h"		#include "llvm/CodeGen/RuntimeLibcalls.h"

namespace llvm {		namespace llvm {
// Forward declarations.		// Forward declarations.
		struct LegalityQuery;
class LegalizerInfo;		class LegalizerInfo;
class Legalizer;		class Legalizer;
class MachineRegisterInfo;		class MachineRegisterInfo;
class GISelChangeObserver;		class GISelChangeObserver;

class LegalizerHelper {		class LegalizerHelper {
public:		public:
enum LegalizeResult {		enum LegalizeResult {
▲ Show 20 Lines • Show All 146 Lines • ▼ Show 20 Lines	private:

/// Perform generic multiplication of values held in multiple registers.		/// Perform generic multiplication of values held in multiple registers.
/// Generated instructions use only types NarrowTy and i1.		/// Generated instructions use only types NarrowTy and i1.
/// Destination can be same or two times size of the source.		/// Destination can be same or two times size of the source.
void multiplyRegisters(SmallVectorImpl<Register> &DstRegs,		void multiplyRegisters(SmallVectorImpl<Register> &DstRegs,
ArrayRef<Register> Src1Regs,		ArrayRef<Register> Src1Regs,
ArrayRef<Register> Src2Regs, LLT NarrowTy);		ArrayRef<Register> Src2Regs, LLT NarrowTy);

		/// Helper function to test whether an operation is supported by the target.
		bool isSupported(const LegalityQuery &Q);

public:		public:
LegalizeResult fewerElementsVectorImplicitDef(MachineInstr &MI,		LegalizeResult fewerElementsVectorImplicitDef(MachineInstr &MI,
unsigned TypeIdx, LLT NarrowTy);		unsigned TypeIdx, LLT NarrowTy);

/// Legalize a simple vector instruction where all operands are the same type		/// Legalize a simple vector instruction where all operands are the same type
/// by splitting into multiple components.		/// by splitting into multiple components.
LegalizeResult fewerElementsVectorBasic(MachineInstr &MI, unsigned TypeIdx,		LegalizeResult fewerElementsVectorBasic(MachineInstr &MI, unsigned TypeIdx,
LLT NarrowTy);		LLT NarrowTy);
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	public:
LegalizeResult lowerShuffleVector(MachineInstr &MI);		LegalizeResult lowerShuffleVector(MachineInstr &MI);
LegalizeResult lowerDynStackAlloc(MachineInstr &MI);		LegalizeResult lowerDynStackAlloc(MachineInstr &MI);
LegalizeResult lowerExtract(MachineInstr &MI);		LegalizeResult lowerExtract(MachineInstr &MI);
LegalizeResult lowerInsert(MachineInstr &MI);		LegalizeResult lowerInsert(MachineInstr &MI);
LegalizeResult lowerSADDO_SSUBO(MachineInstr &MI);		LegalizeResult lowerSADDO_SSUBO(MachineInstr &MI);
LegalizeResult lowerBswap(MachineInstr &MI);		LegalizeResult lowerBswap(MachineInstr &MI);
LegalizeResult lowerBitreverse(MachineInstr &MI);		LegalizeResult lowerBitreverse(MachineInstr &MI);
LegalizeResult lowerReadRegister(MachineInstr &MI);		LegalizeResult lowerReadRegister(MachineInstr &MI);
		LegalizeResult lowerUADDSAT_USUBSAT(MachineInstr &MI);
		LegalizeResult lowerSADDSAT_SSUBSAT(MachineInstr &MI);

private:		private:
MachineRegisterInfo &MRI;		MachineRegisterInfo &MRI;
const LegalizerInfo &LI;		const LegalizerInfo &LI;
/// To keep track of changes made by the LegalizerHelper.		/// To keep track of changes made by the LegalizerHelper.
GISelChangeObserver &Observer;		GISelChangeObserver &Observer;
};		};

Show All 14 Lines

llvm/include/llvm/Support/TargetOpcodes.def

	Show First 20 Lines • Show All 436 Lines • ▼ Show 20 Lines
	// Multiply two numbers at twice the incoming bit width (unsigned) and return			// Multiply two numbers at twice the incoming bit width (unsigned) and return
	// the high half of the result.			// the high half of the result.
	HANDLE_TARGET_OPCODE(G_UMULH)			HANDLE_TARGET_OPCODE(G_UMULH)

	// Multiply two numbers at twice the incoming bit width (signed) and return			// Multiply two numbers at twice the incoming bit width (signed) and return
	// the high half of the result.			// the high half of the result.
	HANDLE_TARGET_OPCODE(G_SMULH)			HANDLE_TARGET_OPCODE(G_SMULH)

				/// Generic saturating unsigned addition.
				HANDLE_TARGET_OPCODE(G_UADDSAT)

				/// Generic saturating signed addition.
				HANDLE_TARGET_OPCODE(G_SADDSAT)

				/// Generic saturating unsigned subtraction.
				HANDLE_TARGET_OPCODE(G_USUBSAT)

				/// Generic saturating signed subtraction.
				HANDLE_TARGET_OPCODE(G_SSUBSAT)

	/// Generic FP addition.			/// Generic FP addition.
	HANDLE_TARGET_OPCODE(G_FADD)			HANDLE_TARGET_OPCODE(G_FADD)

	/// Generic FP subtraction.			/// Generic FP subtraction.
	HANDLE_TARGET_OPCODE(G_FSUB)			HANDLE_TARGET_OPCODE(G_FSUB)

	/// Generic FP multiplication.			/// Generic FP multiplication.
	HANDLE_TARGET_OPCODE(G_FMUL)			HANDLE_TARGET_OPCODE(G_FMUL)
	▲ Show 20 Lines • Show All 178 Lines • Show Last 20 Lines

llvm/include/llvm/Target/GenericOpcodes.td

	Show First 20 Lines • Show All 464 Lines • ▼ Show 20 Lines
	def G_SMULH : GenericInstruction {			def G_SMULH : GenericInstruction {
	let OutOperandList = (outs type0:$dst);			let OutOperandList = (outs type0:$dst);
	let InOperandList = (ins type0:$src1, type0:$src2);			let InOperandList = (ins type0:$src1, type0:$src2);
	let hasSideEffects = 0;			let hasSideEffects = 0;
	let isCommutable = 1;			let isCommutable = 1;
	}			}

	//------------------------------------------------------------------------------			//------------------------------------------------------------------------------
				// Saturating ops
				//------------------------------------------------------------------------------

				// Generic saturating unsigned addition.
				def G_UADDSAT : GenericInstruction {
				let OutOperandList = (outs type0:$dst);
				let InOperandList = (ins type0:$src1, type0:$src2);
				let hasSideEffects = 0;
				let isCommutable = 1;
				}

				// Generic saturating signed addition.
				def G_SADDSAT : GenericInstruction {
				let OutOperandList = (outs type0:$dst);
				let InOperandList = (ins type0:$src1, type0:$src2);
				let hasSideEffects = 0;
				let isCommutable = 1;
				}

				// Generic saturating unsigned subtraction.
				def G_USUBSAT : GenericInstruction {
				let OutOperandList = (outs type0:$dst);
				let InOperandList = (ins type0:$src1, type0:$src2);
				let hasSideEffects = 0;
				let isCommutable = 0;
				}

				// Generic saturating signed subtraction.
				def G_SSUBSAT : GenericInstruction {
				let OutOperandList = (outs type0:$dst);
				let InOperandList = (ins type0:$src1, type0:$src2);
				let hasSideEffects = 0;
				let isCommutable = 0;
				}

				//------------------------------------------------------------------------------
	// Floating Point Unary Ops.			// Floating Point Unary Ops.
	//------------------------------------------------------------------------------			//------------------------------------------------------------------------------

	def G_FNEG : GenericInstruction {			def G_FNEG : GenericInstruction {
	let OutOperandList = (outs type0:$dst);			let OutOperandList = (outs type0:$dst);
	let InOperandList = (ins type0:$src);			let InOperandList = (ins type0:$src);
	let hasSideEffects = 0;			let hasSideEffects = 0;
	}			}
	▲ Show 20 Lines • Show All 583 Lines • Show Last 20 Lines

llvm/lib/CodeGen/GlobalISel/IRTranslator.cpp

Show First 20 Lines • Show All 1,398 Lines • ▼ Show 20 Lines	bool IRTranslator::translateKnownIntrinsic(const CallInst &CI, Intrinsic::ID ID,
case Intrinsic::usub_with_overflow:		case Intrinsic::usub_with_overflow:
return translateOverflowIntrinsic(CI, TargetOpcode::G_USUBO, MIRBuilder);		return translateOverflowIntrinsic(CI, TargetOpcode::G_USUBO, MIRBuilder);
case Intrinsic::ssub_with_overflow:		case Intrinsic::ssub_with_overflow:
return translateOverflowIntrinsic(CI, TargetOpcode::G_SSUBO, MIRBuilder);		return translateOverflowIntrinsic(CI, TargetOpcode::G_SSUBO, MIRBuilder);
case Intrinsic::umul_with_overflow:		case Intrinsic::umul_with_overflow:
return translateOverflowIntrinsic(CI, TargetOpcode::G_UMULO, MIRBuilder);		return translateOverflowIntrinsic(CI, TargetOpcode::G_UMULO, MIRBuilder);
case Intrinsic::smul_with_overflow:		case Intrinsic::smul_with_overflow:
return translateOverflowIntrinsic(CI, TargetOpcode::G_SMULO, MIRBuilder);		return translateOverflowIntrinsic(CI, TargetOpcode::G_SMULO, MIRBuilder);
		case Intrinsic::uadd_sat:
		return translateBinaryOp(TargetOpcode::G_UADDSAT, CI, MIRBuilder);
		case Intrinsic::sadd_sat:
		return translateBinaryOp(TargetOpcode::G_SADDSAT, CI, MIRBuilder);
		case Intrinsic::usub_sat:
		return translateBinaryOp(TargetOpcode::G_USUBSAT, CI, MIRBuilder);
		case Intrinsic::ssub_sat:
		return translateBinaryOp(TargetOpcode::G_SSUBSAT, CI, MIRBuilder);
case Intrinsic::fmuladd: {		case Intrinsic::fmuladd: {
const TargetMachine &TM = MF->getTarget();		const TargetMachine &TM = MF->getTarget();
const TargetLowering &TLI = *MF->getSubtarget().getTargetLowering();		const TargetLowering &TLI = *MF->getSubtarget().getTargetLowering();
Register Dst = getOrCreateVReg(CI);		Register Dst = getOrCreateVReg(CI);
Register Op0 = getOrCreateVReg(*CI.getArgOperand(0));		Register Op0 = getOrCreateVReg(*CI.getArgOperand(0));
Register Op1 = getOrCreateVReg(*CI.getArgOperand(1));		Register Op1 = getOrCreateVReg(*CI.getArgOperand(1));
Register Op2 = getOrCreateVReg(*CI.getArgOperand(2));		Register Op2 = getOrCreateVReg(*CI.getArgOperand(2));
if (TM.Options.AllowFPOpFusion != FPOpFusion::Strict &&		if (TM.Options.AllowFPOpFusion != FPOpFusion::Strict &&
▲ Show 20 Lines • Show All 1,008 Lines • Show Last 20 Lines

llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp

Show First 20 Lines • Show All 2,427 Lines • ▼ Show 20 Lines	LegalizerHelper::lower(MachineInstr &MI, unsigned TypeIdx, LLT Ty) {
case G_INSERT:		case G_INSERT:
return lowerInsert(MI);		return lowerInsert(MI);
case G_BSWAP:		case G_BSWAP:
return lowerBswap(MI);		return lowerBswap(MI);
case G_BITREVERSE:		case G_BITREVERSE:
return lowerBitreverse(MI);		return lowerBitreverse(MI);
case G_READ_REGISTER:		case G_READ_REGISTER:
return lowerReadRegister(MI);		return lowerReadRegister(MI);
		case G_UADDSAT:
		case G_USUBSAT:
		return lowerUADDSAT_USUBSAT(MI);
		case G_SADDSAT:
		case G_SSUBSAT:
		return lowerSADDSAT_SSUBSAT(MI);
}		}
}		}

LegalizerHelper::LegalizeResult LegalizerHelper::fewerElementsVectorImplicitDef(		LegalizerHelper::LegalizeResult LegalizerHelper::fewerElementsVectorImplicitDef(
MachineInstr &MI, unsigned TypeIdx, LLT NarrowTy) {		MachineInstr &MI, unsigned TypeIdx, LLT NarrowTy) {
SmallVector<Register, 2> DstRegs;		SmallVector<Register, 2> DstRegs;

unsigned NarrowSize = NarrowTy.getSizeInBits();		unsigned NarrowSize = NarrowTy.getSizeInBits();
▲ Show 20 Lines • Show All 1,403 Lines • ▼ Show 20 Lines	LegalizerHelper::narrowScalarSelect(MachineInstr &MI, unsigned TypeIdx,

insertParts(DstReg, DstTy, NarrowTy, DstRegs,		insertParts(DstReg, DstTy, NarrowTy, DstRegs,
LeftoverTy, DstLeftoverRegs);		LeftoverTy, DstLeftoverRegs);

MI.eraseFromParent();		MI.eraseFromParent();
return Legalized;		return Legalized;
}		}

		bool LegalizerHelper::isSupported(const LegalityQuery &Q) {
		auto QAction = LI.getAction(Q).Action;
		return QAction == Legal \|\| QAction == Libcall \|\| QAction == Custom;
		}
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions I think this won't produce what we want with VOP3P instructions. For v3+s16, we would want G_UMIN to fewerElementsVector to v2s16, which won't be any of these. We would get vector min after lowering arsenm: I think this won't produce what we want with VOP3P instructions. For v3+s16, we would want…
		foadUnsubmitted Done Reply Inline Actions Right, this requires more thought. I was hoping to reuse the exisiting isSupported logic without thinking too hard about it. foad: Right, this requires more thought. I was hoping to reuse the exisiting isSupported logic…

LegalizerHelper::LegalizeResult		LegalizerHelper::LegalizeResult
LegalizerHelper::lowerBitCount(MachineInstr &MI, unsigned TypeIdx, LLT Ty) {		LegalizerHelper::lowerBitCount(MachineInstr &MI, unsigned TypeIdx, LLT Ty) {
unsigned Opc = MI.getOpcode();		unsigned Opc = MI.getOpcode();
auto &TII = *MI.getMF()->getSubtarget().getInstrInfo();		auto &TII = *MI.getMF()->getSubtarget().getInstrInfo();
auto isSupported = [this](const LegalityQuery &Q) {
auto QAction = LI.getAction(Q).Action;
return QAction == Legal \|\| QAction == Libcall \|\| QAction == Custom;
};
switch (Opc) {		switch (Opc) {
default:		default:
return UnableToLegalize;		return UnableToLegalize;
case TargetOpcode::G_CTLZ_ZERO_UNDEF: {		case TargetOpcode::G_CTLZ_ZERO_UNDEF: {
// This trivially expands to CTLZ.		// This trivially expands to CTLZ.
Observer.changingInstr(MI);		Observer.changingInstr(MI);
MI.setDesc(TII.get(TargetOpcode::G_CTLZ));		MI.setDesc(TII.get(TargetOpcode::G_CTLZ));
Observer.changedInstr(MI);		Observer.changedInstr(MI);
▲ Show 20 Lines • Show All 638 Lines • ▼ Show 20 Lines	auto ConditionRHS = MIRBuilder.buildICmp(
IsAdd ? CmpInst::ICMP_SLT : CmpInst::ICMP_SGT, BoolTy, RHS, Zero);		IsAdd ? CmpInst::ICMP_SLT : CmpInst::ICMP_SGT, BoolTy, RHS, Zero);

MIRBuilder.buildXor(Dst1, ConditionRHS, ResultLowerThanLHS);		MIRBuilder.buildXor(Dst1, ConditionRHS, ResultLowerThanLHS);
MI.eraseFromParent();		MI.eraseFromParent();
return Legalized;		return Legalized;
}		}

LegalizerHelper::LegalizeResult		LegalizerHelper::LegalizeResult
		LegalizerHelper::lowerUADDSAT_USUBSAT(MachineInstr &MI) {
		Register Res = MI.getOperand(0).getReg();
		Register LHS = MI.getOperand(1).getReg();
		Register RHS = MI.getOperand(2).getReg();
		LLT Ty = MRI.getType(Res);
		LLT BoolTy = Ty.changeElementSize(1);
		bool IsAdd = MI.getOpcode() == TargetOpcode::G_UADDSAT;

		if (isSupported({TargetOpcode::G_UMIN, {Ty, Ty}})) {
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions I think it would also be beneficial to implement this in terms of two helper functions for the two different expansions. That way it's more flexible if a target wants to contextually use different strategies in a custom lowering arsenm: I think it would also be beneficial to implement this in terms of two helper functions for the…
		foadUnsubmitted Done Reply Inline Actions Are there precedents for that kind of helper function that the target calls directly, instead of via the standard lower() action? foad: Are there precedents for that kind of helper function that the target calls directly, instead…
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions We use Helper.lowerFMinNumMaxNum directly in AMDGPULegalizerInfo. I'm specifically thinking we want to switch which expansion is used on AMDGPU based on whether it's scalar or vector, so we would make these legal and then use the helpers in applyMappingImpl arsenm: We use Helper.lowerFMinNumMaxNum directly in AMDGPULegalizerInfo. I'm specifically thinking we…
		// uadd.sat(a, b) -> a + umin(~a, b)
		// usub.sat(a, b) -> a - umin(a, b)
		Register Not =
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - Register Not = - IsAdd ? MIRBuilder.buildNot(Ty, LHS).getReg(0) : LHS; + Register Not = IsAdd ? MIRBuilder.buildNot(Ty, LHS).getReg(0) : LHS; Lint: Pre-merge checks: clang-format: please reformat the code ``` - Register Not = - IsAdd ? MIRBuilder.
		IsAdd ? MIRBuilder.buildNot(Ty, LHS).getReg(0) : LHS;
		arsenmAuthorUnsubmitted Done Reply Inline Actions You can do .getReg(0) instead of ->getOperand(0).getReg() arsenm: You can do .getReg(0) instead of ->getOperand(0).getReg()
		auto Min = MIRBuilder.buildUMin(Ty, Not, RHS);
		unsigned Opcode = IsAdd ? TargetOpcode::G_ADD : TargetOpcode::G_SUB;
		MIRBuilder.buildInstr(Opcode, {Res}, {LHS, Min});
		} else {
		// uadd.sat(a, b) ->
		// {r, ov} = uaddo(a, b)
		// ov ? 0xffffffff : r
		// usub.sat(a, b) ->
		// {r, ov} = usubo(a, b)
		// ov ? 0 : r
		unsigned Opcode = IsAdd ? TargetOpcode::G_UADDO : TargetOpcode::G_USUBO;
		auto Addo = MIRBuilder.buildInstr(Opcode, {Ty, BoolTy}, {LHS, RHS});
		Register Add = Addo.getReg(0);
		Register Overflow = Addo.getReg(1);
		arsenmAuthorUnsubmitted Done Reply Inline Actions Just .getReg(0)/1 works arsenm: Just .getReg(0)/1 works
		auto Clamp = MIRBuilder.buildConstant(Ty, IsAdd ? -1 : 0);
		MIRBuilder.buildSelect(Res, Overflow, Clamp, Add);
		arsenmAuthorUnsubmitted Done Reply Inline Actions Just passing -1/0 to buildConstant should work arsenm: Just passing -1/0 to buildConstant should work
		}

		MI.eraseFromParent();
		return Legalized;
		}

		LegalizerHelper::LegalizeResult
		LegalizerHelper::lowerSADDSAT_SSUBSAT(MachineInstr &MI) {
		Register Dst = MI.getOperand(0).getReg();
		Register LHS = MI.getOperand(1).getReg();
		Register RHS = MI.getOperand(2).getReg();
		LLT Ty = MRI.getType(Dst);
		LLT BoolTy = Ty.changeElementSize(1);
		bool IsAdd = MI.getOpcode() == TargetOpcode::G_SADDSAT;

		// sadd.sat(a, b) ->
		// {r, ov} = saddo(a, b)
		// ov ? (r >>> 31) + 0x80000000 : r
		// ssub.sat(a, b) ->
		// {r, ov} = ssubo(a, b)
		// ov ? (r >>> 31) + 0x80000000 : r
		auto Addo = MIRBuilder.buildInstr(IsAdd ? TargetOpcode::G_SADDO
		: TargetOpcode::G_SSUBO,
		{Ty, BoolTy}, {LHS, RHS});
		Register Add = Addo.getReg(0);
		Register Overflow = Addo.getReg(1);
		uint64_t NumBits = Ty.getScalarSizeInBits();
		auto Amount = MIRBuilder.buildConstant(Ty, NumBits - 1);
		auto Sign = MIRBuilder.buildAShr(Ty, Add, Amount);
		auto MinVal = MIRBuilder.buildConstant(Ty, APInt::getSignedMinValue(NumBits));
		auto Clamp = MIRBuilder.buildAdd(Ty, Sign, MinVal);
		MIRBuilder.buildSelect(Dst, Overflow, Clamp, Add);

		MI.eraseFromParent();
		return Legalized;
		}

		LegalizerHelper::LegalizeResult
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code -LegalizerHelper::LegalizeResult -LegalizerHelper::lowerBswap(MachineInstr &MI) { +LegalizerHelper::LegalizeResult LegalizerHelper::lowerBswap(MachineInstr &MI) { Lint: Pre-merge checks: clang-format: please reformat the code ``` -LegalizerHelper::LegalizeResult -LegalizerHelper…
LegalizerHelper::lowerBswap(MachineInstr &MI) {		LegalizerHelper::lowerBswap(MachineInstr &MI) {
Register Dst = MI.getOperand(0).getReg();		Register Dst = MI.getOperand(0).getReg();
Register Src = MI.getOperand(1).getReg();		Register Src = MI.getOperand(1).getReg();
const LLT Ty = MRI.getType(Src);		const LLT Ty = MRI.getType(Src);
unsigned SizeInBytes = Ty.getSizeInBytes();		unsigned SizeInBytes = Ty.getSizeInBytes();
unsigned BaseShiftAmt = (SizeInBytes - 1) * 8;		unsigned BaseShiftAmt = (SizeInBytes - 1) * 8;

// Swap most and least significant byte, set remaining bytes in Res to zero.		// Swap most and least significant byte, set remaining bytes in Res to zero.
▲ Show 20 Lines • Show All 86 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

Show First 20 Lines • Show All 260 Lines • ▼ Show 20 Lines	getActionDefinitionsBuilder(G_PHI)
.widenScalarToNextPow2(0, 32)		.widenScalarToNextPow2(0, 32)
.clampMaxNumElements(0, S32, 16)		.clampMaxNumElements(0, S32, 16)
.moreElementsIf(isSmallOddVector(0), oneMoreElement(0))		.moreElementsIf(isSmallOddVector(0), oneMoreElement(0))
.legalIf(isPointer(0));		.legalIf(isPointer(0));

if (ST.has16BitInsts()) {		if (ST.has16BitInsts()) {
getActionDefinitionsBuilder({G_ADD, G_SUB, G_MUL})		getActionDefinitionsBuilder({G_ADD, G_SUB, G_MUL})
.legalFor({S32, S16})		.legalFor({S32, S16})
.clampScalar(0, S16, S32)		.clampScalar(0, S16, S32)
		foadUnsubmitted Done Reply Inline Actions This comment seems to be in an odd place (not next to the saturating operations) and/or redundant with the assert just above? foad: This comment seems to be in an odd place (not next to the saturating operations) and/or…
.scalarize(0);		.scalarize(0);
} else {		} else {
getActionDefinitionsBuilder({G_ADD, G_SUB, G_MUL})		getActionDefinitionsBuilder({G_ADD, G_SUB, G_MUL})
.legalFor({S32})		.legalFor({S32})
.clampScalar(0, S32, S32)		.clampScalar(0, S32, S32)
.scalarize(0);		.scalarize(0);
}		}

Show All 21 Lines	AMDGPULegalizerInfo::AMDGPULegalizerInfo(const GCNSubtarget &ST_,

getActionDefinitionsBuilder({G_UADDO, G_USUBO,		getActionDefinitionsBuilder({G_UADDO, G_USUBO,
G_UADDE, G_SADDE, G_USUBE, G_SSUBE})		G_UADDE, G_SADDE, G_USUBE, G_SSUBE})
.legalFor({{S32, S1}, {S32, S32}})		.legalFor({{S32, S1}, {S32, S32}})
.clampScalar(0, S32, S32)		.clampScalar(0, S32, S32)
.scalarize(0); // TODO: Implement.		.scalarize(0); // TODO: Implement.

getActionDefinitionsBuilder(G_BITCAST)		getActionDefinitionsBuilder(G_BITCAST)
// Don't worry about the size constraint.		// Don't worry about the size constraint.
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions Bot is wrong here arsenm: Bot is wrong here
.legalIf(all(isRegisterType(0), isRegisterType(1)))		.legalIf(all(isRegisterType(0), isRegisterType(1)))
// FIXME: Testing hack		// FIXME: Testing hack
.legalForCartesianProduct({S16, LLT::vector(2, 8), })		.legalForCartesianProduct({S16, LLT::vector(2, 8), })
.lower();		.lower();


getActionDefinitionsBuilder(G_CONSTANT)		getActionDefinitionsBuilder(G_CONSTANT)
.legalFor({S1, S32, S64, S16, GlobalPtr,		.legalFor({S1, S32, S64, S16, GlobalPtr,
▲ Show 20 Lines • Show All 782 Lines • ▼ Show 20 Lines	AMDGPULegalizerInfo::AMDGPULegalizerInfo(const GCNSubtarget &ST_,
// TODO: Make legal for s32, s64. s64 case needs break down in regbankselect.		// TODO: Make legal for s32, s64. s64 case needs break down in regbankselect.
getActionDefinitionsBuilder(G_SEXT_INREG)		getActionDefinitionsBuilder(G_SEXT_INREG)
.clampScalar(0, MinLegalScalarShiftTy, S64)		.clampScalar(0, MinLegalScalarShiftTy, S64)
.lower();		.lower();

getActionDefinitionsBuilder(G_READCYCLECOUNTER)		getActionDefinitionsBuilder(G_READCYCLECOUNTER)
.legalFor({S64});		.legalFor({S64});

getActionDefinitionsBuilder({		getActionDefinitionsBuilder({
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - getActionDefinitionsBuilder({ - // TODO: Verify V_BFI_B32 is generated from expanded bit ops - G_FCOPYSIGN, + getActionDefinitionsBuilder( + {// TODO: Verify V_BFI_B32 is generated from expanded bit ops + G_FCOPYSIGN, Lint: Pre-merge checks: clang-format: please reformat the code ``` - getActionDefinitionsBuilder({ - // TODO…
// TODO: Verify V_BFI_B32 is generated from expanded bit ops		// TODO: Verify V_BFI_B32 is generated from expanded bit ops
G_FCOPYSIGN,		G_FCOPYSIGN,

G_ATOMIC_CMPXCHG_WITH_SUCCESS,		G_ATOMIC_CMPXCHG_WITH_SUCCESS,
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - G_ATOMIC_CMPXCHG_WITH_SUCCESS, - G_READ_REGISTER, - G_WRITE_REGISTER, + G_ATOMIC_CMPXCHG_WITH_SUCCESS, G_READ_REGISTER, G_WRITE_REGISTER, Lint: Pre-merge checks: clang-format: please reformat the code ``` - G_ATOMIC_CMPXCHG_WITH_SUCCESS…
G_READ_REGISTER,		G_READ_REGISTER,
G_WRITE_REGISTER,		G_WRITE_REGISTER,

G_SADDO, G_SSUBO,		G_SADDO, G_SSUBO,
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - G_SADDO, G_SSUBO, + G_SADDO, G_SSUBO, Lint: Pre-merge checks: clang-format: please reformat the code ``` - G_SADDO, G_SSUBO, + G_SADDO, G_SSUBO…

		G_UADDSAT, G_SADDSAT, G_USUBSAT, G_SSUBSAT,
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - G_UADDSAT, G_SADDSAT, G_USUBSAT, G_SSUBSAT, + G_UADDSAT, G_SADDSAT, G_USUBSAT, G_SSUBSAT, Lint: Pre-merge checks: clang-format: please reformat the code ``` - G_UADDSAT, G_SADDSAT, G_USUBSAT, G_SSUBSAT, +…

// TODO: Implement		// TODO: Implement
G_FMINIMUM, G_FMAXIMUM		G_FMINIMUM, G_FMAXIMUM
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - G_FMINIMUM, G_FMAXIMUM - }).lower(); + G_FMINIMUM, G_FMAXIMUM}) + .lower(); Lint: Pre-merge checks: clang-format: please reformat the code ``` - G_FMINIMUM, G_FMAXIMUM - }).lower(); +…
}).lower();		}).lower();

getActionDefinitionsBuilder({G_VASTART, G_VAARG, G_BRJT, G_JUMP_TABLE,		getActionDefinitionsBuilder({G_VASTART, G_VAARG, G_BRJT, G_JUMP_TABLE,
G_DYN_STACKALLOC, G_INDEXED_LOAD, G_INDEXED_SEXTLOAD,		G_DYN_STACKALLOC, G_INDEXED_LOAD, G_INDEXED_SEXTLOAD,
G_INDEXED_ZEXTLOAD, G_INDEXED_STORE})		G_INDEXED_ZEXTLOAD, G_INDEXED_STORE})
.unsupported();		.unsupported();

computeTables();		computeTables();
▲ Show 20 Lines • Show All 821 Lines • ▼ Show 20 Lines	bool AMDGPULegalizerInfo::legalizeFastUnsafeFDIV(MachineInstr &MI,

if (!MF.getTarget().Options.UnsafeFPMath && ResTy == S64)		if (!MF.getTarget().Options.UnsafeFPMath && ResTy == S64)
return false;		return false;

if (!Unsafe && ResTy == S32 &&		if (!Unsafe && ResTy == S32 &&
MF.getInfo<SIMachineFunctionInfo>()->getMode().FP32Denormals)		MF.getInfo<SIMachineFunctionInfo>()->getMode().FP32Denormals)
return false;		return false;

if (auto CLHS = getConstantFPVRegVal(LHS, MRI)) {		if (auto CLHS = getConstantFPVRegVal(LHS, MRI)) {
// 1 / x -> RCP(x)		// 1 / x -> RCP(x)
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions By scalar vs. vector, I meant SGPR vs. VGPR. I haven't looked at whether this registers a real improvement here arsenm: By scalar vs. vector, I meant SGPR vs. VGPR. I haven't looked at whether this registers a real…
if (CLHS->isExactlyValue(1.0)) {		if (CLHS->isExactlyValue(1.0)) {
B.buildIntrinsic(Intrinsic::amdgcn_rcp, Res, false)		B.buildIntrinsic(Intrinsic::amdgcn_rcp, Res, false)
.addUse(RHS)		.addUse(RHS)
.setMIFlags(Flags);		.setMIFlags(Flags);

MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
}		}
▲ Show 20 Lines • Show All 522 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/GlobalISel/legalizer-info-validation.mir

	Show First 20 Lines • Show All 308 Lines • ▼ Show 20 Lines
	# DEBUG-NEXT: .. the first uncovered imm index: 0, OK			# DEBUG-NEXT: .. the first uncovered imm index: 0, OK
	# DEBUG-NEXT: G_UMULH (opcode {{[0-9]+}}): 1 type index, 0 imm indices			# DEBUG-NEXT: G_UMULH (opcode {{[0-9]+}}): 1 type index, 0 imm indices
	# DEBUG-NEXT: .. opcode {{[0-9]+}} is aliased to {{[0-9]+}}			# DEBUG-NEXT: .. opcode {{[0-9]+}} is aliased to {{[0-9]+}}
	# DEBUG-NEXT: .. the first uncovered type index: 1, OK			# DEBUG-NEXT: .. the first uncovered type index: 1, OK
	# DEBUG-NEXT: .. the first uncovered imm index: 0, OK			# DEBUG-NEXT: .. the first uncovered imm index: 0, OK
	# DEBUG-NEXT: G_SMULH (opcode {{[0-9]+}}): 1 type index, 0 imm indices			# DEBUG-NEXT: G_SMULH (opcode {{[0-9]+}}): 1 type index, 0 imm indices
	# DEBUG-NEXT: .. the first uncovered type index: 1, OK			# DEBUG-NEXT: .. the first uncovered type index: 1, OK
	# DEBUG-NEXT: .. the first uncovered imm index: 0, OK			# DEBUG-NEXT: .. the first uncovered imm index: 0, OK
				# DEBUG-NEXT: G_UADDSAT (opcode 117): 1 type index, 0 imm indices
				# DEBUG-NEXT: .. type index coverage check SKIPPED: no rules defined
				# DEBUG-NEXT: .. imm index coverage check SKIPPED: no rules defined
				# DEBUG-NEXT: G_SADDSAT (opcode 118): 1 type index, 0 imm indices
				# DEBUG-NEXT: .. type index coverage check SKIPPED: no rules defined
				# DEBUG-NEXT: .. imm index coverage check SKIPPED: no rules defined
				# DEBUG-NEXT: G_USUBSAT (opcode 119): 1 type index, 0 imm indices
				# DEBUG-NEXT: .. type index coverage check SKIPPED: no rules defined
				# DEBUG-NEXT: .. imm index coverage check SKIPPED: no rules defined
				# DEBUG-NEXT: G_SSUBSAT (opcode 120): 1 type index, 0 imm indices
				# DEBUG-NEXT: .. type index coverage check SKIPPED: no rules defined
				# DEBUG-NEXT: .. imm index coverage check SKIPPED: no rules defined
	# DEBUG-NEXT: G_FADD (opcode {{[0-9]+}}): 1 type index, 0 imm indices			# DEBUG-NEXT: G_FADD (opcode {{[0-9]+}}): 1 type index, 0 imm indices
	# DEBUG-NEXT: .. the first uncovered type index: 1, OK			# DEBUG-NEXT: .. the first uncovered type index: 1, OK
	# DEBUG-NEXT: .. the first uncovered imm index: 0, OK			# DEBUG-NEXT: .. the first uncovered imm index: 0, OK
	# DEBUG-NEXT: G_FSUB (opcode {{[0-9]+}}): 1 type index, 0 imm indices			# DEBUG-NEXT: G_FSUB (opcode {{[0-9]+}}): 1 type index, 0 imm indices
	# DEBUG-NEXT: .. opcode {{[0-9]+}} is aliased to {{[0-9]+}}			# DEBUG-NEXT: .. opcode {{[0-9]+}} is aliased to {{[0-9]+}}
	# DEBUG-NEXT: .. the first uncovered type index: 1, OK			# DEBUG-NEXT: .. the first uncovered type index: 1, OK
	# DEBUG-NEXT: .. the first uncovered imm index: 0, OK			# DEBUG-NEXT: .. the first uncovered imm index: 0, OK
	# DEBUG-NEXT: G_FMUL (opcode {{[0-9]+}}): 1 type index, 0 imm indices			# DEBUG-NEXT: G_FMUL (opcode {{[0-9]+}}): 1 type index, 0 imm indices
	▲ Show 20 Lines • Show All 181 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/irtranslator-sat.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				; RUN: llc -march=amdgcn -global-isel -stop-after=irtranslator %s -o - \| FileCheck %s

				define i16 @uaddsat_i16(i16 %lhs, i16 %rhs) {
				arsenmAuthorUnsubmitted Done Reply Inline Actions Should probably just use update_mir_test_checks on this arsenm: Should probably just use update_mir_test_checks on this
				; CHECK-LABEL: name: uaddsat_i16
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[TRUNC1:%[0-9]+]]:_(s16) = G_TRUNC [[COPY1]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[UADDSAT:%[0-9]+]]:_(s16) = G_UADDSAT [[TRUNC]], [[TRUNC1]]
				; CHECK: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[UADDSAT]](s16)
				; CHECK: $vgpr0 = COPY [[ANYEXT]](s32)
				; CHECK: [[COPY3:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY2]]
				; CHECK: S_SETPC_B64_return [[COPY3]], implicit $vgpr0
				%res = call i16 @llvm.uadd.sat.i16(i16 %lhs, i16 %rhs)
				ret i16 %res
				}
				declare i16 @llvm.uadd.sat.i16(i16, i16)

				define i32 @uaddsat_i32(i32 %lhs, i32 %rhs) {
				; CHECK-LABEL: name: uaddsat_i32
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[UADDSAT:%[0-9]+]]:_(s32) = G_UADDSAT [[COPY]], [[COPY1]]
				; CHECK: $vgpr0 = COPY [[UADDSAT]](s32)
				; CHECK: [[COPY3:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY2]]
				; CHECK: S_SETPC_B64_return [[COPY3]], implicit $vgpr0
				%res = call i32 @llvm.uadd.sat.i32(i32 %lhs, i32 %rhs)
				ret i32 %res
				}
				declare i32 @llvm.uadd.sat.i32(i32, i32)

				define i64 @uaddsat_i64(i64 %lhs, i64 %rhs) {
				; CHECK-LABEL: name: uaddsat_i64
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
				; CHECK: [[COPY4:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[MV:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
				; CHECK: [[MV1:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; CHECK: [[UADDSAT:%[0-9]+]]:_(s64) = G_UADDSAT [[MV]], [[MV1]]
				; CHECK: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[UADDSAT]](s64)
				; CHECK: $vgpr0 = COPY [[UV]](s32)
				; CHECK: $vgpr1 = COPY [[UV1]](s32)
				; CHECK: [[COPY5:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY4]]
				; CHECK: S_SETPC_B64_return [[COPY5]], implicit $vgpr0, implicit $vgpr1
				%res = call i64 @llvm.uadd.sat.i64(i64 %lhs, i64 %rhs)
				ret i64 %res
				}
				declare i64 @llvm.uadd.sat.i64(i64, i64)

				define <2 x i32> @uaddsat_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {
				; CHECK-LABEL: name: uaddsat_v2i32
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
				; CHECK: [[COPY4:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[BUILD_VECTOR:%[0-9]+]]:_(<2 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32)
				; CHECK: [[BUILD_VECTOR1:%[0-9]+]]:_(<2 x s32>) = G_BUILD_VECTOR [[COPY2]](s32), [[COPY3]](s32)
				; CHECK: [[UADDSAT:%[0-9]+]]:_(<2 x s32>) = G_UADDSAT [[BUILD_VECTOR]], [[BUILD_VECTOR1]]
				; CHECK: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[UADDSAT]](<2 x s32>)
				; CHECK: $vgpr0 = COPY [[UV]](s32)
				; CHECK: $vgpr1 = COPY [[UV1]](s32)
				; CHECK: [[COPY5:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY4]]
				; CHECK: S_SETPC_B64_return [[COPY5]], implicit $vgpr0, implicit $vgpr1
				%res = call <2 x i32> @llvm.uadd.sat.v2i32(<2 x i32> %lhs, <2 x i32> %rhs)
				ret <2 x i32> %res
				}
				declare <2 x i32> @llvm.uadd.sat.v2i32(<2 x i32>, <2 x i32>)

				define i16 @saddsat_i16(i16 %lhs, i16 %rhs) {
				; CHECK-LABEL: name: saddsat_i16
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[TRUNC1:%[0-9]+]]:_(s16) = G_TRUNC [[COPY1]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[SADDSAT:%[0-9]+]]:_(s16) = G_SADDSAT [[TRUNC]], [[TRUNC1]]
				; CHECK: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[SADDSAT]](s16)
				; CHECK: $vgpr0 = COPY [[ANYEXT]](s32)
				; CHECK: [[COPY3:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY2]]
				; CHECK: S_SETPC_B64_return [[COPY3]], implicit $vgpr0
				%res = call i16 @llvm.sadd.sat.i16(i16 %lhs, i16 %rhs)
				ret i16 %res
				}
				declare i16 @llvm.sadd.sat.i16(i16, i16)

				define i32 @saddsat_i32(i32 %lhs, i32 %rhs) {
				; CHECK-LABEL: name: saddsat_i32
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[SADDSAT:%[0-9]+]]:_(s32) = G_SADDSAT [[COPY]], [[COPY1]]
				; CHECK: $vgpr0 = COPY [[SADDSAT]](s32)
				; CHECK: [[COPY3:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY2]]
				; CHECK: S_SETPC_B64_return [[COPY3]], implicit $vgpr0
				%res = call i32 @llvm.sadd.sat.i32(i32 %lhs, i32 %rhs)
				ret i32 %res
				}
				declare i32 @llvm.sadd.sat.i32(i32, i32)

				define i64 @saddsat_i64(i64 %lhs, i64 %rhs) {
				; CHECK-LABEL: name: saddsat_i64
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
				; CHECK: [[COPY4:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[MV:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
				; CHECK: [[MV1:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; CHECK: [[SADDSAT:%[0-9]+]]:_(s64) = G_SADDSAT [[MV]], [[MV1]]
				; CHECK: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[SADDSAT]](s64)
				; CHECK: $vgpr0 = COPY [[UV]](s32)
				; CHECK: $vgpr1 = COPY [[UV1]](s32)
				; CHECK: [[COPY5:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY4]]
				; CHECK: S_SETPC_B64_return [[COPY5]], implicit $vgpr0, implicit $vgpr1
				%res = call i64 @llvm.sadd.sat.i64(i64 %lhs, i64 %rhs)
				ret i64 %res
				}
				declare i64 @llvm.sadd.sat.i64(i64, i64)

				define <2 x i32> @saddsat_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {
				; CHECK-LABEL: name: saddsat_v2i32
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
				; CHECK: [[COPY4:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[BUILD_VECTOR:%[0-9]+]]:_(<2 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32)
				; CHECK: [[BUILD_VECTOR1:%[0-9]+]]:_(<2 x s32>) = G_BUILD_VECTOR [[COPY2]](s32), [[COPY3]](s32)
				; CHECK: [[SADDSAT:%[0-9]+]]:_(<2 x s32>) = G_SADDSAT [[BUILD_VECTOR]], [[BUILD_VECTOR1]]
				; CHECK: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[SADDSAT]](<2 x s32>)
				; CHECK: $vgpr0 = COPY [[UV]](s32)
				; CHECK: $vgpr1 = COPY [[UV1]](s32)
				; CHECK: [[COPY5:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY4]]
				; CHECK: S_SETPC_B64_return [[COPY5]], implicit $vgpr0, implicit $vgpr1
				%res = call <2 x i32> @llvm.sadd.sat.v2i32(<2 x i32> %lhs, <2 x i32> %rhs)
				ret <2 x i32> %res
				}
				declare <2 x i32> @llvm.sadd.sat.v2i32(<2 x i32>, <2 x i32>)

				define i16 @usubsat_i16(i16 %lhs, i16 %rhs) {
				; CHECK-LABEL: name: usubsat_i16
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[TRUNC1:%[0-9]+]]:_(s16) = G_TRUNC [[COPY1]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[USUBSAT:%[0-9]+]]:_(s16) = G_USUBSAT [[TRUNC]], [[TRUNC1]]
				; CHECK: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[USUBSAT]](s16)
				; CHECK: $vgpr0 = COPY [[ANYEXT]](s32)
				; CHECK: [[COPY3:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY2]]
				; CHECK: S_SETPC_B64_return [[COPY3]], implicit $vgpr0
				%res = call i16 @llvm.usub.sat.i16(i16 %lhs, i16 %rhs)
				ret i16 %res
				}
				declare i16 @llvm.usub.sat.i16(i16, i16)

				define i32 @usubsat_i32(i32 %lhs, i32 %rhs) {
				; CHECK-LABEL: name: usubsat_i32
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[USUBSAT:%[0-9]+]]:_(s32) = G_USUBSAT [[COPY]], [[COPY1]]
				; CHECK: $vgpr0 = COPY [[USUBSAT]](s32)
				; CHECK: [[COPY3:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY2]]
				; CHECK: S_SETPC_B64_return [[COPY3]], implicit $vgpr0
				%res = call i32 @llvm.usub.sat.i32(i32 %lhs, i32 %rhs)
				ret i32 %res
				}
				declare i32 @llvm.usub.sat.i32(i32, i32)

				define i64 @usubsat_i64(i64 %lhs, i64 %rhs) {
				; CHECK-LABEL: name: usubsat_i64
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
				; CHECK: [[COPY4:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[MV:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
				; CHECK: [[MV1:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; CHECK: [[USUBSAT:%[0-9]+]]:_(s64) = G_USUBSAT [[MV]], [[MV1]]
				; CHECK: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[USUBSAT]](s64)
				; CHECK: $vgpr0 = COPY [[UV]](s32)
				; CHECK: $vgpr1 = COPY [[UV1]](s32)
				; CHECK: [[COPY5:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY4]]
				; CHECK: S_SETPC_B64_return [[COPY5]], implicit $vgpr0, implicit $vgpr1
				%res = call i64 @llvm.usub.sat.i64(i64 %lhs, i64 %rhs)
				ret i64 %res
				}
				declare i64 @llvm.usub.sat.i64(i64, i64)

				define <2 x i32> @usubsat_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {
				; CHECK-LABEL: name: usubsat_v2i32
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
				; CHECK: [[COPY4:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[BUILD_VECTOR:%[0-9]+]]:_(<2 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32)
				; CHECK: [[BUILD_VECTOR1:%[0-9]+]]:_(<2 x s32>) = G_BUILD_VECTOR [[COPY2]](s32), [[COPY3]](s32)
				; CHECK: [[USUBSAT:%[0-9]+]]:_(<2 x s32>) = G_USUBSAT [[BUILD_VECTOR]], [[BUILD_VECTOR1]]
				; CHECK: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[USUBSAT]](<2 x s32>)
				; CHECK: $vgpr0 = COPY [[UV]](s32)
				; CHECK: $vgpr1 = COPY [[UV1]](s32)
				; CHECK: [[COPY5:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY4]]
				; CHECK: S_SETPC_B64_return [[COPY5]], implicit $vgpr0, implicit $vgpr1
				%res = call <2 x i32> @llvm.usub.sat.v2i32(<2 x i32> %lhs, <2 x i32> %rhs)
				ret <2 x i32> %res
				}
				declare <2 x i32> @llvm.usub.sat.v2i32(<2 x i32>, <2 x i32>)

				define i16 @ssubsat_i16(i16 %lhs, i16 %rhs) {
				; CHECK-LABEL: name: ssubsat_i16
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[TRUNC1:%[0-9]+]]:_(s16) = G_TRUNC [[COPY1]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[SSUBSAT:%[0-9]+]]:_(s16) = G_SSUBSAT [[TRUNC]], [[TRUNC1]]
				; CHECK: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[SSUBSAT]](s16)
				; CHECK: $vgpr0 = COPY [[ANYEXT]](s32)
				; CHECK: [[COPY3:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY2]]
				; CHECK: S_SETPC_B64_return [[COPY3]], implicit $vgpr0
				%res = call i16 @llvm.ssub.sat.i16(i16 %lhs, i16 %rhs)
				ret i16 %res
				}
				declare i16 @llvm.ssub.sat.i16(i16, i16)

				define i32 @ssubsat_i32(i32 %lhs, i32 %rhs) {
				; CHECK-LABEL: name: ssubsat_i32
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[SSUBSAT:%[0-9]+]]:_(s32) = G_SSUBSAT [[COPY]], [[COPY1]]
				; CHECK: $vgpr0 = COPY [[SSUBSAT]](s32)
				; CHECK: [[COPY3:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY2]]
				; CHECK: S_SETPC_B64_return [[COPY3]], implicit $vgpr0
				%res = call i32 @llvm.ssub.sat.i32(i32 %lhs, i32 %rhs)
				ret i32 %res
				}
				declare i32 @llvm.ssub.sat.i32(i32, i32)

				define i64 @ssubsat_i64(i64 %lhs, i64 %rhs) {
				; CHECK-LABEL: name: ssubsat_i64
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
				; CHECK: [[COPY4:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[MV:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
				; CHECK: [[MV1:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; CHECK: [[SSUBSAT:%[0-9]+]]:_(s64) = G_SSUBSAT [[MV]], [[MV1]]
				; CHECK: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[SSUBSAT]](s64)
				; CHECK: $vgpr0 = COPY [[UV]](s32)
				; CHECK: $vgpr1 = COPY [[UV1]](s32)
				; CHECK: [[COPY5:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY4]]
				; CHECK: S_SETPC_B64_return [[COPY5]], implicit $vgpr0, implicit $vgpr1
				%res = call i64 @llvm.ssub.sat.i64(i64 %lhs, i64 %rhs)
				ret i64 %res
				}
				declare i64 @llvm.ssub.sat.i64(i64, i64)

				define <2 x i32> @ssubsat_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {
				; CHECK-LABEL: name: ssubsat_v2i32
				; CHECK: bb.1 (%ir-block.0):
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $sgpr30_sgpr31
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
				; CHECK: [[COPY4:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[BUILD_VECTOR:%[0-9]+]]:_(<2 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32)
				; CHECK: [[BUILD_VECTOR1:%[0-9]+]]:_(<2 x s32>) = G_BUILD_VECTOR [[COPY2]](s32), [[COPY3]](s32)
				; CHECK: [[SSUBSAT:%[0-9]+]]:_(<2 x s32>) = G_SSUBSAT [[BUILD_VECTOR]], [[BUILD_VECTOR1]]
				; CHECK: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[SSUBSAT]](<2 x s32>)
				; CHECK: $vgpr0 = COPY [[UV]](s32)
				; CHECK: $vgpr1 = COPY [[UV1]](s32)
				; CHECK: [[COPY5:%[0-9]+]]:ccr_sgpr_64 = COPY [[COPY4]]
				; CHECK: S_SETPC_B64_return [[COPY5]], implicit $vgpr0, implicit $vgpr1
				%res = call <2 x i32> @llvm.ssub.sat.v2i32(<2 x i32> %lhs, <2 x i32> %rhs)
				ret <2 x i32> %res
				}
				declare <2 x i32> @llvm.ssub.sat.v2i32(<2 x i32>, <2 x i32>)

llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-sat.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=legalizer %s -o - \| FileCheck %s
				# RUN: llc -march=amdgcn -mcpu=gfx900 -run-pass=legalizer %s -o - \| FileCheck %s
				arsenmAuthorUnsubmitted Not Done Reply Inline Actions This should get an explicit -mcpu. Maybe a runline for with/without i16 instructions arsenm: This should get an explicit -mcpu. Maybe a runline for with/without i16 instructions
				arsenmAuthorUnsubmitted Done Reply Inline Actions Really need at least a VI and gfx9+ arsenm: Really need at least a VI and gfx9+
				foadUnsubmitted Done Reply Inline Actions What sort of run line do I need to disable i16 instructions? foad: What sort of run line do I need to disable i16 instructions?
				arsenmAuthorUnsubmitted Not Done Reply Inline Actions Use a target without one. I usually use a Tahiti, Fiji, and gfx900 run line arsenm: Use a target without one. I usually use a Tahiti, Fiji, and gfx900 run line

				---
				name: uaddsat_s16
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1

				; CHECK-LABEL: name: uaddsat_s16
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[TRUNC1:%[0-9]+]]:_(s16) = G_TRUNC [[COPY1]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[C:%[0-9]+]]:_(s16) = G_CONSTANT i16 -1
				; CHECK: [[XOR:%[0-9]+]]:_(s16) = G_XOR [[TRUNC]], [[C]]
				; CHECK: [[UMIN:%[0-9]+]]:_(s16) = G_UMIN [[XOR]], [[TRUNC1]]
				; CHECK: [[ADD:%[0-9]+]]:_(s16) = G_ADD [[TRUNC]], [[UMIN]]
				; CHECK: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[ADD]](s16)
				; CHECK: $vgpr0 = COPY [[ANYEXT]](s32)
				%3:_(s32) = COPY $vgpr0
				%0:_(s16) = G_TRUNC %3(s32)
				%4:_(s32) = COPY $vgpr1
				%1:_(s16) = G_TRUNC %4(s32)
				%2:sgpr_64 = COPY $sgpr30_sgpr31
				%5:_(s16) = G_UADDSAT %0, %1
				%7:_(s32) = G_ANYEXT %5(s16)
				$vgpr0 = COPY %7(s32)
				...

				---
				name: uaddsat_s32
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1

				; CHECK-LABEL: name: uaddsat_s32
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 -1
				; CHECK: [[XOR:%[0-9]+]]:_(s32) = G_XOR [[COPY]], [[C]]
				; CHECK: [[UMIN:%[0-9]+]]:_(s32) = G_UMIN [[XOR]], [[COPY1]]
				; CHECK: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[COPY]], [[UMIN]]
				; CHECK: $vgpr0 = COPY [[ADD]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = G_UADDSAT %0, %1
				$vgpr0 = COPY %2
				...

				---
				name: saddsat_s16
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1

				; CHECK-LABEL: name: saddsat_s16
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[TRUNC1:%[0-9]+]]:_(s16) = G_TRUNC [[COPY1]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[ADD:%[0-9]+]]:_(s16) = G_ADD [[TRUNC]], [[TRUNC1]]
				; CHECK: [[C:%[0-9]+]]:_(s16) = G_CONSTANT i16 0
				; CHECK: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(slt), [[ADD]](s16), [[TRUNC]]
				; CHECK: [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(slt), [[TRUNC1]](s16), [[C]]
				; CHECK: [[XOR:%[0-9]+]]:_(s1) = G_XOR [[ICMP1]], [[ICMP]]
				; CHECK: [[C1:%[0-9]+]]:_(s16) = G_CONSTANT i16 15
				; CHECK: [[ASHR:%[0-9]+]]:_(s16) = G_ASHR [[ADD]], [[C1]](s16)
				; CHECK: [[C2:%[0-9]+]]:_(s16) = G_CONSTANT i16 -32768
				; CHECK: [[ADD1:%[0-9]+]]:_(s16) = G_ADD [[ASHR]], [[C2]]
				; CHECK: [[SELECT:%[0-9]+]]:_(s16) = G_SELECT [[XOR]](s1), [[ADD1]], [[ADD]]
				; CHECK: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[SELECT]](s16)
				; CHECK: $vgpr0 = COPY [[ANYEXT]](s32)
				%3:_(s32) = COPY $vgpr0
				%0:_(s16) = G_TRUNC %3(s32)
				%4:_(s32) = COPY $vgpr1
				%1:_(s16) = G_TRUNC %4(s32)
				%2:sgpr_64 = COPY $sgpr30_sgpr31
				%5:_(s16) = G_SADDSAT %0, %1
				%7:_(s32) = G_ANYEXT %5(s16)
				$vgpr0 = COPY %7(s32)
				...

				---
				name: saddsat_s32
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1

				; CHECK-LABEL: name: saddsat_s32
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[COPY]], [[COPY1]]
				; CHECK: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
				; CHECK: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(slt), [[ADD]](s32), [[COPY]]
				; CHECK: [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(slt), [[COPY1]](s32), [[C]]
				; CHECK: [[XOR:%[0-9]+]]:_(s1) = G_XOR [[ICMP1]], [[ICMP]]
				; CHECK: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 31
				; CHECK: [[ASHR:%[0-9]+]]:_(s32) = G_ASHR [[ADD]], [[C1]](s32)
				; CHECK: [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 -2147483648
				; CHECK: [[ADD1:%[0-9]+]]:_(s32) = G_ADD [[ASHR]], [[C2]]
				; CHECK: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[XOR]](s1), [[ADD1]], [[ADD]]
				; CHECK: $vgpr0 = COPY [[SELECT]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = G_SADDSAT %0, %1
				$vgpr0 = COPY %2
				...

				---
				name: usubsat_s16
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1

				; CHECK-LABEL: name: usubsat_s16
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[TRUNC1:%[0-9]+]]:_(s16) = G_TRUNC [[COPY1]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[UMIN:%[0-9]+]]:_(s16) = G_UMIN [[TRUNC]], [[TRUNC1]]
				; CHECK: [[SUB:%[0-9]+]]:_(s16) = G_SUB [[TRUNC]], [[UMIN]]
				; CHECK: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[SUB]](s16)
				; CHECK: $vgpr0 = COPY [[ANYEXT]](s32)
				%3:_(s32) = COPY $vgpr0
				%0:_(s16) = G_TRUNC %3(s32)
				%4:_(s32) = COPY $vgpr1
				%1:_(s16) = G_TRUNC %4(s32)
				%2:sgpr_64 = COPY $sgpr30_sgpr31
				%5:_(s16) = G_USUBSAT %0, %1
				%7:_(s32) = G_ANYEXT %5(s16)
				$vgpr0 = COPY %7(s32)
				...

				---
				name: usubsat_s32
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1

				; CHECK-LABEL: name: usubsat_s32
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[UMIN:%[0-9]+]]:_(s32) = G_UMIN [[COPY]], [[COPY1]]
				; CHECK: [[SUB:%[0-9]+]]:_(s32) = G_SUB [[COPY]], [[UMIN]]
				; CHECK: $vgpr0 = COPY [[SUB]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = G_USUBSAT %0, %1
				$vgpr0 = COPY %2
				...

				---
				name: ssubsat_s16
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1

				; CHECK-LABEL: name: ssubsat_s16
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[TRUNC1:%[0-9]+]]:_(s16) = G_TRUNC [[COPY1]](s32)
				; CHECK: [[COPY2:%[0-9]+]]:sgpr_64 = COPY $sgpr30_sgpr31
				; CHECK: [[SUB:%[0-9]+]]:_(s16) = G_SUB [[TRUNC]], [[TRUNC1]]
				; CHECK: [[C:%[0-9]+]]:_(s16) = G_CONSTANT i16 0
				; CHECK: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(slt), [[SUB]](s16), [[TRUNC]]
				; CHECK: [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(sgt), [[TRUNC1]](s16), [[C]]
				; CHECK: [[XOR:%[0-9]+]]:_(s1) = G_XOR [[ICMP1]], [[ICMP]]
				; CHECK: [[C1:%[0-9]+]]:_(s16) = G_CONSTANT i16 15
				; CHECK: [[ASHR:%[0-9]+]]:_(s16) = G_ASHR [[SUB]], [[C1]](s16)
				; CHECK: [[C2:%[0-9]+]]:_(s16) = G_CONSTANT i16 -32768
				; CHECK: [[ADD:%[0-9]+]]:_(s16) = G_ADD [[ASHR]], [[C2]]
				; CHECK: [[SELECT:%[0-9]+]]:_(s16) = G_SELECT [[XOR]](s1), [[ADD]], [[SUB]]
				; CHECK: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[SELECT]](s16)
				; CHECK: $vgpr0 = COPY [[ANYEXT]](s32)
				%3:_(s32) = COPY $vgpr0
				%0:_(s16) = G_TRUNC %3(s32)
				%4:_(s32) = COPY $vgpr1
				%1:_(s16) = G_TRUNC %4(s32)
				%2:sgpr_64 = COPY $sgpr30_sgpr31
				%5:_(s16) = G_SSUBSAT %0, %1
				%7:_(s32) = G_ANYEXT %5(s16)
				$vgpr0 = COPY %7(s32)
				...

				---
				name: ssubsat_s32
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1

				; CHECK-LABEL: name: ssubsat_s32
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[SUB:%[0-9]+]]:_(s32) = G_SUB [[COPY]], [[COPY1]]
				; CHECK: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
				; CHECK: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(slt), [[SUB]](s32), [[COPY]]
				; CHECK: [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(sgt), [[COPY1]](s32), [[C]]
				; CHECK: [[XOR:%[0-9]+]]:_(s1) = G_XOR [[ICMP1]], [[ICMP]]
				; CHECK: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 31
				; CHECK: [[ASHR:%[0-9]+]]:_(s32) = G_ASHR [[SUB]], [[C1]](s32)
				; CHECK: [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 -2147483648
				; CHECK: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[ASHR]], [[C2]]
				; CHECK: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[XOR]](s1), [[ADD]], [[SUB]]
				; CHECK: $vgpr0 = COPY [[SELECT]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = G_SSUBSAT %0, %1
				$vgpr0 = COPY %2
				...
				arsenmAuthorUnsubmitted Not Done Reply Inline Actions Should add at least a v2s16, v3s16, v4s16, v2i32, and s64 test arsenm: Should add at least a v2s16, v3s16, v4s16, v2i32, and s64 test
				foadUnsubmitted Done Reply Inline Actions That would require G_SADDO (et al) to be legalizable for all those types, which it currently is not. Do I need to tackle that first, before proceeding with this patch? foad: That would require G_SADDO (et al) to be legalizable for all those types, which it currently is…
				arsenmAuthorUnsubmitted Not Done Reply Inline Actions You can add the tests and use -global-isel-abort=0, and they just won't legalize and defer it to a later patch. Handling the vector cases at least should be as easy as adding the instructions to the fewerElementsVector switch arsenm: You can add the tests and use -global-isel-abort=0, and they just won't legalize and defer it…

This is an archive of the discontinued LLVM Phabricator instance.

[GlobalISel][AMDGPU] Legalize saturating add/subtractClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 239851

llvm/include/llvm/CodeGen/GlobalISel/LegalizerHelper.h

llvm/include/llvm/Support/TargetOpcodes.def

llvm/include/llvm/Target/GenericOpcodes.td

llvm/lib/CodeGen/GlobalISel/IRTranslator.cpp

llvm/lib/CodeGen/GlobalISel/LegalizerHelper.cpp

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

llvm/test/CodeGen/AArch64/GlobalISel/legalizer-info-validation.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/irtranslator-sat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-sat.mir

[GlobalISel][AMDGPU] Legalize saturating add/subtract
ClosedPublic