This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
-
AMDGPUInstructionSelector.h
3/3
AMDGPUInstructionSelector.cpp
-
AMDGPURegisterBankInfo.h
5/11
AMDGPURegisterBankInfo.cpp
-
SIInstructions.td
-
test/CodeGen/AMDGPU/GlobalISel/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
inst-select-mad_64_32.mir
-
regbankselect-mad_64_32.mir

Differential D124843

AMDGPU: Add G_AMDGPU_MAD_64_32 instructions
ClosedPublic

Authored by nhaehnle on May 3 2022, 5:11 AM.

Download Raw Diff

Details

Reviewers

arsenm
foad
rampitec

Commits

rG5df2893a9a13: AMDGPU: Add G_AMDGPU_MAD_64_32 instructions

Summary

These generic instructions are trivially selected to
V_MAD_[IU]64_[IU]32 instructions when run on the VALU.

When at least both factors are scalar, it is usually better to execute
some or all of the instruction on the SALU. To this end, we lower the
instruction to simpler instructions that are supported on the SALU
when applying the register bank mapping.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

nhaehnle created this revision.May 3 2022, 5:11 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 3 2022, 5:11 AM

Herald added subscribers: hsmhsm, kerbowa, hiraditya and 6 others. · View Herald Transcript

nhaehnle requested review of this revision.May 3 2022, 5:11 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 3 2022, 5:11 AM

Herald added a subscriber: wdng. · View Herald Transcript

nhaehnle added a child revision: D124844: AMDGPU/GISel: Introduce custom legalization of G_MUL.May 3 2022, 5:12 AM

arsenm added inline comments.May 3 2022, 6:37 AM

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
3353	Don't the selector patterns work? This one should work without much fuss
llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1558	I would assume we form this after regbank select and don't need to legalize it based on the regbank

Harbormaster completed remote builds in B162424: Diff 426653.May 3 2022, 7:51 AM

nhaehnle added inline comments.May 4 2022, 4:11 AM

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
3353	Which selector patterns do you mean? SelectionDAG has custom code for this as well because of the vcc_out (see AMDGPUDAGToDAGISel::SelectMAD_64_32).
llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1558	No, see the follow-up patch in the stack which introduces custom legalization for G_MUL. I did look into combining the results of the generic G_MUL legalization, but the patterns get really messy and expensive. It's cleaner (and faster in terms of compile-time) to generate the right code directly from legalization. I suppose one could look at a hybrid of (custom G_MUL legalization into non-target-specific GMIR, but with better suitable patterns) + (matching GMIR into V_MAD_U64_U32 after RegBankSelect). However, merely matching G_MUL + G_UMULH + G_ADDO + G_ADDE is already quite expensive.

arsenm added inline comments.May 4 2022, 4:55 AM

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
3353	Oh right, I forgot about the VCC output as usual (the original CI manual didn't mention it and I still haven't caught up)
llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1575	Most places invert this and use IsSigned (saves a few characters I guess)
1583–1585	Can you use m_ZeroInt?
1614–1626	Can you use constrainOpWithReadfirstlane?
1707	You could use ApplyRegBankMapping to avoid all of these setRegBank calls

nhaehnle added a parent revision: D125324: AMDGPU/GISel: Factor out AMDGPURegisterBankInfo::buildReadFirstLane.May 10 2022, 9:20 AM

address review comments
build on a factored-out buildReadFirstLane (see D125324)

Herald added a subscriber: jsilvanus. · View Herald TranscriptMay 10 2022, 9:21 AM

nhaehnle added inline comments.May 10 2022, 9:22 AM

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1575	How strongly do you feel about that? I used `IsUnsigned` because it puts the more common opcode first in ternary ?: operators.
1583–1585	Good point.
1614–1626	Not quite, because MulHi may actually be used in two separate places. It really feels more logical to insert the readfirstlane when the producing instruction is built. However, I looked into factoring out the code that creates readfirstlane (and added a new parent commit for that).
1707	I looked into that, but ApplyRegBankMapping unconditionally applies the same bank to everything. This code needs different banks throughout, and it doesn't seem possible to adjust ApplyRegBankMapping.

Harbormaster completed remote builds in B163717: Diff 428407.May 10 2022, 11:20 AM

arsenm added inline comments.May 16 2022, 3:30 PM

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1575	Not very

Herald added a subscriber: kosarev. · View Herald TranscriptMay 16 2022, 3:30 PM

arsenm accepted this revision.May 16 2022, 3:55 PM

This revision is now accepted and ready to land.May 16 2022, 3:55 PM

This revision was landed with ongoing or failed builds.May 27 2022, 10:36 AM

Closed by commit rG5df2893a9a13: AMDGPU: Add G_AMDGPU_MAD_64_32 instructions (authored by nhaehnle). · Explain Why

This revision was automatically updated to reflect the committed changes.

nhaehnle added a commit: rG5df2893a9a13: AMDGPU: Add G_AMDGPU_MAD_64_32 instructions.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPUInstructionSelector.h

1 line

AMDGPUInstructionSelector.cpp

16 lines

AMDGPURegisterBankInfo.h

2 lines

AMDGPURegisterBankInfo.cpp

197 lines

SIInstructions.td

13 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

inst-select-mad_64_32.mir

48 lines

regbankselect-mad_64_32.mir

550 lines

Diff 432603

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h

Show First 20 Lines • Show All 91 Lines • ▼ Show 20 Lines	private:
bool selectG_TRUNC(MachineInstr &I) const;		bool selectG_TRUNC(MachineInstr &I) const;
bool selectG_SZA_EXT(MachineInstr &I) const;		bool selectG_SZA_EXT(MachineInstr &I) const;
bool selectG_CONSTANT(MachineInstr &I) const;		bool selectG_CONSTANT(MachineInstr &I) const;
bool selectG_FNEG(MachineInstr &I) const;		bool selectG_FNEG(MachineInstr &I) const;
bool selectG_FABS(MachineInstr &I) const;		bool selectG_FABS(MachineInstr &I) const;
bool selectG_AND_OR_XOR(MachineInstr &I) const;		bool selectG_AND_OR_XOR(MachineInstr &I) const;
bool selectG_ADD_SUB(MachineInstr &I) const;		bool selectG_ADD_SUB(MachineInstr &I) const;
bool selectG_UADDO_USUBO_UADDE_USUBE(MachineInstr &I) const;		bool selectG_UADDO_USUBO_UADDE_USUBE(MachineInstr &I) const;
		bool selectG_AMDGPU_MAD_64_32(MachineInstr &I) const;
bool selectG_EXTRACT(MachineInstr &I) const;		bool selectG_EXTRACT(MachineInstr &I) const;
bool selectG_MERGE_VALUES(MachineInstr &I) const;		bool selectG_MERGE_VALUES(MachineInstr &I) const;
bool selectG_UNMERGE_VALUES(MachineInstr &I) const;		bool selectG_UNMERGE_VALUES(MachineInstr &I) const;
bool selectG_BUILD_VECTOR_TRUNC(MachineInstr &I) const;		bool selectG_BUILD_VECTOR_TRUNC(MachineInstr &I) const;
bool selectG_PTR_ADD(MachineInstr &I) const;		bool selectG_PTR_ADD(MachineInstr &I) const;
bool selectG_IMPLICIT_DEF(MachineInstr &I) const;		bool selectG_IMPLICIT_DEF(MachineInstr &I) const;
bool selectG_INSERT(MachineInstr &I) const;		bool selectG_INSERT(MachineInstr &I) const;
bool selectG_SBFX_UBFX(MachineInstr &I) const;		bool selectG_SBFX_UBFX(MachineInstr &I) const;
▲ Show 20 Lines • Show All 225 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp

Show First 20 Lines • Show All 452 Lines • ▼ Show 20 Lines	if (HasCarryIn &&
!RBI.constrainGenericRegister(I.getOperand(4).getReg(),		!RBI.constrainGenericRegister(I.getOperand(4).getReg(),
AMDGPU::SReg_32RegClass, *MRI))		AMDGPU::SReg_32RegClass, *MRI))
return false;		return false;

I.eraseFromParent();		I.eraseFromParent();
return true;		return true;
}		}

		bool AMDGPUInstructionSelector::selectG_AMDGPU_MAD_64_32(
		MachineInstr &I) const {
		MachineBasicBlock *BB = I.getParent();
		MachineFunction *MF = BB->getParent();
		const bool IsUnsigned = I.getOpcode() == AMDGPU::G_AMDGPU_MAD_U64_U32;

		I.setDesc(TII.get(IsUnsigned ? AMDGPU::V_MAD_U64_U32_e64
		: AMDGPU::V_MAD_I64_I32_e64));
		I.addOperand(*MF, MachineOperand::CreateImm(0));
		I.addImplicitDefUseOperands(*MF);
		return constrainSelectedInstRegOperands(I, TII, TRI, RBI);
		}

// TODO: We should probably legalize these to only using 32-bit results.		// TODO: We should probably legalize these to only using 32-bit results.
bool AMDGPUInstructionSelector::selectG_EXTRACT(MachineInstr &I) const {		bool AMDGPUInstructionSelector::selectG_EXTRACT(MachineInstr &I) const {
MachineBasicBlock *BB = I.getParent();		MachineBasicBlock *BB = I.getParent();
Register DstReg = I.getOperand(0).getReg();		Register DstReg = I.getOperand(0).getReg();
Register SrcReg = I.getOperand(1).getReg();		Register SrcReg = I.getOperand(1).getReg();
LLT DstTy = MRI->getType(DstReg);		LLT DstTy = MRI->getType(DstReg);
LLT SrcTy = MRI->getType(SrcReg);		LLT SrcTy = MRI->getType(SrcReg);
const unsigned SrcSize = SrcTy.getSizeInBits();		const unsigned SrcSize = SrcTy.getSizeInBits();
▲ Show 20 Lines • Show All 2,861 Lines • ▼ Show 20 Lines	case TargetOpcode::G_SUB:
if (selectImpl(I, *CoverageInfo))		if (selectImpl(I, *CoverageInfo))
return true;		return true;
return selectG_ADD_SUB(I);		return selectG_ADD_SUB(I);
case TargetOpcode::G_UADDO:		case TargetOpcode::G_UADDO:
case TargetOpcode::G_USUBO:		case TargetOpcode::G_USUBO:
case TargetOpcode::G_UADDE:		case TargetOpcode::G_UADDE:
case TargetOpcode::G_USUBE:		case TargetOpcode::G_USUBE:
return selectG_UADDO_USUBO_UADDE_USUBE(I);		return selectG_UADDO_USUBO_UADDE_USUBE(I);
		case AMDGPU::G_AMDGPU_MAD_U64_U32:
		case AMDGPU::G_AMDGPU_MAD_I64_I32:
		return selectG_AMDGPU_MAD_64_32(I);
		arsenmUnsubmitted Done Reply Inline Actions Don't the selector patterns work? This one should work without much fuss arsenm: Don't the selector patterns work? This one should work without much fuss
		nhaehnleAuthorUnsubmitted Done Reply Inline Actions Which selector patterns do you mean? SelectionDAG has custom code for this as well because of the vcc_out (see AMDGPUDAGToDAGISel::SelectMAD_64_32). nhaehnle: Which selector patterns do you mean? SelectionDAG has custom code for this as well because of…
		arsenmUnsubmitted Done Reply Inline Actions Oh right, I forgot about the VCC output as usual (the original CI manual didn't mention it and I still haven't caught up) arsenm: Oh right, I forgot about the VCC output as usual (the original CI manual didn't mention it and…
case TargetOpcode::G_INTTOPTR:		case TargetOpcode::G_INTTOPTR:
case TargetOpcode::G_BITCAST:		case TargetOpcode::G_BITCAST:
case TargetOpcode::G_PTRTOINT:		case TargetOpcode::G_PTRTOINT:
return selectCOPY(I);		return selectCOPY(I);
case TargetOpcode::G_CONSTANT:		case TargetOpcode::G_CONSTANT:
case TargetOpcode::G_FCONSTANT:		case TargetOpcode::G_FCONSTANT:
return selectG_CONSTANT(I);		return selectG_CONSTANT(I);
case TargetOpcode::G_FNEG:		case TargetOpcode::G_FNEG:
▲ Show 20 Lines • Show All 1,401 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.h

Show First 20 Lines • Show All 80 Lines • ▼ Show 20 Lines	public:
bool		bool
applyMappingImage(MachineInstr &MI,		applyMappingImage(MachineInstr &MI,
const OperandsMapper &OpdMapper,		const OperandsMapper &OpdMapper,
MachineRegisterInfo &MRI, int RSrcIdx) const;		MachineRegisterInfo &MRI, int RSrcIdx) const;
bool applyMappingSBufferLoad(const OperandsMapper &OpdMapper) const;		bool applyMappingSBufferLoad(const OperandsMapper &OpdMapper) const;

bool applyMappingBFE(const OperandsMapper &OpdMapper, bool Signed) const;		bool applyMappingBFE(const OperandsMapper &OpdMapper, bool Signed) const;

		bool applyMappingMAD_64_32(const OperandsMapper &OpdMapper) const;

Register handleD16VData(MachineIRBuilder &B, MachineRegisterInfo &MRI,		Register handleD16VData(MachineIRBuilder &B, MachineRegisterInfo &MRI,
Register Reg) const;		Register Reg) const;

std::pair<Register, unsigned>		std::pair<Register, unsigned>
splitBufferOffsets(MachineIRBuilder &B, Register Offset) const;		splitBufferOffsets(MachineIRBuilder &B, Register Offset) const;

/// See RegisterBankInfo::applyMapping.		/// See RegisterBankInfo::applyMapping.
void applyMappingImpl(const OperandsMapper &OpdMapper) const override;		void applyMappingImpl(const OperandsMapper &OpdMapper) const override;
▲ Show 20 Lines • Show All 95 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

Show First 20 Lines • Show All 1,549 Lines • ▼ Show 20 Lines	bool AMDGPURegisterBankInfo::applyMappingBFE(const OperandsMapper &OpdMapper,
auto MIB = B.buildInstr(Opc, {DstReg}, {SrcReg, MergedInputs});		auto MIB = B.buildInstr(Opc, {DstReg}, {SrcReg, MergedInputs});
if (!constrainSelectedInstRegOperands(MIB, TII, TRI, this))		if (!constrainSelectedInstRegOperands(MIB, TII, TRI, this))
llvm_unreachable("failed to constrain BFE");		llvm_unreachable("failed to constrain BFE");

MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
}		}

		bool AMDGPURegisterBankInfo::applyMappingMAD_64_32(
		arsenmUnsubmitted Not Done Reply Inline Actions I would assume we form this after regbank select and don't need to legalize it based on the regbank arsenm: I would assume we form this after regbank select and don't need to legalize it based on the…
		nhaehnleAuthorUnsubmitted Done Reply Inline Actions No, see the follow-up patch in the stack which introduces custom legalization for G_MUL. I did look into combining the results of the generic G_MUL legalization, but the patterns get really messy and expensive. It's cleaner (and faster in terms of compile-time) to generate the right code directly from legalization. I suppose one could look at a hybrid of (custom G_MUL legalization into non-target-specific GMIR, but with better suitable patterns) + (matching GMIR into V_MAD_U64_U32 after RegBankSelect). However, merely matching G_MUL + G_UMULH + G_ADDO + G_ADDE is already quite expensive. nhaehnle: No, see the follow-up patch in the stack which introduces custom legalization for G_MUL. I did…
		const OperandsMapper &OpdMapper) const {
		MachineInstr &MI = OpdMapper.getMI();
		MachineRegisterInfo &MRI = OpdMapper.getMRI();

		// Insert basic copies.
		applyDefaultMapping(OpdMapper);

		Register Dst0 = MI.getOperand(0).getReg();
		Register Dst1 = MI.getOperand(1).getReg();
		Register Src0 = MI.getOperand(2).getReg();
		Register Src1 = MI.getOperand(3).getReg();
		Register Src2 = MI.getOperand(4).getReg();

		if (MRI.getRegBankOrNull(Src0) == &AMDGPU::VGPRRegBank)
		return true;

		bool IsUnsigned = MI.getOpcode() == AMDGPU::G_AMDGPU_MAD_U64_U32;
		arsenmUnsubmitted Not Done Reply Inline Actions Most places invert this and use IsSigned (saves a few characters I guess) arsenm: Most places invert this and use IsSigned (saves a few characters I guess)
		nhaehnleAuthorUnsubmitted Done Reply Inline Actions How strongly do you feel about that? I used `IsUnsigned` because it puts the more common opcode first in ternary ?: operators. nhaehnle: How strongly do you feel about that? I used `IsUnsigned` because it puts the more common opcode…
		arsenmUnsubmitted Not Done Reply Inline Actions Not very arsenm: Not very
		LLT S1 = LLT::scalar(1);
		LLT S32 = LLT::scalar(32);

		bool DstOnValu = MRI.getRegBankOrNull(Src2) == &AMDGPU::VGPRRegBank;
		bool Accumulate = true;

		if (!DstOnValu) {
		if (mi_match(Src2, MRI, m_ZeroInt()))
		Accumulate = false;
		}
		arsenmUnsubmitted Not Done Reply Inline Actions Can you use m_ZeroInt? arsenm: Can you use m_ZeroInt?
		nhaehnleAuthorUnsubmitted Done Reply Inline Actions Good point. nhaehnle: Good point.

		// Keep the multiplication on the SALU.
		MachineIRBuilder B(MI);

		Register DstHi;
		Register DstLo = B.buildMul(S32, Src0, Src1).getReg(0);
		bool MulHiInVgpr = false;

		MRI.setRegBank(DstLo, AMDGPU::SGPRRegBank);

		if (Subtarget.hasSMulHi()) {
		DstHi = IsUnsigned ? B.buildUMulH(S32, Src0, Src1).getReg(0)
		: B.buildSMulH(S32, Src0, Src1).getReg(0);
		MRI.setRegBank(DstHi, AMDGPU::SGPRRegBank);
		} else {
		Register VSrc0 = B.buildCopy(S32, Src0).getReg(0);
		Register VSrc1 = B.buildCopy(S32, Src1).getReg(0);

		MRI.setRegBank(VSrc0, AMDGPU::VGPRRegBank);
		MRI.setRegBank(VSrc1, AMDGPU::VGPRRegBank);

		DstHi = IsUnsigned ? B.buildUMulH(S32, VSrc0, VSrc1).getReg(0)
		: B.buildSMulH(S32, VSrc0, VSrc1).getReg(0);
		MRI.setRegBank(DstHi, AMDGPU::VGPRRegBank);

		if (!DstOnValu) {
		DstHi = buildReadFirstLane(B, MRI, DstHi);
		} else {
		MulHiInVgpr = true;
		}
		}

		// Accumulate and produce the "carry-out" bit.
		//
		// The "carry-out" is defined as bit 64 of the result when computed as a
		// big integer. For unsigned multiply-add, this matches the usual definition
		// of carry-out. For signed multiply-add, bit 64 is the sign bit of the
		// result, which is determined as:
		// sign(Src0 * Src1) + sign(Src2) + carry-out from unsigned 64-bit add
		LLT CarryType = DstOnValu ? S1 : S32;
		const RegisterBank &CarryBank =
		arsenmUnsubmitted Not Done Reply Inline Actions Can you use constrainOpWithReadfirstlane? arsenm: Can you use constrainOpWithReadfirstlane?
		nhaehnleAuthorUnsubmitted Done Reply Inline Actions Not quite, because MulHi may actually be used in two separate places. It really feels more logical to insert the readfirstlane when the producing instruction is built. However, I looked into factoring out the code that creates readfirstlane (and added a new parent commit for that). nhaehnle: Not quite, because MulHi may actually be used in two separate places. It really feels more…
		DstOnValu ? AMDGPU::VCCRegBank : AMDGPU::SGPRRegBank;
		const RegisterBank &DstBank =
		DstOnValu ? AMDGPU::VGPRRegBank : AMDGPU::SGPRRegBank;
		Register Carry;
		Register Zero;

		if (!IsUnsigned) {
		Zero = B.buildConstant(S32, 0).getReg(0);
		MRI.setRegBank(Zero,
		MulHiInVgpr ? AMDGPU::VGPRRegBank : AMDGPU::SGPRRegBank);

		Carry = B.buildICmp(CmpInst::ICMP_SLT, MulHiInVgpr ? S1 : S32, DstHi, Zero)
		.getReg(0);
		MRI.setRegBank(Carry, MulHiInVgpr ? AMDGPU::VCCRegBank
		: AMDGPU::SGPRRegBank);

		if (DstOnValu && !MulHiInVgpr) {
		Carry = B.buildTrunc(S1, Carry).getReg(0);
		MRI.setRegBank(Carry, AMDGPU::VCCRegBank);
		}
		}

		if (Accumulate) {
		if (DstOnValu) {
		DstLo = B.buildCopy(S32, DstLo).getReg(0);
		DstHi = B.buildCopy(S32, DstHi).getReg(0);
		MRI.setRegBank(DstLo, AMDGPU::VGPRRegBank);
		MRI.setRegBank(DstHi, AMDGPU::VGPRRegBank);
		}

		auto Unmerge = B.buildUnmerge(S32, Src2);
		Register Src2Lo = Unmerge.getReg(0);
		Register Src2Hi = Unmerge.getReg(1);
		MRI.setRegBank(Src2Lo, DstBank);
		MRI.setRegBank(Src2Hi, DstBank);

		if (!IsUnsigned) {
		auto Src2Sign = B.buildICmp(CmpInst::ICMP_SLT, CarryType, Src2Hi, Zero);
		MRI.setRegBank(Src2Sign.getReg(0), CarryBank);

		Carry = B.buildXor(CarryType, Carry, Src2Sign).getReg(0);
		MRI.setRegBank(Carry, CarryBank);
		}

		auto AddLo = B.buildUAddo(S32, CarryType, DstLo, Src2Lo);
		DstLo = AddLo.getReg(0);
		Register CarryLo = AddLo.getReg(1);
		MRI.setRegBank(DstLo, DstBank);
		MRI.setRegBank(CarryLo, CarryBank);

		auto AddHi = B.buildUAdde(S32, CarryType, DstHi, Src2Hi, CarryLo);
		DstHi = AddHi.getReg(0);
		MRI.setRegBank(DstHi, DstBank);

		Register CarryHi = AddHi.getReg(1);
		MRI.setRegBank(CarryHi, CarryBank);

		if (IsUnsigned) {
		Carry = CarryHi;
		} else {
		Carry = B.buildXor(CarryType, Carry, CarryHi).getReg(0);
		MRI.setRegBank(Carry, CarryBank);
		}
		} else {
		if (IsUnsigned) {
		Carry = B.buildConstant(CarryType, 0).getReg(0);
		MRI.setRegBank(Carry, CarryBank);
		}
		}

		B.buildMerge(Dst0, {DstLo, DstHi});

		if (DstOnValu) {
		B.buildCopy(Dst1, Carry);
		} else {
		B.buildTrunc(Dst1, Carry);
		}

		MI.eraseFromParent();
		return true;
		}
		arsenmUnsubmitted Not Done Reply Inline Actions You could use ApplyRegBankMapping to avoid all of these setRegBank calls arsenm: You could use ApplyRegBankMapping to avoid all of these setRegBank calls
		nhaehnleAuthorUnsubmitted Done Reply Inline Actions I looked into that, but ApplyRegBankMapping unconditionally applies the same bank to everything. This code needs different banks throughout, and it doesn't seem possible to adjust ApplyRegBankMapping. nhaehnle: I looked into that, but ApplyRegBankMapping unconditionally applies the same bank to everything.

// Return a suitable opcode for extending the operands of Opc when widening.		// Return a suitable opcode for extending the operands of Opc when widening.
static unsigned getExtendOp(unsigned Opc) {		static unsigned getExtendOp(unsigned Opc) {
switch (Opc) {		switch (Opc) {
case TargetOpcode::G_ASHR:		case TargetOpcode::G_ASHR:
case TargetOpcode::G_SMIN:		case TargetOpcode::G_SMIN:
case TargetOpcode::G_SMAX:		case TargetOpcode::G_SMAX:
return TargetOpcode::G_SEXT;		return TargetOpcode::G_SEXT;
case TargetOpcode::G_LSHR:		case TargetOpcode::G_LSHR:
▲ Show 20 Lines • Show All 1,522 Lines • ▼ Show 20 Lines	case AMDGPU::G_DYN_STACKALLOC:
applyMappingDynStackAlloc(MI, OpdMapper, MRI);		applyMappingDynStackAlloc(MI, OpdMapper, MRI);
return;		return;
case AMDGPU::G_SBFX:		case AMDGPU::G_SBFX:
applyMappingBFE(OpdMapper, /Signed/ true);		applyMappingBFE(OpdMapper, /Signed/ true);
return;		return;
case AMDGPU::G_UBFX:		case AMDGPU::G_UBFX:
applyMappingBFE(OpdMapper, /Signed/ false);		applyMappingBFE(OpdMapper, /Signed/ false);
return;		return;
		case AMDGPU::G_AMDGPU_MAD_U64_U32:
		case AMDGPU::G_AMDGPU_MAD_I64_I32:
		applyMappingMAD_64_32(OpdMapper);
		return;
default:		default:
break;		break;
}		}

return applyDefaultMapping(OpdMapper);		return applyDefaultMapping(OpdMapper);
}		}

// vgpr, sgpr -> vgpr		// vgpr, sgpr -> vgpr
▲ Show 20 Lines • Show All 509 Lines • ▼ Show 20 Lines	AMDGPURegisterBankInfo::getInstrMapping(const MachineInstr &MI) const {
case AMDGPU::G_AMDGPU_SMED3:		case AMDGPU::G_AMDGPU_SMED3:
return getDefaultMappingVOP(MI);		return getDefaultMappingVOP(MI);
case AMDGPU::G_UMULH:		case AMDGPU::G_UMULH:
case AMDGPU::G_SMULH: {		case AMDGPU::G_SMULH: {
if (Subtarget.hasScalarMulHiInsts() && isSALUMapping(MI))		if (Subtarget.hasScalarMulHiInsts() && isSALUMapping(MI))
return getDefaultMappingSOP(MI);		return getDefaultMappingSOP(MI);
return getDefaultMappingVOP(MI);		return getDefaultMappingVOP(MI);
}		}
		case AMDGPU::G_AMDGPU_MAD_U64_U32:
		case AMDGPU::G_AMDGPU_MAD_I64_I32: {
		// Three possible mappings:
		//
		// - Default SOP
		// - Default VOP
		// - Scalar multiply: src0 and src1 are SGPRs, the rest is VOP.
		//
		// This allows instruction selection to keep the multiplication part of the
		// instruction on the SALU.
		bool AllSalu = true;
		bool MulSalu = true;
		for (unsigned i = 0; i < 5; ++i) {
		Register Reg = MI.getOperand(i).getReg();
		if (const RegisterBank Bank = getRegBank(Reg, MRI, TRI)) {
		if (Bank->getID() != AMDGPU::SGPRRegBankID) {
		AllSalu = false;
		if (i == 2 \|\| i == 3) {
		MulSalu = false;
		break;
		}
		}
		}
		}

		if (AllSalu)
		return getDefaultMappingSOP(MI);

		// If the multiply-add is full-rate in VALU, use that even if the
		// multiplication part is scalar. Accumulating separately on the VALU would
		// take two instructions.
		if (!MulSalu \|\| Subtarget.hasFullRate64Ops())
		return getDefaultMappingVOP(MI);

		// Keep the multiplication on the SALU, then accumulate on the VALU.
		OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, 64);
		OpdsMapping[1] = AMDGPU::getValueMapping(AMDGPU::VCCRegBankID, 1);
		OpdsMapping[2] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, 32);
		OpdsMapping[3] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, 32);
		OpdsMapping[4] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, 64);
		break;
		}
case AMDGPU::G_IMPLICIT_DEF: {		case AMDGPU::G_IMPLICIT_DEF: {
unsigned Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();		unsigned Size = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();
OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, Size);		OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::SGPRRegBankID, Size);
break;		break;
}		}
case AMDGPU::G_FCONSTANT:		case AMDGPU::G_FCONSTANT:
case AMDGPU::G_CONSTANT:		case AMDGPU::G_CONSTANT:
case AMDGPU::G_GLOBAL_VALUE:		case AMDGPU::G_GLOBAL_VALUE:
▲ Show 20 Lines • Show All 948 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstructions.td

	Show First 20 Lines • Show All 3,104 Lines • ▼ Show 20 Lines
	}			}

	def G_AMDGPU_CLAMP : AMDGPUGenericInstruction {			def G_AMDGPU_CLAMP : AMDGPUGenericInstruction {
	let OutOperandList = (outs type0:$dst);			let OutOperandList = (outs type0:$dst);
	let InOperandList = (ins type0:$src);			let InOperandList = (ins type0:$src);
	let hasSideEffects = 0;			let hasSideEffects = 0;
	}			}

				// Integer multiply-add: arg0 * arg1 + arg2.
				//
				// arg0 and arg1 are 32-bit integers (interpreted as signed or unsigned),
				// arg2 is a 64-bit integer. Result is a 64-bit integer and a 1-bit carry-out.
				class G_AMDGPU_MAD_64_32 : AMDGPUGenericInstruction {
				let OutOperandList = (outs type0:$dst, type1:$carry_out);
				let InOperandList = (ins type2:$arg0, type2:$arg1, type0:$arg2);
				let hasSideEffects = 0;
				}

				def G_AMDGPU_MAD_U64_U32 : G_AMDGPU_MAD_64_32;
				def G_AMDGPU_MAD_I64_I32 : G_AMDGPU_MAD_64_32;

	// Atomic cmpxchg. $cmpval ad $newval are packed in a single vector			// Atomic cmpxchg. $cmpval ad $newval are packed in a single vector
	// operand Expects a MachineMemOperand in addition to explicit			// operand Expects a MachineMemOperand in addition to explicit
	// operands.			// operands.
	def G_AMDGPU_ATOMIC_CMPXCHG : AMDGPUGenericInstruction {			def G_AMDGPU_ATOMIC_CMPXCHG : AMDGPUGenericInstruction {
	let OutOperandList = (outs type0:$oldval);			let OutOperandList = (outs type0:$oldval);
	let InOperandList = (ins ptype1:$addr, type0:$cmpval_newval);			let InOperandList = (ins ptype1:$addr, type0:$cmpval_newval);
	let hasSideEffects = 0;			let hasSideEffects = 0;
	let mayLoad = 1;			let mayLoad = 1;
	▲ Show 20 Lines • Show All 127 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-mad_64_32.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -march=amdgcn -mcpu=gfx1030 -run-pass=instruction-select -global-isel-abort=2 -pass-remarks-missed='gisel*' -verify-machineinstrs %s -o - 2>%t \| FileCheck -check-prefix=GCN %s

				---
				name: mad_u64_u32_vvv
				legalized: true
				regBankSelected: true

				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; GCN-LABEL: name: mad_u64_u32_vvv
				; GCN: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GCN-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY $vgpr3
				; GCN-NEXT: [[V_MAD_U64_U32_e64_:%[0-9]+]]:vreg_64, [[V_MAD_U64_U32_e64_1:%[0-9]+]]:sreg_32_xm0_xexec = V_MAD_U64_U32_e64 [[COPY]], [[COPY1]], [[COPY2]], 0, implicit $exec
				; GCN-NEXT: S_ENDPGM 0, implicit [[V_MAD_U64_U32_e64_]], implicit [[V_MAD_U64_U32_e64_1]]
				%0:vgpr(s32) = COPY $vgpr0
				%1:vgpr(s32) = COPY $vgpr1
				%2:vgpr(s32) = COPY $vgpr2
				%3:vgpr(s32) = COPY $vgpr3
				%4:vgpr(s64) = G_MERGE_VALUES %2, %3
				%5:vgpr(s64), %6:vcc(s1) = G_AMDGPU_MAD_U64_U32 %0, %1, %3
				S_ENDPGM 0, implicit %5, implicit %6
				...

				---
				name: mad_i64_i32_vvv
				legalized: true
				regBankSelected: true

				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; GCN-LABEL: name: mad_i64_i32_vvv
				; GCN: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GCN-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY $vgpr3
				; GCN-NEXT: [[V_MAD_I64_I32_e64_:%[0-9]+]]:vreg_64, [[V_MAD_I64_I32_e64_1:%[0-9]+]]:sreg_32_xm0_xexec = V_MAD_I64_I32_e64 [[COPY]], [[COPY1]], [[COPY2]], 0, implicit $exec
				; GCN-NEXT: S_ENDPGM 0, implicit [[V_MAD_I64_I32_e64_]], implicit [[V_MAD_I64_I32_e64_1]]
				%0:vgpr(s32) = COPY $vgpr0
				%1:vgpr(s32) = COPY $vgpr1
				%2:vgpr(s32) = COPY $vgpr2
				%3:vgpr(s32) = COPY $vgpr3
				%4:vgpr(s64) = G_MERGE_VALUES %2, %3
				%5:vgpr(s64), %6:vcc(s1) = G_AMDGPU_MAD_I64_I32 %0, %1, %3
				S_ENDPGM 0, implicit %5, implicit %6
				...

llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mad_64_32.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=regbankselect %s -verify-machineinstrs -o - -regbankselect-fast \| FileCheck --check-prefixes=CHECK,GFX8 %s
				# RUN: llc -march=amdgcn -mcpu=gfx90a -run-pass=regbankselect %s -verify-machineinstrs -o - -regbankselect-fast \| FileCheck --check-prefixes=CHECK,GFX9MI %s
				# RUN: llc -march=amdgcn -mcpu=gfx1030 -run-pass=regbankselect %s -verify-machineinstrs -o - -regbankselect-fast \| FileCheck --check-prefixes=CHECK,GFX10 %s

				---
				name: mad_u64_u32_sss
				legalized: true

				body: \|
				bb.0:
				liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3
				;
				;
				; GFX8-LABEL: name: mad_u64_u32_sss
				; GFX8: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX8-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX8-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; GFX8-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr3
				; GFX8-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX8-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX8-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; GFX8-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; GFX8-NEXT: [[UMULH:%[0-9]+]]:vgpr_32(s32) = G_UMULH [[COPY4]], [[COPY5]]
				; GFX8-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32(s32) = V_READFIRSTLANE_B32 [[UMULH]](s32), implicit $exec
				; GFX8-NEXT: [[UV:%[0-9]+]]:sgpr(s32), [[UV1:%[0-9]+]]:sgpr(s32) = G_UNMERGE_VALUES [[MV]](s64)
				; GFX8-NEXT: [[UADDO:%[0-9]+]]:sgpr(s32), [[UADDO1:%[0-9]+]]:sgpr(s32) = G_UADDO [[MUL]], [[UV]]
				; GFX8-NEXT: [[UADDE:%[0-9]+]]:sgpr(s32), [[UADDE1:%[0-9]+]]:sgpr(s32) = G_UADDE [[V_READFIRSTLANE_B32_]], [[UV1]], [[UADDO1]]
				; GFX8-NEXT: [[MV1:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[UADDO]](s32), [[UADDE]](s32)
				; GFX8-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[UADDE1]](s32)
				; GFX9MI-LABEL: name: mad_u64_u32_sss
				; GFX9MI: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX9MI-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX9MI-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; GFX9MI-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr3
				; GFX9MI-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX9MI-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX9MI-NEXT: [[UMULH:%[0-9]+]]:sgpr(s32) = G_UMULH [[COPY]], [[COPY1]]
				; GFX9MI-NEXT: [[UV:%[0-9]+]]:sgpr(s32), [[UV1:%[0-9]+]]:sgpr(s32) = G_UNMERGE_VALUES [[MV]](s64)
				; GFX9MI-NEXT: [[UADDO:%[0-9]+]]:sgpr(s32), [[UADDO1:%[0-9]+]]:sgpr(s32) = G_UADDO [[MUL]], [[UV]]
				; GFX9MI-NEXT: [[UADDE:%[0-9]+]]:sgpr(s32), [[UADDE1:%[0-9]+]]:sgpr(s32) = G_UADDE [[UMULH]], [[UV1]], [[UADDO1]]
				; GFX9MI-NEXT: [[MV1:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[UADDO]](s32), [[UADDE]](s32)
				; GFX9MI-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[UADDE1]](s32)
				; GFX10-LABEL: name: mad_u64_u32_sss
				; GFX10: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX10-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX10-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; GFX10-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr3
				; GFX10-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX10-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[UMULH:%[0-9]+]]:sgpr(s32) = G_UMULH [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[UV:%[0-9]+]]:sgpr(s32), [[UV1:%[0-9]+]]:sgpr(s32) = G_UNMERGE_VALUES [[MV]](s64)
				; GFX10-NEXT: [[UADDO:%[0-9]+]]:sgpr(s32), [[UADDO1:%[0-9]+]]:sgpr(s32) = G_UADDO [[MUL]], [[UV]]
				; GFX10-NEXT: [[UADDE:%[0-9]+]]:sgpr(s32), [[UADDE1:%[0-9]+]]:sgpr(s32) = G_UADDE [[UMULH]], [[UV1]], [[UADDO1]]
				; GFX10-NEXT: [[MV1:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[UADDO]](s32), [[UADDE]](s32)
				; GFX10-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[UADDE1]](s32)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $sgpr1
				%2:_(s32) = COPY $sgpr2
				%3:_(s32) = COPY $sgpr3
				%4:_(s64) = G_MERGE_VALUES %2, %3
				%5:_(s64), %6:_(s1) = G_AMDGPU_MAD_U64_U32 %0, %1, %4
				...

				---
				name: mad_u64_u32_ssv
				legalized: true

				body: \|
				bb.0:
				liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1
				;
				;
				; GFX8-LABEL: name: mad_u64_u32_ssv
				; GFX8: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX8-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX8-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX8-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; GFX8-NEXT: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX8-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX8-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; GFX8-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; GFX8-NEXT: [[UMULH:%[0-9]+]]:vgpr(s32) = G_UMULH [[COPY4]], [[COPY5]]
				; GFX8-NEXT: [[COPY6:%[0-9]+]]:vgpr(s32) = COPY [[MUL]](s32)
				; GFX8-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[UMULH]](s32)
				; GFX8-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[MV]](s64)
				; GFX8-NEXT: [[UADDO:%[0-9]+]]:vgpr(s32), [[UADDO1:%[0-9]+]]:vcc(s1) = G_UADDO [[COPY6]], [[UV]]
				; GFX8-NEXT: [[UADDE:%[0-9]+]]:vgpr(s32), [[UADDE1:%[0-9]+]]:vcc(s1) = G_UADDE [[COPY7]], [[UV1]], [[UADDO1]]
				; GFX8-NEXT: [[MV1:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[UADDO]](s32), [[UADDE]](s32)
				; GFX8-NEXT: [[COPY8:%[0-9]+]]:vcc(s1) = COPY [[UADDE1]](s1)
				; GFX9MI-LABEL: name: mad_u64_u32_ssv
				; GFX9MI: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX9MI-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX9MI-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX9MI-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; GFX9MI-NEXT: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX9MI-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; GFX9MI-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; GFX9MI-NEXT: [[AMDGPU_MAD_U64_U32_:%[0-9]+]]:vgpr(s64), [[AMDGPU_MAD_U64_U32_1:%[0-9]+]]:vcc(s1) = G_AMDGPU_MAD_U64_U32 [[COPY4]](s32), [[COPY5]], [[MV]]
				; GFX10-LABEL: name: mad_u64_u32_ssv
				; GFX10: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX10-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; GFX10-NEXT: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX10-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[UMULH:%[0-9]+]]:sgpr(s32) = G_UMULH [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[MUL]](s32)
				; GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[UMULH]](s32)
				; GFX10-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[MV]](s64)
				; GFX10-NEXT: [[UADDO:%[0-9]+]]:vgpr(s32), [[UADDO1:%[0-9]+]]:vcc(s1) = G_UADDO [[COPY4]], [[UV]]
				; GFX10-NEXT: [[UADDE:%[0-9]+]]:vgpr(s32), [[UADDE1:%[0-9]+]]:vcc(s1) = G_UADDE [[COPY5]], [[UV1]], [[UADDO1]]
				; GFX10-NEXT: [[MV1:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[UADDO]](s32), [[UADDE]](s32)
				; GFX10-NEXT: [[COPY6:%[0-9]+]]:vcc(s1) = COPY [[UADDE1]](s1)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $sgpr1
				%2:_(s32) = COPY $vgpr0
				%3:_(s32) = COPY $vgpr1
				%4:_(s64) = G_MERGE_VALUES %2, %3
				%5:_(s64), %6:_(s1) = G_AMDGPU_MAD_U64_U32 %0, %1, %4
				...

				---
				name: mad_u64_u32_svs
				legalized: true

				body: \|
				bb.0:
				liveins: $sgpr0, $vgpr0, $sgpr1, $sgpr2
				;
				;
				; CHECK-LABEL: name: mad_u64_u32_svs
				; CHECK: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; CHECK-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s64) = COPY [[MV]](s64)
				; CHECK-NEXT: [[AMDGPU_MAD_U64_U32_:%[0-9]+]]:vgpr(s64), [[AMDGPU_MAD_U64_U32_1:%[0-9]+]]:vcc(s1) = G_AMDGPU_MAD_U64_U32 [[COPY4]](s32), [[COPY1]], [[COPY5]]
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $vgpr0
				%2:_(s32) = COPY $sgpr1
				%3:_(s32) = COPY $sgpr2
				%4:_(s64) = G_MERGE_VALUES %2, %3
				%5:_(s64), %6:_(s1) = G_AMDGPU_MAD_U64_U32 %0, %1, %4
				...

				---
				name: mad_u64_u32_svv
				legalized: true

				body: \|
				bb.0:
				liveins: $sgpr0, $vgpr0, $vgpr1, $vgpr2
				;
				;
				; CHECK-LABEL: name: mad_u64_u32_svv
				; CHECK: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
				; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; CHECK-NEXT: [[AMDGPU_MAD_U64_U32_:%[0-9]+]]:vgpr(s64), [[AMDGPU_MAD_U64_U32_1:%[0-9]+]]:vcc(s1) = G_AMDGPU_MAD_U64_U32 [[COPY4]](s32), [[COPY1]], [[MV]]
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $vgpr0
				%2:_(s32) = COPY $vgpr1
				%3:_(s32) = COPY $vgpr2
				%4:_(s64) = G_MERGE_VALUES %2, %3
				%5:_(s64), %6:_(s1) = G_AMDGPU_MAD_U64_U32 %0, %1, %4
				...

				---
				name: mad_u64_u32_vss
				legalized: true

				body: \|
				bb.0:
				liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2
				;
				;
				; CHECK-LABEL: name: mad_u64_u32_vss
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; CHECK-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s64) = COPY [[MV]](s64)
				; CHECK-NEXT: [[AMDGPU_MAD_U64_U32_:%[0-9]+]]:vgpr(s64), [[AMDGPU_MAD_U64_U32_1:%[0-9]+]]:vcc(s1) = G_AMDGPU_MAD_U64_U32 [[COPY]](s32), [[COPY4]], [[COPY5]]
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $sgpr0
				%2:_(s32) = COPY $sgpr1
				%3:_(s32) = COPY $sgpr2
				%4:_(s64) = G_MERGE_VALUES %2, %3
				%5:_(s64), %6:_(s1) = G_AMDGPU_MAD_U64_U32 %0, %1, %4
				...

				---
				name: mad_u64_u32_vsv
				legalized: true

				body: \|
				bb.0:
				liveins: $vgpr0, $sgpr0, $vgpr1, $vgpr2
				;
				;
				; CHECK-LABEL: name: mad_u64_u32_vsv
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
				; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; CHECK-NEXT: [[AMDGPU_MAD_U64_U32_:%[0-9]+]]:vgpr(s64), [[AMDGPU_MAD_U64_U32_1:%[0-9]+]]:vcc(s1) = G_AMDGPU_MAD_U64_U32 [[COPY]](s32), [[COPY4]], [[MV]]
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $sgpr1
				%2:_(s32) = COPY $vgpr1
				%3:_(s32) = COPY $vgpr2
				%4:_(s64) = G_MERGE_VALUES %2, %3
				%5:_(s64), %6:_(s1) = G_AMDGPU_MAD_U64_U32 %0, %1, %4
				...

				---
				name: mad_u64_u32_vvs
				legalized: true

				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1, $sgpr0, $sgpr1
				;
				;
				; CHECK-LABEL: name: mad_u64_u32_vvs
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; CHECK-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s64) = COPY [[MV]](s64)
				; CHECK-NEXT: [[AMDGPU_MAD_U64_U32_:%[0-9]+]]:vgpr(s64), [[AMDGPU_MAD_U64_U32_1:%[0-9]+]]:vcc(s1) = G_AMDGPU_MAD_U64_U32 [[COPY]](s32), [[COPY1]], [[COPY4]]
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = COPY $sgpr1
				%3:_(s32) = COPY $sgpr2
				%4:_(s64) = G_MERGE_VALUES %2, %3
				%5:_(s64), %6:_(s1) = G_AMDGPU_MAD_U64_U32 %0, %1, %4
				...

				---
				name: mad_u64_u32_vvv
				legalized: true

				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3
				;
				;
				; CHECK-LABEL: name: mad_u64_u32_vvv
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
				; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; CHECK-NEXT: [[AMDGPU_MAD_U64_U32_:%[0-9]+]]:vgpr(s64), [[AMDGPU_MAD_U64_U32_1:%[0-9]+]]:vcc(s1) = G_AMDGPU_MAD_U64_U32 [[COPY]](s32), [[COPY1]], [[MV]]
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s32) = COPY $vgpr2
				%3:_(s32) = COPY $vgpr3
				%4:_(s64) = G_MERGE_VALUES %2, %3
				%5:_(s64), %6:_(s1) = G_AMDGPU_MAD_U64_U32 %0, %1, %4
				...

				---
				name: mad_i64_i32_sss
				legalized: true

				body: \|
				bb.0:
				liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3
				;
				;
				; GFX8-LABEL: name: mad_i64_i32_sss
				; GFX8: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX8-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX8-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; GFX8-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr3
				; GFX8-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX8-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX8-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; GFX8-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; GFX8-NEXT: [[SMULH:%[0-9]+]]:vgpr_32(s32) = G_SMULH [[COPY4]], [[COPY5]]
				; GFX8-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32(s32) = V_READFIRSTLANE_B32 [[SMULH]](s32), implicit $exec
				; GFX8-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
				; GFX8-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(slt), [[V_READFIRSTLANE_B32_]](s32), [[C]]
				; GFX8-NEXT: [[UV:%[0-9]+]]:sgpr(s32), [[UV1:%[0-9]+]]:sgpr(s32) = G_UNMERGE_VALUES [[MV]](s64)
				; GFX8-NEXT: [[ICMP1:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(slt), [[UV1]](s32), [[C]]
				; GFX8-NEXT: [[XOR:%[0-9]+]]:sgpr(s32) = G_XOR [[ICMP]], [[ICMP1]]
				; GFX8-NEXT: [[UADDO:%[0-9]+]]:sgpr(s32), [[UADDO1:%[0-9]+]]:sgpr(s32) = G_UADDO [[MUL]], [[UV]]
				; GFX8-NEXT: [[UADDE:%[0-9]+]]:sgpr(s32), [[UADDE1:%[0-9]+]]:sgpr(s32) = G_UADDE [[V_READFIRSTLANE_B32_]], [[UV1]], [[UADDO1]]
				; GFX8-NEXT: [[XOR1:%[0-9]+]]:sgpr(s32) = G_XOR [[XOR]], [[UADDE1]]
				; GFX8-NEXT: [[MV1:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[UADDO]](s32), [[UADDE]](s32)
				; GFX8-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[XOR1]](s32)
				; GFX9MI-LABEL: name: mad_i64_i32_sss
				; GFX9MI: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX9MI-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX9MI-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; GFX9MI-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr3
				; GFX9MI-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX9MI-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX9MI-NEXT: [[SMULH:%[0-9]+]]:sgpr(s32) = G_SMULH [[COPY]], [[COPY1]]
				; GFX9MI-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
				; GFX9MI-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(slt), [[SMULH]](s32), [[C]]
				; GFX9MI-NEXT: [[UV:%[0-9]+]]:sgpr(s32), [[UV1:%[0-9]+]]:sgpr(s32) = G_UNMERGE_VALUES [[MV]](s64)
				; GFX9MI-NEXT: [[ICMP1:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(slt), [[UV1]](s32), [[C]]
				; GFX9MI-NEXT: [[XOR:%[0-9]+]]:sgpr(s32) = G_XOR [[ICMP]], [[ICMP1]]
				; GFX9MI-NEXT: [[UADDO:%[0-9]+]]:sgpr(s32), [[UADDO1:%[0-9]+]]:sgpr(s32) = G_UADDO [[MUL]], [[UV]]
				; GFX9MI-NEXT: [[UADDE:%[0-9]+]]:sgpr(s32), [[UADDE1:%[0-9]+]]:sgpr(s32) = G_UADDE [[SMULH]], [[UV1]], [[UADDO1]]
				; GFX9MI-NEXT: [[XOR1:%[0-9]+]]:sgpr(s32) = G_XOR [[XOR]], [[UADDE1]]
				; GFX9MI-NEXT: [[MV1:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[UADDO]](s32), [[UADDE]](s32)
				; GFX9MI-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[XOR1]](s32)
				; GFX10-LABEL: name: mad_i64_i32_sss
				; GFX10: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX10-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX10-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
				; GFX10-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr3
				; GFX10-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX10-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[SMULH:%[0-9]+]]:sgpr(s32) = G_SMULH [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
				; GFX10-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(slt), [[SMULH]](s32), [[C]]
				; GFX10-NEXT: [[UV:%[0-9]+]]:sgpr(s32), [[UV1:%[0-9]+]]:sgpr(s32) = G_UNMERGE_VALUES [[MV]](s64)
				; GFX10-NEXT: [[ICMP1:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(slt), [[UV1]](s32), [[C]]
				; GFX10-NEXT: [[XOR:%[0-9]+]]:sgpr(s32) = G_XOR [[ICMP]], [[ICMP1]]
				; GFX10-NEXT: [[UADDO:%[0-9]+]]:sgpr(s32), [[UADDO1:%[0-9]+]]:sgpr(s32) = G_UADDO [[MUL]], [[UV]]
				; GFX10-NEXT: [[UADDE:%[0-9]+]]:sgpr(s32), [[UADDE1:%[0-9]+]]:sgpr(s32) = G_UADDE [[SMULH]], [[UV1]], [[UADDO1]]
				; GFX10-NEXT: [[XOR1:%[0-9]+]]:sgpr(s32) = G_XOR [[XOR]], [[UADDE1]]
				; GFX10-NEXT: [[MV1:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[UADDO]](s32), [[UADDE]](s32)
				; GFX10-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[XOR1]](s32)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $sgpr1
				%2:_(s32) = COPY $sgpr2
				%3:_(s32) = COPY $sgpr3
				%4:_(s64) = G_MERGE_VALUES %2, %3
				%5:_(s64), %6:_(s1) = G_AMDGPU_MAD_I64_I32 %0, %1, %4
				...

				---
				name: mad_i64_i32_ssv
				legalized: true

				body: \|
				bb.0:
				liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1
				;
				;
				; GFX8-LABEL: name: mad_i64_i32_ssv
				; GFX8: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX8-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX8-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX8-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; GFX8-NEXT: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX8-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX8-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; GFX8-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; GFX8-NEXT: [[SMULH:%[0-9]+]]:vgpr(s32) = G_SMULH [[COPY4]], [[COPY5]]
				; GFX8-NEXT: [[C:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 0
				; GFX8-NEXT: [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(slt), [[SMULH]](s32), [[C]]
				; GFX8-NEXT: [[COPY6:%[0-9]+]]:vgpr(s32) = COPY [[MUL]](s32)
				; GFX8-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[SMULH]](s32)
				; GFX8-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[MV]](s64)
				; GFX8-NEXT: [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(slt), [[UV1]](s32), [[C]]
				; GFX8-NEXT: [[XOR:%[0-9]+]]:vcc(s1) = G_XOR [[ICMP]], [[ICMP1]]
				; GFX8-NEXT: [[UADDO:%[0-9]+]]:vgpr(s32), [[UADDO1:%[0-9]+]]:vcc(s1) = G_UADDO [[COPY6]], [[UV]]
				; GFX8-NEXT: [[UADDE:%[0-9]+]]:vgpr(s32), [[UADDE1:%[0-9]+]]:vcc(s1) = G_UADDE [[COPY7]], [[UV1]], [[UADDO1]]
				; GFX8-NEXT: [[XOR1:%[0-9]+]]:vcc(s1) = G_XOR [[XOR]], [[UADDE1]]
				; GFX8-NEXT: [[MV1:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[UADDO]](s32), [[UADDE]](s32)
				; GFX8-NEXT: [[COPY8:%[0-9]+]]:vcc(s1) = COPY [[XOR1]](s1)
				; GFX9MI-LABEL: name: mad_i64_i32_ssv
				; GFX9MI: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX9MI-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX9MI-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX9MI-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; GFX9MI-NEXT: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX9MI-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; GFX9MI-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; GFX9MI-NEXT: [[AMDGPU_MAD_I64_I32_:%[0-9]+]]:vgpr(s64), [[AMDGPU_MAD_I64_I32_1:%[0-9]+]]:vcc(s1) = G_AMDGPU_MAD_I64_I32 [[COPY4]](s32), [[COPY5]], [[MV]]
				; GFX10-LABEL: name: mad_i64_i32_ssv
				; GFX10: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX10-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; GFX10-NEXT: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
				; GFX10-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[SMULH:%[0-9]+]]:sgpr(s32) = G_SMULH [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
				; GFX10-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(slt), [[SMULH]](s32), [[C]]
				; GFX10-NEXT: [[TRUNC:%[0-9]+]]:vcc(s1) = G_TRUNC [[ICMP]](s32)
				; GFX10-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[MUL]](s32)
				; GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[SMULH]](s32)
				; GFX10-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[MV]](s64)
				; GFX10-NEXT: [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(slt), [[UV1]](s32), [[C]]
				; GFX10-NEXT: [[XOR:%[0-9]+]]:vcc(s1) = G_XOR [[TRUNC]], [[ICMP1]]
				; GFX10-NEXT: [[UADDO:%[0-9]+]]:vgpr(s32), [[UADDO1:%[0-9]+]]:vcc(s1) = G_UADDO [[COPY4]], [[UV]]
				; GFX10-NEXT: [[UADDE:%[0-9]+]]:vgpr(s32), [[UADDE1:%[0-9]+]]:vcc(s1) = G_UADDE [[COPY5]], [[UV1]], [[UADDO1]]
				; GFX10-NEXT: [[XOR1:%[0-9]+]]:vcc(s1) = G_XOR [[XOR]], [[UADDE1]]
				; GFX10-NEXT: [[MV1:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[UADDO]](s32), [[UADDE]](s32)
				; GFX10-NEXT: [[COPY6:%[0-9]+]]:vcc(s1) = COPY [[XOR1]](s1)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $sgpr1
				%2:_(s32) = COPY $vgpr0
				%3:_(s32) = COPY $vgpr1
				%4:_(s64) = G_MERGE_VALUES %2, %3
				%5:_(s64), %6:_(s1) = G_AMDGPU_MAD_I64_I32 %0, %1, %4
				...

				---
				name: mad_u64_u32_ss0
				legalized: true

				body: \|
				bb.0:
				liveins: $sgpr0, $sgpr1
				;
				;
				; GFX8-LABEL: name: mad_u64_u32_ss0
				; GFX8: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX8-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX8-NEXT: [[C:%[0-9]+]]:sgpr(s64) = G_CONSTANT i64 0
				; GFX8-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX8-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; GFX8-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; GFX8-NEXT: [[UMULH:%[0-9]+]]:vgpr_32(s32) = G_UMULH [[COPY2]], [[COPY3]]
				; GFX8-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32(s32) = V_READFIRSTLANE_B32 [[UMULH]](s32), implicit $exec
				; GFX8-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
				; GFX8-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[MUL]](s32), [[V_READFIRSTLANE_B32_]](s32)
				; GFX8-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[C1]](s32)
				; GFX9MI-LABEL: name: mad_u64_u32_ss0
				; GFX9MI: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX9MI-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX9MI-NEXT: [[C:%[0-9]+]]:sgpr(s64) = G_CONSTANT i64 0
				; GFX9MI-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX9MI-NEXT: [[UMULH:%[0-9]+]]:sgpr(s32) = G_UMULH [[COPY]], [[COPY1]]
				; GFX9MI-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
				; GFX9MI-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[MUL]](s32), [[UMULH]](s32)
				; GFX9MI-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[C1]](s32)
				; GFX10-LABEL: name: mad_u64_u32_ss0
				; GFX10: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX10-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX10-NEXT: [[C:%[0-9]+]]:sgpr(s64) = G_CONSTANT i64 0
				; GFX10-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[UMULH:%[0-9]+]]:sgpr(s32) = G_UMULH [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
				; GFX10-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[MUL]](s32), [[UMULH]](s32)
				; GFX10-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[C1]](s32)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $sgpr1
				%2:_(s64) = G_CONSTANT i64 0
				%3:_(s64), %4:_(s1) = G_AMDGPU_MAD_U64_U32 %0, %1, %2
				...

				---
				name: mad_u64_u32_vv0
				legalized: true

				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1
				;
				;
				; CHECK-LABEL: name: mad_u64_u32_vv0
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s64) = G_CONSTANT i64 0
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s64) = COPY [[C]](s64)
				; CHECK-NEXT: [[AMDGPU_MAD_U64_U32_:%[0-9]+]]:vgpr(s64), [[AMDGPU_MAD_U64_U32_1:%[0-9]+]]:vcc(s1) = G_AMDGPU_MAD_U64_U32 [[COPY]](s32), [[COPY1]], [[COPY2]]
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s64) = G_CONSTANT i64 0
				%3:_(s64), %4:_(s1) = G_AMDGPU_MAD_U64_U32 %0, %1, %2
				...

				---
				name: mad_i64_i32_ss0
				legalized: true

				body: \|
				bb.0:
				liveins: $sgpr0, $sgpr1
				;
				;
				; GFX8-LABEL: name: mad_i64_i32_ss0
				; GFX8: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX8-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX8-NEXT: [[C:%[0-9]+]]:sgpr(s64) = G_CONSTANT i64 0
				; GFX8-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX8-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
				; GFX8-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
				; GFX8-NEXT: [[SMULH:%[0-9]+]]:vgpr_32(s32) = G_SMULH [[COPY2]], [[COPY3]]
				; GFX8-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32(s32) = V_READFIRSTLANE_B32 [[SMULH]](s32), implicit $exec
				; GFX8-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
				; GFX8-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(slt), [[V_READFIRSTLANE_B32_]](s32), [[C1]]
				; GFX8-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[MUL]](s32), [[V_READFIRSTLANE_B32_]](s32)
				; GFX8-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[ICMP]](s32)
				; GFX9MI-LABEL: name: mad_i64_i32_ss0
				; GFX9MI: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX9MI-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX9MI-NEXT: [[C:%[0-9]+]]:sgpr(s64) = G_CONSTANT i64 0
				; GFX9MI-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX9MI-NEXT: [[SMULH:%[0-9]+]]:sgpr(s32) = G_SMULH [[COPY]], [[COPY1]]
				; GFX9MI-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
				; GFX9MI-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(slt), [[SMULH]](s32), [[C1]]
				; GFX9MI-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[MUL]](s32), [[SMULH]](s32)
				; GFX9MI-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[ICMP]](s32)
				; GFX10-LABEL: name: mad_i64_i32_ss0
				; GFX10: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
				; GFX10-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
				; GFX10-NEXT: [[C:%[0-9]+]]:sgpr(s64) = G_CONSTANT i64 0
				; GFX10-NEXT: [[MUL:%[0-9]+]]:sgpr(s32) = G_MUL [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[SMULH:%[0-9]+]]:sgpr(s32) = G_SMULH [[COPY]], [[COPY1]]
				; GFX10-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
				; GFX10-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(slt), [[SMULH]](s32), [[C1]]
				; GFX10-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[MUL]](s32), [[SMULH]](s32)
				; GFX10-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[ICMP]](s32)
				%0:_(s32) = COPY $sgpr0
				%1:_(s32) = COPY $sgpr1
				%2:_(s64) = G_CONSTANT i64 0
				%3:_(s64), %4:_(s1) = G_AMDGPU_MAD_I64_I32 %0, %1, %2
				...

				---
				name: mad_i64_i32_vv0
				legalized: true

				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1
				;
				;
				; CHECK-LABEL: name: mad_i64_i32_vv0
				; CHECK: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
				; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s64) = G_CONSTANT i64 0
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s64) = COPY [[C]](s64)
				; CHECK-NEXT: [[AMDGPU_MAD_I64_I32_:%[0-9]+]]:vgpr(s64), [[AMDGPU_MAD_I64_I32_1:%[0-9]+]]:vcc(s1) = G_AMDGPU_MAD_I64_I32 [[COPY]](s32), [[COPY1]], [[COPY2]]
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%2:_(s64) = G_CONSTANT i64 0
				%3:_(s64), %4:_(s1) = G_AMDGPU_MAD_I64_I32 %0, %1, %2
				...