This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Enable carry out ADD/SUB operations divergence driven instruction selection.
ClosedPublic

Authored by alex-t on Apr 14 2020, 2:29 AM.

Download Raw Diff

Details

Reviewers

rampitec
arsenm
vpykhtin

Commits

rG5b898bddff51: [AMDGPU] Enable carry out ADD/SUB operations divergence driven instruction…

Summary

This change enables all kind of carry out ISD opcodes to be selected according to the node divergence.

Diff Detail

Event Timeline

alex-t created this revision.Apr 14 2020, 2:29 AM

Herald added subscribers: kerbowa, hiraditya, t-tye and 7 others. · View Herald TranscriptApr 14 2020, 2:29 AM

arsenm added inline comments.Apr 14 2020, 6:55 AM

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
1086	Shouldn't need to scan all uses?
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3618–3621	This ignores other things it could be. You can just use .add()
3623–3625	You can just do COPY from SCC

You need to add tests for selection and moveToVALU, including immediates and wave32.

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
1087	Should it look thru PHI and COPY? It may need a helper function though.
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3700	It can me immediate, maybe even a FI.
3765	Same here, it can be an immediate, right?
llvm/lib/Target/AMDGPU/SIInstrInfo.cpp
5202	Formatting is off.
5236	Formatting is off.
5981	VCC_LO for wave32?

Src1 immediate case handled. Formatting improved.

alex-t marked 5 inline comments as done.Apr 15 2020, 4:13 AM

alex-t added inline comments.

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
1086	I assume that the one user selected to VALU is enough to make selecting carryout to SALU impractical. Also, how would you suggest to decide about VALU/SALU basing on the quantity of VALU users? Ratio VALU/SALU? Other heuristic?
1087	It works on the selection DAG on per block basis so no PHI nodes ever exist here. There are CopyToReg nodes representing cross block values. Those in order only have MVTs like i32, f32 etc... Although, I could try to address their divergence using reg2value FunctionLoweringInfo map, similar to cross block input regs in isSDNodeSourceOfDivergence function. I'd consider this as a kind of further improvement. Also, nobody guaranty the BBs selection order so the cross block scan may appear too complicated.
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3623–3625	I did it this way because I noticed that the code in SIInstrInfo::CopyPhysReg restricted to 32bit destination. if (RC == &AMDGPU::SReg_32_XM0RegClass \|\| RC == &AMDGPU::SReg_32RegClass) { if (SrcReg == AMDGPU::SCC) { BuildMI(MBB, MI, DL, get(AMDGPU::S_CSELECT_B32), DestReg) .addImm(1) .addImm(0); return; } So, I expected this remark and postpone the decision for review :) Would you mind me extending this to 64bit?

rampitec added inline comments.Apr 15 2020, 10:52 AM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3699	Either operand can be immediate.
3702	VReg_64? Since it did not fail anywhere this case must be not covered by any tests.
3761	Again it can be an immediate.
llvm/lib/Target/AMDGPU/SIInstrInfo.cpp
5193	These are not necessarily registers too.
5220	Same here.
5973	use_nodbg_instructions()

arsenm added inline comments.Apr 15 2020, 11:12 AM

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
1086	There's already a isVGPRImm function, which should be functionally the same
llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp
918–923	This is just broken. We already run it, and there shouldn't' be a reason to involve SIFixupVectorISel

In D78091#1981388, @rampitec wrote:

You need to add tests for selection and moveToVALU, including immediates and wave32.

Carry outs - UADDO/USUBO are already covered by the existing uaddo.ll and usubo.ll. There exist examples with both divergent and uniform ISD::UADDO/ISD::USUBO nodes to select.
That test are already updated.
SIFixSGPRCopies::moveToVALU part is covered as well by the udiv64.ll, urem64.ll, sdiv64.ll, srem64.ll. All that tests contains identical tests one of which declared as kernel and therefore has uniform arguments and another one as function and has divergent arguments.
The former one contains uniform UADDO and ADDCARRY that are initially selected to S_ADD_CO_PSEUDO but later on converted in moveToVALU to V_ADD/V_ADDC.

So, I am only planning to add the pure selection MIR tests for ISD opcodes.
Wave64/32 tests are probably needed as wellas the immediate operands tests.

llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp
918–923	As I have seen debugging, FinalizaISel gets invoked from the TargetPassConfig base class just after a bundle of passes defined as InstrSelector by the Target. So in our case - after createSIAddIMGInitPass. That's why I had to add this.
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3702	I maybe misunderstand the documentation, but it says that the size we only can have 32bit immediate aa operand. I also did some experiments with different targets (gfx600,900,1010) and always have seen that 64bit size constant was split into 2 32bit parts for addition. Please correct me if I understand it in a wrong way.

rampitec added inline comments.Apr 16 2020, 10:40 AM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3702	Two lines below you are asking for sub0 of that RC. VGPR_32 does not have sub0.

Both operands can be immediate - handled. Some other changes to follow up the discussion.

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
1086	Not really. isVGPRImm walks along the use list and check if each use can accept SGPR or not. It also tries to commute operands if possible to make SGPR acceptable. The main goal is to select SGPR instead of VGPR to keep immediate whenever possible. This works in pair with the SIFoldOperands. Here we try to workaround the following sub-optimal selection pattern: s_sub_i32 s0, s0, s1 s_cselect_b64 s[0:1], 1, 0 v_cndmask_b32_e64 v0, 0, 1, s[0:1] that appears instead of the: v_sub_co_u32_e32 v4, vcc, s0, v4 v_cndmask_b32_e64 v5, 0, 1, vcc We need s_cselect to copy SCC to SReg_64. In this sense, any explicit use of the conditional register pair leads to one extra instruction in case of uniform UADDO/USUBO. Same time it saves one VGPR. The only case that does not produce extra instruction is true carry out operations where the only user of the UADDO/USUBO value 2 is the ADD/SUBCARRY node. So, I decide to change this for explicit check. This is over-conservative but it is okay for now.
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3702	Yes. And it is exactly what is expected :) getSubRegClass returns VGPR_32RegClass itself in this case. In fact id does not matter what it is. buildExtractSubRegOrImm does not use SubRC argument if operand is immediate. if (Op.isImm()) { if (SubIdx == AMDGPU::sub0) return MachineOperand::CreateImm(static_cast<int32_t>(Op.getImm())); if (SubIdx == AMDGPU::sub1) return MachineOperand::CreateImm(static_cast<int32_t>(Op.getImm() >> 32)); llvm_unreachable("Unhandled register index for immediate"); } Once again, I maybe don't understand what your objection is about. For the simple i64 immediate addition like this: %add = add i64 20015998343286, %a we generate carry out: s_add_u32 s0, s2, 0x56789876 s_addc_u32 s1, s3, 0x1234 for uniform or v_add_co_u32_e32 v0, vcc, 0x56789876, v0 v_mov_b32_e32 v1, 0x1234 v_addc_co_u32_e32 v1, vcc, 0, v1, vcc for divergent. So, why do we need VReg_64?

rampitec added inline comments.Apr 23 2020, 11:45 AM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3616	It can be immediate.
3692	You can probably use SIInstrInfo::getAddNoCarry() and extend it to produce sub as well or create e new helper. You are always using I32 version even if a no-carry U32 version is available.
3702	You are calling TRI->getSubRegClass(Src1RC, AMDGPU::sub1); on this RC. You want to have VGPR_32 as an answer. Even though getSubRegClass() may return RC itself if it does not have a requested subreg this sounds like a bug. It would be more natural for it to assert. To be on a safe side pass there VReg_64 to get the same VGPR_32 or just do not call it if it is an immediate.

a few more corrections

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3692	Not sure which line this comment belong... For LoOpc I indeed need carry out opcode. getAddNoCarry returnc the addition that does not write the carry flag. Anyway, the exact opcode is selected later on by the SIInstrInfo::pseudoToMCOpcode renamable $vgpr0 = V_ADD_I32_e32 1450743926, killed $vgpr0, implicit-def $vcc, implicit $exec renamable $vgpr1 = V_MOV_B32_e32 4660, implicit $exec renamable $vgpr1 = V_ADDC_U32_e32 0, killed $vgpr1, implicit-def $vcc, implicit killed $vcc, implicit $exec turns to the v_add_co_u32_e32 v0, vcc, 0x56789876, v0 v_mov_b32_e32 v1, 0x1234 v_addc_co_u32_e32 v1, vcc, 0, v1, vcc for gfx9 but to the v_add_i32_e32 v0, vcc, 0x56789876, v0 v_mov_b32_e32 v1, 0x1234 v_addc_u32_e32 v1, vcc, 0, v1, vcc for gfx6
3702	Fine, we have one weird piece - SIRegisterInfo::getSubRegClass that returns input argument back if does not succeed. Then we have one more weird piece - SIInstrInfo::buildExtractSubRegOrImm that is in fact 2 separate functions. It does completely different things for register and immediate, and just ignores register class arguments for immediate. Unfortunately all arguments required. So, I have to pass to it register class and sub-register class despite of the fact they're not used. Refactoring these 2 pieces should be separate change. If you insist that using VGPR_32RegClass is misleading I have no choice but VReg_64RegClass, that is misleading either IMHO. I'll have to add a FIXME comment to explain why we use VGPR_32RegClass for immediate that can be 32bit only.

I think the code is fine now except couple formatting comments.
What is missing specific selection tests.

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3692	Right, that is add which has these forms. If you need addc you have a dead carry out. So this is OK.

Selection specific test (carryout-selection.ll) added

Herald added a project: Restricted Project. · View Herald TranscriptApr 29 2020, 12:53 PM

Can you add tests with both immediates? You will probably need to -start-before=amdgpu-isel or -O0 if it will be constant folded.
Also fix formatting issues.

In D78091#2011048, @rampitec wrote:

Can you add tests with both immediates? You will probably need to -start-before=amdgpu-isel or -O0 if it will be constant folded.
Also fix formatting issues.

There is a reason for not adding such a test.
SelectionDAG::getNode() performs trivial constant folding irrelative of the optLevel.

See SelectionDAG.cpp::5469 for details

// Perform trivial constant folding.
if (SDValue SV = FoldConstantArithmetic(Opcode, DL, VT, {N1, N2}))
  return SV;

The result of the visiting ISD::ADD with 2 immediates looks like:

So the add is selected to 2 moves.

%add = add i64 20015998343286, 46117495621    to the 

%5:sreg_32 = S_MOV_B32 4671
%6:sreg_32 = S_MOV_B32 323599291

changed code passed through the clang-format

LGTM

This revision is now accepted and ready to land.Apr 30 2020, 11:07 AM

Closed by commit rG5b898bddff51: [AMDGPU] Enable carry out ADD/SUB operations divergence driven instruction… (authored by alex-t). · Explain WhyMay 4 2020, 6:54 AM

This revision was automatically updated to reflect the committed changes.

piotr mentioned this in D89536: [AMDGPU] Do not generate S_CMP_LG_U64 on gfx7.Oct 16 2020, 3:46 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPUISelDAGToDAG.cpp

48 lines

AMDGPUTargetMachine.cpp

6 lines

SIISelLowering.cpp

143 lines

SIInstrInfo.cpp

89 lines

SIInstructions.td

36 lines

test/

CodeGen/

AMDGPU/

amdgpu-codegenprepare-idiv.ll

94 lines

cvt_f32_ubyte.ll

65 lines

fast-unaligned-load-store.global.ll

23 lines

max.i16.ll

20 lines

promote-constOffset-to-imm.ll

14 lines

124 lines

82 lines

2 lines

48 lines

44 lines

2 lines

Diff 257239

llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

	Show First 20 Lines • Show All 1,055 Lines • ▼ Show 20 Lines
	}			}

	void AMDGPUDAGToDAGISel::SelectAddcSubb(SDNode *N) {			void AMDGPUDAGToDAGISel::SelectAddcSubb(SDNode *N) {
	SDLoc DL(N);			SDLoc DL(N);
	SDValue LHS = N->getOperand(0);			SDValue LHS = N->getOperand(0);
	SDValue RHS = N->getOperand(1);			SDValue RHS = N->getOperand(1);
	SDValue CI = N->getOperand(2);			SDValue CI = N->getOperand(2);

				if (N->isDivergent()) {
	unsigned Opc = N->getOpcode() == ISD::ADDCARRY ? AMDGPU::V_ADDC_U32_e64			unsigned Opc = N->getOpcode() == ISD::ADDCARRY ? AMDGPU::V_ADDC_U32_e64
	: AMDGPU::V_SUBB_U32_e64;			: AMDGPU::V_SUBB_U32_e64;
	CurDAG->SelectNodeTo(			CurDAG->SelectNodeTo(
	N, Opc, N->getVTList(),			N, Opc, N->getVTList(),
	{LHS, RHS, CI, CurDAG->getTargetConstant(0, {}, MVT::i1) /clamp bit/});			{LHS, RHS, CI,
				CurDAG->getTargetConstant(0, {}, MVT::i1) /clamp bit/});
				} else {
				unsigned Opc = N->getOpcode() == ISD::ADDCARRY ? AMDGPU::S_ADD_CO_PSEUDO
				: AMDGPU::S_SUB_CO_PSEUDO;
				CurDAG->SelectNodeTo(N, Opc, N->getVTList(), {LHS, RHS, CI});
				}
	}			}

	void AMDGPUDAGToDAGISel::SelectUADDO_USUBO(SDNode *N) {			void AMDGPUDAGToDAGISel::SelectUADDO_USUBO(SDNode *N) {
	// The name of the opcodes are misleading. v_add_i32/v_sub_i32 have unsigned			// The name of the opcodes are misleading. v_add_i32/v_sub_i32 have unsigned
	// carry out despite the _i32 name. These were renamed in VI to _U32.			// carry out despite the _i32 name. These were renamed in VI to _U32.
	// FIXME: We should probably rename the opcodes here.			// FIXME: We should probably rename the opcodes here.
	unsigned Opc = N->getOpcode() == ISD::UADDO ?			bool IsVALU = N->isDivergent();
	AMDGPU::V_ADD_I32_e64 : AMDGPU::V_SUB_I32_e64;			const SIInstrInfo *TII =
				static_cast<const SIInstrInfo *>(Subtarget->getInstrInfo());
				if (!IsVALU) {
				for (auto Use : N->uses()) {
				arsenmUnsubmitted Not Done Reply Inline Actions Shouldn't need to scan all uses? arsenm: Shouldn't need to scan all uses?
				alex-tAuthorUnsubmitted Done Reply Inline Actions I assume that the one user selected to VALU is enough to make selecting carryout to SALU impractical. Also, how would you suggest to decide about VALU/SALU basing on the quantity of VALU users? Ratio VALU/SALU? Other heuristic? alex-t: I assume that the one user selected to VALU is enough to make selecting carryout to SALU…
				arsenmUnsubmitted Not Done Reply Inline Actions There's already a isVGPRImm function, which should be functionally the same arsenm: There's already a isVGPRImm function, which should be functionally the same
				alex-tAuthorUnsubmitted Done Reply Inline Actions Not really. isVGPRImm walks along the use list and check if each use can accept SGPR or not. It also tries to commute operands if possible to make SGPR acceptable. The main goal is to select SGPR instead of VGPR to keep immediate whenever possible. This works in pair with the SIFoldOperands. Here we try to workaround the following sub-optimal selection pattern: s_sub_i32 s0, s0, s1 s_cselect_b64 s[0:1], 1, 0 v_cndmask_b32_e64 v0, 0, 1, s[0:1] that appears instead of the: v_sub_co_u32_e32 v4, vcc, s0, v4 v_cndmask_b32_e64 v5, 0, 1, vcc We need s_cselect to copy SCC to SReg_64. In this sense, any explicit use of the conditional register pair leads to one extra instruction in case of uniform UADDO/USUBO. Same time it saves one VGPR. The only case that does not produce extra instruction is true carry out operations where the only user of the UADDO/USUBO value 2 is the ADD/SUBCARRY node. So, I decide to change this for explicit check. This is over-conservative but it is okay for now. alex-t: Not really. isVGPRImm walks along the use list and check if each use can accept SGPR or not. It…
				if (Use->isMachineOpcode() && TII->isVALU(Use->getMachineOpcode())) {
				rampitecUnsubmitted Not Done Reply Inline Actions Should it look thru PHI and COPY? It may need a helper function though. rampitec: Should it look thru PHI and COPY? It may need a helper function though.
				alex-tAuthorUnsubmitted Done Reply Inline Actions It works on the selection DAG on per block basis so no PHI nodes ever exist here. There are CopyToReg nodes representing cross block values. Those in order only have MVTs like i32, f32 etc... Although, I could try to address their divergence using reg2value FunctionLoweringInfo map, similar to cross block input regs in isSDNodeSourceOfDivergence function. I'd consider this as a kind of further improvement. Also, nobody guaranty the BBs selection order so the cross block scan may appear too complicated. alex-t: It works on the selection DAG on per block basis so no PHI nodes ever exist here. There are…
				IsVALU = true;
				break;
				}
				}
				}
				if (IsVALU) {
				unsigned Opc = N->getOpcode() == ISD::UADDO ? AMDGPU::V_ADD_I32_e64
				: AMDGPU::V_SUB_I32_e64;

	CurDAG->SelectNodeTo(			CurDAG->SelectNodeTo(
	N, Opc, N->getVTList(),			N, Opc, N->getVTList(),
	{N->getOperand(0), N->getOperand(1),			{N->getOperand(0), N->getOperand(1),
	CurDAG->getTargetConstant(0, {}, MVT::i1) /clamp bit/});			CurDAG->getTargetConstant(0, {}, MVT::i1) /clamp bit/});
				} else {
				unsigned Opc = N->getOpcode() == ISD::UADDO ? AMDGPU::S_UADDO_PSEUDO
				: AMDGPU::S_USUBO_PSEUDO;

				CurDAG->SelectNodeTo(N, Opc, N->getVTList(),
				{N->getOperand(0), N->getOperand(1)});
				}
	}			}

	void AMDGPUDAGToDAGISel::SelectFMA_W_CHAIN(SDNode *N) {			void AMDGPUDAGToDAGISel::SelectFMA_W_CHAIN(SDNode *N) {
	SDLoc SL(N);			SDLoc SL(N);
	// src0_modifiers, src0, src1_modifiers, src1, src2_modifiers, src2, clamp, omod			// src0_modifiers, src0, src1_modifiers, src1, src2_modifiers, src2, clamp, omod
	SDValue Ops[10];			SDValue Ops[10];

	SelectVOP3Mods0(N->getOperand(1), Ops[1], Ops[0], Ops[6], Ops[7]);			SelectVOP3Mods0(N->getOperand(1), Ops[1], Ops[0], Ops[6], Ops[7]);
	▲ Show 20 Lines • Show All 1,794 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

Show First 20 Lines • Show All 909 Lines • ▼ Show 20 Lines	bool GCNPassConfig::addILPOpts() {
TargetPassConfig::addILPOpts();		TargetPassConfig::addILPOpts();
return false;		return false;
}		}

bool GCNPassConfig::addInstSelector() {		bool GCNPassConfig::addInstSelector() {
AMDGPUPassConfig::addInstSelector();		AMDGPUPassConfig::addInstSelector();
addPass(&SIFixSGPRCopiesID);		addPass(&SIFixSGPRCopiesID);
addPass(createSILowerI1CopiesPass());		addPass(createSILowerI1CopiesPass());
		// TODO: We have to add FinalizeISel
		// to expand V_ADD/SUB_U64_PSEUDO before SIFixupVectorISel
		// that expects V_ADD/SUB -> A_ADDC/SUBB pairs expanded.
		// Will be removed as soon as SIFixupVectorISel is changed
		// to work with V_ADD/SUB_U64_PSEUDO instead.
		addPass(&FinalizeISelID);
		arsenmUnsubmitted Not Done Reply Inline Actions This is just broken. We already run it, and there shouldn't' be a reason to involve SIFixupVectorISel arsenm: This is just broken. We already run it, and there shouldn't' be a reason to involve…
		alex-tAuthorUnsubmitted Done Reply Inline Actions As I have seen debugging, FinalizaISel gets invoked from the TargetPassConfig base class just after a bundle of passes defined as InstrSelector by the Target. So in our case - after createSIAddIMGInitPass. That's why I had to add this. alex-t: As I have seen debugging, FinalizaISel gets invoked from the TargetPassConfig base class just…
addPass(createSIFixupVectorISelPass());		addPass(createSIFixupVectorISelPass());
addPass(createSIAddIMGInitPass());		addPass(createSIAddIMGInitPass());
return false;		return false;
}		}

bool GCNPassConfig::addIRTranslator() {		bool GCNPassConfig::addIRTranslator() {
addPass(new IRTranslator());		addPass(new IRTranslator());
return false;		return false;
▲ Show 20 Lines • Show All 277 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,595 Lines • ▼ Show 20 Lines	if (TII->isMIMG(MI)) {
}		}
// Add a memoperand for mimg instructions so that they aren't assumed to		// Add a memoperand for mimg instructions so that they aren't assumed to
// be ordered memory instuctions.		// be ordered memory instuctions.

return BB;		return BB;
}		}

switch (MI.getOpcode()) {		switch (MI.getOpcode()) {
		case AMDGPU::S_UADDO_PSEUDO:
		case AMDGPU::S_USUBO_PSEUDO: {
		const DebugLoc &DL = MI.getDebugLoc();
		MachineOperand &Dest0 = MI.getOperand(0);
		MachineOperand &Dest1 = MI.getOperand(1);
		MachineOperand &Src0 = MI.getOperand(2);
		MachineOperand &Src1 = MI.getOperand(3);

		unsigned Opc = (MI.getOpcode() == AMDGPU::S_UADDO_PSEUDO)
		? AMDGPU::S_ADD_I32
		: AMDGPU::S_SUB_I32;
		MachineInstrBuilder CarryOp =
		BuildMI(*BB, MI, DL, TII->get(Opc), Dest0.getReg())
		rampitecUnsubmitted Not Done Reply Inline Actions It can be immediate. rampitec: It can be immediate.
		.addReg(Src0.getReg());
		if (Src1.isReg())
		CarryOp.addReg(Src1.getReg());
		else if (Src1.isImm())
		CarryOp.addImm(Src1.getImm());
		arsenmUnsubmitted Not Done Reply Inline Actions This ignores other things it could be. You can just use .add() arsenm: This ignores other things it could be. You can just use .add()

		BuildMI(*BB, MI, DL, TII->get(AMDGPU::S_CSELECT_B64), Dest1.getReg())
		.addImm(1)
		.addImm(0);
		arsenmUnsubmitted Not Done Reply Inline Actions You can just do COPY from SCC arsenm: You can just do COPY from SCC
		alex-tAuthorUnsubmitted Done Reply Inline Actions I did it this way because I noticed that the code in SIInstrInfo::CopyPhysReg restricted to 32bit destination. if (RC == &AMDGPU::SReg_32_XM0RegClass \|\| RC == &AMDGPU::SReg_32RegClass) { if (SrcReg == AMDGPU::SCC) { BuildMI(MBB, MI, DL, get(AMDGPU::S_CSELECT_B32), DestReg) .addImm(1) .addImm(0); return; } So, I expected this remark and postpone the decision for review :) Would you mind me extending this to 64bit? alex-t: I did it this way because I noticed that the code in SIInstrInfo::CopyPhysReg restricted to…

		MI.eraseFromParent();
		return BB;
		}
case AMDGPU::S_ADD_U64_PSEUDO:		case AMDGPU::S_ADD_U64_PSEUDO:
case AMDGPU::S_SUB_U64_PSEUDO: {		case AMDGPU::S_SUB_U64_PSEUDO: {
MachineRegisterInfo &MRI = BB->getParent()->getRegInfo();		MachineRegisterInfo &MRI = BB->getParent()->getRegInfo();
const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();		const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();
const SIRegisterInfo *TRI = ST.getRegisterInfo();		const SIRegisterInfo *TRI = ST.getRegisterInfo();
const TargetRegisterClass *BoolRC = TRI->getBoolRC();		const TargetRegisterClass *BoolRC = TRI->getBoolRC();
const DebugLoc &DL = MI.getDebugLoc();		const DebugLoc &DL = MI.getDebugLoc();

Show All 31 Lines	case AMDGPU::S_SUB_U64_PSEUDO: {
BuildMI(*BB, MI, DL, TII->get(TargetOpcode::REG_SEQUENCE), Dest.getReg())		BuildMI(*BB, MI, DL, TII->get(TargetOpcode::REG_SEQUENCE), Dest.getReg())
.addReg(DestSub0)		.addReg(DestSub0)
.addImm(AMDGPU::sub0)		.addImm(AMDGPU::sub0)
.addReg(DestSub1)		.addReg(DestSub1)
.addImm(AMDGPU::sub1);		.addImm(AMDGPU::sub1);
MI.eraseFromParent();		MI.eraseFromParent();
return BB;		return BB;
}		}
		case AMDGPU::V_ADD_U64_PSEUDO:
		case AMDGPU::V_SUB_U64_PSEUDO: {
		MachineRegisterInfo &MRI = BB->getParent()->getRegInfo();
		const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();
		const SIRegisterInfo *TRI = ST.getRegisterInfo();

		bool IsAdd = (MI.getOpcode() == AMDGPU::V_ADD_U64_PSEUDO);

		const auto *CarryRC = TRI->getRegClass(AMDGPU::SReg_1_XEXECRegClassID);

		Register DestSub0 = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
		Register DestSub1 = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);

		Register CarryReg = MRI.createVirtualRegister(CarryRC);
		Register DeadCarryReg = MRI.createVirtualRegister(CarryRC);

		rampitecUnsubmitted Not Done Reply Inline Actions You can probably use SIInstrInfo::getAddNoCarry() and extend it to produce sub as well or create e new helper. You are always using I32 version even if a no-carry U32 version is available. rampitec: You can probably use SIInstrInfo::getAddNoCarry() and extend it to produce sub as well or…
		alex-tAuthorUnsubmitted Done Reply Inline Actions Not sure which line this comment belong... For LoOpc I indeed need carry out opcode. getAddNoCarry returnc the addition that does not write the carry flag. Anyway, the exact opcode is selected later on by the SIInstrInfo::pseudoToMCOpcode renamable $vgpr0 = V_ADD_I32_e32 1450743926, killed $vgpr0, implicit-def $vcc, implicit $exec renamable $vgpr1 = V_MOV_B32_e32 4660, implicit $exec renamable $vgpr1 = V_ADDC_U32_e32 0, killed $vgpr1, implicit-def $vcc, implicit killed $vcc, implicit $exec turns to the v_add_co_u32_e32 v0, vcc, 0x56789876, v0 v_mov_b32_e32 v1, 0x1234 v_addc_co_u32_e32 v1, vcc, 0, v1, vcc for gfx9 but to the v_add_i32_e32 v0, vcc, 0x56789876, v0 v_mov_b32_e32 v1, 0x1234 v_addc_u32_e32 v1, vcc, 0, v1, vcc for gfx6 alex-t: Not sure which line this comment belong... For LoOpc I indeed need carry out opcode.
		rampitecUnsubmitted Not Done Reply Inline Actions Right, that is add which has these forms. If you need addc you have a dead carry out. So this is OK. rampitec: Right, that is add which has these forms. If you need addc you have a dead carry out. So this…
		MachineOperand &Dest = MI.getOperand(0);
		MachineOperand &Src0 = MI.getOperand(1);
		MachineOperand &Src1 = MI.getOperand(2);
		const DebugLoc &DL = MI.getDebugLoc();
		MachineBasicBlock::iterator MII = MI;

		const TargetRegisterClass *Src0RC = MRI.getRegClass(Src0.getReg());
		rampitecUnsubmitted Not Done Reply Inline Actions Either operand can be immediate. rampitec: Either operand can be immediate.
		const TargetRegisterClass *Src1RC = MRI.getRegClass(Src1.getReg());
		rampitecUnsubmitted Done Reply Inline Actions It can me immediate, maybe even a FI. rampitec: It can me immediate, maybe even a FI.
		const TargetRegisterClass *Src0SubRC =
		TRI->getSubRegClass(Src0RC, AMDGPU::sub0);
		rampitecUnsubmitted Not Done Reply Inline Actions VReg_64? Since it did not fail anywhere this case must be not covered by any tests. rampitec: VReg_64? Since it did not fail anywhere this case must be not covered by any tests.
		alex-tAuthorUnsubmitted Done Reply Inline Actions I maybe misunderstand the documentation, but it says that the size we only can have 32bit immediate aa operand. I also did some experiments with different targets (gfx600,900,1010) and always have seen that 64bit size constant was split into 2 32bit parts for addition. Please correct me if I understand it in a wrong way. alex-t: I maybe misunderstand the documentation, but it says that the size we only can have 32bit…
		rampitecUnsubmitted Not Done Reply Inline Actions Two lines below you are asking for sub0 of that RC. VGPR_32 does not have sub0. rampitec: Two lines below you are asking for sub0 of that RC. VGPR_32 does not have sub0.
		alex-tAuthorUnsubmitted Done Reply Inline Actions Yes. And it is exactly what is expected :) getSubRegClass returns VGPR_32RegClass itself in this case. In fact id does not matter what it is. buildExtractSubRegOrImm does not use SubRC argument if operand is immediate. if (Op.isImm()) { if (SubIdx == AMDGPU::sub0) return MachineOperand::CreateImm(static_cast<int32_t>(Op.getImm())); if (SubIdx == AMDGPU::sub1) return MachineOperand::CreateImm(static_cast<int32_t>(Op.getImm() >> 32)); llvm_unreachable("Unhandled register index for immediate"); } Once again, I maybe don't understand what your objection is about. For the simple i64 immediate addition like this: %add = add i64 20015998343286, %a we generate carry out: s_add_u32 s0, s2, 0x56789876 s_addc_u32 s1, s3, 0x1234 for uniform or v_add_co_u32_e32 v0, vcc, 0x56789876, v0 v_mov_b32_e32 v1, 0x1234 v_addc_co_u32_e32 v1, vcc, 0, v1, vcc for divergent. So, why do we need VReg_64? alex-t: Yes. And it is exactly what is expected :) getSubRegClass returns VGPR_32RegClass itself in…
		rampitecUnsubmitted Not Done Reply Inline Actions You are calling TRI->getSubRegClass(Src1RC, AMDGPU::sub1); on this RC. You want to have VGPR_32 as an answer. Even though getSubRegClass() may return RC itself if it does not have a requested subreg this sounds like a bug. It would be more natural for it to assert. To be on a safe side pass there VReg_64 to get the same VGPR_32 or just do not call it if it is an immediate. rampitec: You are calling TRI->getSubRegClass(Src1RC, AMDGPU::sub1); on this RC. You want to have VGPR_32…
		alex-tAuthorUnsubmitted Done Reply Inline Actions Fine, we have one weird piece - SIRegisterInfo::getSubRegClass that returns input argument back if does not succeed. Then we have one more weird piece - SIInstrInfo::buildExtractSubRegOrImm that is in fact 2 separate functions. It does completely different things for register and immediate, and just ignores register class arguments for immediate. Unfortunately all arguments required. So, I have to pass to it register class and sub-register class despite of the fact they're not used. Refactoring these 2 pieces should be separate change. If you insist that using VGPR_32RegClass is misleading I have no choice but VReg_64RegClass, that is misleading either IMHO. I'll have to add a FIXME comment to explain why we use VGPR_32RegClass for immediate that can be 32bit only. alex-t: Fine, we have one weird piece - SIRegisterInfo::getSubRegClass that returns input argument back…
		const TargetRegisterClass *Src1SubRC =
		TRI->getSubRegClass(Src1RC, AMDGPU::sub0);

		MachineOperand SrcReg0Sub0 = TII->buildExtractSubRegOrImm(
		MII, MRI, Src0, Src0RC, AMDGPU::sub0, Src0SubRC);
		MachineOperand SrcReg1Sub0 = TII->buildExtractSubRegOrImm(
		MII, MRI, Src1, Src1RC, AMDGPU::sub0, Src1SubRC);

		MachineOperand SrcReg0Sub1 = TII->buildExtractSubRegOrImm(
		MII, MRI, Src0, Src0RC, AMDGPU::sub1, Src0SubRC);
		MachineOperand SrcReg1Sub1 = TII->buildExtractSubRegOrImm(
		MII, MRI, Src1, Src1RC, AMDGPU::sub1, Src1SubRC);

		unsigned LoOpc = IsAdd ? AMDGPU::V_ADD_I32_e64 : AMDGPU::V_SUB_I32_e64;
		MachineInstr LoHalf = BuildMI(BB, MII, DL, TII->get(LoOpc), DestSub0)
		.addReg(CarryReg, RegState::Define)
		.add(SrcReg0Sub0)
		.add(SrcReg1Sub0)
		.addImm(0); // clamp bit

		unsigned HiOpc = IsAdd ? AMDGPU::V_ADDC_U32_e64 : AMDGPU::V_SUBB_U32_e64;
		MachineInstr *HiHalf =
		BuildMI(*BB, MII, DL, TII->get(HiOpc), DestSub1)
		.addReg(DeadCarryReg, RegState::Define \| RegState::Dead)
		.add(SrcReg0Sub1)
		.add(SrcReg1Sub1)
		.addReg(CarryReg, RegState::Kill)
		.addImm(0); // clamp bit

		BuildMI(*BB, MII, DL, TII->get(TargetOpcode::REG_SEQUENCE), Dest.getReg())
		.addReg(DestSub0)
		.addImm(AMDGPU::sub0)
		.addReg(DestSub1)
		.addImm(AMDGPU::sub1);
		TII->legalizeOperands(*LoHalf);
		TII->legalizeOperands(*HiHalf);
		MI.eraseFromParent();
		return BB;
		}
		case AMDGPU::S_ADD_CO_PSEUDO:
		case AMDGPU::S_SUB_CO_PSEUDO: {
		// This pseudo has a chance to be selected
		// only from uniform add/subcarry node. All the VGPR operands
		// therefore assumed to be splat vectors.
		MachineRegisterInfo &MRI = BB->getParent()->getRegInfo();
		const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();
		const SIRegisterInfo *TRI = ST.getRegisterInfo();
		MachineBasicBlock::iterator MII = MI;
		const DebugLoc &DL = MI.getDebugLoc();
		MachineOperand &Dest = MI.getOperand(0);
		MachineOperand &Src0 = MI.getOperand(2);
		MachineOperand &Src1 = MI.getOperand(3);
		MachineOperand &Src2 = MI.getOperand(4);
		unsigned Opc = (MI.getOpcode() == AMDGPU::S_ADD_CO_PSEUDO)
		? AMDGPU::S_ADDC_U32
		: AMDGPU::S_SUBB_U32;
		if (TRI->isVectorRegister(MRI, Src0.getReg())) {
		Register RegOp0 = MRI.createVirtualRegister(&AMDGPU::SReg_32RegClass);
		BuildMI(*BB, MII, DL, TII->get(AMDGPU::V_READFIRSTLANE_B32), RegOp0)
		rampitecUnsubmitted Not Done Reply Inline Actions Again it can be an immediate. rampitec: Again it can be an immediate.
		.addReg(Src0.getReg());
		Src0.setReg(RegOp0);
		}
		if (TRI->isVectorRegister(MRI, Src1.getReg())) {
		rampitecUnsubmitted Done Reply Inline Actions Same here, it can be an immediate, right? rampitec: Same here, it can be an immediate, right?
		Register RegOp1 = MRI.createVirtualRegister(&AMDGPU::SReg_32RegClass);
		BuildMI(*BB, MII, DL, TII->get(AMDGPU::V_READFIRSTLANE_B32), RegOp1)
		.addReg(Src1.getReg());
		Src1.setReg(RegOp1);
		}
		Register RegOp2 = MRI.createVirtualRegister(&AMDGPU::SReg_32RegClass);
		if (TRI->isVectorRegister(MRI, Src2.getReg())) {
		BuildMI(*BB, MII, DL, TII->get(AMDGPU::V_READFIRSTLANE_B32), RegOp2)
		.addReg(Src2.getReg());
		Src2.setReg(RegOp2);
		}

		if (TRI->getRegSizeInBits(*MRI.getRegClass(Src2.getReg())) == 64) {
		BuildMI(*BB, MII, DL, TII->get(AMDGPU::S_CMP_LG_U64))
		.addReg(Src2.getReg())
		.addImm(0);
		} else {
		BuildMI(*BB, MII, DL, TII->get(AMDGPU::S_CMPK_LG_U32))
		.addReg(Src2.getReg())
		.addImm(0);
		}

		BuildMI(*BB, MII, DL, TII->get(Opc), Dest.getReg())
		.addReg(Src0.getReg())
		.addReg(Src1.getReg());
		MI.eraseFromParent();
		return BB;
		}
case AMDGPU::SI_INIT_M0: {		case AMDGPU::SI_INIT_M0: {
BuildMI(*BB, MI.getIterator(), MI.getDebugLoc(),		BuildMI(*BB, MI.getIterator(), MI.getDebugLoc(),
TII->get(AMDGPU::S_MOV_B32), AMDGPU::M0)		TII->get(AMDGPU::S_MOV_B32), AMDGPU::M0)
.add(MI.getOperand(0));		.add(MI.getOperand(0));
MI.eraseFromParent();		MI.eraseFromParent();
return BB;		return BB;
}		}
case AMDGPU::SI_INIT_EXEC:		case AMDGPU::SI_INIT_EXEC:
▲ Show 20 Lines • Show All 7,416 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstrInfo.cpp

Show First 20 Lines • Show All 5,164 Lines • ▼ Show 20 Lines	case AMDGPU::S_ANDN2_B32:
splitScalarBinOpN2(Worklist, Inst, AMDGPU::S_AND_B32);		splitScalarBinOpN2(Worklist, Inst, AMDGPU::S_AND_B32);
Inst.eraseFromParent();		Inst.eraseFromParent();
continue;		continue;

case AMDGPU::S_ORN2_B32:		case AMDGPU::S_ORN2_B32:
splitScalarBinOpN2(Worklist, Inst, AMDGPU::S_OR_B32);		splitScalarBinOpN2(Worklist, Inst, AMDGPU::S_OR_B32);
Inst.eraseFromParent();		Inst.eraseFromParent();
continue;		continue;

		// TODO: remove as soon as everything is ready
		// to replace VGPR to SGPR copy with V_READFIRSTLANEs.
		// S_ADD/SUB_CO_PSEUDO as well as S_UADDO/USUBO_PSEUDO
		// can only be selected from the uniform SDNode.
		case AMDGPU::S_ADD_CO_PSEUDO:
		case AMDGPU::S_SUB_CO_PSEUDO:
		{
		unsigned Opc = (Inst.getOpcode() == AMDGPU::S_ADD_CO_PSEUDO)
		? AMDGPU::V_ADDC_U32_e64
		: AMDGPU::V_SUBB_U32_e64;
		const auto *CarryRC = RI.getRegClass(AMDGPU::SReg_1_XEXECRegClassID);
		Register DummyCReg = MRI.createVirtualRegister(CarryRC);
		Register CarryReg = MRI.createVirtualRegister(CarryRC);
		Register DestReg = MRI.createVirtualRegister(RI.getEquivalentVGPRClass(
		MRI.getRegClass(Inst.getOperand(0).getReg())));
		BuildMI(*MBB, &Inst, Inst.getDebugLoc(), get(AMDGPU::COPY), CarryReg)
		.addReg(Inst.getOperand(4).getReg());
		MachineInstr * CarryOp = BuildMI(*MBB, &Inst, Inst.getDebugLoc(), get(Opc), DestReg)
		.addReg(DummyCReg, RegState::Define \| RegState::Dead)
		.addReg(Inst.getOperand(2).getReg())
		rampitecUnsubmitted Not Done Reply Inline Actions These are not necessarily registers too. rampitec: These are not necessarily registers too.
		.addReg(Inst.getOperand(3).getReg())
		.addReg(CarryReg, RegState::Kill)
		.addImm(0);
		legalizeOperands(*CarryOp);
		MRI.replaceRegWith(Inst.getOperand(0).getReg(), DestReg);
		addUsersToMoveToVALUWorklist(DestReg, MRI, Worklist);
		Inst.eraseFromParent();
		}
		continue;
		rampitecUnsubmitted Done Reply Inline Actions Formatting is off. rampitec: Formatting is off.
		case AMDGPU::S_UADDO_PSEUDO:
		case AMDGPU::S_USUBO_PSEUDO:
		{
		const DebugLoc &DL = Inst.getDebugLoc();
		MachineOperand &Dest0 = Inst.getOperand(0);
		MachineOperand &Dest1 = Inst.getOperand(1);
		MachineOperand &Src0 = Inst.getOperand(2);
		MachineOperand &Src1 = Inst.getOperand(3);

		unsigned Opc = (Inst.getOpcode() == AMDGPU::S_UADDO_PSEUDO)
		? AMDGPU::V_ADD_I32_e64
		: AMDGPU::V_SUB_I32_e64;
		const TargetRegisterClass *NewRC =
		RI.getEquivalentVGPRClass(MRI.getRegClass(Dest0.getReg()));
		Register DestReg = MRI.createVirtualRegister(NewRC);
		MachineInstrBuilder CarryOp =
		BuildMI(*MBB, &Inst, DL, get(Opc), DestReg)
		.addReg(Dest1.getReg(), RegState::Define)
		rampitecUnsubmitted Not Done Reply Inline Actions Same here. rampitec: Same here.
		.addReg(Src0.getReg());
		if (Src1.isReg())
		CarryOp.addReg(Src1.getReg());
		else if (Src1.isImm())
		CarryOp.addImm(Src1.isImm());

		CarryOp.addImm(0); // clamp bit

		MachineInstr *NewInstr = CarryOp.getInstr();
		legalizeOperands(*NewInstr, MDT);

		MRI.replaceRegWith(Dest0.getReg(), DestReg);
		addUsersToMoveToVALUWorklist(NewInstr->getOperand(0).getReg(), MRI, Worklist);
		Inst.eraseFromParent();
		}
		continue;
		rampitecUnsubmitted Done Reply Inline Actions Formatting is off. rampitec: Formatting is off.
}		}

if (NewOpcode == AMDGPU::INSTRUCTION_LIST_END) {		if (NewOpcode == AMDGPU::INSTRUCTION_LIST_END) {
// We cannot move this instruction to the VALU, so we should try to		// We cannot move this instruction to the VALU, so we should try to
// legalize its operands instead.		// legalize its operands instead.
legalizeOperands(Inst, MDT);		legalizeOperands(Inst, MDT);
continue;		continue;
}		}
▲ Show 20 Lines • Show All 708 Lines • ▼ Show 20 Lines
}		}

void SIInstrInfo::addSCCDefUsersToVALUWorklist(MachineOperand &Op,		void SIInstrInfo::addSCCDefUsersToVALUWorklist(MachineOperand &Op,
MachineInstr &SCCDefInst,		MachineInstr &SCCDefInst,
SetVectorType &Worklist) const {		SetVectorType &Worklist) const {
// Ensure that def inst defines SCC, which is still live.		// Ensure that def inst defines SCC, which is still live.
assert(Op.isReg() && Op.getReg() == AMDGPU::SCC && Op.isDef() &&		assert(Op.isReg() && Op.getReg() == AMDGPU::SCC && Op.isDef() &&
!Op.isDead() && Op.getParent() == &SCCDefInst);		!Op.isDead() && Op.getParent() == &SCCDefInst);
		SmallVector<MachineInstr *, 4> CopyToDelete;
// This assumes that all the users of SCC are in the same block		// This assumes that all the users of SCC are in the same block
// as the SCC def.		// as the SCC def.
for (MachineInstr &MI : // Skip the def inst itself.		for (MachineInstr &MI : // Skip the def inst itself.
make_range(std::next(MachineBasicBlock::iterator(SCCDefInst)),		make_range(std::next(MachineBasicBlock::iterator(SCCDefInst)),
SCCDefInst.getParent()->end())) {		SCCDefInst.getParent()->end())) {
// Check if SCC is used first.		// Check if SCC is used first.
if (MI.findRegisterUseOperandIdx(AMDGPU::SCC, false, &RI) != -1)		if (MI.findRegisterUseOperandIdx(AMDGPU::SCC, false, &RI) != -1) {
		if (MI.isCopy()) {
		MachineRegisterInfo &MRI = MI.getParent()->getParent()->getRegInfo();
		unsigned DestReg = MI.getOperand(0).getReg();
		SmallVector<MachineInstr *, 4> Users;
		for (auto &User : MRI.use_instructions(DestReg)) {
		rampitecUnsubmitted Not Done Reply Inline Actions use_nodbg_instructions() rampitec: use_nodbg_instructions()
		if ((User.getOpcode() == AMDGPU::S_ADD_CO_PSEUDO) \|\|
		(User.getOpcode() == AMDGPU::S_SUB_CO_PSEUDO)) {
		Users.push_back(&User);
		Worklist.insert(&User);
		}
		}
		for (auto &U : Users)
		U->getOperand(4).setReg(AMDGPU::VCC);
		rampitecUnsubmitted Done Reply Inline Actions VCC_LO for wave32? rampitec: VCC_LO for wave32?
		CopyToDelete.push_back(&MI);
		} else
Worklist.insert(&MI);		Worklist.insert(&MI);
		}
// Exit if we find another SCC def.		// Exit if we find another SCC def.
if (MI.findRegisterDefOperandIdx(AMDGPU::SCC, false, false, &RI) != -1)		if (MI.findRegisterDefOperandIdx(AMDGPU::SCC, false, false, &RI) != -1)
return;		break;
}		}
		for (auto &Copy : CopyToDelete)
		Copy->eraseFromParent();
}		}

const TargetRegisterClass *SIInstrInfo::getDestEquivalentVGPRClass(		const TargetRegisterClass *SIInstrInfo::getDestEquivalentVGPRClass(
const MachineInstr &Inst) const {		const MachineInstr &Inst) const {
const TargetRegisterClass *NewDstRC = getOpRegClass(Inst, 0);		const TargetRegisterClass *NewDstRC = getOpRegClass(Inst, 0);

switch (Inst.getOpcode()) {		switch (Inst.getOpcode()) {
// For target instructions, getOpRegClass just returns the virtual register		// For target instructions, getOpRegClass just returns the virtual register
▲ Show 20 Lines • Show All 897 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstructions.td

	Show First 20 Lines • Show All 187 Lines • ▼ Show 20 Lines
	}			}

	def V_SET_INACTIVE_B64 : VPseudoInstSI <(outs VReg_64:$vdst),			def V_SET_INACTIVE_B64 : VPseudoInstSI <(outs VReg_64:$vdst),
	(ins VReg_64: $src, VSrc_b64:$inactive),			(ins VReg_64: $src, VSrc_b64:$inactive),
	[(set i64:$vdst, (int_amdgcn_set_inactive i64:$src, i64:$inactive))]> {			[(set i64:$vdst, (int_amdgcn_set_inactive i64:$src, i64:$inactive))]> {
	let Constraints = "$src = $vdst";			let Constraints = "$src = $vdst";
	}			}

				let usesCustomInserter = 1, Defs = [VCC, EXEC] in {
				def V_ADD_U64_PSEUDO : VPseudoInstSI <
				(outs VReg_64:$vdst), (ins VSrc_b64:$src0, VSrc_b64:$src1),
				[(set VReg_64:$vdst, (getDivergentFrag<add>.ret i64:$src0, i64:$src1))]
				>;

				def V_SUB_U64_PSEUDO : VPseudoInstSI <
				(outs VReg_64:$vdst), (ins VSrc_b64:$src0, VSrc_b64:$src1),
				[(set VReg_64:$vdst, (getDivergentFrag<sub>.ret i64:$src0, i64:$src1))]
				>;
				} // End usesCustomInserter = 1, Defs = [VCC, EXEC]

	let usesCustomInserter = 1, Defs = [SCC] in {			let usesCustomInserter = 1, Defs = [SCC] in {
	def S_ADD_U64_PSEUDO : SPseudoInstSI <			def S_ADD_U64_PSEUDO : SPseudoInstSI <
	(outs SReg_64:$vdst), (ins SSrc_b64:$src0, SSrc_b64:$src1),			(outs SReg_64:$sdst), (ins SSrc_b64:$src0, SSrc_b64:$src1),
	[(set SReg_64:$vdst, (add i64:$src0, i64:$src1))]			[(set SReg_64:$sdst, (UniformBinFrag<add> i64:$src0, i64:$src1))]
	>;			>;

	def S_SUB_U64_PSEUDO : SPseudoInstSI <			def S_SUB_U64_PSEUDO : SPseudoInstSI <
	(outs SReg_64:$vdst), (ins SSrc_b64:$src0, SSrc_b64:$src1),			(outs SReg_64:$sdst), (ins SSrc_b64:$src0, SSrc_b64:$src1),
	[(set SReg_64:$vdst, (sub i64:$src0, i64:$src1))]			[(set SReg_64:$sdst, (UniformBinFrag<sub> i64:$src0, i64:$src1))]
	>;			>;

	def S_ADD_U64_CO_PSEUDO : SPseudoInstSI <			def S_ADD_U64_CO_PSEUDO : SPseudoInstSI <
	(outs SReg_64:$vdst, VOPDstS64orS32:$sdst), (ins SSrc_b64:$src0, SSrc_b64:$src1)			(outs SReg_64:$vdst, VOPDstS64orS32:$sdst), (ins SSrc_b64:$src0, SSrc_b64:$src1)
	>;			>;

	def S_SUB_U64_CO_PSEUDO : SPseudoInstSI <			def S_SUB_U64_CO_PSEUDO : SPseudoInstSI <
	(outs SReg_64:$vdst, VOPDstS64orS32:$sdst), (ins SSrc_b64:$src0, SSrc_b64:$src1)			(outs SReg_64:$vdst, VOPDstS64orS32:$sdst), (ins SSrc_b64:$src0, SSrc_b64:$src1)
	>;			>;

				def S_ADD_CO_PSEUDO : SPseudoInstSI <
				(outs SReg_32:$sdst, SSrc_i1:$scc_out), (ins SSrc_b32:$src0, SSrc_b32:$src1, SSrc_i1:$scc_in)
				>;

				def S_SUB_CO_PSEUDO : SPseudoInstSI <
				(outs SReg_32:$sdst, SSrc_i1:$scc_out), (ins SSrc_b32:$src0, SSrc_b32:$src1, SSrc_i1:$scc_in)
				>;

				def S_UADDO_PSEUDO : SPseudoInstSI <
				(outs SReg_32:$sdst, SSrc_i1:$scc_out), (ins SSrc_b32:$src0, SSrc_b32:$src1)
				>;

				def S_USUBO_PSEUDO : SPseudoInstSI <
				(outs SReg_32:$sdst, SSrc_i1:$scc_out), (ins SSrc_b32:$src0, SSrc_b32:$src1)
				>;

	} // End usesCustomInserter = 1, Defs = [SCC]			} // End usesCustomInserter = 1, Defs = [SCC]

	let usesCustomInserter = 1 in {			let usesCustomInserter = 1 in {
	def GET_GROUPSTATICSIZE : SPseudoInstSI <(outs SReg_32:$sdst), (ins),			def GET_GROUPSTATICSIZE : SPseudoInstSI <(outs SReg_32:$sdst), (ins),
	[(set SReg_32:$sdst, (int_amdgcn_groupstaticsize))]>;			[(set SReg_32:$sdst, (int_amdgcn_groupstaticsize))]>;
	} // End let usesCustomInserter = 1, SALU = 1			} // End let usesCustomInserter = 1, SALU = 1

	// Wrap an instruction by duplicating it, except for setting isTerminator.			// Wrap an instruction by duplicating it, except for setting isTerminator.
	▲ Show 20 Lines • Show All 2,165 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 5,347 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_mul_lo_u32 v3, v0, s3			; GCN-NEXT: v_mul_lo_u32 v3, v0, s3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v2			; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v4, v0, v2			; GCN-NEXT: v_mul_hi_u32 v4, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v3			; GCN-NEXT: v_mul_hi_u32 v6, v0, v3
	; GCN-NEXT: v_mul_hi_u32 v9, v1, v2			; GCN-NEXT: v_mul_hi_u32 v9, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, v1, v2			; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
	; GCN-NEXT: s_mov_b32 s4, 0x976a7376			; GCN-NEXT: s_movk_i32 s4, 0x11e
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
	; GCN-NEXT: v_mul_lo_u32 v6, v1, v3			; GCN-NEXT: v_mul_lo_u32 v6, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v3, v1, v3			; GCN-NEXT: v_mul_hi_u32 v3, v1, v3
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
	; GCN-NEXT: s_mov_b32 s10, -1			; GCN-NEXT: s_mov_b32 s10, -1
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v4, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v4, v3, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_add_i32_e64 v0, s[0:1], v0, v2			; GCN-NEXT: v_add_i32_e64 v0, s[0:1], v0, v2
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, v0, s2			; GCN-NEXT: v_mul_lo_u32 v4, v0, s2
	; GCN-NEXT: v_mul_hi_u32 v5, v0, s3			; GCN-NEXT: v_mul_hi_u32 v5, v0, s3
	; GCN-NEXT: v_addc_u32_e64 v2, vcc, v1, v3, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v2, vcc, v1, v3, s[0:1]
	; GCN-NEXT: v_mul_lo_u32 v6, v2, s3			; GCN-NEXT: v_mul_lo_u32 v6, v2, s3
	; GCN-NEXT: s_movk_i32 s2, 0x11f			; GCN-NEXT: s_mov_b32 s2, 0x976a7377
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, s3			; GCN-NEXT: v_mul_lo_u32 v5, v0, s3
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GCN-NEXT: v_mul_lo_u32 v6, v0, v4			; GCN-NEXT: v_mul_lo_u32 v6, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v10, v0, v4			; GCN-NEXT: v_mul_hi_u32 v10, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v9, v0, v5			; GCN-NEXT: v_mul_hi_u32 v9, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v11, v2, v4			; GCN-NEXT: v_mul_hi_u32 v11, v2, v4
	; GCN-NEXT: s_mov_b32 s3, 0x976a7377			; GCN-NEXT: s_movk_i32 s3, 0x11f
	; GCN-NEXT: s_mov_b32 s9, s5			; GCN-NEXT: s_mov_b32 s9, s5
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v9, v6			; GCN-NEXT: v_add_i32_e32 v6, vcc, v9, v6
	; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v10, vcc			; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v10, vcc
	; GCN-NEXT: v_mul_lo_u32 v10, v2, v5			; GCN-NEXT: v_mul_lo_u32 v10, v2, v5
	; GCN-NEXT: v_mul_hi_u32 v5, v2, v5			; GCN-NEXT: v_mul_hi_u32 v5, v2, v5
	; GCN-NEXT: v_mul_lo_u32 v2, v2, v4			; GCN-NEXT: v_mul_lo_u32 v2, v2, v4
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v10, v6			; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v10
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v5, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v11, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v11, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, s6, v1			; GCN-NEXT: v_mul_lo_u32 v2, s6, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s6, v0			; GCN-NEXT: v_mul_hi_u32 v3, s6, v0
	; GCN-NEXT: v_mul_hi_u32 v4, s6, v1			; GCN-NEXT: v_mul_hi_u32 v4, s6, v1
	; GCN-NEXT: v_mul_hi_u32 v5, s7, v1			; GCN-NEXT: v_mul_hi_u32 v5, s7, v1
	; GCN-NEXT: v_mul_lo_u32 v1, s7, v1			; GCN-NEXT: v_mul_lo_u32 v1, s7, v1
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, s7, v0			; GCN-NEXT: v_mul_lo_u32 v4, s7, v0
	; GCN-NEXT: v_mul_hi_u32 v0, s7, v0			; GCN-NEXT: v_mul_hi_u32 v0, s7, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, v0, s2			; GCN-NEXT: v_mul_lo_u32 v2, v0, s3
	; GCN-NEXT: v_mul_hi_u32 v3, v0, s3			; GCN-NEXT: v_mul_hi_u32 v3, v0, s2
	; GCN-NEXT: v_mul_lo_u32 v4, v1, s3			; GCN-NEXT: v_mul_lo_u32 v4, v1, s2
	; GCN-NEXT: v_mov_b32_e32 v5, s2			; GCN-NEXT: v_mov_b32_e32 v5, s3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_mul_lo_u32 v3, v0, s3			; GCN-NEXT: v_mul_lo_u32 v3, v0, s2
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, s7, v2			; GCN-NEXT: v_sub_i32_e32 v4, vcc, s7, v2
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, s6, v3			; GCN-NEXT: v_sub_i32_e32 v3, vcc, s6, v3
	; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
	; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s3, v3			; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s2, v3
	; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GCN-NEXT: s_movk_i32 s3, 0x11e			; GCN-NEXT: v_cmp_lt_u32_e64 s[0:1], s4, v4
	; GCN-NEXT: v_cmp_lt_u32_e64 s[0:1], s3, v4			; GCN-NEXT: s_mov_b32 s2, 0x976a7376
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GCN-NEXT: v_cmp_lt_u32_e64 s[0:1], s4, v5			; GCN-NEXT: v_cmp_lt_u32_e64 s[0:1], s2, v5
	; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s2, v4			; GCN-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v4
	; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v4, v6, v5, s[0:1]
	; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0			; GCN-NEXT: v_add_i32_e64 v5, s[0:1], 2, v0
	; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v6, s[0:1], 0, v1, s[0:1]
	; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0			; GCN-NEXT: v_add_i32_e64 v7, s[0:1], 1, v0
	; GCN-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v8, s[0:1], 0, v1, s[0:1]
	; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
	; GCN-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v4, v8, v6, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v6, s7			; GCN-NEXT: v_mov_b32_e32 v6, s7
	; GCN-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc			; GCN-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc
	; GCN-NEXT: v_cmp_lt_u32_e32 vcc, s3, v2			; GCN-NEXT: v_cmp_lt_u32_e32 vcc, s4, v2
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GCN-NEXT: v_cmp_lt_u32_e32 vcc, s4, v3			; GCN-NEXT: v_cmp_lt_u32_e32 vcc, s2, v3
	; GCN-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s2, v2			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s3, v2
	; GCN-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc
	; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = udiv i64 %x, 1235195949943			%r = udiv i64 %x, 1235195949943
	▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v9, v0, v8			; GCN-NEXT: v_mul_hi_u32 v9, v0, v8
	; GCN-NEXT: v_mul_hi_u32 v10, v0, v5			; GCN-NEXT: v_mul_hi_u32 v10, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v11, v3, v5			; GCN-NEXT: v_mul_hi_u32 v11, v3, v5
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v9, v6			; GCN-NEXT: v_add_i32_e32 v6, vcc, v9, v6
	; GCN-NEXT: v_addc_u32_e32 v9, vcc, v7, v10, vcc			; GCN-NEXT: v_addc_u32_e32 v9, vcc, v7, v10, vcc
	; GCN-NEXT: v_mul_lo_u32 v10, v3, v8			; GCN-NEXT: v_mul_lo_u32 v10, v3, v8
	; GCN-NEXT: v_mul_hi_u32 v8, v3, v8			; GCN-NEXT: v_mul_hi_u32 v8, v3, v8
	; GCN-NEXT: v_mul_lo_u32 v3, v3, v5			; GCN-NEXT: v_mul_lo_u32 v3, v3, v5
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v10, v6			; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v10
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v9, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v9, v8, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v11, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v11, v2, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v6, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v6, v3
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v4
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[2:3]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[2:3]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_mov_b32_e32 v7, 0			; GCN-NEXT: v_mov_b32_e32 v7, 0
	; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; GCN-NEXT: v_mul_lo_u32 v2, v0, s2			; GCN-NEXT: v_mul_lo_u32 v2, v0, s2
	; GCN-NEXT: v_mul_hi_u32 v3, v0, s3			; GCN-NEXT: v_mul_hi_u32 v3, v0, s3
	; GCN-NEXT: v_mul_lo_u32 v4, v1, s3			; GCN-NEXT: v_mul_lo_u32 v4, v1, s3
	; GCN-NEXT: s_mov_b32 s12, 0x9761f7c9			; GCN-NEXT: s_movk_i32 s12, 0x11f
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_mov_b32 s13, 0x9761f7c9
	; GCN-NEXT: s_mov_b32 s8, s4
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_mul_lo_u32 v3, v0, s3			; GCN-NEXT: v_mul_lo_u32 v3, v0, s3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v2			; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v4, v0, v2			; GCN-NEXT: v_mul_hi_u32 v4, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v3			; GCN-NEXT: v_mul_hi_u32 v6, v0, v3
	; GCN-NEXT: v_mul_hi_u32 v9, v1, v2			; GCN-NEXT: v_mul_hi_u32 v9, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, v1, v2			; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
	; GCN-NEXT: s_movk_i32 s4, 0x11f			; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_mov_b32 s9, s5
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
	; GCN-NEXT: v_mul_lo_u32 v6, v1, v3			; GCN-NEXT: v_mul_lo_u32 v6, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v3, v1, v3			; GCN-NEXT: v_mul_hi_u32 v3, v1, v3
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
	; GCN-NEXT: s_mov_b32 s9, s5			; GCN-NEXT: s_movk_i32 s5, 0x11e
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v5
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v4, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v4, v3, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v9, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_add_i32_e64 v0, s[0:1], v0, v2			; GCN-NEXT: v_add_i32_e64 v0, s[0:1], v0, v2
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, v0, s2			; GCN-NEXT: v_mul_lo_u32 v4, v0, s2
	; GCN-NEXT: v_mul_hi_u32 v5, v0, s3			; GCN-NEXT: v_mul_hi_u32 v5, v0, s3
	; GCN-NEXT: v_addc_u32_e64 v2, vcc, v1, v3, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v2, vcc, v1, v3, s[0:1]
	; GCN-NEXT: v_mul_lo_u32 v6, v2, s3			; GCN-NEXT: v_mul_lo_u32 v6, v2, s3
	; GCN-NEXT: s_movk_i32 s5, 0x11e			; GCN-NEXT: s_mov_b32 s8, s4
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, s3			; GCN-NEXT: v_mul_lo_u32 v5, v0, s3
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GCN-NEXT: v_mul_lo_u32 v6, v0, v4			; GCN-NEXT: v_mul_lo_u32 v6, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v10, v0, v4			; GCN-NEXT: v_mul_hi_u32 v10, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v9, v0, v5			; GCN-NEXT: v_mul_hi_u32 v9, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v11, v2, v4			; GCN-NEXT: v_mul_hi_u32 v11, v2, v4
				; GCN-NEXT: s_mov_b32 s4, 0x9761f7c8
	; GCN-NEXT: s_mov_b32 s11, 0xf000			; GCN-NEXT: s_mov_b32 s11, 0xf000
	; GCN-NEXT: s_mov_b32 s10, -1
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v9, v6			; GCN-NEXT: v_add_i32_e32 v6, vcc, v9, v6
	; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v10, vcc			; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v10, vcc
	; GCN-NEXT: v_mul_lo_u32 v10, v2, v5			; GCN-NEXT: v_mul_lo_u32 v10, v2, v5
	; GCN-NEXT: v_mul_hi_u32 v5, v2, v5			; GCN-NEXT: v_mul_hi_u32 v5, v2, v5
	; GCN-NEXT: v_mul_lo_u32 v2, v2, v4			; GCN-NEXT: v_mul_lo_u32 v2, v2, v4
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v10, v6			; GCN-NEXT: s_mov_b32 s10, -1
				; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v10
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v5, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v11, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v11, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, s6, v1			; GCN-NEXT: v_mul_lo_u32 v2, s6, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s6, v0			; GCN-NEXT: v_mul_hi_u32 v3, s6, v0
	; GCN-NEXT: v_mul_hi_u32 v4, s6, v1			; GCN-NEXT: v_mul_hi_u32 v4, s6, v1
	; GCN-NEXT: v_mul_hi_u32 v5, s7, v1			; GCN-NEXT: v_mul_hi_u32 v5, s7, v1
	; GCN-NEXT: v_mul_lo_u32 v1, s7, v1			; GCN-NEXT: v_mul_lo_u32 v1, s7, v1
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v8, v4, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, s7, v0			; GCN-NEXT: v_mul_lo_u32 v4, s7, v0
	; GCN-NEXT: v_mul_hi_u32 v0, s7, v0			; GCN-NEXT: v_mul_hi_u32 v0, s7, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, v5, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v8, v2, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, v0, s4			; GCN-NEXT: v_mul_lo_u32 v2, v0, s12
	; GCN-NEXT: v_mul_hi_u32 v3, v0, s12			; GCN-NEXT: v_mul_hi_u32 v3, v0, s13
	; GCN-NEXT: v_mul_lo_u32 v1, v1, s12			; GCN-NEXT: v_mul_lo_u32 v1, v1, s13
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s12			; GCN-NEXT: v_mul_lo_u32 v0, v0, s13
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, s7, v1			; GCN-NEXT: v_sub_i32_e32 v2, vcc, s7, v1
				; GCN-NEXT: v_mov_b32_e32 v3, s12
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
	; GCN-NEXT: v_mov_b32_e32 v3, s4
	; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0			; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s13, v0
	; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GCN-NEXT: v_cmp_lt_u32_e64 s[2:3], s5, v5			; GCN-NEXT: v_cmp_lt_u32_e64 s[2:3], s5, v5
	; GCN-NEXT: s_mov_b32 s6, 0x9761f7c8
	; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]			; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
	; GCN-NEXT: v_cmp_lt_u32_e64 s[2:3], s6, v4			; GCN-NEXT: v_cmp_lt_u32_e64 s[2:3], s4, v4
	; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s12, v4			; GCN-NEXT: v_subrev_i32_e64 v3, s[0:1], s13, v4
	; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
	; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, v5			; GCN-NEXT: v_cmp_eq_u32_e64 s[2:3], s12, v5
	; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[2:3]
	; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v2, s[0:1], 0, v2, s[0:1]
	; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6			; GCN-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
	; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
	; GCN-NEXT: v_mov_b32_e32 v5, s7			; GCN-NEXT: v_mov_b32_e32 v5, s7
	; GCN-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc			; GCN-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc
	; GCN-NEXT: v_cmp_lt_u32_e32 vcc, s5, v1			; GCN-NEXT: v_cmp_lt_u32_e32 vcc, s5, v1
	; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GCN-NEXT: v_cmp_lt_u32_e32 vcc, s6, v0			; GCN-NEXT: v_cmp_lt_u32_e32 vcc, s4, v0
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s4, v1			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, s12, v1
	; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc			; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = urem i64 %x, 1235195393993			%r = urem i64 %x, 1235195393993
	▲ Show 20 Lines • Show All 189 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v4			; GCN-NEXT: v_mul_hi_u32 v12, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v5			; GCN-NEXT: v_mul_hi_u32 v11, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v9, v2, v5			; GCN-NEXT: v_mul_hi_u32 v9, v2, v5
	; GCN-NEXT: v_mul_lo_u32 v5, v2, v5			; GCN-NEXT: v_mul_lo_u32 v5, v2, v5
	; GCN-NEXT: v_mul_hi_u32 v6, v2, v4			; GCN-NEXT: v_mul_hi_u32 v6, v2, v4
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v8, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v8, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, v2, v4			; GCN-NEXT: v_mul_lo_u32 v2, v2, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v10			; GCN-NEXT: v_add_i32_e32 v5, vcc, v10, v5
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v6, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v6, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: s_ashr_i32 s2, s11, 31			; GCN-NEXT: s_ashr_i32 s2, s11, 31
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]
	; GCN-NEXT: s_add_u32 s0, s10, s2			; GCN-NEXT: s_add_u32 s0, s10, s2
	▲ Show 20 Lines • Show All 156 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v5			; GCN-NEXT: v_mul_hi_u32 v12, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v2, v7			; GCN-NEXT: v_mul_hi_u32 v9, v2, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v2, v7			; GCN-NEXT: v_mul_lo_u32 v7, v2, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v2, v5			; GCN-NEXT: v_mul_hi_u32 v8, v2, v5
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, v2, v5			; GCN-NEXT: v_mul_lo_u32 v2, v2, v5
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v7, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v7, v2
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v6, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v6, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[0:1]
	; GCN-NEXT: s_add_u32 s0, s10, s14			; GCN-NEXT: s_add_u32 s0, s10, s14
	; GCN-NEXT: s_addc_u32 s1, s11, s14			; GCN-NEXT: s_addc_u32 s1, s11, s14
	▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v5			; GCN-NEXT: v_mul_hi_u32 v12, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v2, v7			; GCN-NEXT: v_mul_hi_u32 v9, v2, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v2, v7			; GCN-NEXT: v_mul_lo_u32 v7, v2, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v2, v5			; GCN-NEXT: v_mul_hi_u32 v8, v2, v5
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, v2, v5			; GCN-NEXT: v_mul_lo_u32 v2, v2, v5
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v7, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v7, v2
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v6, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v6, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[0:1]
	; GCN-NEXT: s_add_u32 s0, s10, s8			; GCN-NEXT: s_add_u32 s0, s10, s8
	; GCN-NEXT: s_addc_u32 s1, s11, s8			; GCN-NEXT: s_addc_u32 s1, s11, s8
	▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v5			; GCN-NEXT: v_mul_hi_u32 v12, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v2, v7			; GCN-NEXT: v_mul_hi_u32 v9, v2, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v2, v7			; GCN-NEXT: v_mul_lo_u32 v7, v2, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v2, v5			; GCN-NEXT: v_mul_hi_u32 v8, v2, v5
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, v2, v5			; GCN-NEXT: v_mul_lo_u32 v2, v2, v5
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v7, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v7, v2
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v6, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v6, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[2:3]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[2:3]
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_ashr_i32 s2, s9, 31			; GCN-NEXT: s_ashr_i32 s2, s9, 31
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v14, v2, v8			; GCN-NEXT: v_mul_hi_u32 v14, v2, v8
	; GCN-NEXT: v_mul_hi_u32 v13, v2, v9			; GCN-NEXT: v_mul_hi_u32 v13, v2, v9
	; GCN-NEXT: v_mul_hi_u32 v11, v3, v9			; GCN-NEXT: v_mul_hi_u32 v11, v3, v9
	; GCN-NEXT: v_mul_lo_u32 v9, v3, v9			; GCN-NEXT: v_mul_lo_u32 v9, v3, v9
	; GCN-NEXT: v_mul_hi_u32 v10, v3, v8			; GCN-NEXT: v_mul_hi_u32 v10, v3, v8
	; GCN-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; GCN-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; GCN-NEXT: v_addc_u32_e32 v13, vcc, 0, v14, vcc			; GCN-NEXT: v_addc_u32_e32 v13, vcc, 0, v14, vcc
	; GCN-NEXT: v_mul_lo_u32 v3, v3, v8			; GCN-NEXT: v_mul_lo_u32 v3, v3, v8
	; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v12			; GCN-NEXT: v_add_i32_e32 v9, vcc, v12, v9
	; GCN-NEXT: v_addc_u32_e32 v9, vcc, v13, v11, vcc			; GCN-NEXT: v_addc_u32_e32 v9, vcc, v13, v11, vcc
	; GCN-NEXT: v_addc_u32_e32 v8, vcc, v10, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v8, vcc, v10, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3
	; GCN-NEXT: v_addc_u32_e32 v8, vcc, v6, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v8, vcc, v6, v8, vcc
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7			; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7
	; GCN-NEXT: s_ashr_i32 s14, s11, 31			; GCN-NEXT: s_ashr_i32 s14, s11, 31
	; GCN-NEXT: v_addc_u32_e64 v5, vcc, v5, v8, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v5, vcc, v5, v8, s[0:1]
	; GCN-NEXT: s_add_u32 s0, s10, s14			; GCN-NEXT: s_add_u32 s0, s10, s14
	▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v4			; GCN-NEXT: v_mul_hi_u32 v12, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v5			; GCN-NEXT: v_mul_hi_u32 v11, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v9, v2, v5			; GCN-NEXT: v_mul_hi_u32 v9, v2, v5
	; GCN-NEXT: v_mul_lo_u32 v5, v2, v5			; GCN-NEXT: v_mul_lo_u32 v5, v2, v5
	; GCN-NEXT: v_mul_hi_u32 v6, v2, v4			; GCN-NEXT: v_mul_hi_u32 v6, v2, v4
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v8, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v8, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, v2, v4			; GCN-NEXT: v_mul_lo_u32 v2, v2, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v10			; GCN-NEXT: v_add_i32_e32 v5, vcc, v10, v5
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v6, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v6, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: s_ashr_i32 s2, s11, 31			; GCN-NEXT: s_ashr_i32 s2, s11, 31
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]
	; GCN-NEXT: s_add_u32 s0, s10, s2			; GCN-NEXT: s_add_u32 s0, s10, s2
	▲ Show 20 Lines • Show All 157 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v5			; GCN-NEXT: v_mul_hi_u32 v12, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v2, v7			; GCN-NEXT: v_mul_hi_u32 v9, v2, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v2, v7			; GCN-NEXT: v_mul_lo_u32 v7, v2, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v2, v5			; GCN-NEXT: v_mul_hi_u32 v8, v2, v5
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, v2, v5			; GCN-NEXT: v_mul_lo_u32 v2, v2, v5
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v7, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v7, v2
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v6, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v6, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[0:1]
	; GCN-NEXT: s_add_u32 s0, s10, s14			; GCN-NEXT: s_add_u32 s0, s10, s14
	; GCN-NEXT: s_addc_u32 s1, s11, s14			; GCN-NEXT: s_addc_u32 s1, s11, s14
	▲ Show 20 Lines • Show All 192 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v5			; GCN-NEXT: v_mul_hi_u32 v12, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v2, v7			; GCN-NEXT: v_mul_hi_u32 v9, v2, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v2, v7			; GCN-NEXT: v_mul_lo_u32 v7, v2, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v2, v5			; GCN-NEXT: v_mul_hi_u32 v8, v2, v5
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, 0, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, v2, v5			; GCN-NEXT: v_mul_lo_u32 v2, v2, v5
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v7, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v7, v2
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v6, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v6, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[2:3]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v5, s[2:3]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v14, v2, v8			; GCN-NEXT: v_mul_hi_u32 v14, v2, v8
	; GCN-NEXT: v_mul_hi_u32 v13, v2, v9			; GCN-NEXT: v_mul_hi_u32 v13, v2, v9
	; GCN-NEXT: v_mul_hi_u32 v11, v3, v9			; GCN-NEXT: v_mul_hi_u32 v11, v3, v9
	; GCN-NEXT: v_mul_lo_u32 v9, v3, v9			; GCN-NEXT: v_mul_lo_u32 v9, v3, v9
	; GCN-NEXT: v_mul_hi_u32 v10, v3, v8			; GCN-NEXT: v_mul_hi_u32 v10, v3, v8
	; GCN-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; GCN-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; GCN-NEXT: v_addc_u32_e32 v13, vcc, 0, v14, vcc			; GCN-NEXT: v_addc_u32_e32 v13, vcc, 0, v14, vcc
	; GCN-NEXT: v_mul_lo_u32 v3, v3, v8			; GCN-NEXT: v_mul_lo_u32 v3, v3, v8
	; GCN-NEXT: v_add_i32_e32 v9, vcc, v9, v12			; GCN-NEXT: v_add_i32_e32 v9, vcc, v12, v9
	; GCN-NEXT: v_addc_u32_e32 v9, vcc, v13, v11, vcc			; GCN-NEXT: v_addc_u32_e32 v9, vcc, v13, v11, vcc
	; GCN-NEXT: v_addc_u32_e32 v8, vcc, v10, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v8, vcc, v10, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3
	; GCN-NEXT: v_addc_u32_e32 v8, vcc, v6, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v8, vcc, v6, v8, vcc
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7			; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v7
	; GCN-NEXT: v_addc_u32_e64 v5, vcc, v5, v8, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v5, vcc, v5, v8, s[0:1]
	; GCN-NEXT: s_add_u32 s0, s10, s14			; GCN-NEXT: s_add_u32 s0, s10, s14
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	▲ Show 20 Lines • Show All 67 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

	Show First 20 Lines • Show All 603 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0			; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0			; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v6, vcc, 3, v0			; VI-NEXT: v_add_u32_e32 v6, vcc, 3, v0
	; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ubyte v8, v[2:3]			; VI-NEXT: flat_load_ubyte v4, v[4:5]
	; VI-NEXT: flat_load_ubyte v2, v[4:5]			; VI-NEXT: flat_load_ubyte v5, v[6:7]
	; VI-NEXT: flat_load_ubyte v3, v[6:7]			; VI-NEXT: flat_load_ubyte v6, v[2:3]
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(3) lgkmcnt(3)			; VI-NEXT: s_waitcnt vmcnt(3) lgkmcnt(3)
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v8			; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v4
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v2, v2			; VI-NEXT: v_cvt_f32_ubyte0_e32 v3, v5
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v3, v3			; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v6
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid
	%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1			%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1
	%cvt = uitofp <4 x i8> %load to <4 x float>			%cvt = uitofp <4 x i8> %load to <4 x float>
	▲ Show 20 Lines • Show All 140 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 3, v0			; VI-NEXT: v_add_u32_e32 v2, vcc, 3, v0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0			; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v6, vcc, 6, v0			; VI-NEXT: flat_load_ubyte v12, v[4:5]
				; VI-NEXT: v_add_u32_e32 v4, vcc, 6, v0
				; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
				; VI-NEXT: v_add_u32_e32 v6, vcc, 4, v0
	; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v8, vcc, 4, v0			; VI-NEXT: v_add_u32_e32 v8, vcc, 5, v0
	; VI-NEXT: v_addc_u32_e32 v9, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v9, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v10, vcc, 5, v0			; VI-NEXT: v_add_u32_e32 v10, vcc, 1, v0
	; VI-NEXT: v_addc_u32_e32 v11, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v11, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v12, vcc, 1, v0			; VI-NEXT: flat_load_ubyte v8, v[8:9]
	; VI-NEXT: v_addc_u32_e32 v13, vcc, 0, v1, vcc			; VI-NEXT: flat_load_ubyte v9, v[10:11]
	; VI-NEXT: flat_load_ubyte v6, v[6:7]			; VI-NEXT: flat_load_ubyte v6, v[6:7]
	; VI-NEXT: flat_load_ubyte v7, v[8:9]			; VI-NEXT: flat_load_ubyte v7, v[4:5]
	; VI-NEXT: flat_load_ubyte v8, v[10:11]			; VI-NEXT: flat_load_ubyte v2, v[2:3]
	; VI-NEXT: flat_load_ubyte v9, v[12:13]
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: flat_load_ubyte v1, v[2:3]
	; VI-NEXT: flat_load_ubyte v2, v[4:5]
	; VI-NEXT: s_waitcnt vmcnt(6) lgkmcnt(6)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v6, v6
	; VI-NEXT: s_waitcnt vmcnt(5) lgkmcnt(5)			; VI-NEXT: s_waitcnt vmcnt(5) lgkmcnt(5)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v7
	; VI-NEXT: s_waitcnt vmcnt(4) lgkmcnt(4)
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v5, v8			; VI-NEXT: v_cvt_f32_ubyte2_e32 v5, v8
				; VI-NEXT: s_waitcnt vmcnt(4) lgkmcnt(4)
				; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v9
				; VI-NEXT: s_waitcnt vmcnt(3) lgkmcnt(3)
				; VI-NEXT: v_cvt_f32_ubyte0_e32 v4, v6
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v6, v7
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)
	; VI-NEXT: v_lshlrev_b32_e32 v3, 8, v1			; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: v_or_b32_sdwa v2, v2, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_or_b32_sdwa v2, v3, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v2			; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v2
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v9			; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v2			; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v2
	; VI-NEXT: buffer_store_dwordx3 v[4:6], off, s[4:7], 0 offset:16			; VI-NEXT: buffer_store_dwordx3 v[4:6], off, s[4:7], 0 offset:16
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <7 x i8>, <7 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <7 x i8>, <7 x i8> addrspace(1)* %in, i32 %tid
	%load = load <7 x i8>, <7 x i8> addrspace(1)* %gep, align 1			%load = load <7 x i8>, <7 x i8> addrspace(1)* %gep, align 1
	%cvt = uitofp <7 x i8> %load to <7 x float>			%cvt = uitofp <7 x i8> %load to <7 x float>
	▲ Show 20 Lines • Show All 232 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s0, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 3, v0			; VI-NEXT: v_add_u32_e32 v2, vcc, 3, v0
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0			; VI-NEXT: v_add_u32_e32 v4, vcc, 2, v0
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v0			; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v0
	; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
				; VI-NEXT: flat_load_ubyte v4, v[4:5]
				; VI-NEXT: flat_load_ubyte v5, v[6:7]
	; VI-NEXT: flat_load_ubyte v2, v[2:3]			; VI-NEXT: flat_load_ubyte v2, v[2:3]
	; VI-NEXT: flat_load_ubyte v3, v[4:5]
	; VI-NEXT: flat_load_ubyte v4, v[6:7]
	; VI-NEXT: flat_load_ubyte v0, v[0:1]			; VI-NEXT: flat_load_ubyte v0, v[0:1]
	; VI-NEXT: s_waitcnt vmcnt(3) lgkmcnt(3)			; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)
	; VI-NEXT: v_lshlrev_b32_e32 v1, 8, v2			; VI-NEXT: v_lshlrev_b32_e32 v1, 8, v2
	; VI-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)			; VI-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_or_b32_sdwa v1, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v1
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v1
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0			; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
	; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v4			; VI-NEXT: v_cvt_f32_ubyte3_e32 v3, v1
				; VI-NEXT: v_cvt_f32_ubyte2_e32 v2, v1
				; VI-NEXT: v_cvt_f32_ubyte2_e32 v1, v5
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid
	%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1			%load = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 1
	%ext = zext <4 x i8> %load to <4 x i32>			%ext = zext <4 x i8> %load to <4 x i32>
	%cvt = uitofp <4 x i32> %ext to <4 x float>			%cvt = uitofp <4 x i32> %ext to <4 x float>
	store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16			store <4 x float> %cvt, <4 x float> addrspace(1)* %out, align 16
	▲ Show 20 Lines • Show All 230 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.global.ll

	Show First 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	define i32 @global_load_2xi16_align1(i16 addrspace(1)* %p) #0 {			define i32 @global_load_2xi16_align1(i16 addrspace(1)* %p) #0 {
	; GFX7-ALIGNED-LABEL: global_load_2xi16_align1:			; GFX7-ALIGNED-LABEL: global_load_2xi16_align1:
	; GFX7-ALIGNED: ; %bb.0:			; GFX7-ALIGNED: ; %bb.0:
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-ALIGNED-NEXT: v_add_i32_e32 v2, vcc, 2, v0			; GFX7-ALIGNED-NEXT: v_add_i32_e32 v2, vcc, 2, v0
	; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc			; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
	; GFX7-ALIGNED-NEXT: v_add_i32_e32 v4, vcc, 1, v0			; GFX7-ALIGNED-NEXT: v_add_i32_e32 v4, vcc, 1, v0
	; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc			; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; GFX7-ALIGNED-NEXT: flat_load_ubyte v6, v[0:1]			; GFX7-ALIGNED-NEXT: v_add_i32_e32 v6, vcc, 3, v0
	; GFX7-ALIGNED-NEXT: v_add_i32_e32 v0, vcc, 3, v0			; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; GFX7-ALIGNED-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX7-ALIGNED-NEXT: flat_load_ubyte v2, v[2:3]
	; GFX7-ALIGNED-NEXT: flat_load_ubyte v3, v[4:5]
	; GFX7-ALIGNED-NEXT: flat_load_ubyte v0, v[0:1]			; GFX7-ALIGNED-NEXT: flat_load_ubyte v0, v[0:1]
				; GFX7-ALIGNED-NEXT: flat_load_ubyte v1, v[6:7]
				; GFX7-ALIGNED-NEXT: flat_load_ubyte v4, v[4:5]
				; GFX7-ALIGNED-NEXT: flat_load_ubyte v2, v[2:3]
				; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(2) lgkmcnt(2)
				; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)
	; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v1, 8, v3			; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v3, 8, v4
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; GFX7-ALIGNED-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-ALIGNED-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-ALIGNED-NEXT: v_or_b32_e32 v0, v3, v0
	; GFX7-ALIGNED-NEXT: v_or_b32_e32 v1, v1, v6			; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-ALIGNED-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX7-ALIGNED-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX7-ALIGNED-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-ALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-ALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-UNALIGNED-LABEL: global_load_2xi16_align1:			; GFX7-UNALIGNED-LABEL: global_load_2xi16_align1:
	; GFX7-UNALIGNED: ; %bb.0:			; GFX7-UNALIGNED: ; %bb.0:
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-UNALIGNED-NEXT: flat_load_dword v0, v[0:1]			; GFX7-UNALIGNED-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]
	▲ Show 20 Lines • Show All 197 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/max.i16.ll

	Show First 20 Lines • Show All 131 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v4
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: v_mov_b32_e32 v5, s5			; VI-NEXT: v_mov_b32_e32 v5, s5
	; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s4, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: v_add_u32_e32 v6, vcc, 4, v0			; VI-NEXT: v_add_u32_e32 v6, vcc, 4, v0
	; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_ushort v8, v[6:7]			; VI-NEXT: flat_load_ushort v6, v[6:7]
	; VI-NEXT: flat_load_dword v9, v[0:1]			; VI-NEXT: flat_load_dword v7, v[0:1]
	; VI-NEXT: v_add_u32_e32 v0, vcc, 4, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, 4, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
	; VI-NEXT: flat_load_ushort v0, v[0:1]			; VI-NEXT: flat_load_ushort v0, v[0:1]
	; VI-NEXT: flat_load_dword v1, v[2:3]			; VI-NEXT: flat_load_dword v8, v[2:3]
	; VI-NEXT: v_add_u32_e32 v6, vcc, 4, v4			; VI-NEXT: v_add_u32_e32 v2, vcc, 4, v4
	; VI-NEXT: v_addc_u32_e32 v7, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1) lgkmcnt(1)
	; VI-NEXT: v_max_i16_e32 v0, v8, v0			; VI-NEXT: v_max_i16_e32 v0, v6, v0
	; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; VI-NEXT: v_max_i16_e32 v2, v9, v1			; VI-NEXT: v_max_i16_e32 v1, v7, v8
	; VI-NEXT: v_max_i16_sdwa v1, v9, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_max_i16_sdwa v7, v7, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NEXT: v_or_b32_e32 v1, v2, v1			; VI-NEXT: v_or_b32_e32 v1, v1, v7
	; VI-NEXT: flat_store_short v[6:7], v0			; VI-NEXT: flat_store_short v[2:3], v0
	; VI-NEXT: flat_store_dword v[4:5], v1			; VI-NEXT: flat_store_dword v[4:5], v1
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_imax_sge_v3i16:			; GFX9-LABEL: v_test_imax_sge_v3i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 3, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v4, 3, v0
	▲ Show 20 Lines • Show All 327 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/promote-constOffset-to-imm.ll

	Show All 11 Lines
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	▲ Show 20 Lines • Show All 182 Lines • ▼ Show 20 Lines
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	;			;
				; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	;			;
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines

	define amdgpu_kernel void @Offset64(i8 addrspace(1)* %buffer) {			define amdgpu_kernel void @Offset64(i8 addrspace(1)* %buffer) {
	; GCN-LABEL: Offset64:			; GCN-LABEL: Offset64:
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	entry:			entry:
	Show All 28 Lines
	; TODO: Support load4 as anchor instruction.			; TODO: Support load4 as anchor instruction.
	define amdgpu_kernel void @p32Offset64(i8 addrspace(1)* %buffer) {			define amdgpu_kernel void @p32Offset64(i8 addrspace(1)* %buffer) {
	; GCN-LABEL: p32Offset64:			; GCN-LABEL: p32Offset64:
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
	;			;
				; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	;			;
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024			; GFX10: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
	entry:			entry:
	%call = tail call i64 @_Z13get_global_idj(i32 0)			%call = tail call i64 @_Z13get_global_idj(i32 0)
	%conv = and i64 %call, 255			%conv = and i64 %call, 255
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]			; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
	;			;
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
				; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048			; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
	;			;
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}			; GFX10: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
	▲ Show 20 Lines • Show All 80 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sdiv64.ll

	Show First 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v5			; GCN-NEXT: v_mul_hi_u32 v12, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v6			; GCN-NEXT: v_mul_hi_u32 v11, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v9, v3, v6			; GCN-NEXT: v_mul_hi_u32 v9, v3, v6
	; GCN-NEXT: v_mul_lo_u32 v6, v3, v6			; GCN-NEXT: v_mul_lo_u32 v6, v3, v6
	; GCN-NEXT: v_mul_hi_u32 v8, v3, v5			; GCN-NEXT: v_mul_hi_u32 v8, v3, v5
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v7, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v7, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v3, v3, v5			; GCN-NEXT: v_mul_lo_u32 v3, v3, v5
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v10			; GCN-NEXT: v_add_i32_e32 v6, vcc, v10, v6
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v6, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v6, v3
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_addc_u32_e64 v2, vcc, v2, v5, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v2, vcc, v2, v5, s[0:1]
	; GCN-NEXT: s_add_u32 s0, s10, s14			; GCN-NEXT: s_add_u32 s0, s10, s14
	; GCN-NEXT: s_addc_u32 s1, s11, s14			; GCN-NEXT: s_addc_u32 s1, s11, s14
	▲ Show 20 Lines • Show All 336 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_cmp_ne_u64_e64 s[4:5], 63, v[11:12]			; GCN-IR-NEXT: v_cmp_ne_u64_e64 s[4:5], 63, v[11:12]
	; GCN-IR-NEXT: s_or_b64 s[6:7], s[6:7], vcc			; GCN-IR-NEXT: s_or_b64 s[6:7], s[6:7], vcc
	; GCN-IR-NEXT: s_xor_b64 s[8:9], s[6:7], -1			; GCN-IR-NEXT: s_xor_b64 s[8:9], s[6:7], -1
	; GCN-IR-NEXT: v_mov_b32_e32 v18, 0			; GCN-IR-NEXT: v_mov_b32_e32 v18, 0
	; GCN-IR-NEXT: v_mov_b32_e32 v6, v4			; GCN-IR-NEXT: v_mov_b32_e32 v6, v4
	; GCN-IR-NEXT: v_mov_b32_e32 v1, v5			; GCN-IR-NEXT: v_mov_b32_e32 v1, v5
	; GCN-IR-NEXT: v_cndmask_b32_e64 v7, v10, 0, s[6:7]			; GCN-IR-NEXT: v_cndmask_b32_e64 v7, v10, 0, s[6:7]
	; GCN-IR-NEXT: s_and_b64 s[4:5], s[8:9], s[4:5]			; GCN-IR-NEXT: s_and_b64 s[4:5], s[8:9], s[4:5]
	; GCN-IR-NEXT: v_mov_b32_e32 v17, v18			; GCN-IR-NEXT: v_mov_b32_e32 v15, v18
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v9, 0, s[6:7]			; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v9, 0, s[6:7]
	; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]			; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB1_6			; GCN-IR-NEXT: s_cbranch_execz BB1_6
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: v_add_i32_e32 v15, vcc, 1, v11			; GCN-IR-NEXT: v_add_i32_e32 v16, vcc, 1, v11
	; GCN-IR-NEXT: v_addc_u32_e32 v16, vcc, 0, v12, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v17, vcc, 0, v12, vcc
	; GCN-IR-NEXT: v_sub_i32_e64 v0, s[4:5], 63, v11			; GCN-IR-NEXT: v_sub_i32_e64 v0, s[4:5], 63, v11
	; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[15:16], v[11:12]			; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[16:17], v[11:12]
	; GCN-IR-NEXT: v_mov_b32_e32 v11, 0			; GCN-IR-NEXT: v_mov_b32_e32 v11, 0
	; GCN-IR-NEXT: v_lshl_b64 v[7:8], v[9:10], v0			; GCN-IR-NEXT: v_lshl_b64 v[7:8], v[9:10], v0
	; GCN-IR-NEXT: s_mov_b64 s[8:9], 0			; GCN-IR-NEXT: s_mov_b64 s[8:9], 0
	; GCN-IR-NEXT: v_mov_b32_e32 v12, 0			; GCN-IR-NEXT: v_mov_b32_e32 v12, 0
	; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]			; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB1_5			; GCN-IR-NEXT: s_cbranch_execz BB1_5
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, -1, v2			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, -1, v2
	; GCN-IR-NEXT: v_lshr_b64 v[15:16], v[9:10], v15			; GCN-IR-NEXT: v_lshr_b64 v[16:17], v[9:10], v16
	; GCN-IR-NEXT: v_addc_u32_e32 v9, vcc, -1, v3, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v9, vcc, -1, v3, vcc
	; GCN-IR-NEXT: v_not_b32_e32 v10, v13			; GCN-IR-NEXT: v_not_b32_e32 v10, v13
	; GCN-IR-NEXT: v_not_b32_e32 v11, v18			; GCN-IR-NEXT: v_not_b32_e32 v11, v18
	; GCN-IR-NEXT: v_add_i32_e32 v13, vcc, v10, v14			; GCN-IR-NEXT: v_add_i32_e32 v13, vcc, v10, v14
	; GCN-IR-NEXT: v_addc_u32_e32 v14, vcc, v11, v17, vcc
	; GCN-IR-NEXT: v_mov_b32_e32 v17, 0
	; GCN-IR-NEXT: v_mov_b32_e32 v18, 0			; GCN-IR-NEXT: v_mov_b32_e32 v18, 0
				; GCN-IR-NEXT: v_addc_u32_e32 v14, vcc, v11, v15, vcc
				; GCN-IR-NEXT: v_mov_b32_e32 v19, 0
	; GCN-IR-NEXT: BB1_3: ; %udiv-do-while			; GCN-IR-NEXT: BB1_3: ; %udiv-do-while
	; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
	; GCN-IR-NEXT: v_lshl_b64 v[15:16], v[15:16], 1			; GCN-IR-NEXT: v_lshl_b64 v[16:17], v[16:17], 1
	; GCN-IR-NEXT: v_lshrrev_b32_e32 v10, 31, v8			; GCN-IR-NEXT: v_lshrrev_b32_e32 v10, 31, v8
	; GCN-IR-NEXT: v_or_b32_e32 v10, v15, v10			; GCN-IR-NEXT: v_or_b32_e32 v10, v16, v10
	; GCN-IR-NEXT: v_lshl_b64 v[7:8], v[7:8], 1			; GCN-IR-NEXT: v_lshl_b64 v[7:8], v[7:8], 1
	; GCN-IR-NEXT: v_sub_i32_e32 v11, vcc, v0, v10			; GCN-IR-NEXT: v_sub_i32_e32 v11, vcc, v0, v10
	; GCN-IR-NEXT: v_subb_u32_e32 v11, vcc, v9, v16, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v11, vcc, v9, v17, vcc
	; GCN-IR-NEXT: v_or_b32_e32 v7, v17, v7			; GCN-IR-NEXT: v_or_b32_e32 v7, v18, v7
	; GCN-IR-NEXT: v_add_i32_e32 v17, vcc, 1, v13			; GCN-IR-NEXT: v_add_i32_e32 v18, vcc, 1, v13
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v15, 31, v11			; GCN-IR-NEXT: v_ashrrev_i32_e32 v15, 31, v11
	; GCN-IR-NEXT: v_or_b32_e32 v8, v18, v8			; GCN-IR-NEXT: v_or_b32_e32 v8, v19, v8
	; GCN-IR-NEXT: v_addc_u32_e32 v18, vcc, 0, v14, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v19, vcc, 0, v14, vcc
	; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[17:18], v[13:14]			; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[18:19], v[13:14]
	; GCN-IR-NEXT: v_mov_b32_e32 v13, v17			; GCN-IR-NEXT: v_mov_b32_e32 v13, v18
	; GCN-IR-NEXT: v_mov_b32_e32 v12, 0			; GCN-IR-NEXT: v_mov_b32_e32 v12, 0
	; GCN-IR-NEXT: v_and_b32_e32 v11, 1, v15			; GCN-IR-NEXT: v_and_b32_e32 v11, 1, v15
	; GCN-IR-NEXT: v_and_b32_e32 v19, v15, v3			; GCN-IR-NEXT: v_and_b32_e32 v20, v15, v3
	; GCN-IR-NEXT: v_and_b32_e32 v15, v15, v2			; GCN-IR-NEXT: v_and_b32_e32 v15, v15, v2
	; GCN-IR-NEXT: v_sub_i32_e64 v15, s[4:5], v10, v15			; GCN-IR-NEXT: v_sub_i32_e64 v16, s[4:5], v10, v15
	; GCN-IR-NEXT: v_mov_b32_e32 v14, v18			; GCN-IR-NEXT: v_mov_b32_e32 v14, v19
	; GCN-IR-NEXT: v_mov_b32_e32 v18, v12			; GCN-IR-NEXT: v_mov_b32_e32 v19, v12
	; GCN-IR-NEXT: v_subb_u32_e64 v16, s[4:5], v16, v19, s[4:5]			; GCN-IR-NEXT: v_subb_u32_e64 v17, s[4:5], v17, v20, s[4:5]
	; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]			; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v17, v11			; GCN-IR-NEXT: v_mov_b32_e32 v18, v11
	; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: s_cbranch_execnz BB1_3			; GCN-IR-NEXT: s_cbranch_execnz BB1_3
	; GCN-IR-NEXT: ; %bb.4: ; %Flow			; GCN-IR-NEXT: ; %bb.4: ; %Flow
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: BB1_5: ; %Flow3			; GCN-IR-NEXT: BB1_5: ; %Flow3
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[7:8], 1			; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[7:8], 1
	; GCN-IR-NEXT: v_or_b32_e32 v7, v12, v3			; GCN-IR-NEXT: v_or_b32_e32 v7, v12, v3
	▲ Show 20 Lines • Show All 704 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v6			; GCN-NEXT: v_mul_hi_u32 v12, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v4, v7			; GCN-NEXT: v_mul_hi_u32 v9, v4, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v4, v7			; GCN-NEXT: v_mul_lo_u32 v7, v4, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v4, v6			; GCN-NEXT: v_mul_hi_u32 v8, v4, v6
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v6			; GCN-NEXT: v_mul_lo_u32 v4, v4, v6
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	▲ Show 20 Lines • Show All 289 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_cndmask_b32_e64 v6, 24, 0, s[4:5]			; GCN-IR-NEXT: v_cndmask_b32_e64 v6, 24, 0, s[4:5]
	; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1			; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1
	; GCN-IR-NEXT: v_mov_b32_e32 v3, v2			; GCN-IR-NEXT: v_mov_b32_e32 v3, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v7, v11			; GCN-IR-NEXT: v_mov_b32_e32 v7, v11
	; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc
	; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]			; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB11_6			; GCN-IR-NEXT: s_cbranch_execz BB11_6
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, 1, v4			; GCN-IR-NEXT: v_add_i32_e32 v8, vcc, 1, v4
	; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, 0, v5, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v9, vcc, 0, v5, vcc
	; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[6:7], v[4:5]			; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[8:9], v[4:5]
	; GCN-IR-NEXT: v_sub_i32_e64 v4, s[4:5], 63, v4			; GCN-IR-NEXT: v_sub_i32_e64 v4, s[4:5], 63, v4
	; GCN-IR-NEXT: v_mov_b32_e32 v8, 0			; GCN-IR-NEXT: v_mov_b32_e32 v6, 0
	; GCN-IR-NEXT: v_lshl_b64 v[4:5], 24, v4			; GCN-IR-NEXT: v_lshl_b64 v[4:5], 24, v4
	; GCN-IR-NEXT: s_mov_b64 s[8:9], 0			; GCN-IR-NEXT: s_mov_b64 s[8:9], 0
	; GCN-IR-NEXT: v_mov_b32_e32 v9, 0			; GCN-IR-NEXT: v_mov_b32_e32 v7, 0
	; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]			; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB11_5			; GCN-IR-NEXT: s_cbranch_execz BB11_5
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: v_lshr_b64 v[12:13], 24, v6			; GCN-IR-NEXT: v_lshr_b64 v[12:13], 24, v8
	; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, -1, v0			; GCN-IR-NEXT: v_add_i32_e32 v8, vcc, -1, v0
	; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, -1, v1, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v9, vcc, -1, v1, vcc
	; GCN-IR-NEXT: v_sub_i32_e32 v10, vcc, 58, v10			; GCN-IR-NEXT: v_sub_i32_e32 v10, vcc, 58, v10
	; GCN-IR-NEXT: v_mov_b32_e32 v14, 0			; GCN-IR-NEXT: v_mov_b32_e32 v14, 0
	; GCN-IR-NEXT: v_subb_u32_e32 v11, vcc, 0, v11, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v11, vcc, 0, v11, vcc
	; GCN-IR-NEXT: v_mov_b32_e32 v15, 0			; GCN-IR-NEXT: v_mov_b32_e32 v15, 0
	; GCN-IR-NEXT: BB11_3: ; %udiv-do-while			; GCN-IR-NEXT: BB11_3: ; %udiv-do-while
	; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
	; GCN-IR-NEXT: v_lshl_b64 v[12:13], v[12:13], 1			; GCN-IR-NEXT: v_lshl_b64 v[12:13], v[12:13], 1
	; GCN-IR-NEXT: v_lshrrev_b32_e32 v8, 31, v5			; GCN-IR-NEXT: v_lshrrev_b32_e32 v6, 31, v5
	; GCN-IR-NEXT: v_or_b32_e32 v12, v12, v8			; GCN-IR-NEXT: v_or_b32_e32 v12, v12, v6
	; GCN-IR-NEXT: v_lshl_b64 v[4:5], v[4:5], 1			; GCN-IR-NEXT: v_lshl_b64 v[4:5], v[4:5], 1
	; GCN-IR-NEXT: v_sub_i32_e32 v8, vcc, v6, v12			; GCN-IR-NEXT: v_sub_i32_e32 v6, vcc, v8, v12
	; GCN-IR-NEXT: v_subb_u32_e32 v8, vcc, v7, v13, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v6, vcc, v9, v13, vcc
	; GCN-IR-NEXT: v_or_b32_e32 v4, v14, v4			; GCN-IR-NEXT: v_or_b32_e32 v4, v14, v4
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v14, 31, v8			; GCN-IR-NEXT: v_ashrrev_i32_e32 v14, 31, v6
	; GCN-IR-NEXT: v_and_b32_e32 v17, v14, v0			; GCN-IR-NEXT: v_and_b32_e32 v17, v14, v0
	; GCN-IR-NEXT: v_and_b32_e32 v8, 1, v14			; GCN-IR-NEXT: v_and_b32_e32 v6, 1, v14
	; GCN-IR-NEXT: v_and_b32_e32 v16, v14, v1			; GCN-IR-NEXT: v_and_b32_e32 v16, v14, v1
	; GCN-IR-NEXT: v_add_i32_e32 v14, vcc, 1, v10			; GCN-IR-NEXT: v_add_i32_e32 v14, vcc, 1, v10
	; GCN-IR-NEXT: v_or_b32_e32 v5, v15, v5			; GCN-IR-NEXT: v_or_b32_e32 v5, v15, v5
	; GCN-IR-NEXT: v_addc_u32_e32 v15, vcc, 0, v11, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v15, vcc, 0, v11, vcc
	; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[14:15], v[10:11]			; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[14:15], v[10:11]
	; GCN-IR-NEXT: v_mov_b32_e32 v10, v14			; GCN-IR-NEXT: v_mov_b32_e32 v10, v14
	; GCN-IR-NEXT: v_mov_b32_e32 v9, 0			; GCN-IR-NEXT: v_mov_b32_e32 v7, 0
	; GCN-IR-NEXT: v_sub_i32_e64 v12, s[4:5], v12, v17			; GCN-IR-NEXT: v_sub_i32_e64 v12, s[4:5], v12, v17
	; GCN-IR-NEXT: v_mov_b32_e32 v11, v15			; GCN-IR-NEXT: v_mov_b32_e32 v11, v15
	; GCN-IR-NEXT: v_mov_b32_e32 v15, v9			; GCN-IR-NEXT: v_mov_b32_e32 v15, v7
	; GCN-IR-NEXT: v_subb_u32_e64 v13, s[4:5], v13, v16, s[4:5]			; GCN-IR-NEXT: v_subb_u32_e64 v13, s[4:5], v13, v16, s[4:5]
	; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]			; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v14, v8			; GCN-IR-NEXT: v_mov_b32_e32 v14, v6
	; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: s_cbranch_execnz BB11_3			; GCN-IR-NEXT: s_cbranch_execnz BB11_3
	; GCN-IR-NEXT: ; %bb.4: ; %Flow			; GCN-IR-NEXT: ; %bb.4: ; %Flow
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: BB11_5: ; %Flow3			; GCN-IR-NEXT: BB11_5: ; %Flow3
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]
	; GCN-IR-NEXT: v_lshl_b64 v[0:1], v[4:5], 1			; GCN-IR-NEXT: v_lshl_b64 v[0:1], v[4:5], 1
	; GCN-IR-NEXT: v_or_b32_e32 v7, v9, v1			; GCN-IR-NEXT: v_or_b32_e32 v7, v7, v1
	; GCN-IR-NEXT: v_or_b32_e32 v6, v8, v0			; GCN-IR-NEXT: v_or_b32_e32 v6, v6, v0
	; GCN-IR-NEXT: BB11_6: ; %Flow4			; GCN-IR-NEXT: BB11_6: ; %Flow4
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]
	; GCN-IR-NEXT: v_xor_b32_e32 v0, v6, v2			; GCN-IR-NEXT: v_xor_b32_e32 v0, v6, v2
	; GCN-IR-NEXT: v_xor_b32_e32 v1, v7, v3			; GCN-IR-NEXT: v_xor_b32_e32 v1, v7, v3
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc
	; GCN-IR-NEXT: s_setpc_b64 s[30:31]			; GCN-IR-NEXT: s_setpc_b64 s[30:31]
	%result = sdiv i64 24, %x			%result = sdiv i64 24, %x
	▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1			; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1
	; GCN-IR-NEXT: v_mov_b32_e32 v3, v2			; GCN-IR-NEXT: v_mov_b32_e32 v3, v2
	; GCN-IR-NEXT: s_mov_b32 s9, 0			; GCN-IR-NEXT: s_mov_b32 s9, 0
	; GCN-IR-NEXT: v_mov_b32_e32 v7, v11			; GCN-IR-NEXT: v_mov_b32_e32 v7, v11
	; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc
	; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]			; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB12_6			; GCN-IR-NEXT: s_cbranch_execz BB12_6
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, 1, v4			; GCN-IR-NEXT: v_add_i32_e32 v8, vcc, 1, v4
	; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, 0, v5, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v9, vcc, 0, v5, vcc
	; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[6:7], v[4:5]			; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[8:9], v[4:5]
	; GCN-IR-NEXT: v_sub_i32_e64 v4, s[4:5], 63, v4			; GCN-IR-NEXT: v_sub_i32_e64 v4, s[4:5], 63, v4
	; GCN-IR-NEXT: v_lshl_b64 v[4:5], s[8:9], v4			; GCN-IR-NEXT: v_lshl_b64 v[4:5], s[8:9], v4
	; GCN-IR-NEXT: v_mov_b32_e32 v8, 0			; GCN-IR-NEXT: v_mov_b32_e32 v6, 0
	; GCN-IR-NEXT: s_mov_b64 s[8:9], 0			; GCN-IR-NEXT: s_mov_b64 s[8:9], 0
	; GCN-IR-NEXT: v_mov_b32_e32 v9, 0			; GCN-IR-NEXT: v_mov_b32_e32 v7, 0
	; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]			; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB12_5			; GCN-IR-NEXT: s_cbranch_execz BB12_5
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: s_mov_b32 s5, 0			; GCN-IR-NEXT: s_mov_b32 s5, 0
	; GCN-IR-NEXT: s_mov_b32 s4, 0x8000			; GCN-IR-NEXT: s_mov_b32 s4, 0x8000
	; GCN-IR-NEXT: v_lshr_b64 v[12:13], s[4:5], v6			; GCN-IR-NEXT: v_lshr_b64 v[12:13], s[4:5], v8
	; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, -1, v0			; GCN-IR-NEXT: v_add_i32_e32 v8, vcc, -1, v0
	; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, -1, v1, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v9, vcc, -1, v1, vcc
	; GCN-IR-NEXT: v_sub_i32_e32 v10, vcc, 47, v10			; GCN-IR-NEXT: v_sub_i32_e32 v10, vcc, 47, v10
	; GCN-IR-NEXT: v_mov_b32_e32 v14, 0			; GCN-IR-NEXT: v_mov_b32_e32 v14, 0
	; GCN-IR-NEXT: v_subb_u32_e32 v11, vcc, 0, v11, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v11, vcc, 0, v11, vcc
	; GCN-IR-NEXT: v_mov_b32_e32 v15, 0			; GCN-IR-NEXT: v_mov_b32_e32 v15, 0
	; GCN-IR-NEXT: BB12_3: ; %udiv-do-while			; GCN-IR-NEXT: BB12_3: ; %udiv-do-while
	; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
	; GCN-IR-NEXT: v_lshl_b64 v[12:13], v[12:13], 1			; GCN-IR-NEXT: v_lshl_b64 v[12:13], v[12:13], 1
	; GCN-IR-NEXT: v_lshrrev_b32_e32 v8, 31, v5			; GCN-IR-NEXT: v_lshrrev_b32_e32 v6, 31, v5
	; GCN-IR-NEXT: v_or_b32_e32 v12, v12, v8			; GCN-IR-NEXT: v_or_b32_e32 v12, v12, v6
	; GCN-IR-NEXT: v_lshl_b64 v[4:5], v[4:5], 1			; GCN-IR-NEXT: v_lshl_b64 v[4:5], v[4:5], 1
	; GCN-IR-NEXT: v_sub_i32_e32 v8, vcc, v6, v12			; GCN-IR-NEXT: v_sub_i32_e32 v6, vcc, v8, v12
	; GCN-IR-NEXT: v_subb_u32_e32 v8, vcc, v7, v13, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v6, vcc, v9, v13, vcc
	; GCN-IR-NEXT: v_or_b32_e32 v4, v14, v4			; GCN-IR-NEXT: v_or_b32_e32 v4, v14, v4
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v14, 31, v8			; GCN-IR-NEXT: v_ashrrev_i32_e32 v14, 31, v6
	; GCN-IR-NEXT: v_and_b32_e32 v17, v14, v0			; GCN-IR-NEXT: v_and_b32_e32 v17, v14, v0
	; GCN-IR-NEXT: v_and_b32_e32 v8, 1, v14			; GCN-IR-NEXT: v_and_b32_e32 v6, 1, v14
	; GCN-IR-NEXT: v_and_b32_e32 v16, v14, v1			; GCN-IR-NEXT: v_and_b32_e32 v16, v14, v1
	; GCN-IR-NEXT: v_add_i32_e32 v14, vcc, 1, v10			; GCN-IR-NEXT: v_add_i32_e32 v14, vcc, 1, v10
	; GCN-IR-NEXT: v_or_b32_e32 v5, v15, v5			; GCN-IR-NEXT: v_or_b32_e32 v5, v15, v5
	; GCN-IR-NEXT: v_addc_u32_e32 v15, vcc, 0, v11, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v15, vcc, 0, v11, vcc
	; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[14:15], v[10:11]			; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[14:15], v[10:11]
	; GCN-IR-NEXT: v_mov_b32_e32 v10, v14			; GCN-IR-NEXT: v_mov_b32_e32 v10, v14
	; GCN-IR-NEXT: v_mov_b32_e32 v9, 0			; GCN-IR-NEXT: v_mov_b32_e32 v7, 0
	; GCN-IR-NEXT: v_sub_i32_e64 v12, s[4:5], v12, v17			; GCN-IR-NEXT: v_sub_i32_e64 v12, s[4:5], v12, v17
	; GCN-IR-NEXT: v_mov_b32_e32 v11, v15			; GCN-IR-NEXT: v_mov_b32_e32 v11, v15
	; GCN-IR-NEXT: v_mov_b32_e32 v15, v9			; GCN-IR-NEXT: v_mov_b32_e32 v15, v7
	; GCN-IR-NEXT: v_subb_u32_e64 v13, s[4:5], v13, v16, s[4:5]			; GCN-IR-NEXT: v_subb_u32_e64 v13, s[4:5], v13, v16, s[4:5]
	; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]			; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v14, v8			; GCN-IR-NEXT: v_mov_b32_e32 v14, v6
	; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: s_cbranch_execnz BB12_3			; GCN-IR-NEXT: s_cbranch_execnz BB12_3
	; GCN-IR-NEXT: ; %bb.4: ; %Flow			; GCN-IR-NEXT: ; %bb.4: ; %Flow
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: BB12_5: ; %Flow3			; GCN-IR-NEXT: BB12_5: ; %Flow3
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]
	; GCN-IR-NEXT: v_lshl_b64 v[0:1], v[4:5], 1			; GCN-IR-NEXT: v_lshl_b64 v[0:1], v[4:5], 1
	; GCN-IR-NEXT: v_or_b32_e32 v7, v9, v1			; GCN-IR-NEXT: v_or_b32_e32 v7, v7, v1
	; GCN-IR-NEXT: v_or_b32_e32 v6, v8, v0			; GCN-IR-NEXT: v_or_b32_e32 v6, v6, v0
	; GCN-IR-NEXT: BB12_6: ; %Flow4			; GCN-IR-NEXT: BB12_6: ; %Flow4
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]
	; GCN-IR-NEXT: v_xor_b32_e32 v0, v6, v2			; GCN-IR-NEXT: v_xor_b32_e32 v0, v6, v2
	; GCN-IR-NEXT: v_xor_b32_e32 v1, v7, v3			; GCN-IR-NEXT: v_xor_b32_e32 v1, v7, v3
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc
	; GCN-IR-NEXT: s_setpc_b64 s[30:31]			; GCN-IR-NEXT: s_setpc_b64 s[30:31]
	%result = sdiv i64 32768, %x			%result = sdiv i64 32768, %x
	▲ Show 20 Lines • Show All 345 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/srem64.ll

	Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v6			; GCN-NEXT: v_mul_hi_u32 v12, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v4, v7			; GCN-NEXT: v_mul_hi_u32 v9, v4, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v4, v7			; GCN-NEXT: v_mul_lo_u32 v7, v4, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v4, v6			; GCN-NEXT: v_mul_hi_u32 v8, v4, v6
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v6			; GCN-NEXT: v_mul_lo_u32 v4, v4, v6
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	▲ Show 20 Lines • Show All 868 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v5			; GCN-NEXT: v_mul_hi_u32 v12, v0, v5
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v6			; GCN-NEXT: v_mul_hi_u32 v11, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v9, v3, v6			; GCN-NEXT: v_mul_hi_u32 v9, v3, v6
	; GCN-NEXT: v_mul_lo_u32 v6, v3, v6			; GCN-NEXT: v_mul_lo_u32 v6, v3, v6
	; GCN-NEXT: v_mul_hi_u32 v8, v3, v5			; GCN-NEXT: v_mul_hi_u32 v8, v3, v5
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v7, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v7, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v3, v3, v5			; GCN-NEXT: v_mul_lo_u32 v3, v3, v5
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v10			; GCN-NEXT: v_add_i32_e32 v6, vcc, v10, v6
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v8, v1, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v6, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v6, v3
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_addc_u32_e64 v2, vcc, v2, v5, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v2, vcc, v2, v5, s[0:1]
	; GCN-NEXT: s_add_u32 s0, s2, s10			; GCN-NEXT: s_add_u32 s0, s2, s10
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v3
	▲ Show 20 Lines • Show All 414 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v6			; GCN-NEXT: v_mul_hi_u32 v12, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v4, v7			; GCN-NEXT: v_mul_hi_u32 v9, v4, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v4, v7			; GCN-NEXT: v_mul_lo_u32 v7, v4, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v4, v6			; GCN-NEXT: v_mul_hi_u32 v8, v4, v6
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v6			; GCN-NEXT: v_mul_lo_u32 v4, v4, v6
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	▲ Show 20 Lines • Show All 280 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_cmp_ne_u64_e32 vcc, 63, v[3:4]			; GCN-IR-NEXT: v_cmp_ne_u64_e32 vcc, 63, v[3:4]
	; GCN-IR-NEXT: v_cndmask_b32_e64 v2, 24, 0, s[4:5]			; GCN-IR-NEXT: v_cndmask_b32_e64 v2, 24, 0, s[4:5]
	; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1			; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1
	; GCN-IR-NEXT: v_mov_b32_e32 v5, v9			; GCN-IR-NEXT: v_mov_b32_e32 v5, v9
	; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc
	; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]			; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB11_6			; GCN-IR-NEXT: s_cbranch_execz BB11_6
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: v_add_i32_e32 v5, vcc, 1, v3			; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, 1, v3
	; GCN-IR-NEXT: v_addc_u32_e32 v6, vcc, 0, v4, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, 0, v4, vcc
	; GCN-IR-NEXT: v_sub_i32_e64 v2, s[4:5], 63, v3			; GCN-IR-NEXT: v_sub_i32_e64 v2, s[4:5], 63, v3
	; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[5:6], v[3:4]			; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[6:7], v[3:4]
	; GCN-IR-NEXT: v_mov_b32_e32 v6, 0			; GCN-IR-NEXT: v_mov_b32_e32 v4, 0
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], 24, v2			; GCN-IR-NEXT: v_lshl_b64 v[2:3], 24, v2
	; GCN-IR-NEXT: s_mov_b64 s[8:9], 0			; GCN-IR-NEXT: s_mov_b64 s[8:9], 0
	; GCN-IR-NEXT: v_mov_b32_e32 v7, 0			; GCN-IR-NEXT: v_mov_b32_e32 v5, 0
	; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]			; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB11_5			; GCN-IR-NEXT: s_cbranch_execz BB11_5
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: v_add_i32_e32 v4, vcc, -1, v0			; GCN-IR-NEXT: v_lshr_b64 v[10:11], 24, v6
	; GCN-IR-NEXT: v_lshr_b64 v[10:11], 24, v5			; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, -1, v0
	; GCN-IR-NEXT: v_addc_u32_e32 v5, vcc, -1, v1, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, -1, v1, vcc
	; GCN-IR-NEXT: v_sub_i32_e32 v8, vcc, 58, v8			; GCN-IR-NEXT: v_sub_i32_e32 v8, vcc, 58, v8
	; GCN-IR-NEXT: v_mov_b32_e32 v12, 0			; GCN-IR-NEXT: v_mov_b32_e32 v12, 0
	; GCN-IR-NEXT: v_subb_u32_e32 v9, vcc, 0, v9, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v9, vcc, 0, v9, vcc
	; GCN-IR-NEXT: v_mov_b32_e32 v13, 0			; GCN-IR-NEXT: v_mov_b32_e32 v13, 0
	; GCN-IR-NEXT: BB11_3: ; %udiv-do-while			; GCN-IR-NEXT: BB11_3: ; %udiv-do-while
	; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
	; GCN-IR-NEXT: v_lshl_b64 v[10:11], v[10:11], 1			; GCN-IR-NEXT: v_lshl_b64 v[10:11], v[10:11], 1
	; GCN-IR-NEXT: v_lshrrev_b32_e32 v6, 31, v3			; GCN-IR-NEXT: v_lshrrev_b32_e32 v4, 31, v3
	; GCN-IR-NEXT: v_or_b32_e32 v10, v10, v6			; GCN-IR-NEXT: v_or_b32_e32 v10, v10, v4
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1			; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
	; GCN-IR-NEXT: v_sub_i32_e32 v6, vcc, v4, v10			; GCN-IR-NEXT: v_sub_i32_e32 v4, vcc, v6, v10
	; GCN-IR-NEXT: v_subb_u32_e32 v6, vcc, v5, v11, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v4, vcc, v7, v11, vcc
	; GCN-IR-NEXT: v_or_b32_e32 v2, v12, v2			; GCN-IR-NEXT: v_or_b32_e32 v2, v12, v2
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v12, 31, v6			; GCN-IR-NEXT: v_ashrrev_i32_e32 v12, 31, v4
	; GCN-IR-NEXT: v_and_b32_e32 v15, v12, v0			; GCN-IR-NEXT: v_and_b32_e32 v15, v12, v0
	; GCN-IR-NEXT: v_and_b32_e32 v6, 1, v12			; GCN-IR-NEXT: v_and_b32_e32 v4, 1, v12
	; GCN-IR-NEXT: v_and_b32_e32 v14, v12, v1			; GCN-IR-NEXT: v_and_b32_e32 v14, v12, v1
	; GCN-IR-NEXT: v_add_i32_e32 v12, vcc, 1, v8			; GCN-IR-NEXT: v_add_i32_e32 v12, vcc, 1, v8
	; GCN-IR-NEXT: v_or_b32_e32 v3, v13, v3			; GCN-IR-NEXT: v_or_b32_e32 v3, v13, v3
	; GCN-IR-NEXT: v_addc_u32_e32 v13, vcc, 0, v9, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v13, vcc, 0, v9, vcc
	; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[12:13], v[8:9]			; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[12:13], v[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v8, v12			; GCN-IR-NEXT: v_mov_b32_e32 v8, v12
	; GCN-IR-NEXT: v_mov_b32_e32 v7, 0			; GCN-IR-NEXT: v_mov_b32_e32 v5, 0
	; GCN-IR-NEXT: v_sub_i32_e64 v10, s[4:5], v10, v15			; GCN-IR-NEXT: v_sub_i32_e64 v10, s[4:5], v10, v15
	; GCN-IR-NEXT: v_mov_b32_e32 v9, v13			; GCN-IR-NEXT: v_mov_b32_e32 v9, v13
	; GCN-IR-NEXT: v_mov_b32_e32 v13, v7			; GCN-IR-NEXT: v_mov_b32_e32 v13, v5
	; GCN-IR-NEXT: v_subb_u32_e64 v11, s[4:5], v11, v14, s[4:5]			; GCN-IR-NEXT: v_subb_u32_e64 v11, s[4:5], v11, v14, s[4:5]
	; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]			; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v12, v6			; GCN-IR-NEXT: v_mov_b32_e32 v12, v4
	; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: s_cbranch_execnz BB11_3			; GCN-IR-NEXT: s_cbranch_execnz BB11_3
	; GCN-IR-NEXT: ; %bb.4: ; %Flow			; GCN-IR-NEXT: ; %bb.4: ; %Flow
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: BB11_5: ; %Flow3			; GCN-IR-NEXT: BB11_5: ; %Flow3
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1			; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
	; GCN-IR-NEXT: v_or_b32_e32 v5, v7, v3			; GCN-IR-NEXT: v_or_b32_e32 v5, v5, v3
	; GCN-IR-NEXT: v_or_b32_e32 v2, v6, v2			; GCN-IR-NEXT: v_or_b32_e32 v2, v4, v2
	; GCN-IR-NEXT: BB11_6: ; %Flow4			; GCN-IR-NEXT: BB11_6: ; %Flow4
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]
	; GCN-IR-NEXT: v_mul_lo_u32 v3, v0, v5			; GCN-IR-NEXT: v_mul_lo_u32 v3, v0, v5
	; GCN-IR-NEXT: v_mul_hi_u32 v4, v0, v2			; GCN-IR-NEXT: v_mul_hi_u32 v4, v0, v2
	; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, v2			; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, v2
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, v2			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, v2
	; GCN-IR-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GCN-IR-NEXT: v_add_i32_e32 v3, vcc, v4, v3
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_cndmask_b32_e64 v4, v4, 0, s[4:5]			; GCN-IR-NEXT: v_cndmask_b32_e64 v4, v4, 0, s[4:5]
	; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1			; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1
	; GCN-IR-NEXT: s_mov_b32 s9, 0			; GCN-IR-NEXT: s_mov_b32 s9, 0
	; GCN-IR-NEXT: v_mov_b32_e32 v5, v9			; GCN-IR-NEXT: v_mov_b32_e32 v5, v9
	; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc
	; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]			; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB12_6			; GCN-IR-NEXT: s_cbranch_execz BB12_6
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: v_add_i32_e32 v4, vcc, 1, v2			; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, 1, v2
	; GCN-IR-NEXT: v_addc_u32_e32 v5, vcc, 0, v3, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, 0, v3, vcc
	; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[4:5], v[2:3]			; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[6:7], v[2:3]
	; GCN-IR-NEXT: v_sub_i32_e64 v2, s[4:5], 63, v2			; GCN-IR-NEXT: v_sub_i32_e64 v2, s[4:5], 63, v2
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], s[8:9], v2			; GCN-IR-NEXT: v_lshl_b64 v[2:3], s[8:9], v2
	; GCN-IR-NEXT: v_mov_b32_e32 v6, 0			; GCN-IR-NEXT: v_mov_b32_e32 v4, 0
	; GCN-IR-NEXT: s_mov_b64 s[8:9], 0			; GCN-IR-NEXT: s_mov_b64 s[8:9], 0
	; GCN-IR-NEXT: v_mov_b32_e32 v7, 0			; GCN-IR-NEXT: v_mov_b32_e32 v5, 0
	; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]			; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB12_5			; GCN-IR-NEXT: s_cbranch_execz BB12_5
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: s_mov_b32 s5, 0			; GCN-IR-NEXT: s_mov_b32 s5, 0
	; GCN-IR-NEXT: s_mov_b32 s4, 0x8000			; GCN-IR-NEXT: s_mov_b32 s4, 0x8000
	; GCN-IR-NEXT: v_lshr_b64 v[10:11], s[4:5], v4			; GCN-IR-NEXT: v_lshr_b64 v[10:11], s[4:5], v6
	; GCN-IR-NEXT: v_add_i32_e32 v4, vcc, -1, v0			; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, -1, v0
	; GCN-IR-NEXT: v_addc_u32_e32 v5, vcc, -1, v1, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, -1, v1, vcc
	; GCN-IR-NEXT: v_sub_i32_e32 v8, vcc, 47, v8			; GCN-IR-NEXT: v_sub_i32_e32 v8, vcc, 47, v8
	; GCN-IR-NEXT: v_mov_b32_e32 v12, 0			; GCN-IR-NEXT: v_mov_b32_e32 v12, 0
	; GCN-IR-NEXT: v_subb_u32_e32 v9, vcc, 0, v9, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v9, vcc, 0, v9, vcc
	; GCN-IR-NEXT: v_mov_b32_e32 v13, 0			; GCN-IR-NEXT: v_mov_b32_e32 v13, 0
	; GCN-IR-NEXT: BB12_3: ; %udiv-do-while			; GCN-IR-NEXT: BB12_3: ; %udiv-do-while
	; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
	; GCN-IR-NEXT: v_lshl_b64 v[10:11], v[10:11], 1			; GCN-IR-NEXT: v_lshl_b64 v[10:11], v[10:11], 1
	; GCN-IR-NEXT: v_lshrrev_b32_e32 v6, 31, v3			; GCN-IR-NEXT: v_lshrrev_b32_e32 v4, 31, v3
	; GCN-IR-NEXT: v_or_b32_e32 v10, v10, v6			; GCN-IR-NEXT: v_or_b32_e32 v10, v10, v4
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1			; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
	; GCN-IR-NEXT: v_sub_i32_e32 v6, vcc, v4, v10			; GCN-IR-NEXT: v_sub_i32_e32 v4, vcc, v6, v10
	; GCN-IR-NEXT: v_subb_u32_e32 v6, vcc, v5, v11, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v4, vcc, v7, v11, vcc
	; GCN-IR-NEXT: v_or_b32_e32 v2, v12, v2			; GCN-IR-NEXT: v_or_b32_e32 v2, v12, v2
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v12, 31, v6			; GCN-IR-NEXT: v_ashrrev_i32_e32 v12, 31, v4
	; GCN-IR-NEXT: v_and_b32_e32 v15, v12, v0			; GCN-IR-NEXT: v_and_b32_e32 v15, v12, v0
	; GCN-IR-NEXT: v_and_b32_e32 v6, 1, v12			; GCN-IR-NEXT: v_and_b32_e32 v4, 1, v12
	; GCN-IR-NEXT: v_and_b32_e32 v14, v12, v1			; GCN-IR-NEXT: v_and_b32_e32 v14, v12, v1
	; GCN-IR-NEXT: v_add_i32_e32 v12, vcc, 1, v8			; GCN-IR-NEXT: v_add_i32_e32 v12, vcc, 1, v8
	; GCN-IR-NEXT: v_or_b32_e32 v3, v13, v3			; GCN-IR-NEXT: v_or_b32_e32 v3, v13, v3
	; GCN-IR-NEXT: v_addc_u32_e32 v13, vcc, 0, v9, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v13, vcc, 0, v9, vcc
	; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[12:13], v[8:9]			; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[12:13], v[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v8, v12			; GCN-IR-NEXT: v_mov_b32_e32 v8, v12
	; GCN-IR-NEXT: v_mov_b32_e32 v7, 0			; GCN-IR-NEXT: v_mov_b32_e32 v5, 0
	; GCN-IR-NEXT: v_sub_i32_e64 v10, s[4:5], v10, v15			; GCN-IR-NEXT: v_sub_i32_e64 v10, s[4:5], v10, v15
	; GCN-IR-NEXT: v_mov_b32_e32 v9, v13			; GCN-IR-NEXT: v_mov_b32_e32 v9, v13
	; GCN-IR-NEXT: v_mov_b32_e32 v13, v7			; GCN-IR-NEXT: v_mov_b32_e32 v13, v5
	; GCN-IR-NEXT: v_subb_u32_e64 v11, s[4:5], v11, v14, s[4:5]			; GCN-IR-NEXT: v_subb_u32_e64 v11, s[4:5], v11, v14, s[4:5]
	; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]			; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v12, v6			; GCN-IR-NEXT: v_mov_b32_e32 v12, v4
	; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: s_cbranch_execnz BB12_3			; GCN-IR-NEXT: s_cbranch_execnz BB12_3
	; GCN-IR-NEXT: ; %bb.4: ; %Flow			; GCN-IR-NEXT: ; %bb.4: ; %Flow
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: BB12_5: ; %Flow3			; GCN-IR-NEXT: BB12_5: ; %Flow3
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1			; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
	; GCN-IR-NEXT: v_or_b32_e32 v5, v7, v3			; GCN-IR-NEXT: v_or_b32_e32 v5, v5, v3
	; GCN-IR-NEXT: v_or_b32_e32 v4, v6, v2			; GCN-IR-NEXT: v_or_b32_e32 v4, v4, v2
	; GCN-IR-NEXT: BB12_6: ; %Flow4			; GCN-IR-NEXT: BB12_6: ; %Flow4
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]
	; GCN-IR-NEXT: v_mul_lo_u32 v2, v0, v5			; GCN-IR-NEXT: v_mul_lo_u32 v2, v0, v5
	; GCN-IR-NEXT: v_mul_hi_u32 v3, v0, v4			; GCN-IR-NEXT: v_mul_hi_u32 v3, v0, v4
	; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, v4			; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, v4
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, v4			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, v4
	; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	▲ Show 20 Lines • Show All 372 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/uaddo.ll

Show First 20 Lines • Show All 165 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_uaddo_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> addrspace(1)* %carryout, <2 x i32> addrspace(1)* %aptr, <2 x i32> addrspace(1)* %bptr) nounwind {
%carry = extractvalue { <2 x i32>, <2 x i1> } %sadd, 1		%carry = extractvalue { <2 x i32>, <2 x i1> } %sadd, 1
store <2 x i32> %val, <2 x i32> addrspace(1)* %out, align 4		store <2 x i32> %val, <2 x i32> addrspace(1)* %out, align 4
%carry.ext = zext <2 x i1> %carry to <2 x i32>		%carry.ext = zext <2 x i1> %carry to <2 x i32>
store <2 x i32> %carry.ext, <2 x i32> addrspace(1)* %carryout		store <2 x i32> %carry.ext, <2 x i32> addrspace(1)* %carryout
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_uaddo_clamp_bit:		; FUNC-LABEL: {{^}}s_uaddo_clamp_bit:
; GCN: v_add_{{i\|u\|co_u}}32_e32		; GCN: s_add_i32
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @s_uaddo_clamp_bit(i32 addrspace(1)* %out, i1 addrspace(1)* %carryout, i32 %a, i32 %b) #0 {		define amdgpu_kernel void @s_uaddo_clamp_bit(i32 addrspace(1)* %out, i1 addrspace(1)* %carryout, i32 %a, i32 %b) #0 {
entry:		entry:
%uadd = call { i32, i1 } @llvm.uadd.with.overflow.i32(i32 %a, i32 %b)		%uadd = call { i32, i1 } @llvm.uadd.with.overflow.i32(i32 %a, i32 %b)
%val = extractvalue { i32, i1 } %uadd, 0		%val = extractvalue { i32, i1 } %uadd, 0
%carry = extractvalue { i32, i1 } %uadd, 1		%carry = extractvalue { i32, i1 } %uadd, 1
%c2 = icmp eq i1 %carry, false		%c2 = icmp eq i1 %carry, false
%cc = icmp eq i32 %a, %b		%cc = icmp eq i32 %a, %b
▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/udiv64.ll

	Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v6			; GCN-NEXT: v_mul_hi_u32 v12, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v4, v7			; GCN-NEXT: v_mul_hi_u32 v9, v4, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v4, v7			; GCN-NEXT: v_mul_lo_u32 v7, v4, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v4, v6			; GCN-NEXT: v_mul_hi_u32 v8, v4, v6
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v6			; GCN-NEXT: v_mul_lo_u32 v4, v4, v6
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	▲ Show 20 Lines • Show All 689 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v13, v1, v5			; GCN-NEXT: v_mul_hi_u32 v13, v1, v5
	; GCN-NEXT: v_mul_hi_u32 v12, v1, v6			; GCN-NEXT: v_mul_hi_u32 v12, v1, v6
	; GCN-NEXT: v_mul_hi_u32 v10, v3, v6			; GCN-NEXT: v_mul_hi_u32 v10, v3, v6
	; GCN-NEXT: v_mul_lo_u32 v6, v3, v6			; GCN-NEXT: v_mul_lo_u32 v6, v3, v6
	; GCN-NEXT: v_mul_hi_u32 v7, v3, v5			; GCN-NEXT: v_mul_hi_u32 v7, v3, v5
	; GCN-NEXT: v_add_i32_e32 v11, vcc, v12, v11			; GCN-NEXT: v_add_i32_e32 v11, vcc, v12, v11
	; GCN-NEXT: v_addc_u32_e32 v12, vcc, v9, v13, vcc			; GCN-NEXT: v_addc_u32_e32 v12, vcc, v9, v13, vcc
	; GCN-NEXT: v_mul_lo_u32 v3, v3, v5			; GCN-NEXT: v_mul_lo_u32 v3, v3, v5
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v11			; GCN-NEXT: v_add_i32_e32 v6, vcc, v11, v6
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v12, v10, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v12, v10, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v8, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v6, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v6, v3
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_addc_u32_e64 v2, vcc, v2, v5, s[2:3]			; GCN-NEXT: v_addc_u32_e64 v2, vcc, v2, v5, s[2:3]
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_mov_b32_e32 v3, s6			; GCN-NEXT: v_mov_b32_e32 v3, s6
	▲ Show 20 Lines • Show All 212 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v6			; GCN-NEXT: v_mul_hi_u32 v12, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v4, v7			; GCN-NEXT: v_mul_hi_u32 v9, v4, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v4, v7			; GCN-NEXT: v_mul_lo_u32 v7, v4, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v4, v6			; GCN-NEXT: v_mul_hi_u32 v8, v4, v6
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v6			; GCN-NEXT: v_mul_lo_u32 v4, v4, v6
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	▲ Show 20 Lines • Show All 253 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_cndmask_b32_e64 v2, v2, 0, s[4:5]			; GCN-IR-NEXT: v_cndmask_b32_e64 v2, v2, 0, s[4:5]
	; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1			; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1
	; GCN-IR-NEXT: s_mov_b32 s9, 0			; GCN-IR-NEXT: s_mov_b32 s9, 0
	; GCN-IR-NEXT: v_mov_b32_e32 v3, v9			; GCN-IR-NEXT: v_mov_b32_e32 v3, v9
	; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc
	; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]			; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB9_6			; GCN-IR-NEXT: s_cbranch_execz BB9_6
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: v_add_i32_e32 v10, vcc, 1, v4			; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, 1, v4
	; GCN-IR-NEXT: v_addc_u32_e32 v11, vcc, 0, v5, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, 0, v5, vcc
	; GCN-IR-NEXT: v_sub_i32_e64 v2, s[4:5], 63, v4			; GCN-IR-NEXT: v_sub_i32_e64 v2, s[4:5], 63, v4
				; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[6:7], v[4:5]
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], s[8:9], v2			; GCN-IR-NEXT: v_lshl_b64 v[2:3], s[8:9], v2
	; GCN-IR-NEXT: v_mov_b32_e32 v6, 0			; GCN-IR-NEXT: v_mov_b32_e32 v4, 0
	; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[10:11], v[4:5]
	; GCN-IR-NEXT: s_mov_b64 s[8:9], 0			; GCN-IR-NEXT: s_mov_b64 s[8:9], 0
	; GCN-IR-NEXT: v_mov_b32_e32 v7, 0			; GCN-IR-NEXT: v_mov_b32_e32 v5, 0
	; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]			; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB9_5			; GCN-IR-NEXT: s_cbranch_execz BB9_5
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: v_add_i32_e32 v4, vcc, -1, v0
	; GCN-IR-NEXT: v_addc_u32_e32 v5, vcc, -1, v1, vcc
	; GCN-IR-NEXT: s_mov_b32 s5, 0			; GCN-IR-NEXT: s_mov_b32 s5, 0
	; GCN-IR-NEXT: s_mov_b32 s4, 0x8000			; GCN-IR-NEXT: s_mov_b32 s4, 0x8000
				; GCN-IR-NEXT: v_lshr_b64 v[10:11], s[4:5], v6
				; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, -1, v0
				; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, -1, v1, vcc
	; GCN-IR-NEXT: v_sub_i32_e32 v8, vcc, 47, v8			; GCN-IR-NEXT: v_sub_i32_e32 v8, vcc, 47, v8
	; GCN-IR-NEXT: v_mov_b32_e32 v12, 0			; GCN-IR-NEXT: v_mov_b32_e32 v12, 0
	; GCN-IR-NEXT: v_lshr_b64 v[10:11], s[4:5], v10
	; GCN-IR-NEXT: v_subb_u32_e32 v9, vcc, 0, v9, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v9, vcc, 0, v9, vcc
	; GCN-IR-NEXT: v_mov_b32_e32 v13, 0			; GCN-IR-NEXT: v_mov_b32_e32 v13, 0
	; GCN-IR-NEXT: BB9_3: ; %udiv-do-while			; GCN-IR-NEXT: BB9_3: ; %udiv-do-while
	; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
	; GCN-IR-NEXT: v_lshl_b64 v[10:11], v[10:11], 1			; GCN-IR-NEXT: v_lshl_b64 v[10:11], v[10:11], 1
	; GCN-IR-NEXT: v_lshrrev_b32_e32 v6, 31, v3			; GCN-IR-NEXT: v_lshrrev_b32_e32 v4, 31, v3
	; GCN-IR-NEXT: v_or_b32_e32 v10, v10, v6			; GCN-IR-NEXT: v_or_b32_e32 v10, v10, v4
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1			; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
	; GCN-IR-NEXT: v_sub_i32_e32 v6, vcc, v4, v10			; GCN-IR-NEXT: v_sub_i32_e32 v4, vcc, v6, v10
	; GCN-IR-NEXT: v_subb_u32_e32 v6, vcc, v5, v11, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v4, vcc, v7, v11, vcc
	; GCN-IR-NEXT: v_or_b32_e32 v2, v12, v2			; GCN-IR-NEXT: v_or_b32_e32 v2, v12, v2
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v12, 31, v6			; GCN-IR-NEXT: v_ashrrev_i32_e32 v12, 31, v4
	; GCN-IR-NEXT: v_and_b32_e32 v15, v12, v0			; GCN-IR-NEXT: v_and_b32_e32 v15, v12, v0
	; GCN-IR-NEXT: v_and_b32_e32 v6, 1, v12			; GCN-IR-NEXT: v_and_b32_e32 v4, 1, v12
	; GCN-IR-NEXT: v_and_b32_e32 v14, v12, v1			; GCN-IR-NEXT: v_and_b32_e32 v14, v12, v1
	; GCN-IR-NEXT: v_add_i32_e32 v12, vcc, 1, v8			; GCN-IR-NEXT: v_add_i32_e32 v12, vcc, 1, v8
	; GCN-IR-NEXT: v_or_b32_e32 v3, v13, v3			; GCN-IR-NEXT: v_or_b32_e32 v3, v13, v3
	; GCN-IR-NEXT: v_addc_u32_e32 v13, vcc, 0, v9, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v13, vcc, 0, v9, vcc
	; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[12:13], v[8:9]			; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[12:13], v[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v8, v12			; GCN-IR-NEXT: v_mov_b32_e32 v8, v12
	; GCN-IR-NEXT: v_mov_b32_e32 v7, 0			; GCN-IR-NEXT: v_mov_b32_e32 v5, 0
	; GCN-IR-NEXT: v_sub_i32_e64 v10, s[4:5], v10, v15			; GCN-IR-NEXT: v_sub_i32_e64 v10, s[4:5], v10, v15
	; GCN-IR-NEXT: v_mov_b32_e32 v9, v13			; GCN-IR-NEXT: v_mov_b32_e32 v9, v13
	; GCN-IR-NEXT: v_mov_b32_e32 v13, v7			; GCN-IR-NEXT: v_mov_b32_e32 v13, v5
	; GCN-IR-NEXT: v_subb_u32_e64 v11, s[4:5], v11, v14, s[4:5]			; GCN-IR-NEXT: v_subb_u32_e64 v11, s[4:5], v11, v14, s[4:5]
	; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]			; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v12, v6			; GCN-IR-NEXT: v_mov_b32_e32 v12, v4
	; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: s_cbranch_execnz BB9_3			; GCN-IR-NEXT: s_cbranch_execnz BB9_3
	; GCN-IR-NEXT: ; %bb.4: ; %Flow			; GCN-IR-NEXT: ; %bb.4: ; %Flow
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: BB9_5: ; %Flow3			; GCN-IR-NEXT: BB9_5: ; %Flow3
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]
	; GCN-IR-NEXT: v_lshl_b64 v[0:1], v[2:3], 1			; GCN-IR-NEXT: v_lshl_b64 v[0:1], v[2:3], 1
	; GCN-IR-NEXT: v_or_b32_e32 v3, v7, v1			; GCN-IR-NEXT: v_or_b32_e32 v3, v5, v1
	; GCN-IR-NEXT: v_or_b32_e32 v2, v6, v0			; GCN-IR-NEXT: v_or_b32_e32 v2, v4, v0
	; GCN-IR-NEXT: BB9_6: ; %Flow4			; GCN-IR-NEXT: BB9_6: ; %Flow4
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, v2			; GCN-IR-NEXT: v_mov_b32_e32 v0, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v1, v3			; GCN-IR-NEXT: v_mov_b32_e32 v1, v3
	; GCN-IR-NEXT: s_setpc_b64 s[30:31]			; GCN-IR-NEXT: s_setpc_b64 s[30:31]
	%result = udiv i64 32768, %x			%result = udiv i64 32768, %x
	ret i64 %result			ret i64 %result
	}			}
	▲ Show 20 Lines • Show All 139 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v9, v0, v6			; GCN-NEXT: v_mul_hi_u32 v9, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v10, v0, v4			; GCN-NEXT: v_mul_hi_u32 v10, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v11, v2, v4			; GCN-NEXT: v_mul_hi_u32 v11, v2, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v9, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v9, v5
	; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v10, vcc			; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v10, vcc
	; GCN-NEXT: v_mul_lo_u32 v10, v2, v6			; GCN-NEXT: v_mul_lo_u32 v10, v2, v6
	; GCN-NEXT: v_mul_hi_u32 v6, v2, v6			; GCN-NEXT: v_mul_hi_u32 v6, v2, v6
	; GCN-NEXT: v_mul_lo_u32 v2, v2, v4			; GCN-NEXT: v_mul_lo_u32 v2, v2, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v10, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v10
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v6, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v11, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v11, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v11, v2, v8			; GCN-NEXT: v_mul_hi_u32 v11, v2, v8
	; GCN-NEXT: v_mul_hi_u32 v12, v2, v6			; GCN-NEXT: v_mul_hi_u32 v12, v2, v6
	; GCN-NEXT: v_mul_hi_u32 v13, v4, v6			; GCN-NEXT: v_mul_hi_u32 v13, v4, v6
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v11, v7			; GCN-NEXT: v_add_i32_e32 v7, vcc, v11, v7
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v10, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v10, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v12, v4, v8			; GCN-NEXT: v_mul_lo_u32 v12, v4, v8
	; GCN-NEXT: v_mul_hi_u32 v8, v4, v8			; GCN-NEXT: v_mul_hi_u32 v8, v4, v8
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v6			; GCN-NEXT: v_mul_lo_u32 v4, v4, v6
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v12, v7			; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v12
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v8, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v13, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v13, v9, vcc
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v10, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v10, v6, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[4:5]			; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[4:5]
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	▲ Show 20 Lines • Show All 325 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/urem64.ll

	Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v6			; GCN-NEXT: v_mul_hi_u32 v12, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v4, v7			; GCN-NEXT: v_mul_hi_u32 v9, v4, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v4, v7			; GCN-NEXT: v_mul_lo_u32 v7, v4, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v4, v6			; GCN-NEXT: v_mul_hi_u32 v8, v4, v6
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v6			; GCN-NEXT: v_mul_lo_u32 v4, v4, v6
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	▲ Show 20 Lines • Show All 725 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v12, v0, v6			; GCN-NEXT: v_mul_hi_u32 v12, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v11, v0, v7			; GCN-NEXT: v_mul_hi_u32 v11, v0, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v4, v7			; GCN-NEXT: v_mul_hi_u32 v9, v4, v7
	; GCN-NEXT: v_mul_lo_u32 v7, v4, v7			; GCN-NEXT: v_mul_lo_u32 v7, v4, v7
	; GCN-NEXT: v_mul_hi_u32 v8, v4, v6			; GCN-NEXT: v_mul_hi_u32 v8, v4, v6
	; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_i32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc			; GCN-NEXT: v_addc_u32_e32 v11, vcc, v2, v12, vcc
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v6			; GCN-NEXT: v_mul_lo_u32 v4, v4, v6
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, v10, v7
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, v11, v9, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v8, v1, vcc
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v7, v4
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, v2, v6, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v3, vcc, v3, v6, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	▲ Show 20 Lines • Show All 185 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_hi_u32 v9, v0, v6			; GCN-NEXT: v_mul_hi_u32 v9, v0, v6
	; GCN-NEXT: v_mul_hi_u32 v10, v0, v4			; GCN-NEXT: v_mul_hi_u32 v10, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v11, v2, v4			; GCN-NEXT: v_mul_hi_u32 v11, v2, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v9, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v9, v5
	; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v10, vcc			; GCN-NEXT: v_addc_u32_e32 v9, vcc, v8, v10, vcc
	; GCN-NEXT: v_mul_lo_u32 v10, v2, v6			; GCN-NEXT: v_mul_lo_u32 v10, v2, v6
	; GCN-NEXT: v_mul_hi_u32 v6, v2, v6			; GCN-NEXT: v_mul_hi_u32 v6, v2, v6
	; GCN-NEXT: v_mul_lo_u32 v2, v2, v4			; GCN-NEXT: v_mul_lo_u32 v2, v2, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v10, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v10
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v9, v6, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v11, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v11, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]			; GCN-NEXT: v_addc_u32_e64 v1, vcc, v1, v4, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	▲ Show 20 Lines • Show All 256 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_cndmask_b32_e64 v4, v4, 0, s[4:5]			; GCN-IR-NEXT: v_cndmask_b32_e64 v4, v4, 0, s[4:5]
	; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1			; GCN-IR-NEXT: s_xor_b64 s[4:5], s[4:5], -1
	; GCN-IR-NEXT: s_mov_b32 s9, 0			; GCN-IR-NEXT: s_mov_b32 s9, 0
	; GCN-IR-NEXT: v_mov_b32_e32 v5, v9			; GCN-IR-NEXT: v_mov_b32_e32 v5, v9
	; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc			; GCN-IR-NEXT: s_and_b64 s[4:5], s[4:5], vcc
	; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]			; GCN-IR-NEXT: s_and_saveexec_b64 s[6:7], s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB8_6			; GCN-IR-NEXT: s_cbranch_execz BB8_6
	; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1			; GCN-IR-NEXT: ; %bb.1: ; %udiv-bb1
	; GCN-IR-NEXT: v_add_i32_e32 v4, vcc, 1, v2			; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, 1, v2
	; GCN-IR-NEXT: v_addc_u32_e32 v5, vcc, 0, v3, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, 0, v3, vcc
	; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[4:5], v[2:3]			; GCN-IR-NEXT: v_cmp_ge_u64_e32 vcc, v[6:7], v[2:3]
	; GCN-IR-NEXT: v_sub_i32_e64 v2, s[4:5], 63, v2			; GCN-IR-NEXT: v_sub_i32_e64 v2, s[4:5], 63, v2
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], s[8:9], v2			; GCN-IR-NEXT: v_lshl_b64 v[2:3], s[8:9], v2
	; GCN-IR-NEXT: v_mov_b32_e32 v6, 0			; GCN-IR-NEXT: v_mov_b32_e32 v4, 0
	; GCN-IR-NEXT: s_mov_b64 s[8:9], 0			; GCN-IR-NEXT: s_mov_b64 s[8:9], 0
	; GCN-IR-NEXT: v_mov_b32_e32 v7, 0			; GCN-IR-NEXT: v_mov_b32_e32 v5, 0
	; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GCN-IR-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]			; GCN-IR-NEXT: s_xor_b64 s[10:11], exec, s[4:5]
	; GCN-IR-NEXT: s_cbranch_execz BB8_5			; GCN-IR-NEXT: s_cbranch_execz BB8_5
	; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader			; GCN-IR-NEXT: ; %bb.2: ; %udiv-preheader
	; GCN-IR-NEXT: s_mov_b32 s5, 0			; GCN-IR-NEXT: s_mov_b32 s5, 0
	; GCN-IR-NEXT: s_mov_b32 s4, 0x8000			; GCN-IR-NEXT: s_mov_b32 s4, 0x8000
	; GCN-IR-NEXT: v_lshr_b64 v[10:11], s[4:5], v4			; GCN-IR-NEXT: v_lshr_b64 v[10:11], s[4:5], v6
	; GCN-IR-NEXT: v_add_i32_e32 v4, vcc, -1, v0			; GCN-IR-NEXT: v_add_i32_e32 v6, vcc, -1, v0
	; GCN-IR-NEXT: v_addc_u32_e32 v5, vcc, -1, v1, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v7, vcc, -1, v1, vcc
	; GCN-IR-NEXT: v_sub_i32_e32 v8, vcc, 47, v8			; GCN-IR-NEXT: v_sub_i32_e32 v8, vcc, 47, v8
	; GCN-IR-NEXT: v_mov_b32_e32 v12, 0			; GCN-IR-NEXT: v_mov_b32_e32 v12, 0
	; GCN-IR-NEXT: v_subb_u32_e32 v9, vcc, 0, v9, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v9, vcc, 0, v9, vcc
	; GCN-IR-NEXT: v_mov_b32_e32 v13, 0			; GCN-IR-NEXT: v_mov_b32_e32 v13, 0
	; GCN-IR-NEXT: BB8_3: ; %udiv-do-while			; GCN-IR-NEXT: BB8_3: ; %udiv-do-while
	; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-IR-NEXT: ; =>This Inner Loop Header: Depth=1
	; GCN-IR-NEXT: v_lshl_b64 v[10:11], v[10:11], 1			; GCN-IR-NEXT: v_lshl_b64 v[10:11], v[10:11], 1
	; GCN-IR-NEXT: v_lshrrev_b32_e32 v6, 31, v3			; GCN-IR-NEXT: v_lshrrev_b32_e32 v4, 31, v3
	; GCN-IR-NEXT: v_or_b32_e32 v10, v10, v6			; GCN-IR-NEXT: v_or_b32_e32 v10, v10, v4
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1			; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
	; GCN-IR-NEXT: v_sub_i32_e32 v6, vcc, v4, v10			; GCN-IR-NEXT: v_sub_i32_e32 v4, vcc, v6, v10
	; GCN-IR-NEXT: v_subb_u32_e32 v6, vcc, v5, v11, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v4, vcc, v7, v11, vcc
	; GCN-IR-NEXT: v_or_b32_e32 v2, v12, v2			; GCN-IR-NEXT: v_or_b32_e32 v2, v12, v2
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v12, 31, v6			; GCN-IR-NEXT: v_ashrrev_i32_e32 v12, 31, v4
	; GCN-IR-NEXT: v_and_b32_e32 v15, v12, v0			; GCN-IR-NEXT: v_and_b32_e32 v15, v12, v0
	; GCN-IR-NEXT: v_and_b32_e32 v6, 1, v12			; GCN-IR-NEXT: v_and_b32_e32 v4, 1, v12
	; GCN-IR-NEXT: v_and_b32_e32 v14, v12, v1			; GCN-IR-NEXT: v_and_b32_e32 v14, v12, v1
	; GCN-IR-NEXT: v_add_i32_e32 v12, vcc, 1, v8			; GCN-IR-NEXT: v_add_i32_e32 v12, vcc, 1, v8
	; GCN-IR-NEXT: v_or_b32_e32 v3, v13, v3			; GCN-IR-NEXT: v_or_b32_e32 v3, v13, v3
	; GCN-IR-NEXT: v_addc_u32_e32 v13, vcc, 0, v9, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v13, vcc, 0, v9, vcc
	; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[12:13], v[8:9]			; GCN-IR-NEXT: v_cmp_lt_u64_e32 vcc, v[12:13], v[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v8, v12			; GCN-IR-NEXT: v_mov_b32_e32 v8, v12
	; GCN-IR-NEXT: v_mov_b32_e32 v7, 0			; GCN-IR-NEXT: v_mov_b32_e32 v5, 0
	; GCN-IR-NEXT: v_sub_i32_e64 v10, s[4:5], v10, v15			; GCN-IR-NEXT: v_sub_i32_e64 v10, s[4:5], v10, v15
	; GCN-IR-NEXT: v_mov_b32_e32 v9, v13			; GCN-IR-NEXT: v_mov_b32_e32 v9, v13
	; GCN-IR-NEXT: v_mov_b32_e32 v13, v7			; GCN-IR-NEXT: v_mov_b32_e32 v13, v5
	; GCN-IR-NEXT: v_subb_u32_e64 v11, s[4:5], v11, v14, s[4:5]			; GCN-IR-NEXT: v_subb_u32_e64 v11, s[4:5], v11, v14, s[4:5]
	; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]			; GCN-IR-NEXT: s_or_b64 s[8:9], vcc, s[8:9]
	; GCN-IR-NEXT: v_mov_b32_e32 v12, v6			; GCN-IR-NEXT: v_mov_b32_e32 v12, v4
	; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_andn2_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: s_cbranch_execnz BB8_3			; GCN-IR-NEXT: s_cbranch_execnz BB8_3
	; GCN-IR-NEXT: ; %bb.4: ; %Flow			; GCN-IR-NEXT: ; %bb.4: ; %Flow
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[8:9]
	; GCN-IR-NEXT: BB8_5: ; %Flow3			; GCN-IR-NEXT: BB8_5: ; %Flow3
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[10:11]
	; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1			; GCN-IR-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
	; GCN-IR-NEXT: v_or_b32_e32 v5, v7, v3			; GCN-IR-NEXT: v_or_b32_e32 v5, v5, v3
	; GCN-IR-NEXT: v_or_b32_e32 v4, v6, v2			; GCN-IR-NEXT: v_or_b32_e32 v4, v4, v2
	; GCN-IR-NEXT: BB8_6: ; %Flow4			; GCN-IR-NEXT: BB8_6: ; %Flow4
	; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]			; GCN-IR-NEXT: s_or_b64 exec, exec, s[6:7]
	; GCN-IR-NEXT: v_mul_lo_u32 v2, v0, v5			; GCN-IR-NEXT: v_mul_lo_u32 v2, v0, v5
	; GCN-IR-NEXT: v_mul_hi_u32 v3, v0, v4			; GCN-IR-NEXT: v_mul_hi_u32 v3, v0, v4
	; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, v4			; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, v4
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, v4			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, v4
	; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	▲ Show 20 Lines • Show All 321 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/usubo.ll

Show First 20 Lines • Show All 171 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_usubo_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> addrspace(1)* %carryout, <2 x i32> addrspace(1)* %aptr, <2 x i32> addrspace(1)* %bptr) nounwind {
%carry = extractvalue { <2 x i32>, <2 x i1> } %sadd, 1		%carry = extractvalue { <2 x i32>, <2 x i1> } %sadd, 1
store <2 x i32> %val, <2 x i32> addrspace(1)* %out, align 4		store <2 x i32> %val, <2 x i32> addrspace(1)* %out, align 4
%carry.ext = zext <2 x i1> %carry to <2 x i32>		%carry.ext = zext <2 x i1> %carry to <2 x i32>
store <2 x i32> %carry.ext, <2 x i32> addrspace(1)* %carryout		store <2 x i32> %carry.ext, <2 x i32> addrspace(1)* %carryout
ret void		ret void
}		}

; FUNC-LABEL: {{^}}s_usubo_clamp_bit:		; FUNC-LABEL: {{^}}s_usubo_clamp_bit:
; GCN: v_sub_{{i\|u\|co_u}}32_e32		; GCN: s_sub_i32
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @s_usubo_clamp_bit(i32 addrspace(1)* %out, i1 addrspace(1)* %carryout, i32 %a, i32 %b) #0 {		define amdgpu_kernel void @s_usubo_clamp_bit(i32 addrspace(1)* %out, i1 addrspace(1)* %carryout, i32 %a, i32 %b) #0 {
entry:		entry:
%usub = call { i32, i1 } @llvm.usub.with.overflow.i32(i32 %a, i32 %b)		%usub = call { i32, i1 } @llvm.usub.with.overflow.i32(i32 %a, i32 %b)
%val = extractvalue { i32, i1 } %usub, 0		%val = extractvalue { i32, i1 } %usub, 0
%carry = extractvalue { i32, i1 } %usub, 1		%carry = extractvalue { i32, i1 } %usub, 1
%c2 = icmp eq i1 %carry, false		%c2 = icmp eq i1 %carry, false
%cc = icmp eq i32 %a, %b		%cc = icmp eq i32 %a, %b
▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines