This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
include/llvm/CodeGen/
-
llvm/
-
CodeGen/
-
TargetInstrInfo.h
-
lib/CodeGen/
-
CodeGen/
-
MachineSink.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
sdiv.i64.ll
-
srem.i64.ll
-
udiv.i64.ll
-
urem.i64.ll
-
frame-index-elimination.ll
-
machine-sink-ignorable-exec-use.mir
-
mul24-pass-ordering.ll
-
skip-if-dead.ll
-
stack-pointer-offset-relative-frameindex.ll

Differential D116053

[MachineSink] Allow sinking of constant or ignorable physreg uses
ClosedPublic

Authored by vangthao on Dec 20 2021, 12:33 PM.

Download Raw Diff

Details

Reviewers

shchenz
qcolombet
MatzeB
efriedma
rampitec
arsenm

Summary

For AMDGPU, any use of the physical register EXEC prevents sinking even if it is not a real physical register read. Add check to see if a physical
register use can be ignored for sinking.

Also perform same constant and ignorable physical register check when considering sinking in loops.

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	80 ms	x64 debian > LLVM.Bindings/Go::go.test

Event Timeline

vangthao created this revision.Dec 20 2021, 12:33 PM

Herald added subscribers: kerbowa, arphaman, hiraditya and 3 others. · View Herald TranscriptDec 20 2021, 12:33 PM

vangthao requested review of this revision.Dec 20 2021, 12:33 PM

Herald added a project: Restricted Project. · View Herald TranscriptDec 20 2021, 12:33 PM

Herald added a subscriber: llvm-commits. · View Herald Transcript

vangthao added reviewers: shchenz, qcolombet, MatzeB, efriedma, rampitec, arsenm.Dec 20 2021, 12:35 PM

Herald added a subscriber: wdng. · View Herald TranscriptDec 20 2021, 12:35 PM

I am not sure I can prove to myself this is legal. For example you are sinking a def into a loop with divergent condition and this def is used after the loop. Can this happen? If so a def might be done with an exec smaller than a use which creates an undef. Hoisting was OK because def was moved into a direction where exec is strictly not less than before. Did you run PSDB on it?

Harbormaster completed remote builds in B140128: Diff 395511.Dec 20 2021, 1:54 PM

In D116053#3203538, @rampitec wrote:

I am not sure I can prove to myself this is legal. For example you are sinking a def into a loop with divergent condition and this def is used after the loop. Can this happen?

If SuccToSinkTo exists, all uses of the def must be dominated by block SuccToSinkTo. So I think it is ok to do the sinking.

isConstantPhysReg() seems ok as any def to such register has no meaning.

Better let an AMDGPU expert have a look especially at the code gen changes.

In D116053#3203538, @rampitec wrote:

I am not sure I can prove to myself this is legal. For example you are sinking a def into a loop with divergent condition and this def is used after the loop. Can this happen? If so a def might be done with an exec smaller than a use which creates an undef. Hoisting was OK because def was moved into a direction where exec is strictly not less than before. Did you run PSDB on it?

It's ok to sink a def with a smaller exec set as long as the use set is still a subset of the new def point exec

In D116053#3203538, @rampitec wrote:

I am not sure I can prove to myself this is legal. For example you are sinking a def into a loop with divergent condition and this def is used after the loop. Can this happen? If so a def might be done with an exec smaller than a use which creates an undef. Hoisting was OK because def was moved into a direction where exec is strictly not less than before. Did you run PSDB on it?

I believe the requirement for defs to dominate all uses prevents this from happening but I can add more test cases to check for this. This passed PSDB.

In D116053#3205007, @vangthao wrote:

In D116053#3203538, @rampitec wrote:

I am not sure I can prove to myself this is legal. For example you are sinking a def into a loop with divergent condition and this def is used after the loop. Can this happen? If so a def might be done with an exec smaller than a use which creates an undef. Hoisting was OK because def was moved into a direction where exec is strictly not less than before. Did you run PSDB on it?

I believe the requirement for defs to dominate all uses prevents this from happening but I can add more test cases to check for this. This passed PSDB.

IR is essentially a single thread representation. The implicit exec use is our way to model mutithreaded divergence. Consider this transformation which shall now become legal:

int lid = get_local_id(0);      int lid = get_local_id(0);
int i = 0;                      int i = 0;
x = def();                      do {
do {                        =>    x = def();
  use1(x);                        use1(x);
} while(i++ < lid);             } while(i++ < lid);
use2(x);                        use2(x);

def dominates use2 in both cases, but in the second case not with every lane. All lanes except first will use an undef.

IR is essentially a single thread representation. The implicit exec use is our way to model mutithreaded divergence. Consider this transformation which shall now become legal:
int lid = get_local_id(0);      int lid = get_local_id(0);
int i = 0;                      int i = 0;
x = def();                      do {
do {                        =>    x = def();
  use1(x);                        use1(x);
} while(i++ < lid);             } while(i++ < lid);
use2(x);                        use2(x);
def dominates use2 in both cases, but in the second case not with every lane. All lanes except first will use an undef.

We will not sink into a loop if the def is outside of the loop. In the test case loop_sink_fmac, the def was already in a loop and was why it was able to be sinked.

In D116053#3205477, @vangthao wrote:
IR is essentially a single thread representation. The implicit exec use is our way to model mutithreaded divergence. Consider this transformation which shall now become legal:
int lid = get_local_id(0);      int lid = get_local_id(0);
int i = 0;                      int i = 0;
x = def();                      do {
do {                        =>    x = def();
  use1(x);                        use1(x);
} while(i++ < lid);             } while(i++ < lid);
use2(x);                        use2(x);
def dominates use2 in both cases, but in the second case not with every lane. All lanes except first will use an undef.
We will not sink into a loop if the def is outside of the loop. In the test case loop_sink_fmac, the def was already in a loop and was why it was able to be sinked.

If you are sure then it is OK. Note my example was with a loop which is guaranteed to execute at least one iteration. @arsenm ?

Changed name of some tests for better clarity. Added more negative test cases.

Harbormaster completed remote builds in B140319: Diff 395768.Dec 21 2021, 5:15 PM

lkail added a subscriber: lkail.Dec 21 2021, 7:36 PM

LGTM given the new tests.

This revision is now accepted and ready to land.Dec 22 2021, 11:28 AM

vangthao mentioned this in rG10ed1eca241f: [MachineSink] Allow sinking of constant or ignorable physreg uses.Jan 18 2022, 6:19 AM

Committed rG10ed1eca241f893085b8db40138e588e72aaee3a

This change seems to sink v_cmp instructions, which creates different results if the exec mask changed and that makes several Vulkan tests fail.
I put a reproducer here: https://gist.github.com/Flakebi/fd1d91a806b60ec330e9f61e19fe62ac
Compile with llc -mtriple=amdgcn--amdpal -mcpu=gfx1010 -verify-machineinstrs -start-before=machine-sink -stop-after=machine-sink PipelineVsFs_0xDD57C231E25DA514.mir -o PipelineVsFs_0xDD57C231E25DA514-after.mir
and the %104:sreg_64 = V_CMP_NE_U32_e64 %89, %101, implicit $exec instruction will be sunk from bb.5 into bb.6. For reference, the pipeline is from the dEQP-VK.subgroups.arithmetic.framebuffer.subgroupexclusiveadd_float_vertex CTS test.

In D116053#3255695, @sebastian-ne wrote:

This change seems to sink v_cmp instructions, which creates different results if the exec mask changed and that makes several Vulkan tests fail.
I put a reproducer here: https://gist.github.com/Flakebi/fd1d91a806b60ec330e9f61e19fe62ac
Compile with llc -mtriple=amdgcn--amdpal -mcpu=gfx1010 -verify-machineinstrs -start-before=machine-sink -stop-after=machine-sink PipelineVsFs_0xDD57C231E25DA514.mir -o PipelineVsFs_0xDD57C231E25DA514-after.mir
and the %104:sreg_64 = V_CMP_NE_U32_e64 %89, %101, implicit $exec instruction will be sunk from bb.5 into bb.6. For reference, the pipeline is from the dEQP-VK.subgroups.arithmetic.framebuffer.subgroupexclusiveadd_float_vertex CTS test.

Does this help?

diff --git a/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp b/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp
index 88996f455227..0678ceeeea21 100644
--- a/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp
+++ b/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp
@@ -130,10 +130,29 @@ bool SIInstrInfo::isReallyTriviallyReMaterializable(const MachineInstr &MI,
   return false;
 }

+static bool readsExecAsData(const MachineInstr &MI) {
+  if (MI.isCompare())
+    return true;
+
+  switch (MI.getOpcode()) {
+  default:
+    break;
+  case AMDGPU::V_READFIRSTLANE_B32:
+  case AMDGPU::V_CNDMASK_B64_PSEUDO:
+  case AMDGPU::V_CNDMASK_B32_dpp:
+  case AMDGPU::V_CNDMASK_B32_e32:
+  case AMDGPU::V_CNDMASK_B32_e64:
+  case AMDGPU::V_CNDMASK_B32_sdwa:
+    return true;
+  }
+
+  return false;
+}
+
 bool SIInstrInfo::isIgnorableUse(const MachineOperand &MO) const {
   // Any implicit use of exec by VALU is not a real register read.
   return MO.getReg() == AMDGPU::EXEC && MO.isImplicit() &&
-         isVALU(*MO.getParent());
+         isVALU(*MO.getParent()) && !readsExecAsData(*MO.getParent());
 }

 bool SIInstrInfo::areLoadsFromSameBasePtr(SDNode *Load0, SDNode *Load1,

Another, shorter, approach may be:

diff --git a/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp b/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp
index 88996f455227..f85a71941e66 100644
--- a/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp
+++ b/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp
@@ -132,8 +132,10 @@ bool SIInstrInfo::isReallyTriviallyReMaterializable(const MachineInstr &MI,

 bool SIInstrInfo::isIgnorableUse(const MachineOperand &MO) const {
   // Any implicit use of exec by VALU is not a real register read.
+  // isRematerializable check excludes instructions reading EXEC as data,
+  // such as compares, v_cndmask_b32, and readfirstlane.
   return MO.getReg() == AMDGPU::EXEC && MO.isImplicit() &&
-         isVALU(*MO.getParent());
+         isVALU(*MO.getParent()) && MO.getParent()->isRematerializable();
 }

 bool SIInstrInfo::areLoadsFromSameBasePtr(SDNode *Load0, SDNode *Load1,

Both patches seem to fix the bug

In D116053#3257476, @sebastian-ne wrote:

Both patches seem to fix the bug

D117814

rampitec mentioned this in D117814: [AMDGPU] Do not ignore exec use where exec is read as data.Jan 21 2022, 9:14 AM

ruiling mentioned this in D117909: [AMDGPU] Remove cndmask from readsExecAsData.Jan 24 2022, 12:16 AM

Revision Contents

Path

Size

llvm/

include/

llvm/

CodeGen/

TargetInstrInfo.h

2 lines

lib/

CodeGen/

MachineSink.cpp

11 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

220 lines

234 lines

280 lines

274 lines

frame-index-elimination.ll

14 lines

machine-sink-ignorable-exec-use.mir

734 lines

mul24-pass-ordering.ll

20 lines

skip-if-dead.ll

18 lines

stack-pointer-offset-relative-frameindex.ll

8 lines

Diff 395768

llvm/include/llvm/CodeGen/TargetInstrInfo.h

Show First 20 Lines • Show All 124 Lines • ▼ Show 20 Lines	bool isTriviallyReMaterializable(const MachineInstr &MI,
AAResults *AA = nullptr) const {		AAResults *AA = nullptr) const {
return MI.getOpcode() == TargetOpcode::IMPLICIT_DEF \|\|		return MI.getOpcode() == TargetOpcode::IMPLICIT_DEF \|\|
(MI.getDesc().isRematerializable() &&		(MI.getDesc().isRematerializable() &&
(isReallyTriviallyReMaterializable(MI, AA) \|\|		(isReallyTriviallyReMaterializable(MI, AA) \|\|
isReallyTriviallyReMaterializableGeneric(MI, AA)));		isReallyTriviallyReMaterializableGeneric(MI, AA)));
}		}

/// Given \p MO is a PhysReg use return if it can be ignored for the purpose		/// Given \p MO is a PhysReg use return if it can be ignored for the purpose
/// of instruction rematerialization.		/// of instruction rematerialization or sinking.
virtual bool isIgnorableUse(const MachineOperand &MO) const {		virtual bool isIgnorableUse(const MachineOperand &MO) const {
return false;		return false;
}		}

protected:		protected:
/// For instructions with opcodes for which the M_REMATERIALIZABLE flag is		/// For instructions with opcodes for which the M_REMATERIALIZABLE flag is
/// set, this hook lets the target specify whether the instruction is actually		/// set, this hook lets the target specify whether the instruction is actually
/// trivially rematerializable, taking into consideration its operands. This		/// trivially rematerializable, taking into consideration its operands. This
▲ Show 20 Lines • Show All 1,895 Lines • Show Last 20 Lines

llvm/lib/CodeGen/MachineSink.cpp

Show First 20 Lines • Show All 790 Lines • ▼ Show 20 Lines	bool MachineSinking::isProfitableToSinkTo(Register Reg, MachineInstr &MI,
for (const MachineOperand &MO : MI.operands()) {		for (const MachineOperand &MO : MI.operands()) {
// Ignore non-register operands.		// Ignore non-register operands.
if (!MO.isReg())		if (!MO.isReg())
continue;		continue;
Register Reg = MO.getReg();		Register Reg = MO.getReg();
if (Reg == 0)		if (Reg == 0)
continue;		continue;

// Don't handle physical register.		if (Register::isPhysicalRegister(Reg)) {
if (Register::isPhysicalRegister(Reg))		if (MO.isUse() &&
		(MRI->isConstantPhysReg(Reg) \|\| TII->isIgnorableUse(MO)))
		continue;

		// Don't handle non-constant and non-ignorable physical register.
return false;		return false;
		}

// Users for the defs are all dominated by SuccToSinkTo.		// Users for the defs are all dominated by SuccToSinkTo.
if (MO.isDef()) {		if (MO.isDef()) {
// This def register's live range is shortened after sinking.		// This def register's live range is shortened after sinking.
bool LocalUse = false;		bool LocalUse = false;
if (!AllUsesDominatedByBlock(Reg, SuccToSinkTo, MBB, BreakPHIEdge,		if (!AllUsesDominatedByBlock(Reg, SuccToSinkTo, MBB, BreakPHIEdge,
LocalUse))		LocalUse))
return false;		return false;
▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines	for (const MachineOperand &MO : MI.operands()) {
Register Reg = MO.getReg();		Register Reg = MO.getReg();
if (Reg == 0) continue;		if (Reg == 0) continue;

if (Register::isPhysicalRegister(Reg)) {		if (Register::isPhysicalRegister(Reg)) {
if (MO.isUse()) {		if (MO.isUse()) {
// If the physreg has no defs anywhere, it's just an ambient register		// If the physreg has no defs anywhere, it's just an ambient register
// and we can freely move its uses. Alternatively, if it's allocatable,		// and we can freely move its uses. Alternatively, if it's allocatable,
// it could get allocated to something with a def during allocation.		// it could get allocated to something with a def during allocation.
if (!MRI->isConstantPhysReg(Reg))		if (!MRI->isConstantPhysReg(Reg) && !TII->isIgnorableUse(MO))
return nullptr;		return nullptr;
} else if (!MO.isDead()) {		} else if (!MO.isDead()) {
// A def that isn't dead. We can't move it.		// A def that isn't dead. We can't move it.
return nullptr;		return nullptr;
}		}
} else {		} else {
// Virtual register uses are always safe to sink.		// Virtual register uses are always safe to sink.
if (MO.isUse()) continue;		if (MO.isUse()) continue;
▲ Show 20 Lines • Show All 919 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/sdiv.i64.ll

	Show First 20 Lines • Show All 2,950 Lines • ▼ Show 20 Lines
	; GISEL-NEXT: v_xor_b32_e32 v3, v3, v4			; GISEL-NEXT: v_xor_b32_e32 v3, v3, v4
	; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v2, v4			; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v2, v4
	; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc			; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc
	; GISEL-NEXT: s_setpc_b64 s[30:31]			; GISEL-NEXT: s_setpc_b64 s[30:31]
	;			;
	; CGP-LABEL: v_sdiv_v2i64_pow2_shl_denom:			; CGP-LABEL: v_sdiv_v2i64_pow2_shl_denom:
	; CGP: ; %bb.0:			; CGP: ; %bb.0:
	; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CGP-NEXT: s_mov_b64 s[4:5], 0x1000			; CGP-NEXT: s_mov_b64 s[6:7], 0x1000
	; CGP-NEXT: v_mov_b32_e32 v5, v2			; CGP-NEXT: v_mov_b32_e32 v5, v2
	; CGP-NEXT: v_mov_b32_e32 v7, v3			; CGP-NEXT: v_mov_b32_e32 v7, v3
	; CGP-NEXT: v_lshl_b64 v[2:3], s[4:5], v4			; CGP-NEXT: v_lshl_b64 v[2:3], s[6:7], v4
	; CGP-NEXT: v_mov_b32_e32 v9, v1			; CGP-NEXT: v_mov_b32_e32 v9, v1
	; CGP-NEXT: v_mov_b32_e32 v8, v0			; CGP-NEXT: v_mov_b32_e32 v8, v0
	; CGP-NEXT: v_or_b32_e32 v1, v9, v3			; CGP-NEXT: v_or_b32_e32 v1, v9, v3
	; CGP-NEXT: v_mov_b32_e32 v0, 0			; CGP-NEXT: v_mov_b32_e32 v0, 0
	; CGP-NEXT: v_lshl_b64 v[10:11], s[4:5], v6
	; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]			; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]
	; CGP-NEXT: ; implicit-def: $vgpr0_vgpr1			; CGP-NEXT: ; implicit-def: $vgpr0_vgpr1
	; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc			; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]			; CGP-NEXT: s_xor_b64 s[8:9], exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_2			; CGP-NEXT: s_cbranch_execz .LBB8_2
	; CGP-NEXT: ; %bb.1:			; CGP-NEXT: ; %bb.1:
	; CGP-NEXT: v_ashrrev_i32_e32 v0, 31, v3			; CGP-NEXT: v_ashrrev_i32_e32 v0, 31, v3
	; CGP-NEXT: v_add_i32_e32 v1, vcc, v2, v0			; CGP-NEXT: v_add_i32_e32 v1, vcc, v2, v0
	; CGP-NEXT: v_addc_u32_e32 v2, vcc, v3, v0, vcc			; CGP-NEXT: v_addc_u32_e32 v2, vcc, v3, v0, vcc
	; CGP-NEXT: v_xor_b32_e32 v1, v1, v0			; CGP-NEXT: v_xor_b32_e32 v1, v1, v0
	; CGP-NEXT: v_xor_b32_e32 v2, v2, v0			; CGP-NEXT: v_xor_b32_e32 v2, v2, v0
	; CGP-NEXT: v_cvt_f32_u32_e32 v3, v1			; CGP-NEXT: v_cvt_f32_u32_e32 v3, v1
	; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2			; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2
	; CGP-NEXT: v_ashrrev_i32_e32 v6, 31, v9			; CGP-NEXT: v_ashrrev_i32_e32 v10, 31, v9
	; CGP-NEXT: v_mac_f32_e32 v3, 0x4f800000, v4			; CGP-NEXT: v_mac_f32_e32 v3, 0x4f800000, v4
	; CGP-NEXT: v_rcp_iflag_f32_e32 v3, v3			; CGP-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v8, v6			; CGP-NEXT: v_add_i32_e32 v4, vcc, v8, v10
	; CGP-NEXT: v_addc_u32_e32 v8, vcc, v9, v6, vcc			; CGP-NEXT: v_addc_u32_e32 v8, vcc, v9, v10, vcc
	; CGP-NEXT: v_mul_f32_e32 v3, 0x5f7ffffc, v3			; CGP-NEXT: v_mul_f32_e32 v3, 0x5f7ffffc, v3
	; CGP-NEXT: v_mul_f32_e32 v9, 0x2f800000, v3			; CGP-NEXT: v_mul_f32_e32 v9, 0x2f800000, v3
	; CGP-NEXT: v_trunc_f32_e32 v9, v9			; CGP-NEXT: v_trunc_f32_e32 v9, v9
	; CGP-NEXT: v_mac_f32_e32 v3, 0xcf800000, v9			; CGP-NEXT: v_mac_f32_e32 v3, 0xcf800000, v9
	; CGP-NEXT: v_cvt_u32_f32_e32 v3, v3			; CGP-NEXT: v_cvt_u32_f32_e32 v3, v3
	; CGP-NEXT: v_cvt_u32_f32_e32 v9, v9			; CGP-NEXT: v_cvt_u32_f32_e32 v9, v9
	; CGP-NEXT: v_sub_i32_e32 v12, vcc, 0, v1			; CGP-NEXT: v_sub_i32_e32 v11, vcc, 0, v1
	; CGP-NEXT: v_subb_u32_e32 v13, vcc, 0, v2, vcc			; CGP-NEXT: v_subb_u32_e32 v12, vcc, 0, v2, vcc
	; CGP-NEXT: v_mul_lo_u32 v14, v13, v3			; CGP-NEXT: v_mul_lo_u32 v13, v12, v3
	; CGP-NEXT: v_mul_lo_u32 v15, v12, v9			; CGP-NEXT: v_mul_lo_u32 v14, v11, v9
	; CGP-NEXT: v_mul_hi_u32 v17, v12, v3			; CGP-NEXT: v_mul_hi_u32 v16, v11, v3
	; CGP-NEXT: v_mul_lo_u32 v16, v12, v3			; CGP-NEXT: v_mul_lo_u32 v15, v11, v3
	; CGP-NEXT: v_xor_b32_e32 v4, v4, v6			; CGP-NEXT: v_xor_b32_e32 v4, v4, v10
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v15			; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14
				; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v16
				; CGP-NEXT: v_mul_lo_u32 v14, v9, v15
				; CGP-NEXT: v_mul_lo_u32 v16, v3, v13
				; CGP-NEXT: v_mul_hi_u32 v17, v3, v15
				; CGP-NEXT: v_mul_hi_u32 v15, v9, v15
				; CGP-NEXT: v_xor_b32_e32 v8, v8, v10
				; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v16
				; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v17			; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v17
	; CGP-NEXT: v_mul_lo_u32 v15, v9, v16			; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_mul_lo_u32 v17, v3, v14			; CGP-NEXT: v_mul_lo_u32 v17, v9, v13
	; CGP-NEXT: v_mul_hi_u32 v18, v3, v16			; CGP-NEXT: v_add_i32_e32 v14, vcc, v16, v14
	; CGP-NEXT: v_mul_hi_u32 v16, v9, v16			; CGP-NEXT: v_mul_hi_u32 v16, v3, v13
	; CGP-NEXT: v_xor_b32_e32 v8, v8, v6
	; CGP-NEXT: v_add_i32_e32 v15, vcc, v15, v17
	; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v15, vcc, v15, v18
	; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
	; CGP-NEXT: v_mul_lo_u32 v18, v9, v14
	; CGP-NEXT: v_add_i32_e32 v15, vcc, v17, v15			; CGP-NEXT: v_add_i32_e32 v15, vcc, v17, v15
	; CGP-NEXT: v_mul_hi_u32 v17, v3, v14
	; CGP-NEXT: v_add_i32_e32 v16, vcc, v18, v16
	; CGP-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v16, vcc, v16, v17
	; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v17, vcc, v18, v17			; CGP-NEXT: v_add_i32_e32 v15, vcc, v15, v16
	; CGP-NEXT: v_mul_hi_u32 v14, v9, v14
	; CGP-NEXT: v_add_i32_e32 v15, vcc, v16, v15
	; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v16, vcc, v17, v16			; CGP-NEXT: v_add_i32_e32 v16, vcc, v17, v16
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v16			; CGP-NEXT: v_mul_hi_u32 v13, v9, v13
	; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v15
	; CGP-NEXT: v_addc_u32_e32 v9, vcc, v9, v14, vcc
	; CGP-NEXT: v_mul_lo_u32 v13, v13, v3
	; CGP-NEXT: v_mul_lo_u32 v14, v12, v9
	; CGP-NEXT: v_mul_lo_u32 v15, v12, v3
	; CGP-NEXT: v_mul_hi_u32 v12, v12, v3
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; CGP-NEXT: v_mul_lo_u32 v13, v9, v15
	; CGP-NEXT: v_mul_lo_u32 v14, v3, v12
	; CGP-NEXT: v_mul_hi_u32 v16, v3, v15
	; CGP-NEXT: v_mul_hi_u32 v15, v9, v15
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v16
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_mul_lo_u32 v16, v9, v12
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13
	; CGP-NEXT: v_mul_hi_u32 v14, v3, v12
	; CGP-NEXT: v_add_i32_e32 v15, vcc, v16, v15
	; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14			; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14
	; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v15, vcc, v16, v15			; CGP-NEXT: v_add_i32_e32 v15, vcc, v16, v15
	; CGP-NEXT: v_mul_hi_u32 v12, v9, v12			; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v15
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13			; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v14
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc			; CGP-NEXT: v_addc_u32_e32 v9, vcc, v9, v13, vcc
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14			; CGP-NEXT: v_mul_lo_u32 v12, v12, v3
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v14			; CGP-NEXT: v_mul_lo_u32 v13, v11, v9
	; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v13			; CGP-NEXT: v_mul_lo_u32 v14, v11, v3
	; CGP-NEXT: v_addc_u32_e32 v9, vcc, v9, v12, vcc			; CGP-NEXT: v_mul_hi_u32 v11, v11, v3
	; CGP-NEXT: v_mul_lo_u32 v12, v8, v3			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13
	; CGP-NEXT: v_mul_lo_u32 v13, v4, v9			; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
	; CGP-NEXT: v_mul_hi_u32 v14, v4, v3			; CGP-NEXT: v_mul_lo_u32 v12, v9, v14
	; CGP-NEXT: v_mul_hi_u32 v3, v8, v3			; CGP-NEXT: v_mul_lo_u32 v13, v3, v11
				; CGP-NEXT: v_mul_hi_u32 v15, v3, v14
				; CGP-NEXT: v_mul_hi_u32 v14, v9, v14
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v14			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v15
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_mul_lo_u32 v14, v8, v9			; CGP-NEXT: v_mul_lo_u32 v15, v9, v11
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; CGP-NEXT: v_mul_hi_u32 v13, v4, v9			; CGP-NEXT: v_mul_hi_u32 v13, v3, v11
	; CGP-NEXT: v_add_i32_e32 v3, vcc, v14, v3			; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14
				; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v13			; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14
				; CGP-NEXT: v_mul_hi_u32 v11, v9, v11
				; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13			; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13
	; CGP-NEXT: v_mul_hi_u32 v9, v8, v9			; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v13
				; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v12
				; CGP-NEXT: v_addc_u32_e32 v9, vcc, v9, v11, vcc
				; CGP-NEXT: v_mul_lo_u32 v11, v8, v3
				; CGP-NEXT: v_mul_lo_u32 v12, v4, v9
				; CGP-NEXT: v_mul_hi_u32 v13, v4, v3
				; CGP-NEXT: v_mul_hi_u32 v3, v8, v3
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v12
				; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v13
				; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
				; CGP-NEXT: v_mul_lo_u32 v13, v8, v9
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
				; CGP-NEXT: v_mul_hi_u32 v12, v4, v9
				; CGP-NEXT: v_add_i32_e32 v3, vcc, v13, v3
				; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v12			; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v12
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12			; CGP-NEXT: v_mul_hi_u32 v9, v8, v9
	; CGP-NEXT: v_mul_lo_u32 v12, v2, v3			; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v11
	; CGP-NEXT: v_mul_lo_u32 v13, v1, v9			; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
	; CGP-NEXT: v_mul_hi_u32 v15, v1, v3			; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
	; CGP-NEXT: v_mul_lo_u32 v14, v1, v3			; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v11
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13			; CGP-NEXT: v_mul_lo_u32 v11, v2, v3
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v15			; CGP-NEXT: v_mul_lo_u32 v12, v1, v9
	; CGP-NEXT: v_sub_i32_e32 v4, vcc, v4, v14			; CGP-NEXT: v_mul_hi_u32 v14, v1, v3
	; CGP-NEXT: v_subb_u32_e64 v13, s[4:5], v8, v12, vcc			; CGP-NEXT: v_mul_lo_u32 v13, v1, v3
	; CGP-NEXT: v_sub_i32_e64 v8, s[4:5], v8, v12			; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v12
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v13, v2			; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v14
				; CGP-NEXT: v_sub_i32_e32 v4, vcc, v4, v13
				; CGP-NEXT: v_subb_u32_e64 v12, s[4:5], v8, v11, vcc
				; CGP-NEXT: v_sub_i32_e64 v8, s[4:5], v8, v11
				; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v12, v2
	; CGP-NEXT: v_subb_u32_e32 v8, vcc, v8, v2, vcc			; CGP-NEXT: v_subb_u32_e32 v8, vcc, v8, v2, vcc
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v11, 0, -1, s[4:5]
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v4, v1			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v4, v1
	; CGP-NEXT: v_sub_i32_e32 v4, vcc, v4, v1			; CGP-NEXT: v_sub_i32_e32 v4, vcc, v4, v1
	; CGP-NEXT: v_subbrev_u32_e32 v8, vcc, 0, v8, vcc			; CGP-NEXT: v_subbrev_u32_e32 v8, vcc, 0, v8, vcc
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, -1, s[4:5]
	; CGP-NEXT: v_cmp_eq_u32_e64 s[4:5], v13, v2			; CGP-NEXT: v_cmp_eq_u32_e64 s[4:5], v12, v2
	; CGP-NEXT: v_add_i32_e32 v13, vcc, 1, v3			; CGP-NEXT: v_add_i32_e32 v12, vcc, 1, v3
	; CGP-NEXT: v_cndmask_b32_e64 v12, v12, v14, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v11, v11, v13, s[4:5]
	; CGP-NEXT: v_addc_u32_e32 v14, vcc, 0, v9, vcc			; CGP-NEXT: v_addc_u32_e32 v13, vcc, 0, v9, vcc
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v8, v2			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v8, v2
	; CGP-NEXT: v_cndmask_b32_e64 v15, 0, -1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v14, 0, -1, vcc
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v4, v1			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v4, v1
	; CGP-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc
	; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v8, v2			; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v8, v2
	; CGP-NEXT: v_cndmask_b32_e32 v1, v15, v1, vcc			; CGP-NEXT: v_cndmask_b32_e32 v1, v14, v1, vcc
	; CGP-NEXT: v_add_i32_e32 v2, vcc, 1, v13			; CGP-NEXT: v_add_i32_e32 v2, vcc, 1, v12
	; CGP-NEXT: v_addc_u32_e32 v4, vcc, 0, v14, vcc			; CGP-NEXT: v_addc_u32_e32 v4, vcc, 0, v13, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
	; CGP-NEXT: v_cndmask_b32_e32 v1, v13, v2, vcc			; CGP-NEXT: v_cndmask_b32_e32 v1, v12, v2, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v2, v14, v4, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v13, v4, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v12			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v11
	; CGP-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; CGP-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; CGP-NEXT: v_xor_b32_e32 v3, v6, v0			; CGP-NEXT: v_xor_b32_e32 v3, v10, v0
	; CGP-NEXT: v_cndmask_b32_e32 v2, v9, v2, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v9, v2, vcc
	; CGP-NEXT: v_xor_b32_e32 v0, v1, v3			; CGP-NEXT: v_xor_b32_e32 v0, v1, v3
	; CGP-NEXT: v_xor_b32_e32 v1, v2, v3			; CGP-NEXT: v_xor_b32_e32 v1, v2, v3
	; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v3			; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v3
	; CGP-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc			; CGP-NEXT: v_subb_u32_e32 v1, vcc, v1, v3, vcc
	; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3			; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3
	; CGP-NEXT: ; implicit-def: $vgpr8			; CGP-NEXT: ; implicit-def: $vgpr8
	; CGP-NEXT: .LBB8_2: ; %Flow2			; CGP-NEXT: .LBB8_2: ; %Flow2
	; CGP-NEXT: s_or_saveexec_b64 s[6:7], s[6:7]			; CGP-NEXT: s_or_saveexec_b64 s[8:9], s[8:9]
	; CGP-NEXT: s_xor_b64 exec, exec, s[6:7]			; CGP-NEXT: v_lshl_b64 v[9:10], s[6:7], v6
				; CGP-NEXT: s_xor_b64 exec, exec, s[8:9]
	; CGP-NEXT: s_cbranch_execz .LBB8_4			; CGP-NEXT: s_cbranch_execz .LBB8_4
	; CGP-NEXT: ; %bb.3:			; CGP-NEXT: ; %bb.3:
	; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2			; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, 0, v2			; CGP-NEXT: v_sub_i32_e32 v1, vcc, 0, v2
	; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0			; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; CGP-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; CGP-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0			; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0
	; CGP-NEXT: v_mul_lo_u32 v1, v1, v0			; CGP-NEXT: v_mul_lo_u32 v1, v1, v0
	; CGP-NEXT: v_mul_hi_u32 v1, v0, v1			; CGP-NEXT: v_mul_hi_u32 v1, v0, v1
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; CGP-NEXT: v_mul_hi_u32 v0, v8, v0			; CGP-NEXT: v_mul_hi_u32 v0, v8, v0
	; CGP-NEXT: v_mul_lo_u32 v1, v0, v2			; CGP-NEXT: v_mul_lo_u32 v1, v0, v2
	; CGP-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; CGP-NEXT: v_add_i32_e32 v3, vcc, 1, v0
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, v8, v1			; CGP-NEXT: v_sub_i32_e32 v1, vcc, v8, v1
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2
	; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v1, v2			; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v1, v2
	; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; CGP-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; CGP-NEXT: v_add_i32_e32 v3, vcc, 1, v0
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2
	; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; CGP-NEXT: v_mov_b32_e32 v1, 0			; CGP-NEXT: v_mov_b32_e32 v1, 0
	; CGP-NEXT: .LBB8_4:			; CGP-NEXT: .LBB8_4:
	; CGP-NEXT: s_or_b64 exec, exec, s[6:7]			; CGP-NEXT: s_or_b64 exec, exec, s[8:9]
	; CGP-NEXT: v_or_b32_e32 v3, v7, v11			; CGP-NEXT: v_or_b32_e32 v3, v7, v10
	; CGP-NEXT: v_mov_b32_e32 v2, 0			; CGP-NEXT: v_mov_b32_e32 v2, 0
	; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[2:3]			; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[2:3]
	; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3			; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3
	; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc			; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]			; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_6			; CGP-NEXT: s_cbranch_execz .LBB8_6
	; CGP-NEXT: ; %bb.5:			; CGP-NEXT: ; %bb.5:
	; CGP-NEXT: v_ashrrev_i32_e32 v2, 31, v11			; CGP-NEXT: v_ashrrev_i32_e32 v2, 31, v10
	; CGP-NEXT: v_add_i32_e32 v3, vcc, v10, v2			; CGP-NEXT: v_add_i32_e32 v3, vcc, v9, v2
	; CGP-NEXT: v_addc_u32_e32 v4, vcc, v11, v2, vcc			; CGP-NEXT: v_addc_u32_e32 v4, vcc, v10, v2, vcc
	; CGP-NEXT: v_xor_b32_e32 v3, v3, v2			; CGP-NEXT: v_xor_b32_e32 v3, v3, v2
	; CGP-NEXT: v_xor_b32_e32 v4, v4, v2			; CGP-NEXT: v_xor_b32_e32 v4, v4, v2
	; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3			; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3
	; CGP-NEXT: v_cvt_f32_u32_e32 v8, v4			; CGP-NEXT: v_cvt_f32_u32_e32 v8, v4
	; CGP-NEXT: v_ashrrev_i32_e32 v9, 31, v7			; CGP-NEXT: v_ashrrev_i32_e32 v9, 31, v7
	; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v9			; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v9
	; CGP-NEXT: v_mac_f32_e32 v6, 0x4f800000, v8			; CGP-NEXT: v_mac_f32_e32 v6, 0x4f800000, v8
	; CGP-NEXT: v_rcp_iflag_f32_e32 v6, v6			; CGP-NEXT: v_rcp_iflag_f32_e32 v6, v6
	▲ Show 20 Lines • Show All 121 Lines • ▼ Show 20 Lines
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v10			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v10
	; CGP-NEXT: v_cndmask_b32_e32 v3, v6, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v3, v6, v3, vcc
	; CGP-NEXT: v_xor_b32_e32 v5, v9, v2			; CGP-NEXT: v_xor_b32_e32 v5, v9, v2
	; CGP-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc			; CGP-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc
	; CGP-NEXT: v_xor_b32_e32 v2, v3, v5			; CGP-NEXT: v_xor_b32_e32 v2, v3, v5
	; CGP-NEXT: v_xor_b32_e32 v3, v4, v5			; CGP-NEXT: v_xor_b32_e32 v3, v4, v5
	; CGP-NEXT: v_sub_i32_e32 v2, vcc, v2, v5			; CGP-NEXT: v_sub_i32_e32 v2, vcc, v2, v5
	; CGP-NEXT: v_subb_u32_e32 v3, vcc, v3, v5, vcc			; CGP-NEXT: v_subb_u32_e32 v3, vcc, v3, v5, vcc
	; CGP-NEXT: ; implicit-def: $vgpr10_vgpr11			; CGP-NEXT: ; implicit-def: $vgpr9_vgpr10
	; CGP-NEXT: ; implicit-def: $vgpr5			; CGP-NEXT: ; implicit-def: $vgpr5
	; CGP-NEXT: .LBB8_6: ; %Flow			; CGP-NEXT: .LBB8_6: ; %Flow
	; CGP-NEXT: s_or_saveexec_b64 s[6:7], s[6:7]			; CGP-NEXT: s_or_saveexec_b64 s[6:7], s[6:7]
	; CGP-NEXT: s_xor_b64 exec, exec, s[6:7]			; CGP-NEXT: s_xor_b64 exec, exec, s[6:7]
	; CGP-NEXT: s_cbranch_execz .LBB8_8			; CGP-NEXT: s_cbranch_execz .LBB8_8
	; CGP-NEXT: ; %bb.7:			; CGP-NEXT: ; %bb.7:
	; CGP-NEXT: v_cvt_f32_u32_e32 v2, v10			; CGP-NEXT: v_cvt_f32_u32_e32 v2, v9
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v10			; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v9
	; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2			; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2			; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
	; CGP-NEXT: v_mul_lo_u32 v3, v3, v2			; CGP-NEXT: v_mul_lo_u32 v3, v3, v2
	; CGP-NEXT: v_mul_hi_u32 v3, v2, v3			; CGP-NEXT: v_mul_hi_u32 v3, v2, v3
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; CGP-NEXT: v_mul_hi_u32 v2, v5, v2			; CGP-NEXT: v_mul_hi_u32 v2, v5, v2
	; CGP-NEXT: v_mul_lo_u32 v3, v2, v10			; CGP-NEXT: v_mul_lo_u32 v3, v2, v9
	; CGP-NEXT: v_add_i32_e32 v4, vcc, 1, v2			; CGP-NEXT: v_add_i32_e32 v4, vcc, 1, v2
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, v5, v3			; CGP-NEXT: v_sub_i32_e32 v3, vcc, v5, v3
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v3, v10			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v3, v9
	; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; CGP-NEXT: v_sub_i32_e64 v4, s[4:5], v3, v10			; CGP-NEXT: v_sub_i32_e64 v4, s[4:5], v3, v9
	; CGP-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; CGP-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, 1, v2			; CGP-NEXT: v_add_i32_e32 v4, vcc, 1, v2
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v3, v10			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v3, v9
	; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; CGP-NEXT: v_mov_b32_e32 v3, 0			; CGP-NEXT: v_mov_b32_e32 v3, 0
	; CGP-NEXT: .LBB8_8:			; CGP-NEXT: .LBB8_8:
	; CGP-NEXT: s_or_b64 exec, exec, s[6:7]			; CGP-NEXT: s_or_b64 exec, exec, s[6:7]
	; CGP-NEXT: s_setpc_b64 s[30:31]			; CGP-NEXT: s_setpc_b64 s[30:31]
	%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y			%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y
	%r = sdiv <2 x i64> %x, %shl.y			%r = sdiv <2 x i64> %x, %shl.y
	ret <2 x i64> %r			ret <2 x i64> %r
	▲ Show 20 Lines • Show All 367 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/srem.i64.ll

	Show First 20 Lines • Show All 2,906 Lines • ▼ Show 20 Lines
	; GISEL-NEXT: v_xor_b32_e32 v4, v2, v9			; GISEL-NEXT: v_xor_b32_e32 v4, v2, v9
	; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v3, v9			; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v3, v9
	; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v4, v9, vcc			; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v4, v9, vcc
	; GISEL-NEXT: s_setpc_b64 s[30:31]			; GISEL-NEXT: s_setpc_b64 s[30:31]
	;			;
	; CGP-LABEL: v_srem_v2i64_pow2_shl_denom:			; CGP-LABEL: v_srem_v2i64_pow2_shl_denom:
	; CGP: ; %bb.0:			; CGP: ; %bb.0:
	; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CGP-NEXT: s_mov_b64 s[4:5], 0x1000			; CGP-NEXT: s_mov_b64 s[6:7], 0x1000
	; CGP-NEXT: v_mov_b32_e32 v5, v2			; CGP-NEXT: v_mov_b32_e32 v5, v2
	; CGP-NEXT: v_mov_b32_e32 v7, v3			; CGP-NEXT: v_mov_b32_e32 v7, v3
	; CGP-NEXT: v_lshl_b64 v[2:3], s[4:5], v4			; CGP-NEXT: v_lshl_b64 v[2:3], s[6:7], v4
	; CGP-NEXT: v_mov_b32_e32 v9, v1			; CGP-NEXT: v_mov_b32_e32 v9, v1
	; CGP-NEXT: v_mov_b32_e32 v8, v0			; CGP-NEXT: v_mov_b32_e32 v8, v0
	; CGP-NEXT: v_or_b32_e32 v1, v9, v3			; CGP-NEXT: v_or_b32_e32 v1, v9, v3
	; CGP-NEXT: v_mov_b32_e32 v0, 0			; CGP-NEXT: v_mov_b32_e32 v0, 0
	; CGP-NEXT: v_lshl_b64 v[10:11], s[4:5], v6
	; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]			; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]
	; CGP-NEXT: ; implicit-def: $vgpr0_vgpr1			; CGP-NEXT: ; implicit-def: $vgpr0_vgpr1
	; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc			; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]			; CGP-NEXT: s_xor_b64 s[8:9], exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_2			; CGP-NEXT: s_cbranch_execz .LBB8_2
	; CGP-NEXT: ; %bb.1:			; CGP-NEXT: ; %bb.1:
	; CGP-NEXT: v_ashrrev_i32_e32 v0, 31, v3			; CGP-NEXT: v_ashrrev_i32_e32 v0, 31, v3
	; CGP-NEXT: v_add_i32_e32 v1, vcc, v2, v0			; CGP-NEXT: v_add_i32_e32 v1, vcc, v2, v0
	; CGP-NEXT: v_addc_u32_e32 v2, vcc, v3, v0, vcc			; CGP-NEXT: v_addc_u32_e32 v2, vcc, v3, v0, vcc
	; CGP-NEXT: v_xor_b32_e32 v1, v1, v0			; CGP-NEXT: v_xor_b32_e32 v1, v1, v0
	; CGP-NEXT: v_xor_b32_e32 v0, v2, v0			; CGP-NEXT: v_xor_b32_e32 v0, v2, v0
	; CGP-NEXT: v_cvt_f32_u32_e32 v2, v1			; CGP-NEXT: v_cvt_f32_u32_e32 v2, v1
	; CGP-NEXT: v_cvt_f32_u32_e32 v3, v0			; CGP-NEXT: v_cvt_f32_u32_e32 v3, v0
	; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v9			; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v9
	; CGP-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3			; CGP-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
	; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2			; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; CGP-NEXT: v_add_i32_e32 v3, vcc, v8, v4			; CGP-NEXT: v_add_i32_e32 v3, vcc, v8, v4
	; CGP-NEXT: v_addc_u32_e32 v6, vcc, v9, v4, vcc			; CGP-NEXT: v_addc_u32_e32 v8, vcc, v9, v4, vcc
	; CGP-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2			; CGP-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; CGP-NEXT: v_mul_f32_e32 v8, 0x2f800000, v2			; CGP-NEXT: v_mul_f32_e32 v9, 0x2f800000, v2
	; CGP-NEXT: v_trunc_f32_e32 v8, v8			; CGP-NEXT: v_trunc_f32_e32 v9, v9
	; CGP-NEXT: v_mac_f32_e32 v2, 0xcf800000, v8			; CGP-NEXT: v_mac_f32_e32 v2, 0xcf800000, v9
	; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2			; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
	; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8			; CGP-NEXT: v_cvt_u32_f32_e32 v9, v9
	; CGP-NEXT: v_sub_i32_e32 v9, vcc, 0, v1			; CGP-NEXT: v_sub_i32_e32 v10, vcc, 0, v1
	; CGP-NEXT: v_subb_u32_e32 v12, vcc, 0, v0, vcc			; CGP-NEXT: v_subb_u32_e32 v11, vcc, 0, v0, vcc
	; CGP-NEXT: v_mul_lo_u32 v13, v12, v2			; CGP-NEXT: v_mul_lo_u32 v12, v11, v2
	; CGP-NEXT: v_mul_lo_u32 v14, v9, v8			; CGP-NEXT: v_mul_lo_u32 v13, v10, v9
	; CGP-NEXT: v_mul_hi_u32 v16, v9, v2			; CGP-NEXT: v_mul_hi_u32 v15, v10, v2
	; CGP-NEXT: v_mul_lo_u32 v15, v9, v2			; CGP-NEXT: v_mul_lo_u32 v14, v10, v2
	; CGP-NEXT: v_xor_b32_e32 v3, v3, v4			; CGP-NEXT: v_xor_b32_e32 v3, v3, v4
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13
				; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v15
				; CGP-NEXT: v_mul_lo_u32 v13, v9, v14
				; CGP-NEXT: v_mul_lo_u32 v15, v2, v12
				; CGP-NEXT: v_mul_hi_u32 v16, v2, v14
				; CGP-NEXT: v_mul_hi_u32 v14, v9, v14
				; CGP-NEXT: v_xor_b32_e32 v8, v8, v4
				; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v15
				; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v16			; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v16
	; CGP-NEXT: v_mul_lo_u32 v14, v8, v15			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_mul_lo_u32 v16, v2, v13			; CGP-NEXT: v_mul_lo_u32 v16, v9, v12
	; CGP-NEXT: v_mul_hi_u32 v17, v2, v15			; CGP-NEXT: v_add_i32_e32 v13, vcc, v15, v13
	; CGP-NEXT: v_mul_hi_u32 v15, v8, v15			; CGP-NEXT: v_mul_hi_u32 v15, v2, v12
	; CGP-NEXT: v_xor_b32_e32 v6, v6, v4
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v16
	; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v17
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_mul_lo_u32 v17, v8, v13
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v16, v14			; CGP-NEXT: v_add_i32_e32 v14, vcc, v16, v14
	; CGP-NEXT: v_mul_hi_u32 v16, v2, v13
	; CGP-NEXT: v_add_i32_e32 v15, vcc, v17, v15
	; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v15, vcc, v15, v16
	; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v16, vcc, v17, v16			; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v15
	; CGP-NEXT: v_mul_hi_u32 v13, v8, v13
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14
	; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v15, vcc, v16, v15			; CGP-NEXT: v_add_i32_e32 v15, vcc, v16, v15
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v15			; CGP-NEXT: v_mul_hi_u32 v12, v9, v12
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v14
	; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v13, vcc
	; CGP-NEXT: v_mul_lo_u32 v12, v12, v2
	; CGP-NEXT: v_mul_lo_u32 v13, v9, v8
	; CGP-NEXT: v_mul_lo_u32 v14, v9, v2
	; CGP-NEXT: v_mul_hi_u32 v9, v9, v2
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v12, v9
	; CGP-NEXT: v_mul_lo_u32 v12, v8, v14
	; CGP-NEXT: v_mul_lo_u32 v13, v2, v9
	; CGP-NEXT: v_mul_hi_u32 v15, v2, v14
	; CGP-NEXT: v_mul_hi_u32 v14, v8, v14
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v15
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_mul_lo_u32 v15, v8, v9
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; CGP-NEXT: v_mul_hi_u32 v13, v2, v9
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14
	; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13			; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14			; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14
	; CGP-NEXT: v_mul_hi_u32 v9, v8, v9			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v14
				; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v13
				; CGP-NEXT: v_addc_u32_e32 v9, vcc, v9, v12, vcc
				; CGP-NEXT: v_mul_lo_u32 v11, v11, v2
				; CGP-NEXT: v_mul_lo_u32 v12, v10, v9
				; CGP-NEXT: v_mul_lo_u32 v13, v10, v2
				; CGP-NEXT: v_mul_hi_u32 v10, v10, v2
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v12
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
				; CGP-NEXT: v_mul_lo_u32 v11, v9, v13
				; CGP-NEXT: v_mul_lo_u32 v12, v2, v10
				; CGP-NEXT: v_mul_hi_u32 v14, v2, v13
				; CGP-NEXT: v_mul_hi_u32 v13, v9, v13
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v12
				; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v14
				; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
				; CGP-NEXT: v_mul_lo_u32 v14, v9, v10
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
				; CGP-NEXT: v_mul_hi_u32 v12, v2, v10
				; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13
				; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13			; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v13			; CGP-NEXT: v_mul_hi_u32 v10, v9, v10
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v12			; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
	; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v9, vcc
	; CGP-NEXT: v_mul_lo_u32 v9, v6, v2
	; CGP-NEXT: v_mul_lo_u32 v12, v3, v8
	; CGP-NEXT: v_mul_hi_u32 v13, v3, v2
	; CGP-NEXT: v_mul_hi_u32 v2, v6, v2
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v13
	; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
	; CGP-NEXT: v_mul_lo_u32 v13, v6, v8
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v12, v9
	; CGP-NEXT: v_mul_hi_u32 v12, v3, v8
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v13, v2
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v12
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; CGP-NEXT: v_mul_hi_u32 v8, v6, v8			; CGP-NEXT: v_add_i32_e32 v10, vcc, v10, v12
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v9			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v11
	; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc			; CGP-NEXT: v_addc_u32_e32 v9, vcc, v9, v10, vcc
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v12, v9			; CGP-NEXT: v_mul_lo_u32 v10, v8, v2
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v9			; CGP-NEXT: v_mul_lo_u32 v11, v3, v9
	; CGP-NEXT: v_mul_lo_u32 v9, v0, v2			; CGP-NEXT: v_mul_hi_u32 v12, v3, v2
	; CGP-NEXT: v_mul_lo_u32 v8, v1, v8			; CGP-NEXT: v_mul_hi_u32 v2, v8, v2
	; CGP-NEXT: v_mul_lo_u32 v12, v1, v2			; CGP-NEXT: v_add_i32_e32 v10, vcc, v10, v11
				; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v10, v12
				; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
				; CGP-NEXT: v_mul_lo_u32 v12, v8, v9
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
				; CGP-NEXT: v_mul_hi_u32 v11, v3, v9
				; CGP-NEXT: v_add_i32_e32 v2, vcc, v12, v2
				; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v11
				; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
				; CGP-NEXT: v_mul_hi_u32 v9, v8, v9
				; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v10
				; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
				; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
				; CGP-NEXT: v_mul_lo_u32 v10, v0, v2
				; CGP-NEXT: v_mul_lo_u32 v9, v1, v9
				; CGP-NEXT: v_mul_lo_u32 v11, v1, v2
	; CGP-NEXT: v_mul_hi_u32 v2, v1, v2			; CGP-NEXT: v_mul_hi_u32 v2, v1, v2
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8			; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v8, v2			; CGP-NEXT: v_add_i32_e32 v2, vcc, v9, v2
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, v3, v12			; CGP-NEXT: v_sub_i32_e32 v3, vcc, v3, v11
	; CGP-NEXT: v_subb_u32_e64 v8, s[4:5], v6, v2, vcc			; CGP-NEXT: v_subb_u32_e64 v9, s[4:5], v8, v2, vcc
	; CGP-NEXT: v_sub_i32_e64 v2, s[4:5], v6, v2			; CGP-NEXT: v_sub_i32_e64 v2, s[4:5], v8, v2
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v8, v0			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v9, v0
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v3, v1			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v3, v1
	; CGP-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v10, 0, -1, s[4:5]
	; CGP-NEXT: v_cmp_eq_u32_e64 s[4:5], v8, v0			; CGP-NEXT: v_cmp_eq_u32_e64 s[4:5], v9, v0
	; CGP-NEXT: v_subb_u32_e32 v2, vcc, v2, v0, vcc			; CGP-NEXT: v_subb_u32_e32 v2, vcc, v2, v0, vcc
	; CGP-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v8, v8, v10, s[4:5]
	; CGP-NEXT: v_sub_i32_e32 v9, vcc, v3, v1			; CGP-NEXT: v_sub_i32_e32 v10, vcc, v3, v1
	; CGP-NEXT: v_subbrev_u32_e64 v12, s[4:5], 0, v2, vcc			; CGP-NEXT: v_subbrev_u32_e64 v11, s[4:5], 0, v2, vcc
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v12, v0			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v11, v0
				; CGP-NEXT: v_cndmask_b32_e64 v12, 0, -1, s[4:5]
				; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v10, v1
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, -1, s[4:5]
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v9, v1			; CGP-NEXT: v_cmp_eq_u32_e64 s[4:5], v11, v0
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, -1, s[4:5]
	; CGP-NEXT: v_cmp_eq_u32_e64 s[4:5], v12, v0
	; CGP-NEXT: v_subb_u32_e32 v0, vcc, v2, v0, vcc			; CGP-NEXT: v_subb_u32_e32 v0, vcc, v2, v0, vcc
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, v9, v1			; CGP-NEXT: v_sub_i32_e32 v1, vcc, v10, v1
	; CGP-NEXT: v_cndmask_b32_e64 v13, v13, v14, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v12, v12, v13, s[4:5]
	; CGP-NEXT: v_subbrev_u32_e32 v0, vcc, 0, v0, vcc			; CGP-NEXT: v_subbrev_u32_e32 v0, vcc, 0, v0, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v13			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v12
	; CGP-NEXT: v_cndmask_b32_e32 v1, v9, v1, vcc			; CGP-NEXT: v_cndmask_b32_e32 v1, v10, v1, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v0, v12, v0, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v11, v0, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8
	; CGP-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; CGP-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v0, v8, v0, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v9, v0, vcc
	; CGP-NEXT: v_xor_b32_e32 v1, v1, v4			; CGP-NEXT: v_xor_b32_e32 v1, v1, v4
	; CGP-NEXT: v_xor_b32_e32 v2, v0, v4			; CGP-NEXT: v_xor_b32_e32 v2, v0, v4
	; CGP-NEXT: v_sub_i32_e32 v0, vcc, v1, v4			; CGP-NEXT: v_sub_i32_e32 v0, vcc, v1, v4
	; CGP-NEXT: v_subb_u32_e32 v1, vcc, v2, v4, vcc			; CGP-NEXT: v_subb_u32_e32 v1, vcc, v2, v4, vcc
	; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3			; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3
	; CGP-NEXT: ; implicit-def: $vgpr8			; CGP-NEXT: ; implicit-def: $vgpr8
	; CGP-NEXT: .LBB8_2: ; %Flow2			; CGP-NEXT: .LBB8_2: ; %Flow2
	; CGP-NEXT: s_or_saveexec_b64 s[4:5], s[6:7]			; CGP-NEXT: s_or_saveexec_b64 s[4:5], s[8:9]
				; CGP-NEXT: v_lshl_b64 v[9:10], s[6:7], v6
	; CGP-NEXT: s_xor_b64 exec, exec, s[4:5]			; CGP-NEXT: s_xor_b64 exec, exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_4			; CGP-NEXT: s_cbranch_execz .LBB8_4
	; CGP-NEXT: ; %bb.3:			; CGP-NEXT: ; %bb.3:
	; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2			; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, 0, v2			; CGP-NEXT: v_sub_i32_e32 v1, vcc, 0, v2
	; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0			; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; CGP-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; CGP-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0			; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0
	; CGP-NEXT: v_mul_lo_u32 v1, v1, v0			; CGP-NEXT: v_mul_lo_u32 v1, v1, v0
	; CGP-NEXT: v_mul_hi_u32 v1, v0, v1			; CGP-NEXT: v_mul_hi_u32 v1, v0, v1
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; CGP-NEXT: v_mul_hi_u32 v0, v8, v0			; CGP-NEXT: v_mul_hi_u32 v0, v8, v0
	; CGP-NEXT: v_mul_lo_u32 v0, v0, v2			; CGP-NEXT: v_mul_lo_u32 v0, v0, v2
	; CGP-NEXT: v_sub_i32_e32 v0, vcc, v8, v0			; CGP-NEXT: v_sub_i32_e32 v0, vcc, v8, v0
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, v0, v2			; CGP-NEXT: v_sub_i32_e32 v1, vcc, v0, v2
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, v0, v2			; CGP-NEXT: v_sub_i32_e32 v1, vcc, v0, v2
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; CGP-NEXT: v_mov_b32_e32 v1, 0			; CGP-NEXT: v_mov_b32_e32 v1, 0
	; CGP-NEXT: .LBB8_4:			; CGP-NEXT: .LBB8_4:
	; CGP-NEXT: s_or_b64 exec, exec, s[4:5]			; CGP-NEXT: s_or_b64 exec, exec, s[4:5]
	; CGP-NEXT: v_or_b32_e32 v3, v7, v11			; CGP-NEXT: v_or_b32_e32 v3, v7, v10
	; CGP-NEXT: v_mov_b32_e32 v2, 0			; CGP-NEXT: v_mov_b32_e32 v2, 0
	; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[2:3]			; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[2:3]
	; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3			; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3
	; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc			; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]			; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_6			; CGP-NEXT: s_cbranch_execz .LBB8_6
	; CGP-NEXT: ; %bb.5:			; CGP-NEXT: ; %bb.5:
	; CGP-NEXT: v_ashrrev_i32_e32 v2, 31, v11			; CGP-NEXT: v_ashrrev_i32_e32 v2, 31, v10
	; CGP-NEXT: v_add_i32_e32 v3, vcc, v10, v2			; CGP-NEXT: v_add_i32_e32 v3, vcc, v9, v2
	; CGP-NEXT: v_addc_u32_e32 v4, vcc, v11, v2, vcc			; CGP-NEXT: v_addc_u32_e32 v4, vcc, v10, v2, vcc
	; CGP-NEXT: v_xor_b32_e32 v3, v3, v2			; CGP-NEXT: v_xor_b32_e32 v3, v3, v2
	; CGP-NEXT: v_xor_b32_e32 v2, v4, v2			; CGP-NEXT: v_xor_b32_e32 v2, v4, v2
	; CGP-NEXT: v_cvt_f32_u32_e32 v4, v3			; CGP-NEXT: v_cvt_f32_u32_e32 v4, v3
	; CGP-NEXT: v_cvt_f32_u32_e32 v6, v2			; CGP-NEXT: v_cvt_f32_u32_e32 v6, v2
	; CGP-NEXT: v_ashrrev_i32_e32 v8, 31, v7			; CGP-NEXT: v_ashrrev_i32_e32 v8, 31, v7
	; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v8			; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v8
	; CGP-NEXT: v_mac_f32_e32 v4, 0x4f800000, v6			; CGP-NEXT: v_mac_f32_e32 v4, 0x4f800000, v6
	; CGP-NEXT: v_rcp_iflag_f32_e32 v4, v4			; CGP-NEXT: v_rcp_iflag_f32_e32 v4, v4
	▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; CGP-NEXT: v_cndmask_b32_e32 v2, v10, v2, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v10, v2, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; CGP-NEXT: v_cndmask_b32_e32 v3, v5, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v3, v5, v3, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v2, v7, v2, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v7, v2, vcc
	; CGP-NEXT: v_xor_b32_e32 v3, v3, v8			; CGP-NEXT: v_xor_b32_e32 v3, v3, v8
	; CGP-NEXT: v_xor_b32_e32 v4, v2, v8			; CGP-NEXT: v_xor_b32_e32 v4, v2, v8
	; CGP-NEXT: v_sub_i32_e32 v2, vcc, v3, v8			; CGP-NEXT: v_sub_i32_e32 v2, vcc, v3, v8
	; CGP-NEXT: v_subb_u32_e32 v3, vcc, v4, v8, vcc			; CGP-NEXT: v_subb_u32_e32 v3, vcc, v4, v8, vcc
	; CGP-NEXT: ; implicit-def: $vgpr10_vgpr11			; CGP-NEXT: ; implicit-def: $vgpr9_vgpr10
	; CGP-NEXT: ; implicit-def: $vgpr5			; CGP-NEXT: ; implicit-def: $vgpr5
	; CGP-NEXT: .LBB8_6: ; %Flow			; CGP-NEXT: .LBB8_6: ; %Flow
	; CGP-NEXT: s_or_saveexec_b64 s[4:5], s[6:7]			; CGP-NEXT: s_or_saveexec_b64 s[4:5], s[6:7]
	; CGP-NEXT: s_xor_b64 exec, exec, s[4:5]			; CGP-NEXT: s_xor_b64 exec, exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_8			; CGP-NEXT: s_cbranch_execz .LBB8_8
	; CGP-NEXT: ; %bb.7:			; CGP-NEXT: ; %bb.7:
	; CGP-NEXT: v_cvt_f32_u32_e32 v2, v10			; CGP-NEXT: v_cvt_f32_u32_e32 v2, v9
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v10			; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v9
	; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2			; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2			; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
	; CGP-NEXT: v_mul_lo_u32 v3, v3, v2			; CGP-NEXT: v_mul_lo_u32 v3, v3, v2
	; CGP-NEXT: v_mul_hi_u32 v3, v2, v3			; CGP-NEXT: v_mul_hi_u32 v3, v2, v3
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; CGP-NEXT: v_mul_hi_u32 v2, v5, v2			; CGP-NEXT: v_mul_hi_u32 v2, v5, v2
	; CGP-NEXT: v_mul_lo_u32 v2, v2, v10			; CGP-NEXT: v_mul_lo_u32 v2, v2, v9
	; CGP-NEXT: v_sub_i32_e32 v2, vcc, v5, v2			; CGP-NEXT: v_sub_i32_e32 v2, vcc, v5, v2
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, v2, v10			; CGP-NEXT: v_sub_i32_e32 v3, vcc, v2, v9
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v2, v10			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v2, v9
	; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, v2, v10			; CGP-NEXT: v_sub_i32_e32 v3, vcc, v2, v9
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v2, v10			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v2, v9
	; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; CGP-NEXT: v_mov_b32_e32 v3, 0			; CGP-NEXT: v_mov_b32_e32 v3, 0
	; CGP-NEXT: .LBB8_8:			; CGP-NEXT: .LBB8_8:
	; CGP-NEXT: s_or_b64 exec, exec, s[4:5]			; CGP-NEXT: s_or_b64 exec, exec, s[4:5]
	; CGP-NEXT: s_setpc_b64 s[30:31]			; CGP-NEXT: s_setpc_b64 s[30:31]
	%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y			%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y
	%r = srem <2 x i64> %x, %shl.y			%r = srem <2 x i64> %x, %shl.y
	ret <2 x i64> %r			ret <2 x i64> %r
	▲ Show 20 Lines • Show All 369 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/udiv.i64.ll

	Show First 20 Lines • Show All 1,498 Lines • ▼ Show 20 Lines
	;			;
	; CGP-LABEL: v_udiv_v2i64_pow2_shl_denom:			; CGP-LABEL: v_udiv_v2i64_pow2_shl_denom:
	; CGP: ; %bb.0:			; CGP: ; %bb.0:
	; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CGP-NEXT: v_mov_b32_e32 v8, v0			; CGP-NEXT: v_mov_b32_e32 v8, v0
	; CGP-NEXT: v_mov_b32_e32 v9, v1			; CGP-NEXT: v_mov_b32_e32 v9, v1
	; CGP-NEXT: v_mov_b32_e32 v5, v2			; CGP-NEXT: v_mov_b32_e32 v5, v2
	; CGP-NEXT: v_mov_b32_e32 v7, v3			; CGP-NEXT: v_mov_b32_e32 v7, v3
	; CGP-NEXT: s_mov_b64 s[4:5], 0x1000			; CGP-NEXT: s_mov_b64 s[6:7], 0x1000
	; CGP-NEXT: v_lshl_b64 v[2:3], s[4:5], v4			; CGP-NEXT: v_lshl_b64 v[2:3], s[6:7], v4
	; CGP-NEXT: v_lshl_b64 v[10:11], s[4:5], v6
	; CGP-NEXT: v_or_b32_e32 v1, v9, v3			; CGP-NEXT: v_or_b32_e32 v1, v9, v3
	; CGP-NEXT: v_mov_b32_e32 v0, 0			; CGP-NEXT: v_mov_b32_e32 v0, 0
	; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]			; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]
	; CGP-NEXT: ; implicit-def: $vgpr0_vgpr1			; CGP-NEXT: ; implicit-def: $vgpr0_vgpr1
	; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc			; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]			; CGP-NEXT: s_xor_b64 s[8:9], exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_2			; CGP-NEXT: s_cbranch_execz .LBB8_2
	; CGP-NEXT: ; %bb.1:			; CGP-NEXT: ; %bb.1:
	; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2			; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2
	; CGP-NEXT: v_cvt_f32_u32_e32 v1, v3			; CGP-NEXT: v_cvt_f32_u32_e32 v1, v3
	; CGP-NEXT: v_sub_i32_e32 v4, vcc, 0, v2			; CGP-NEXT: v_sub_i32_e32 v4, vcc, 0, v2
	; CGP-NEXT: v_subb_u32_e32 v6, vcc, 0, v3, vcc			; CGP-NEXT: v_subb_u32_e32 v10, vcc, 0, v3, vcc
	; CGP-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1			; CGP-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
	; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0			; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; CGP-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; CGP-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; CGP-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; CGP-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; CGP-NEXT: v_trunc_f32_e32 v1, v1			; CGP-NEXT: v_trunc_f32_e32 v1, v1
	; CGP-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; CGP-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; CGP-NEXT: v_cvt_u32_f32_e32 v1, v1			; CGP-NEXT: v_cvt_u32_f32_e32 v1, v1
	; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0			; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0
	; CGP-NEXT: v_mul_lo_u32 v12, v4, v1			; CGP-NEXT: v_mul_lo_u32 v11, v4, v1
	; CGP-NEXT: v_mul_lo_u32 v13, v4, v0
	; CGP-NEXT: v_mul_lo_u32 v14, v6, v0
	; CGP-NEXT: v_mul_hi_u32 v15, v4, v0
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v14, v12
	; CGP-NEXT: v_mul_lo_u32 v14, v1, v13
	; CGP-NEXT: v_mul_hi_u32 v16, v0, v13
	; CGP-NEXT: v_mul_hi_u32 v13, v1, v13
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v15
	; CGP-NEXT: v_mul_lo_u32 v15, v0, v12
	; CGP-NEXT: v_mul_lo_u32 v17, v1, v12
	; CGP-NEXT: v_mul_hi_u32 v18, v0, v12
	; CGP-NEXT: v_mul_hi_u32 v12, v1, v12
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v15
	; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v17, v13
	; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v16
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v18
	; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14
	; CGP-NEXT: v_add_i32_e32 v15, vcc, v17, v16
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v14
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v13
	; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v12, vcc
	; CGP-NEXT: v_mul_lo_u32 v12, v4, v0			; CGP-NEXT: v_mul_lo_u32 v12, v4, v0
	; CGP-NEXT: v_mul_lo_u32 v6, v6, v0			; CGP-NEXT: v_mul_lo_u32 v13, v10, v0
	; CGP-NEXT: v_mul_hi_u32 v13, v4, v0			; CGP-NEXT: v_mul_hi_u32 v14, v4, v0
	; CGP-NEXT: v_mul_lo_u32 v4, v4, v1			; CGP-NEXT: v_add_i32_e32 v11, vcc, v13, v11
	; CGP-NEXT: v_mul_lo_u32 v14, v1, v12			; CGP-NEXT: v_mul_lo_u32 v13, v1, v12
	; CGP-NEXT: v_mul_hi_u32 v15, v0, v12			; CGP-NEXT: v_mul_hi_u32 v15, v0, v12
	; CGP-NEXT: v_mul_hi_u32 v12, v1, v12			; CGP-NEXT: v_mul_hi_u32 v12, v1, v12
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v14
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v13			; CGP-NEXT: v_mul_lo_u32 v14, v0, v11
	; CGP-NEXT: v_mul_lo_u32 v6, v0, v4			; CGP-NEXT: v_mul_lo_u32 v16, v1, v11
	; CGP-NEXT: v_mul_lo_u32 v13, v1, v4			; CGP-NEXT: v_mul_hi_u32 v17, v0, v11
	; CGP-NEXT: v_mul_hi_u32 v16, v0, v4			; CGP-NEXT: v_mul_hi_u32 v11, v1, v11
	; CGP-NEXT: v_mul_hi_u32 v4, v1, v4			; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v14, v6
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v12, vcc, v16, v12
				; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v15
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v15			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v17
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v16
	; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v14, v6			; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v15			; CGP-NEXT: v_add_i32_e32 v14, vcc, v16, v15
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v12, v6			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v13
				; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v12
				; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v11, vcc
				; CGP-NEXT: v_mul_lo_u32 v11, v4, v0
				; CGP-NEXT: v_mul_lo_u32 v10, v10, v0
				; CGP-NEXT: v_mul_hi_u32 v12, v4, v0
				; CGP-NEXT: v_mul_lo_u32 v4, v4, v1
				; CGP-NEXT: v_mul_lo_u32 v13, v1, v11
				; CGP-NEXT: v_mul_hi_u32 v14, v0, v11
				; CGP-NEXT: v_mul_hi_u32 v11, v1, v11
				; CGP-NEXT: v_add_i32_e32 v4, vcc, v10, v4
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v12			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v12
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v6			; CGP-NEXT: v_mul_lo_u32 v10, v0, v4
				; CGP-NEXT: v_mul_lo_u32 v12, v1, v4
				; CGP-NEXT: v_mul_hi_u32 v15, v0, v4
				; CGP-NEXT: v_mul_hi_u32 v4, v1, v4
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v13, v10
				; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
				; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v10, v14
				; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v15
				; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v13, v10
				; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v14
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
				; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
				; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v11
				; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v10
	; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc			; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc
	; CGP-NEXT: v_mul_lo_u32 v4, v9, v0			; CGP-NEXT: v_mul_lo_u32 v4, v9, v0
	; CGP-NEXT: v_mul_hi_u32 v6, v8, v0			; CGP-NEXT: v_mul_hi_u32 v10, v8, v0
	; CGP-NEXT: v_mul_hi_u32 v0, v9, v0			; CGP-NEXT: v_mul_hi_u32 v0, v9, v0
	; CGP-NEXT: v_mul_lo_u32 v12, v8, v1			; CGP-NEXT: v_mul_lo_u32 v11, v8, v1
	; CGP-NEXT: v_mul_lo_u32 v13, v9, v1			; CGP-NEXT: v_mul_lo_u32 v12, v9, v1
	; CGP-NEXT: v_mul_hi_u32 v14, v8, v1			; CGP-NEXT: v_mul_hi_u32 v13, v8, v1
	; CGP-NEXT: v_mul_hi_u32 v1, v9, v1			; CGP-NEXT: v_mul_hi_u32 v1, v9, v1
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v12			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v11
				; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v0, vcc, v12, v0
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v13, v0			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v10
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v14			; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v13
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v12, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v11, v4
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v13, v6			; CGP-NEXT: v_add_i32_e32 v10, vcc, v12, v10
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v10, v4
	; CGP-NEXT: v_mul_lo_u32 v6, v2, v0			; CGP-NEXT: v_mul_lo_u32 v10, v2, v0
	; CGP-NEXT: v_mul_lo_u32 v12, v3, v0			; CGP-NEXT: v_mul_lo_u32 v11, v3, v0
	; CGP-NEXT: v_mul_hi_u32 v13, v2, v0			; CGP-NEXT: v_mul_hi_u32 v12, v2, v0
	; CGP-NEXT: v_add_i32_e32 v1, vcc, v1, v4			; CGP-NEXT: v_add_i32_e32 v1, vcc, v1, v4
	; CGP-NEXT: v_mul_lo_u32 v4, v2, v1			; CGP-NEXT: v_mul_lo_u32 v4, v2, v1
	; CGP-NEXT: v_add_i32_e32 v14, vcc, 1, v0			; CGP-NEXT: v_add_i32_e32 v13, vcc, 1, v0
	; CGP-NEXT: v_addc_u32_e32 v15, vcc, 0, v1, vcc			; CGP-NEXT: v_addc_u32_e32 v14, vcc, 0, v1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v12, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v11, v4
	; CGP-NEXT: v_add_i32_e32 v12, vcc, 1, v14			; CGP-NEXT: v_add_i32_e32 v11, vcc, 1, v13
	; CGP-NEXT: v_addc_u32_e32 v16, vcc, 0, v15, vcc			; CGP-NEXT: v_addc_u32_e32 v15, vcc, 0, v14, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v13			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v12
	; CGP-NEXT: v_sub_i32_e32 v6, vcc, v8, v6			; CGP-NEXT: v_sub_i32_e32 v8, vcc, v8, v10
	; CGP-NEXT: v_subb_u32_e64 v8, s[4:5], v9, v4, vcc			; CGP-NEXT: v_subb_u32_e64 v10, s[4:5], v9, v4, vcc
	; CGP-NEXT: v_sub_i32_e64 v4, s[4:5], v9, v4			; CGP-NEXT: v_sub_i32_e64 v4, s[4:5], v9, v4
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v8, v2
	; CGP-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v8, v3			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v10, v3
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, -1, s[4:5]
	; CGP-NEXT: v_subb_u32_e32 v4, vcc, v4, v3, vcc			; CGP-NEXT: v_subb_u32_e32 v4, vcc, v4, v3, vcc
	; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v8, v3			; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v10, v3
	; CGP-NEXT: v_cndmask_b32_e32 v8, v13, v9, vcc			; CGP-NEXT: v_cndmask_b32_e32 v9, v12, v9, vcc
	; CGP-NEXT: v_sub_i32_e32 v6, vcc, v6, v2			; CGP-NEXT: v_sub_i32_e32 v8, vcc, v8, v2
	; CGP-NEXT: v_subbrev_u32_e32 v4, vcc, 0, v4, vcc			; CGP-NEXT: v_subbrev_u32_e32 v4, vcc, 0, v4, vcc
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v6, v2			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v8, v2
	; CGP-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v4, v3			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v4, v3
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
	; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v4, v3			; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v4, v3
	; CGP-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; CGP-NEXT: v_cndmask_b32_e32 v2, v14, v12, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v13, v11, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v3, v15, v16, vcc			; CGP-NEXT: v_cndmask_b32_e32 v3, v14, v15, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v9
	; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3			; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3
	; CGP-NEXT: ; implicit-def: $vgpr8			; CGP-NEXT: ; implicit-def: $vgpr8
	; CGP-NEXT: .LBB8_2: ; %Flow2			; CGP-NEXT: .LBB8_2: ; %Flow2
	; CGP-NEXT: s_or_saveexec_b64 s[6:7], s[6:7]			; CGP-NEXT: s_or_saveexec_b64 s[8:9], s[8:9]
	; CGP-NEXT: s_xor_b64 exec, exec, s[6:7]			; CGP-NEXT: v_lshl_b64 v[9:10], s[6:7], v6
				; CGP-NEXT: s_xor_b64 exec, exec, s[8:9]
	; CGP-NEXT: s_cbranch_execz .LBB8_4			; CGP-NEXT: s_cbranch_execz .LBB8_4
	; CGP-NEXT: ; %bb.3:			; CGP-NEXT: ; %bb.3:
	; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2			; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, 0, v2			; CGP-NEXT: v_sub_i32_e32 v1, vcc, 0, v2
	; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0			; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; CGP-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; CGP-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0			; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0
	; CGP-NEXT: v_mul_lo_u32 v1, v1, v0			; CGP-NEXT: v_mul_lo_u32 v1, v1, v0
	; CGP-NEXT: v_mul_hi_u32 v1, v0, v1			; CGP-NEXT: v_mul_hi_u32 v1, v0, v1
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; CGP-NEXT: v_mul_hi_u32 v0, v8, v0			; CGP-NEXT: v_mul_hi_u32 v0, v8, v0
	; CGP-NEXT: v_mul_lo_u32 v1, v0, v2			; CGP-NEXT: v_mul_lo_u32 v1, v0, v2
	; CGP-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; CGP-NEXT: v_add_i32_e32 v3, vcc, 1, v0
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, v8, v1			; CGP-NEXT: v_sub_i32_e32 v1, vcc, v8, v1
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2
	; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v1, v2			; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v1, v2
	; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; CGP-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; CGP-NEXT: v_add_i32_e32 v3, vcc, 1, v0
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2
	; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; CGP-NEXT: v_mov_b32_e32 v1, 0			; CGP-NEXT: v_mov_b32_e32 v1, 0
	; CGP-NEXT: .LBB8_4:			; CGP-NEXT: .LBB8_4:
	; CGP-NEXT: s_or_b64 exec, exec, s[6:7]			; CGP-NEXT: s_or_b64 exec, exec, s[8:9]
	; CGP-NEXT: v_or_b32_e32 v3, v7, v11			; CGP-NEXT: v_or_b32_e32 v3, v7, v10
	; CGP-NEXT: v_mov_b32_e32 v2, 0			; CGP-NEXT: v_mov_b32_e32 v2, 0
	; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[2:3]			; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[2:3]
	; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3			; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3
	; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc			; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]			; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_6			; CGP-NEXT: s_cbranch_execz .LBB8_6
	; CGP-NEXT: ; %bb.5:			; CGP-NEXT: ; %bb.5:
	; CGP-NEXT: v_cvt_f32_u32_e32 v2, v10			; CGP-NEXT: v_cvt_f32_u32_e32 v2, v9
	; CGP-NEXT: v_cvt_f32_u32_e32 v3, v11			; CGP-NEXT: v_cvt_f32_u32_e32 v3, v10
	; CGP-NEXT: v_sub_i32_e32 v4, vcc, 0, v10			; CGP-NEXT: v_sub_i32_e32 v4, vcc, 0, v9
	; CGP-NEXT: v_subb_u32_e32 v6, vcc, 0, v11, vcc			; CGP-NEXT: v_subb_u32_e32 v6, vcc, 0, v10, vcc
	; CGP-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3			; CGP-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
	; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2			; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; CGP-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2			; CGP-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; CGP-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2			; CGP-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; CGP-NEXT: v_trunc_f32_e32 v3, v3			; CGP-NEXT: v_trunc_f32_e32 v3, v3
	; CGP-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3			; CGP-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; CGP-NEXT: v_cvt_u32_f32_e32 v3, v3			; CGP-NEXT: v_cvt_u32_f32_e32 v3, v3
	; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2			; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
	; CGP-NEXT: v_mul_lo_u32 v8, v4, v3			; CGP-NEXT: v_mul_lo_u32 v8, v4, v3
	; CGP-NEXT: v_mul_lo_u32 v9, v4, v2			; CGP-NEXT: v_mul_lo_u32 v11, v4, v2
	; CGP-NEXT: v_mul_lo_u32 v12, v6, v2			; CGP-NEXT: v_mul_lo_u32 v12, v6, v2
	; CGP-NEXT: v_mul_hi_u32 v13, v4, v2			; CGP-NEXT: v_mul_hi_u32 v13, v4, v2
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v12, v8			; CGP-NEXT: v_add_i32_e32 v8, vcc, v12, v8
	; CGP-NEXT: v_mul_lo_u32 v12, v3, v9			; CGP-NEXT: v_mul_lo_u32 v12, v3, v11
	; CGP-NEXT: v_mul_hi_u32 v14, v2, v9			; CGP-NEXT: v_mul_hi_u32 v14, v2, v11
	; CGP-NEXT: v_mul_hi_u32 v9, v3, v9			; CGP-NEXT: v_mul_hi_u32 v11, v3, v11
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v13			; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v13
	; CGP-NEXT: v_mul_lo_u32 v13, v2, v8			; CGP-NEXT: v_mul_lo_u32 v13, v2, v8
	; CGP-NEXT: v_mul_lo_u32 v15, v3, v8			; CGP-NEXT: v_mul_lo_u32 v15, v3, v8
	; CGP-NEXT: v_mul_hi_u32 v16, v2, v8			; CGP-NEXT: v_mul_hi_u32 v16, v2, v8
	; CGP-NEXT: v_mul_hi_u32 v8, v3, v8			; CGP-NEXT: v_mul_hi_u32 v8, v3, v8
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v15, v9			; CGP-NEXT: v_add_i32_e32 v11, vcc, v15, v11
	; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v14			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v14
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v16			; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v16
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v15, v14			; CGP-NEXT: v_add_i32_e32 v13, vcc, v15, v14
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12			; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v12
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v12			; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v12
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v9			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v11
	; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v8, vcc			; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v8, vcc
	; CGP-NEXT: v_mul_lo_u32 v8, v4, v2			; CGP-NEXT: v_mul_lo_u32 v8, v4, v2
	; CGP-NEXT: v_mul_lo_u32 v6, v6, v2			; CGP-NEXT: v_mul_lo_u32 v6, v6, v2
	; CGP-NEXT: v_mul_hi_u32 v9, v4, v2			; CGP-NEXT: v_mul_hi_u32 v11, v4, v2
	; CGP-NEXT: v_mul_lo_u32 v4, v4, v3			; CGP-NEXT: v_mul_lo_u32 v4, v4, v3
	; CGP-NEXT: v_mul_lo_u32 v12, v3, v8			; CGP-NEXT: v_mul_lo_u32 v12, v3, v8
	; CGP-NEXT: v_mul_hi_u32 v13, v2, v8			; CGP-NEXT: v_mul_hi_u32 v13, v2, v8
	; CGP-NEXT: v_mul_hi_u32 v8, v3, v8			; CGP-NEXT: v_mul_hi_u32 v8, v3, v8
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v9			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v11
	; CGP-NEXT: v_mul_lo_u32 v6, v2, v4			; CGP-NEXT: v_mul_lo_u32 v6, v2, v4
	; CGP-NEXT: v_mul_lo_u32 v9, v3, v4			; CGP-NEXT: v_mul_lo_u32 v11, v3, v4
	; CGP-NEXT: v_mul_hi_u32 v14, v2, v4			; CGP-NEXT: v_mul_hi_u32 v14, v2, v4
	; CGP-NEXT: v_mul_hi_u32 v4, v3, v4			; CGP-NEXT: v_mul_hi_u32 v4, v3, v4
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v12, v6			; CGP-NEXT: v_add_i32_e32 v6, vcc, v12, v6
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8			; CGP-NEXT: v_add_i32_e32 v8, vcc, v11, v8
	; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v13			; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v13
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v14			; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v14
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v12, v6			; CGP-NEXT: v_add_i32_e32 v6, vcc, v12, v6
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v13			; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v13
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6			; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6
	; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8			; CGP-NEXT: v_add_i32_e32 v8, vcc, v11, v8
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v8			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v8
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v6			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v6
	; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc			; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc
	; CGP-NEXT: v_mul_lo_u32 v4, v7, v2			; CGP-NEXT: v_mul_lo_u32 v4, v7, v2
	; CGP-NEXT: v_mul_hi_u32 v6, v5, v2			; CGP-NEXT: v_mul_hi_u32 v6, v5, v2
	; CGP-NEXT: v_mul_hi_u32 v2, v7, v2			; CGP-NEXT: v_mul_hi_u32 v2, v7, v2
	; CGP-NEXT: v_mul_lo_u32 v8, v5, v3			; CGP-NEXT: v_mul_lo_u32 v8, v5, v3
	; CGP-NEXT: v_mul_lo_u32 v9, v7, v3			; CGP-NEXT: v_mul_lo_u32 v11, v7, v3
	; CGP-NEXT: v_mul_hi_u32 v12, v5, v3			; CGP-NEXT: v_mul_hi_u32 v12, v5, v3
	; CGP-NEXT: v_mul_hi_u32 v3, v7, v3			; CGP-NEXT: v_mul_hi_u32 v3, v7, v3
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v8			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v8
	; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v9, v2			; CGP-NEXT: v_add_i32_e32 v2, vcc, v11, v2
	; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v12			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v12
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v8, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v8, v4
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v9, v6			; CGP-NEXT: v_add_i32_e32 v6, vcc, v11, v6
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; CGP-NEXT: v_mul_lo_u32 v6, v10, v2			; CGP-NEXT: v_mul_lo_u32 v6, v9, v2
	; CGP-NEXT: v_mul_lo_u32 v8, v11, v2			; CGP-NEXT: v_mul_lo_u32 v8, v10, v2
	; CGP-NEXT: v_mul_hi_u32 v9, v10, v2			; CGP-NEXT: v_mul_hi_u32 v11, v9, v2
	; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; CGP-NEXT: v_mul_lo_u32 v4, v10, v3			; CGP-NEXT: v_mul_lo_u32 v4, v9, v3
	; CGP-NEXT: v_add_i32_e32 v12, vcc, 1, v2			; CGP-NEXT: v_add_i32_e32 v12, vcc, 1, v2
	; CGP-NEXT: v_addc_u32_e32 v13, vcc, 0, v3, vcc			; CGP-NEXT: v_addc_u32_e32 v13, vcc, 0, v3, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v8, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v8, v4
	; CGP-NEXT: v_add_i32_e32 v8, vcc, 1, v12			; CGP-NEXT: v_add_i32_e32 v8, vcc, 1, v12
	; CGP-NEXT: v_addc_u32_e32 v14, vcc, 0, v13, vcc			; CGP-NEXT: v_addc_u32_e32 v14, vcc, 0, v13, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v9			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v11
	; CGP-NEXT: v_sub_i32_e32 v5, vcc, v5, v6			; CGP-NEXT: v_sub_i32_e32 v5, vcc, v5, v6
	; CGP-NEXT: v_subb_u32_e64 v6, s[4:5], v7, v4, vcc			; CGP-NEXT: v_subb_u32_e64 v6, s[4:5], v7, v4, vcc
	; CGP-NEXT: v_sub_i32_e64 v4, s[4:5], v7, v4			; CGP-NEXT: v_sub_i32_e64 v4, s[4:5], v7, v4
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v5, v10			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v5, v9
	; CGP-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[4:5]
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v11			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v10
	; CGP-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v11, 0, -1, s[4:5]
	; CGP-NEXT: v_subb_u32_e32 v4, vcc, v4, v11, vcc			; CGP-NEXT: v_subb_u32_e32 v4, vcc, v4, v10, vcc
	; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v6, v11			; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v6, v10
	; CGP-NEXT: v_cndmask_b32_e32 v6, v9, v7, vcc			; CGP-NEXT: v_cndmask_b32_e32 v6, v11, v7, vcc
	; CGP-NEXT: v_sub_i32_e32 v5, vcc, v5, v10			; CGP-NEXT: v_sub_i32_e32 v5, vcc, v5, v9
	; CGP-NEXT: v_subbrev_u32_e32 v4, vcc, 0, v4, vcc			; CGP-NEXT: v_subbrev_u32_e32 v4, vcc, 0, v4, vcc
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v5, v10			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v5, v9
	; CGP-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v4, v11			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v4, v10
	; CGP-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
	; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v4, v11			; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v4, v10
	; CGP-NEXT: v_cndmask_b32_e32 v4, v7, v5, vcc			; CGP-NEXT: v_cndmask_b32_e32 v4, v7, v5, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; CGP-NEXT: v_cndmask_b32_e32 v4, v12, v8, vcc			; CGP-NEXT: v_cndmask_b32_e32 v4, v12, v8, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v5, v13, v14, vcc			; CGP-NEXT: v_cndmask_b32_e32 v5, v13, v14, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc			; CGP-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; CGP-NEXT: ; implicit-def: $vgpr10_vgpr11			; CGP-NEXT: ; implicit-def: $vgpr9_vgpr10
	; CGP-NEXT: ; implicit-def: $vgpr5			; CGP-NEXT: ; implicit-def: $vgpr5
	; CGP-NEXT: .LBB8_6: ; %Flow			; CGP-NEXT: .LBB8_6: ; %Flow
	; CGP-NEXT: s_or_saveexec_b64 s[6:7], s[6:7]			; CGP-NEXT: s_or_saveexec_b64 s[6:7], s[6:7]
	; CGP-NEXT: s_xor_b64 exec, exec, s[6:7]			; CGP-NEXT: s_xor_b64 exec, exec, s[6:7]
	; CGP-NEXT: s_cbranch_execz .LBB8_8			; CGP-NEXT: s_cbranch_execz .LBB8_8
	; CGP-NEXT: ; %bb.7:			; CGP-NEXT: ; %bb.7:
	; CGP-NEXT: v_cvt_f32_u32_e32 v2, v10			; CGP-NEXT: v_cvt_f32_u32_e32 v2, v9
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v10			; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v9
	; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2			; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2			; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
	; CGP-NEXT: v_mul_lo_u32 v3, v3, v2			; CGP-NEXT: v_mul_lo_u32 v3, v3, v2
	; CGP-NEXT: v_mul_hi_u32 v3, v2, v3			; CGP-NEXT: v_mul_hi_u32 v3, v2, v3
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; CGP-NEXT: v_mul_hi_u32 v2, v5, v2			; CGP-NEXT: v_mul_hi_u32 v2, v5, v2
	; CGP-NEXT: v_mul_lo_u32 v3, v2, v10			; CGP-NEXT: v_mul_lo_u32 v3, v2, v9
	; CGP-NEXT: v_add_i32_e32 v4, vcc, 1, v2			; CGP-NEXT: v_add_i32_e32 v4, vcc, 1, v2
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, v5, v3			; CGP-NEXT: v_sub_i32_e32 v3, vcc, v5, v3
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v3, v10			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v3, v9
	; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; CGP-NEXT: v_sub_i32_e64 v4, s[4:5], v3, v10			; CGP-NEXT: v_sub_i32_e64 v4, s[4:5], v3, v9
	; CGP-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; CGP-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, 1, v2			; CGP-NEXT: v_add_i32_e32 v4, vcc, 1, v2
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v3, v10			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v3, v9
	; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; CGP-NEXT: v_mov_b32_e32 v3, 0			; CGP-NEXT: v_mov_b32_e32 v3, 0
	; CGP-NEXT: .LBB8_8:			; CGP-NEXT: .LBB8_8:
	; CGP-NEXT: s_or_b64 exec, exec, s[6:7]			; CGP-NEXT: s_or_b64 exec, exec, s[6:7]
	; CGP-NEXT: s_setpc_b64 s[30:31]			; CGP-NEXT: s_setpc_b64 s[30:31]
	%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y			%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y
	%r = udiv <2 x i64> %x, %shl.y			%r = udiv <2 x i64> %x, %shl.y
	ret <2 x i64> %r			ret <2 x i64> %r
	▲ Show 20 Lines • Show All 354 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/urem.i64.ll

	Show First 20 Lines • Show All 2,036 Lines • ▼ Show 20 Lines
	;			;
	; CGP-LABEL: v_urem_v2i64_pow2_shl_denom:			; CGP-LABEL: v_urem_v2i64_pow2_shl_denom:
	; CGP: ; %bb.0:			; CGP: ; %bb.0:
	; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CGP-NEXT: v_mov_b32_e32 v8, v0			; CGP-NEXT: v_mov_b32_e32 v8, v0
	; CGP-NEXT: v_mov_b32_e32 v9, v1			; CGP-NEXT: v_mov_b32_e32 v9, v1
	; CGP-NEXT: v_mov_b32_e32 v5, v2			; CGP-NEXT: v_mov_b32_e32 v5, v2
	; CGP-NEXT: v_mov_b32_e32 v7, v3			; CGP-NEXT: v_mov_b32_e32 v7, v3
	; CGP-NEXT: s_mov_b64 s[4:5], 0x1000			; CGP-NEXT: s_mov_b64 s[6:7], 0x1000
	; CGP-NEXT: v_lshl_b64 v[2:3], s[4:5], v4			; CGP-NEXT: v_lshl_b64 v[2:3], s[6:7], v4
	; CGP-NEXT: v_lshl_b64 v[10:11], s[4:5], v6
	; CGP-NEXT: v_or_b32_e32 v1, v9, v3			; CGP-NEXT: v_or_b32_e32 v1, v9, v3
	; CGP-NEXT: v_mov_b32_e32 v0, 0			; CGP-NEXT: v_mov_b32_e32 v0, 0
	; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]			; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[0:1]
	; CGP-NEXT: ; implicit-def: $vgpr0_vgpr1			; CGP-NEXT: ; implicit-def: $vgpr0_vgpr1
	; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc			; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]			; CGP-NEXT: s_xor_b64 s[8:9], exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_2			; CGP-NEXT: s_cbranch_execz .LBB8_2
	; CGP-NEXT: ; %bb.1:			; CGP-NEXT: ; %bb.1:
	; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2			; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2
	; CGP-NEXT: v_cvt_f32_u32_e32 v1, v3			; CGP-NEXT: v_cvt_f32_u32_e32 v1, v3
	; CGP-NEXT: v_sub_i32_e32 v4, vcc, 0, v2			; CGP-NEXT: v_sub_i32_e32 v4, vcc, 0, v2
	; CGP-NEXT: v_subb_u32_e32 v6, vcc, 0, v3, vcc			; CGP-NEXT: v_subb_u32_e32 v10, vcc, 0, v3, vcc
	; CGP-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1			; CGP-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
	; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0			; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; CGP-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; CGP-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; CGP-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; CGP-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; CGP-NEXT: v_trunc_f32_e32 v1, v1			; CGP-NEXT: v_trunc_f32_e32 v1, v1
	; CGP-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; CGP-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; CGP-NEXT: v_cvt_u32_f32_e32 v1, v1			; CGP-NEXT: v_cvt_u32_f32_e32 v1, v1
	; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0			; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0
	; CGP-NEXT: v_mul_lo_u32 v12, v4, v1			; CGP-NEXT: v_mul_lo_u32 v11, v4, v1
	; CGP-NEXT: v_mul_lo_u32 v13, v4, v0
	; CGP-NEXT: v_mul_lo_u32 v14, v6, v0
	; CGP-NEXT: v_mul_hi_u32 v15, v4, v0
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v14, v12
	; CGP-NEXT: v_mul_lo_u32 v14, v1, v13
	; CGP-NEXT: v_mul_hi_u32 v16, v0, v13
	; CGP-NEXT: v_mul_hi_u32 v13, v1, v13
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v15
	; CGP-NEXT: v_mul_lo_u32 v15, v0, v12
	; CGP-NEXT: v_mul_lo_u32 v17, v1, v12
	; CGP-NEXT: v_mul_hi_u32 v18, v0, v12
	; CGP-NEXT: v_mul_hi_u32 v12, v1, v12
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v15
	; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v17, v13
	; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v16
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v18
	; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14
	; CGP-NEXT: v_add_i32_e32 v15, vcc, v17, v16
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v14
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v14
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v13
	; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v12, vcc
	; CGP-NEXT: v_mul_lo_u32 v12, v4, v0			; CGP-NEXT: v_mul_lo_u32 v12, v4, v0
	; CGP-NEXT: v_mul_lo_u32 v6, v6, v0			; CGP-NEXT: v_mul_lo_u32 v13, v10, v0
	; CGP-NEXT: v_mul_hi_u32 v13, v4, v0			; CGP-NEXT: v_mul_hi_u32 v14, v4, v0
	; CGP-NEXT: v_mul_lo_u32 v4, v4, v1			; CGP-NEXT: v_add_i32_e32 v11, vcc, v13, v11
	; CGP-NEXT: v_mul_lo_u32 v14, v1, v12			; CGP-NEXT: v_mul_lo_u32 v13, v1, v12
	; CGP-NEXT: v_mul_hi_u32 v15, v0, v12			; CGP-NEXT: v_mul_hi_u32 v15, v0, v12
	; CGP-NEXT: v_mul_hi_u32 v12, v1, v12			; CGP-NEXT: v_mul_hi_u32 v12, v1, v12
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v14
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v13			; CGP-NEXT: v_mul_lo_u32 v14, v0, v11
	; CGP-NEXT: v_mul_lo_u32 v6, v0, v4			; CGP-NEXT: v_mul_lo_u32 v16, v1, v11
	; CGP-NEXT: v_mul_lo_u32 v13, v1, v4			; CGP-NEXT: v_mul_hi_u32 v17, v0, v11
	; CGP-NEXT: v_mul_hi_u32 v16, v0, v4			; CGP-NEXT: v_mul_hi_u32 v11, v1, v11
	; CGP-NEXT: v_mul_hi_u32 v4, v1, v4			; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v14, v6
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v12, vcc, v16, v12
				; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v15
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v15			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v17
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v16
	; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v14, v6			; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v15			; CGP-NEXT: v_add_i32_e32 v14, vcc, v16, v15
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v12, v6			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v13
				; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v12
				; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v11, vcc
				; CGP-NEXT: v_mul_lo_u32 v11, v4, v0
				; CGP-NEXT: v_mul_lo_u32 v10, v10, v0
				; CGP-NEXT: v_mul_hi_u32 v12, v4, v0
				; CGP-NEXT: v_mul_lo_u32 v4, v4, v1
				; CGP-NEXT: v_mul_lo_u32 v13, v1, v11
				; CGP-NEXT: v_mul_hi_u32 v14, v0, v11
				; CGP-NEXT: v_mul_hi_u32 v11, v1, v11
				; CGP-NEXT: v_add_i32_e32 v4, vcc, v10, v4
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v12			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v12
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v6			; CGP-NEXT: v_mul_lo_u32 v10, v0, v4
				; CGP-NEXT: v_mul_lo_u32 v12, v1, v4
				; CGP-NEXT: v_mul_hi_u32 v15, v0, v4
				; CGP-NEXT: v_mul_hi_u32 v4, v1, v4
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v13, v10
				; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
				; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v10, v14
				; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v15
				; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v13, v10
				; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v14
				; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
				; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
				; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v11
				; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v10
	; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc			; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc
	; CGP-NEXT: v_mul_lo_u32 v4, v9, v0			; CGP-NEXT: v_mul_lo_u32 v4, v9, v0
	; CGP-NEXT: v_mul_hi_u32 v6, v8, v0			; CGP-NEXT: v_mul_hi_u32 v10, v8, v0
	; CGP-NEXT: v_mul_hi_u32 v0, v9, v0			; CGP-NEXT: v_mul_hi_u32 v0, v9, v0
	; CGP-NEXT: v_mul_lo_u32 v12, v8, v1			; CGP-NEXT: v_mul_lo_u32 v11, v8, v1
	; CGP-NEXT: v_mul_lo_u32 v13, v9, v1			; CGP-NEXT: v_mul_lo_u32 v12, v9, v1
	; CGP-NEXT: v_mul_hi_u32 v14, v8, v1			; CGP-NEXT: v_mul_hi_u32 v13, v8, v1
	; CGP-NEXT: v_mul_hi_u32 v1, v9, v1			; CGP-NEXT: v_mul_hi_u32 v1, v9, v1
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v12			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v11
				; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
				; CGP-NEXT: v_add_i32_e32 v0, vcc, v12, v0
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v13, v0			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v10
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v14			; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v13
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v12, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v11, v4
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v13, v6			; CGP-NEXT: v_add_i32_e32 v10, vcc, v12, v10
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v10, v4
	; CGP-NEXT: v_mul_lo_u32 v6, v2, v0			; CGP-NEXT: v_mul_lo_u32 v10, v2, v0
	; CGP-NEXT: v_mul_lo_u32 v12, v3, v0			; CGP-NEXT: v_mul_lo_u32 v11, v3, v0
	; CGP-NEXT: v_mul_hi_u32 v0, v2, v0			; CGP-NEXT: v_mul_hi_u32 v0, v2, v0
	; CGP-NEXT: v_add_i32_e32 v1, vcc, v1, v4			; CGP-NEXT: v_add_i32_e32 v1, vcc, v1, v4
	; CGP-NEXT: v_mul_lo_u32 v1, v2, v1			; CGP-NEXT: v_mul_lo_u32 v1, v2, v1
	; CGP-NEXT: v_add_i32_e32 v1, vcc, v12, v1			; CGP-NEXT: v_add_i32_e32 v1, vcc, v11, v1
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; CGP-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, v8, v6			; CGP-NEXT: v_sub_i32_e32 v1, vcc, v8, v10
	; CGP-NEXT: v_subb_u32_e64 v4, s[4:5], v9, v0, vcc			; CGP-NEXT: v_subb_u32_e64 v4, s[4:5], v9, v0, vcc
	; CGP-NEXT: v_sub_i32_e64 v0, s[4:5], v9, v0			; CGP-NEXT: v_sub_i32_e64 v0, s[4:5], v9, v0
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v1, v2			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v1, v2
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[4:5]
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v4, v3
	; CGP-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]
				; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v4, v3
				; CGP-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]
	; CGP-NEXT: v_subb_u32_e32 v0, vcc, v0, v3, vcc			; CGP-NEXT: v_subb_u32_e32 v0, vcc, v0, v3, vcc
	; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v4, v3			; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v4, v3
	; CGP-NEXT: v_cndmask_b32_e32 v6, v8, v6, vcc			; CGP-NEXT: v_cndmask_b32_e32 v8, v9, v8, vcc
	; CGP-NEXT: v_sub_i32_e32 v8, vcc, v1, v2			; CGP-NEXT: v_sub_i32_e32 v9, vcc, v1, v2
	; CGP-NEXT: v_subbrev_u32_e64 v9, s[4:5], 0, v0, vcc			; CGP-NEXT: v_subbrev_u32_e64 v10, s[4:5], 0, v0, vcc
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v8, v2			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v9, v2
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v11, 0, -1, s[4:5]
	; CGP-NEXT: v_subb_u32_e32 v0, vcc, v0, v3, vcc			; CGP-NEXT: v_subb_u32_e32 v0, vcc, v0, v3, vcc
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v9, v3			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v10, v3
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, -1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, -1, vcc
	; CGP-NEXT: v_sub_i32_e32 v2, vcc, v8, v2			; CGP-NEXT: v_sub_i32_e32 v2, vcc, v9, v2
	; CGP-NEXT: v_subbrev_u32_e32 v0, vcc, 0, v0, vcc			; CGP-NEXT: v_subbrev_u32_e32 v0, vcc, 0, v0, vcc
	; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v9, v3			; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v10, v3
	; CGP-NEXT: v_cndmask_b32_e32 v3, v13, v12, vcc			; CGP-NEXT: v_cndmask_b32_e32 v3, v12, v11, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3
	; CGP-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v9, v2, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v3, v9, v0, vcc			; CGP-NEXT: v_cndmask_b32_e32 v3, v10, v0, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8
	; CGP-NEXT: v_cndmask_b32_e32 v0, v1, v2, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v1, v2, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v1, v4, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v1, v4, v3, vcc
	; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3			; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3
	; CGP-NEXT: ; implicit-def: $vgpr8			; CGP-NEXT: ; implicit-def: $vgpr8
	; CGP-NEXT: .LBB8_2: ; %Flow2			; CGP-NEXT: .LBB8_2: ; %Flow2
	; CGP-NEXT: s_or_saveexec_b64 s[4:5], s[6:7]			; CGP-NEXT: s_or_saveexec_b64 s[4:5], s[8:9]
				; CGP-NEXT: v_lshl_b64 v[9:10], s[6:7], v6
	; CGP-NEXT: s_xor_b64 exec, exec, s[4:5]			; CGP-NEXT: s_xor_b64 exec, exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_4			; CGP-NEXT: s_cbranch_execz .LBB8_4
	; CGP-NEXT: ; %bb.3:			; CGP-NEXT: ; %bb.3:
	; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2			; CGP-NEXT: v_cvt_f32_u32_e32 v0, v2
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, 0, v2			; CGP-NEXT: v_sub_i32_e32 v1, vcc, 0, v2
	; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0			; CGP-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; CGP-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; CGP-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0			; CGP-NEXT: v_cvt_u32_f32_e32 v0, v0
	; CGP-NEXT: v_mul_lo_u32 v1, v1, v0			; CGP-NEXT: v_mul_lo_u32 v1, v1, v0
	; CGP-NEXT: v_mul_hi_u32 v1, v0, v1			; CGP-NEXT: v_mul_hi_u32 v1, v0, v1
	; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; CGP-NEXT: v_mul_hi_u32 v0, v8, v0			; CGP-NEXT: v_mul_hi_u32 v0, v8, v0
	; CGP-NEXT: v_mul_lo_u32 v0, v0, v2			; CGP-NEXT: v_mul_lo_u32 v0, v0, v2
	; CGP-NEXT: v_sub_i32_e32 v0, vcc, v8, v0			; CGP-NEXT: v_sub_i32_e32 v0, vcc, v8, v0
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, v0, v2			; CGP-NEXT: v_sub_i32_e32 v1, vcc, v0, v2
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; CGP-NEXT: v_sub_i32_e32 v1, vcc, v0, v2			; CGP-NEXT: v_sub_i32_e32 v1, vcc, v0, v2
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; CGP-NEXT: v_mov_b32_e32 v1, 0			; CGP-NEXT: v_mov_b32_e32 v1, 0
	; CGP-NEXT: .LBB8_4:			; CGP-NEXT: .LBB8_4:
	; CGP-NEXT: s_or_b64 exec, exec, s[4:5]			; CGP-NEXT: s_or_b64 exec, exec, s[4:5]
	; CGP-NEXT: v_or_b32_e32 v3, v7, v11			; CGP-NEXT: v_or_b32_e32 v3, v7, v10
	; CGP-NEXT: v_mov_b32_e32 v2, 0			; CGP-NEXT: v_mov_b32_e32 v2, 0
	; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[2:3]			; CGP-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[2:3]
	; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3			; CGP-NEXT: ; implicit-def: $vgpr2_vgpr3
	; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc			; CGP-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]			; CGP-NEXT: s_xor_b64 s[6:7], exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_6			; CGP-NEXT: s_cbranch_execz .LBB8_6
	; CGP-NEXT: ; %bb.5:			; CGP-NEXT: ; %bb.5:
	; CGP-NEXT: v_cvt_f32_u32_e32 v2, v10			; CGP-NEXT: v_cvt_f32_u32_e32 v2, v9
	; CGP-NEXT: v_cvt_f32_u32_e32 v3, v11			; CGP-NEXT: v_cvt_f32_u32_e32 v3, v10
	; CGP-NEXT: v_sub_i32_e32 v4, vcc, 0, v10			; CGP-NEXT: v_sub_i32_e32 v4, vcc, 0, v9
	; CGP-NEXT: v_subb_u32_e32 v6, vcc, 0, v11, vcc			; CGP-NEXT: v_subb_u32_e32 v6, vcc, 0, v10, vcc
	; CGP-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3			; CGP-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
	; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2			; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; CGP-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2			; CGP-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; CGP-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2			; CGP-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; CGP-NEXT: v_trunc_f32_e32 v3, v3			; CGP-NEXT: v_trunc_f32_e32 v3, v3
	; CGP-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3			; CGP-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; CGP-NEXT: v_cvt_u32_f32_e32 v3, v3			; CGP-NEXT: v_cvt_u32_f32_e32 v3, v3
	; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2			; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
	; CGP-NEXT: v_mul_lo_u32 v8, v4, v3			; CGP-NEXT: v_mul_lo_u32 v8, v4, v3
	; CGP-NEXT: v_mul_lo_u32 v9, v4, v2			; CGP-NEXT: v_mul_lo_u32 v11, v4, v2
	; CGP-NEXT: v_mul_lo_u32 v12, v6, v2			; CGP-NEXT: v_mul_lo_u32 v12, v6, v2
	; CGP-NEXT: v_mul_hi_u32 v13, v4, v2			; CGP-NEXT: v_mul_hi_u32 v13, v4, v2
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v12, v8			; CGP-NEXT: v_add_i32_e32 v8, vcc, v12, v8
	; CGP-NEXT: v_mul_lo_u32 v12, v3, v9			; CGP-NEXT: v_mul_lo_u32 v12, v3, v11
	; CGP-NEXT: v_mul_hi_u32 v14, v2, v9			; CGP-NEXT: v_mul_hi_u32 v14, v2, v11
	; CGP-NEXT: v_mul_hi_u32 v9, v3, v9			; CGP-NEXT: v_mul_hi_u32 v11, v3, v11
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v13			; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v13
	; CGP-NEXT: v_mul_lo_u32 v13, v2, v8			; CGP-NEXT: v_mul_lo_u32 v13, v2, v8
	; CGP-NEXT: v_mul_lo_u32 v15, v3, v8			; CGP-NEXT: v_mul_lo_u32 v15, v3, v8
	; CGP-NEXT: v_mul_hi_u32 v16, v2, v8			; CGP-NEXT: v_mul_hi_u32 v16, v2, v8
	; CGP-NEXT: v_mul_hi_u32 v8, v3, v8			; CGP-NEXT: v_mul_hi_u32 v8, v3, v8
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v13
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v15, v9			; CGP-NEXT: v_add_i32_e32 v11, vcc, v15, v11
	; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v14			; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v14
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v16			; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v16
	; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; CGP-NEXT: v_add_i32_e32 v13, vcc, v15, v14			; CGP-NEXT: v_add_i32_e32 v13, vcc, v15, v14
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12			; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v12
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12			; CGP-NEXT: v_add_i32_e32 v12, vcc, v13, v12
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v12			; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v12
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v9			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v11
	; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v8, vcc			; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v8, vcc
	; CGP-NEXT: v_mul_lo_u32 v8, v4, v2			; CGP-NEXT: v_mul_lo_u32 v8, v4, v2
	; CGP-NEXT: v_mul_lo_u32 v6, v6, v2			; CGP-NEXT: v_mul_lo_u32 v6, v6, v2
	; CGP-NEXT: v_mul_hi_u32 v9, v4, v2			; CGP-NEXT: v_mul_hi_u32 v11, v4, v2
	; CGP-NEXT: v_mul_lo_u32 v4, v4, v3			; CGP-NEXT: v_mul_lo_u32 v4, v4, v3
	; CGP-NEXT: v_mul_lo_u32 v12, v3, v8			; CGP-NEXT: v_mul_lo_u32 v12, v3, v8
	; CGP-NEXT: v_mul_hi_u32 v13, v2, v8			; CGP-NEXT: v_mul_hi_u32 v13, v2, v8
	; CGP-NEXT: v_mul_hi_u32 v8, v3, v8			; CGP-NEXT: v_mul_hi_u32 v8, v3, v8
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v9			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v11
	; CGP-NEXT: v_mul_lo_u32 v6, v2, v4			; CGP-NEXT: v_mul_lo_u32 v6, v2, v4
	; CGP-NEXT: v_mul_lo_u32 v9, v3, v4			; CGP-NEXT: v_mul_lo_u32 v11, v3, v4
	; CGP-NEXT: v_mul_hi_u32 v14, v2, v4			; CGP-NEXT: v_mul_hi_u32 v14, v2, v4
	; CGP-NEXT: v_mul_hi_u32 v4, v3, v4			; CGP-NEXT: v_mul_hi_u32 v4, v3, v4
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v12, v6			; CGP-NEXT: v_add_i32_e32 v6, vcc, v12, v6
	; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8			; CGP-NEXT: v_add_i32_e32 v8, vcc, v11, v8
	; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v13			; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v13
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v14			; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v14
	; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v12, v6			; CGP-NEXT: v_add_i32_e32 v6, vcc, v12, v6
	; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v13			; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v13
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6			; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6
	; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8			; CGP-NEXT: v_add_i32_e32 v8, vcc, v11, v8
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v8			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v8
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v6			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v6
	; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc			; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v4, vcc
	; CGP-NEXT: v_mul_lo_u32 v4, v7, v2			; CGP-NEXT: v_mul_lo_u32 v4, v7, v2
	; CGP-NEXT: v_mul_hi_u32 v6, v5, v2			; CGP-NEXT: v_mul_hi_u32 v6, v5, v2
	; CGP-NEXT: v_mul_hi_u32 v2, v7, v2			; CGP-NEXT: v_mul_hi_u32 v2, v7, v2
	; CGP-NEXT: v_mul_lo_u32 v8, v5, v3			; CGP-NEXT: v_mul_lo_u32 v8, v5, v3
	; CGP-NEXT: v_mul_lo_u32 v9, v7, v3			; CGP-NEXT: v_mul_lo_u32 v11, v7, v3
	; CGP-NEXT: v_mul_hi_u32 v12, v5, v3			; CGP-NEXT: v_mul_hi_u32 v12, v5, v3
	; CGP-NEXT: v_mul_hi_u32 v3, v7, v3			; CGP-NEXT: v_mul_hi_u32 v3, v7, v3
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v8			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v8
	; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v9, v2			; CGP-NEXT: v_add_i32_e32 v2, vcc, v11, v2
	; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; CGP-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v12			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v12
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v8, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v8, v4
	; CGP-NEXT: v_add_i32_e32 v6, vcc, v9, v6			; CGP-NEXT: v_add_i32_e32 v6, vcc, v11, v6
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, vcc
	; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; CGP-NEXT: v_mul_lo_u32 v6, v10, v2			; CGP-NEXT: v_mul_lo_u32 v6, v9, v2
	; CGP-NEXT: v_mul_lo_u32 v8, v11, v2			; CGP-NEXT: v_mul_lo_u32 v8, v10, v2
	; CGP-NEXT: v_mul_hi_u32 v2, v10, v2			; CGP-NEXT: v_mul_hi_u32 v2, v9, v2
	; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; CGP-NEXT: v_mul_lo_u32 v3, v10, v3			; CGP-NEXT: v_mul_lo_u32 v3, v9, v3
	; CGP-NEXT: v_add_i32_e32 v3, vcc, v8, v3			; CGP-NEXT: v_add_i32_e32 v3, vcc, v8, v3
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; CGP-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, v5, v6			; CGP-NEXT: v_sub_i32_e32 v3, vcc, v5, v6
	; CGP-NEXT: v_subb_u32_e64 v4, s[4:5], v7, v2, vcc			; CGP-NEXT: v_subb_u32_e64 v4, s[4:5], v7, v2, vcc
	; CGP-NEXT: v_sub_i32_e64 v2, s[4:5], v7, v2			; CGP-NEXT: v_sub_i32_e64 v2, s[4:5], v7, v2
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v3, v10			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v3, v9
	; CGP-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[4:5]
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v4, v11			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v4, v10
	; CGP-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[4:5]
	; CGP-NEXT: v_subb_u32_e32 v2, vcc, v2, v11, vcc			; CGP-NEXT: v_subb_u32_e32 v2, vcc, v2, v10, vcc
	; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v4, v11			; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v4, v10
	; CGP-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc			; CGP-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc
	; CGP-NEXT: v_sub_i32_e32 v6, vcc, v3, v10			; CGP-NEXT: v_sub_i32_e32 v6, vcc, v3, v9
	; CGP-NEXT: v_subbrev_u32_e64 v7, s[4:5], 0, v2, vcc			; CGP-NEXT: v_subbrev_u32_e64 v7, s[4:5], 0, v2, vcc
	; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v10			; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v9
	; CGP-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]			; CGP-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]
	; CGP-NEXT: v_subb_u32_e32 v2, vcc, v2, v11, vcc			; CGP-NEXT: v_subb_u32_e32 v2, vcc, v2, v10, vcc
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v7, v11			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v7, v10
	; CGP-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc			; CGP-NEXT: v_cndmask_b32_e64 v11, 0, -1, vcc
	; CGP-NEXT: v_sub_i32_e32 v10, vcc, v6, v10			; CGP-NEXT: v_sub_i32_e32 v9, vcc, v6, v9
	; CGP-NEXT: v_subbrev_u32_e32 v2, vcc, 0, v2, vcc			; CGP-NEXT: v_subbrev_u32_e32 v2, vcc, 0, v2, vcc
	; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v7, v11			; CGP-NEXT: v_cmp_eq_u32_e32 vcc, v7, v10
	; CGP-NEXT: v_cndmask_b32_e32 v8, v9, v8, vcc			; CGP-NEXT: v_cndmask_b32_e32 v8, v11, v8, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8
	; CGP-NEXT: v_cndmask_b32_e32 v6, v6, v10, vcc			; CGP-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v7, v7, v2, vcc			; CGP-NEXT: v_cndmask_b32_e32 v7, v7, v2, vcc
	; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; CGP-NEXT: v_cndmask_b32_e32 v2, v3, v6, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v3, v6, vcc
	; CGP-NEXT: v_cndmask_b32_e32 v3, v4, v7, vcc			; CGP-NEXT: v_cndmask_b32_e32 v3, v4, v7, vcc
	; CGP-NEXT: ; implicit-def: $vgpr10_vgpr11			; CGP-NEXT: ; implicit-def: $vgpr9_vgpr10
	; CGP-NEXT: ; implicit-def: $vgpr5			; CGP-NEXT: ; implicit-def: $vgpr5
	; CGP-NEXT: .LBB8_6: ; %Flow			; CGP-NEXT: .LBB8_6: ; %Flow
	; CGP-NEXT: s_or_saveexec_b64 s[4:5], s[6:7]			; CGP-NEXT: s_or_saveexec_b64 s[4:5], s[6:7]
	; CGP-NEXT: s_xor_b64 exec, exec, s[4:5]			; CGP-NEXT: s_xor_b64 exec, exec, s[4:5]
	; CGP-NEXT: s_cbranch_execz .LBB8_8			; CGP-NEXT: s_cbranch_execz .LBB8_8
	; CGP-NEXT: ; %bb.7:			; CGP-NEXT: ; %bb.7:
	; CGP-NEXT: v_cvt_f32_u32_e32 v2, v10			; CGP-NEXT: v_cvt_f32_u32_e32 v2, v9
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v10			; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v9
	; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2			; CGP-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2			; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
	; CGP-NEXT: v_mul_lo_u32 v3, v3, v2			; CGP-NEXT: v_mul_lo_u32 v3, v3, v2
	; CGP-NEXT: v_mul_hi_u32 v3, v2, v3			; CGP-NEXT: v_mul_hi_u32 v3, v2, v3
	; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; CGP-NEXT: v_mul_hi_u32 v2, v5, v2			; CGP-NEXT: v_mul_hi_u32 v2, v5, v2
	; CGP-NEXT: v_mul_lo_u32 v2, v2, v10			; CGP-NEXT: v_mul_lo_u32 v2, v2, v9
	; CGP-NEXT: v_sub_i32_e32 v2, vcc, v5, v2			; CGP-NEXT: v_sub_i32_e32 v2, vcc, v5, v2
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, v2, v10			; CGP-NEXT: v_sub_i32_e32 v3, vcc, v2, v9
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v2, v10			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v2, v9
	; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; CGP-NEXT: v_sub_i32_e32 v3, vcc, v2, v10			; CGP-NEXT: v_sub_i32_e32 v3, vcc, v2, v9
	; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v2, v10			; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v2, v9
	; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; CGP-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; CGP-NEXT: v_mov_b32_e32 v3, 0			; CGP-NEXT: v_mov_b32_e32 v3, 0
	; CGP-NEXT: .LBB8_8:			; CGP-NEXT: .LBB8_8:
	; CGP-NEXT: s_or_b64 exec, exec, s[4:5]			; CGP-NEXT: s_or_b64 exec, exec, s[4:5]
	; CGP-NEXT: s_setpc_b64 s[30:31]			; CGP-NEXT: s_setpc_b64 s[30:31]
	%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y			%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y
	%r = urem <2 x i64> %x, %shl.y			%r = urem <2 x i64> %x, %shl.y
	ret <2 x i64> %r			ret <2 x i64> %r
	▲ Show 20 Lines • Show All 354 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/frame-index-elimination.ll

Show First 20 Lines • Show All 150 Lines • ▼ Show 20 Lines	define void @void_func_byval_struct_i8_i32_ptr_value({ i8, i32 } addrspace(5)* byval({ i8, i32 }) %arg0) #0 {
%load1 = load i32, i32 addrspace(5)* %gep1		%load1 = load i32, i32 addrspace(5)* %gep1
store volatile i8 %load0, i8 addrspace(3)* undef		store volatile i8 %load0, i8 addrspace(3)* undef
store volatile i32 %load1, i32 addrspace(3)* undef		store volatile i32 %load1, i32 addrspace(3)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}void_func_byval_struct_i8_i32_ptr_nonentry_block:		; GCN-LABEL: {{^}}void_func_byval_struct_i8_i32_ptr_nonentry_block:

; CI: v_lshr_b32_e64 [[SHIFT:v[0-9]+]], s32, 6

; GFX9-MUBUF: v_lshrrev_b32_e64 [[SP:v[0-9]+]], 6, s32
; GFX9-FLATSCR: v_mov_b32_e32 [[SP:v[0-9]+]], s32

; GCN: s_and_saveexec_b64		; GCN: s_and_saveexec_b64

; CI: buffer_load_dword v{{[0-9]+}}, off, s[0:3], s32 offset:4 glc{{$}}		; CI: buffer_load_dword v{{[0-9]+}}, off, s[0:3], s32 offset:4 glc{{$}}
; CI: v_add_i32_e32 [[GEP:v[0-9]+]], vcc, 4, [[SHIFT]]

; GFX9-MUBUF: buffer_load_dword v{{[0-9]+}}, off, s[0:3], s32 offset:4 glc{{$}}		; GFX9-MUBUF: buffer_load_dword v{{[0-9]+}}, off, s[0:3], s32 offset:4 glc{{$}}
; GFX9-FLATSCR: scratch_load_dword v{{[0-9]+}}, off, s32 offset:4 glc{{$}}		; GFX9-FLATSCR: scratch_load_dword v{{[0-9]+}}, off, s32 offset:4 glc{{$}}

		; CI: v_lshr_b32_e64 [[SHIFT:v[0-9]+]], s32, 6
		; CI: v_add_i32_e32 [[GEP:v[0-9]+]], vcc, 4, [[SHIFT]]

		; GFX9-MUBUF: v_lshrrev_b32_e64 [[SP:v[0-9]+]], 6, s32
		; GFX9-FLATSCR: v_mov_b32_e32 [[SP:v[0-9]+]], s32

; GFX9: v_add_u32_e32 [[GEP:v[0-9]+]], 4, [[SP]]		; GFX9: v_add_u32_e32 [[GEP:v[0-9]+]], 4, [[SP]]

; GCN: ds_write_b32 v{{[0-9]+}}, [[GEP]]		; GCN: ds_write_b32 v{{[0-9]+}}, [[GEP]]
define void @void_func_byval_struct_i8_i32_ptr_nonentry_block({ i8, i32 } addrspace(5)* byval({ i8, i32 }) %arg0, i32 %arg2) #0 {		define void @void_func_byval_struct_i8_i32_ptr_nonentry_block({ i8, i32 } addrspace(5)* byval({ i8, i32 }) %arg0, i32 %arg2) #0 {
%cmp = icmp eq i32 %arg2, 0		%cmp = icmp eq i32 %arg2, 0
br i1 %cmp, label %bb, label %ret		br i1 %cmp, label %bb, label %ret

bb:		bb:
▲ Show 20 Lines • Show All 130 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/machine-sink-ignorable-exec-use.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -march=amdgcn -mcpu=gfx908 -verify-machineinstrs -run-pass=machine-sink -o - %s \| FileCheck -check-prefixes=GFX9 %s

				---
				name: test_sink_fmac_to_only_use
				alignment: 1
				tracksRegLiveness: true
				machineFunctionInfo:
				isEntryFunction: true
				body: \|
				; GFX9-LABEL: name: test_sink_fmac_to_only_use
				; GFX9: bb.0:
				; GFX9-NEXT: successors: %bb.2(0x40000000), %bb.1(0x40000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX9-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX9-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX9-NEXT: [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX9-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 0
				; GFX9-NEXT: [[S_MOV_B64_1:%[0-9]+]]:sreg_64 = S_MOV_B64 0
				; GFX9-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY [[S_MOV_B64_]]
				; GFX9-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[S_MOV_B64_1]]
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD killed [[COPY2]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD1:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD killed [[COPY3]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: [[COPY4:%[0-9]+]]:vgpr_32(s32) = COPY $vgpr0
				; GFX9-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 1
				; GFX9-NEXT: [[V_CMP_LT_I32_e64_:%[0-9]+]]:sreg_64 = V_CMP_LT_I32_e64 [[COPY4]](s32), [[S_MOV_B32_]], implicit $exec
				; GFX9-NEXT: [[SI_IF:%[0-9]+]]:sreg_64 = SI_IF [[V_CMP_LT_I32_e64_]], %bb.2, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: S_BRANCH %bb.1
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.1:
				; GFX9-NEXT: successors: %bb.2(0x80000000)
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: %9:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD]], 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: %10:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %9, 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: %12:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD1]], 0, [[COPY1]], 0, [[COPY]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: %13:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %12, 0, [[COPY1]], 0, [[COPY]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: [[V_ADD_F32_e32_:%[0-9]+]]:vgpr_32 = V_ADD_F32_e32 %9, %10, implicit $mode, implicit $exec
				; GFX9-NEXT: [[V_ADD_F32_e32_1:%[0-9]+]]:vgpr_32 = V_ADD_F32_e32 %12, %13, implicit $mode, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.2:
				; GFX9-NEXT: successors: %bb.3(0x80000000)
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[PHI:%[0-9]+]]:vgpr_32 = PHI [[V_MOV_B32_e32_]], %bb.0, [[V_ADD_F32_e32_]], %bb.1
				; GFX9-NEXT: [[PHI1:%[0-9]+]]:vgpr_32 = PHI [[V_MOV_B32_e32_1]], %bb.0, [[V_ADD_F32_e32_1]], %bb.1
				; GFX9-NEXT: SI_END_CF [[SI_IF]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.3:
				; GFX9-NEXT: S_ENDPGM 0, implicit [[PHI]], implicit [[PHI1]]
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2
				%1:vgpr_32 = COPY $vgpr0
				%2:vgpr_32 = COPY $vgpr1
				%3:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				%4:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				%5:sreg_64 = S_MOV_B64 0
				%6:sreg_64 = S_MOV_B64 0
				%7:vreg_64 = COPY %5
				%8:vreg_64 = COPY %6
				%9:vgpr_32 = GLOBAL_LOAD_DWORD killed %7, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%10:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %9, 0, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%11:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %10, 0, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%12:vgpr_32 = GLOBAL_LOAD_DWORD killed %8, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%13:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %12, 0, %2, 0, %1, 0, 0, implicit $mode, implicit $exec
				%14:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %13, 0, %2, 0, %1, 0, 0, implicit $mode, implicit $exec
				%15:vgpr_32(s32) = COPY $vgpr0
				%16:sreg_32 = S_MOV_B32 1
				%17:sreg_64 = V_CMP_LT_I32_e64 %15(s32), %16, implicit $exec
				%18:sreg_64 = COPY %17
				%19:sreg_64 = SI_IF %18, %bb.2, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				S_BRANCH %bb.1

				bb.1:
				%20:vgpr_32 = V_ADD_F32_e32 %10, %11, implicit $mode, implicit $exec
				%21:vgpr_32 = V_ADD_F32_e32 %13, %14, implicit $mode, implicit $exec

				bb.2:
				%22:vgpr_32 = PHI %3, %bb.0, %20, %bb.1
				%23:vgpr_32 = PHI %4, %bb.0, %21, %bb.1
				SI_END_CF %19, implicit-def dead $exec, implicit-def dead $scc, implicit $exec

				bb.3:
				S_ENDPGM 0, implicit %22, implicit %23
				...
				---
				name: test_no_sink_into_if_cond_multiple_uses
				alignment: 1
				tracksRegLiveness: true
				machineFunctionInfo:
				isEntryFunction: true
				body: \|
				; GFX9-LABEL: name: test_no_sink_into_if_cond_multiple_uses
				; GFX9: bb.0:
				; GFX9-NEXT: successors: %bb.2(0x40000000), %bb.1(0x40000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX9-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX9-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX9-NEXT: [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX9-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 0
				; GFX9-NEXT: [[S_MOV_B64_1:%[0-9]+]]:sreg_64 = S_MOV_B64 0
				; GFX9-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY [[S_MOV_B64_]]
				; GFX9-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[S_MOV_B64_1]]
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD killed [[COPY2]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: %9:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD]], 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: %10:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %9, 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD1:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD killed [[COPY3]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: %12:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD1]], 0, [[COPY1]], 0, [[COPY]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: %13:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %12, 0, [[COPY1]], 0, [[COPY]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: [[COPY4:%[0-9]+]]:vgpr_32(s32) = COPY $vgpr0
				; GFX9-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 1
				; GFX9-NEXT: [[V_CMP_LT_I32_e64_:%[0-9]+]]:sreg_64 = V_CMP_LT_I32_e64 [[COPY4]](s32), [[S_MOV_B32_]], implicit $exec
				; GFX9-NEXT: [[SI_IF:%[0-9]+]]:sreg_64 = SI_IF [[V_CMP_LT_I32_e64_]], %bb.2, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: S_BRANCH %bb.1
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.1:
				; GFX9-NEXT: successors: %bb.2(0x80000000)
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[V_ADD_F32_e32_:%[0-9]+]]:vgpr_32 = V_ADD_F32_e32 %9, %10, implicit $mode, implicit $exec
				; GFX9-NEXT: [[V_ADD_F32_e32_1:%[0-9]+]]:vgpr_32 = V_ADD_F32_e32 %12, %13, implicit $mode, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.2:
				; GFX9-NEXT: successors: %bb.3(0x80000000)
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[PHI:%[0-9]+]]:vgpr_32 = PHI [[V_MOV_B32_e32_]], %bb.0, [[V_ADD_F32_e32_]], %bb.1
				; GFX9-NEXT: [[PHI1:%[0-9]+]]:vgpr_32 = PHI [[V_MOV_B32_e32_1]], %bb.0, [[V_ADD_F32_e32_1]], %bb.1
				; GFX9-NEXT: SI_END_CF [[SI_IF]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.3:
				; GFX9-NEXT: [[V_ADD_F32_e32_2:%[0-9]+]]:vgpr_32 = V_ADD_F32_e32 %13, %10, implicit $mode, implicit $exec
				; GFX9-NEXT: S_ENDPGM 0, implicit [[PHI]], implicit [[PHI1]]
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2
				%1:vgpr_32 = COPY $vgpr0
				%2:vgpr_32 = COPY $vgpr1
				%3:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				%4:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				%5:sreg_64 = S_MOV_B64 0
				%6:sreg_64 = S_MOV_B64 0
				%7:vreg_64 = COPY %5
				%8:vreg_64 = COPY %6
				%9:vgpr_32 = GLOBAL_LOAD_DWORD killed %7, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%10:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %9, 0, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%11:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %10, 0, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%12:vgpr_32 = GLOBAL_LOAD_DWORD killed %8, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%13:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %12, 0, %2, 0, %1, 0, 0, implicit $mode, implicit $exec
				%14:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %13, 0, %2, 0, %1, 0, 0, implicit $mode, implicit $exec
				%15:vgpr_32(s32) = COPY $vgpr0
				%16:sreg_32 = S_MOV_B32 1
				%17:sreg_64 = V_CMP_LT_I32_e64 %15(s32), %16, implicit $exec
				%18:sreg_64 = COPY %17
				%19:sreg_64 = SI_IF %18, %bb.2, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				S_BRANCH %bb.1

				bb.1:
				%20:vgpr_32 = V_ADD_F32_e32 %10, %11, implicit $mode, implicit $exec
				%21:vgpr_32 = V_ADD_F32_e32 %13, %14, implicit $mode, implicit $exec

				bb.2:
				%22:vgpr_32 = PHI %3, %bb.0, %20, %bb.1
				%23:vgpr_32 = PHI %4, %bb.0, %21, %bb.1
				SI_END_CF %19, implicit-def dead $exec, implicit-def dead $scc, implicit $exec

				bb.3:
				%24:vgpr_32 = V_ADD_F32_e32 %14, %11, implicit $mode, implicit $exec
				S_ENDPGM 0, implicit %22, implicit %23
				...
				---
				name: no_sink_fmac_not_constant_mode
				alignment: 1
				tracksRegLiveness: true
				machineFunctionInfo:
				isEntryFunction: true
				body: \|
				; GFX9-LABEL: name: no_sink_fmac_not_constant_mode
				; GFX9: bb.0:
				; GFX9-NEXT: successors: %bb.2(0x40000000), %bb.1(0x40000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: $mode = IMPLICIT_DEF
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX9-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX9-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX9-NEXT: [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX9-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 0
				; GFX9-NEXT: [[S_MOV_B64_1:%[0-9]+]]:sreg_64 = S_MOV_B64 0
				; GFX9-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY [[S_MOV_B64_]]
				; GFX9-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[S_MOV_B64_1]]
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD killed [[COPY2]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: %9:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD]], 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: %10:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %9, 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD1:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD killed [[COPY3]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: %12:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD1]], 0, [[COPY1]], 0, [[COPY]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: %13:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %12, 0, [[COPY1]], 0, [[COPY]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: [[COPY4:%[0-9]+]]:vgpr_32(s32) = COPY $vgpr0
				; GFX9-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 1
				; GFX9-NEXT: [[V_CMP_LT_I32_e64_:%[0-9]+]]:sreg_64 = V_CMP_LT_I32_e64 [[COPY4]](s32), [[S_MOV_B32_]], implicit $exec
				; GFX9-NEXT: [[SI_IF:%[0-9]+]]:sreg_64 = SI_IF [[V_CMP_LT_I32_e64_]], %bb.2, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: S_BRANCH %bb.1
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.1:
				; GFX9-NEXT: successors: %bb.2(0x80000000)
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[V_ADD_F32_e32_:%[0-9]+]]:vgpr_32 = V_ADD_F32_e32 %9, %10, implicit $mode, implicit $exec
				; GFX9-NEXT: [[V_ADD_F32_e32_1:%[0-9]+]]:vgpr_32 = V_ADD_F32_e32 %12, %13, implicit $mode, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.2:
				; GFX9-NEXT: successors: %bb.3(0x80000000)
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[PHI:%[0-9]+]]:vgpr_32 = PHI [[V_MOV_B32_e32_]], %bb.0, [[V_ADD_F32_e32_]], %bb.1
				; GFX9-NEXT: [[PHI1:%[0-9]+]]:vgpr_32 = PHI [[V_MOV_B32_e32_1]], %bb.0, [[V_ADD_F32_e32_1]], %bb.1
				; GFX9-NEXT: SI_END_CF [[SI_IF]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.3:
				; GFX9-NEXT: S_ENDPGM 0, implicit [[PHI]], implicit [[PHI1]]
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2
				$mode = IMPLICIT_DEF
				%1:vgpr_32 = COPY $vgpr0
				%2:vgpr_32 = COPY $vgpr1
				%3:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				%4:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				%5:sreg_64 = S_MOV_B64 0
				%6:sreg_64 = S_MOV_B64 0
				%7:vreg_64 = COPY %5
				%8:vreg_64 = COPY %6
				%9:vgpr_32 = GLOBAL_LOAD_DWORD killed %7, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%10:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %9, 0, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%11:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %10, 0, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%12:vgpr_32 = GLOBAL_LOAD_DWORD killed %8, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%13:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %12, 0, %2, 0, %1, 0, 0, implicit $mode, implicit $exec
				%14:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %13, 0, %2, 0, %1, 0, 0, implicit $mode, implicit $exec
				%15:vgpr_32(s32) = COPY $vgpr0
				%16:sreg_32 = S_MOV_B32 1
				%17:sreg_64 = V_CMP_LT_I32_e64 %15(s32), %16, implicit $exec
				%18:sreg_64 = COPY %17
				%19:sreg_64 = SI_IF %18, %bb.2, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				S_BRANCH %bb.1

				bb.1:
				%20:vgpr_32 = V_ADD_F32_e32 %10, %11, implicit $mode, implicit $exec
				%21:vgpr_32 = V_ADD_F32_e32 %13, %14, implicit $mode, implicit $exec

				bb.2:
				%22:vgpr_32 = PHI %3, %bb.0, %20, %bb.1
				%23:vgpr_32 = PHI %4, %bb.0, %21, %bb.1
				SI_END_CF %19, implicit-def dead $exec, implicit-def dead $scc, implicit $exec

				bb.3:
				S_ENDPGM 0, implicit %22, implicit %23
				...
				---
				name: test_no_sink_fmac_wwm
				alignment: 1
				tracksRegLiveness: true
				machineFunctionInfo:
				isEntryFunction: true
				body: \|
				; GFX9-LABEL: name: test_no_sink_fmac_wwm
				; GFX9: bb.0:
				; GFX9-NEXT: successors: %bb.2(0x40000000), %bb.1(0x40000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX9-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX9-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 0
				; GFX9-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY [[S_MOV_B64_]]
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD killed [[COPY2]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: %5:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD]], 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: early-clobber %6:vgpr_32 = STRICT_WWM %5, implicit $exec
				; GFX9-NEXT: [[COPY3:%[0-9]+]]:vgpr_32(s32) = COPY $vgpr0
				; GFX9-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 1
				; GFX9-NEXT: [[V_CMP_LT_I32_e64_:%[0-9]+]]:sreg_64 = V_CMP_LT_I32_e64 [[COPY3]](s32), [[S_MOV_B32_]], implicit $exec
				; GFX9-NEXT: [[SI_IF:%[0-9]+]]:sreg_64 = SI_IF [[V_CMP_LT_I32_e64_]], %bb.2, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: S_BRANCH %bb.1
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.1:
				; GFX9-NEXT: successors: %bb.2(0x80000000)
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.2:
				; GFX9-NEXT: successors: %bb.3(0x80000000)
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0, implicit %5
				; GFX9-NEXT: SI_END_CF [[SI_IF]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.3:
				; GFX9-NEXT: S_ENDPGM 0, implicit %6
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2
				%1:vgpr_32 = COPY $vgpr0
				%2:vgpr_32 = COPY $vgpr1

				%20:sreg_64 = S_MOV_B64 0
				%30:vreg_64 = COPY %20
				%29:vgpr_32 = GLOBAL_LOAD_DWORD killed %30, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%6:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %29, 0, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%9:vgpr_32 = STRICT_WWM %6, implicit $exec

				%16:vgpr_32(s32) = COPY $vgpr0
				%23:sreg_32 = S_MOV_B32 1
				%24:sreg_64 = V_CMP_LT_I32_e64 %16(s32), %23, implicit $exec
				%0:sreg_64 = COPY %24
				%5:sreg_64 = SI_IF %0, %bb.2, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				S_BRANCH %bb.1

				bb.1:

				bb.2:
				S_NOP 0, implicit %6
				SI_END_CF %5, implicit-def dead $exec, implicit-def dead $scc, implicit $exec

				bb.3:
				S_ENDPGM 0, implicit %9
				...
				---
				name: test_def_and_use_in_loop_sink_fmac
				tracksRegLiveness: true
				machineFunctionInfo:
				isEntryFunction: true
				body: \|
				; GFX9-LABEL: name: test_def_and_use_in_loop_sink_fmac
				; GFX9: bb.0.entry:
				; GFX9-NEXT: successors: %bb.1(0x80000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX9-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX9-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY $vgpr2_vgpr3
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.1:
				; GFX9-NEXT: successors: %bb.2(0x40000000), %bb.3(0x40000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 0
				; GFX9-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[S_MOV_B64_]]
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD [[COPY3]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD1:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD [[COPY2]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: [[COPY4:%[0-9]+]]:vgpr_32(s32) = COPY $vgpr0
				; GFX9-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 1
				; GFX9-NEXT: [[V_CMP_LT_I32_e64_:%[0-9]+]]:sreg_64 = V_CMP_LT_I32_e64 [[COPY4]](s32), [[S_MOV_B32_]], implicit $exec
				; GFX9-NEXT: [[SI_IF:%[0-9]+]]:sreg_64 = SI_IF [[V_CMP_LT_I32_e64_]], %bb.3, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: S_BRANCH %bb.2
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.2:
				; GFX9-NEXT: successors: %bb.3(0x80000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.3:
				; GFX9-NEXT: successors: %bb.4(0x40000000), %bb.6(0x40000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: %6:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD]], 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: %8:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD1]], 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: S_NOP 0, implicit %6, implicit %8
				; GFX9-NEXT: SI_END_CF [[SI_IF]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: S_CBRANCH_EXECZ %bb.6, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.4:
				; GFX9-NEXT: successors: %bb.5(0x04000000), %bb.4(0x7c000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0
				; GFX9-NEXT: S_CBRANCH_EXECZ %bb.4, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.5:
				; GFX9-NEXT: successors: %bb.6(0x80000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.6:
				; GFX9-NEXT: successors: %bb.7(0x04000000), %bb.1(0x7c000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_CBRANCH_VCCZ %bb.1, implicit $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.7:
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_ENDPGM 0
				bb.0.entry:
				successors: %bb.1(0x80000000)

				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				%101:vgpr_32 = COPY $vgpr0
				%102:vgpr_32 = COPY $vgpr1
				%15:vreg_64 = COPY $vgpr2_vgpr3

				bb.1:
				successors: %bb.2(0x40000000), %bb.3(0x40000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				%20:sreg_64 = S_MOV_B64 0
				%30:vreg_64 = COPY %20
				%29:vgpr_32 = GLOBAL_LOAD_DWORD %30, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%6:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %29, 0, %101, 0, %102, 0, 0, implicit $mode, implicit $exec
				%31:vgpr_32 = GLOBAL_LOAD_DWORD %15, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%7:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %31, 0, %101, 0, %102, 0, 0, implicit $mode, implicit $exec
				%16:vgpr_32(s32) = COPY $vgpr0
				%23:sreg_32 = S_MOV_B32 1
				%24:sreg_64 = V_CMP_LT_I32_e64 %16(s32), %23, implicit $exec
				%0:sreg_64 = COPY %24
				%5:sreg_64 = SI_IF %0, %bb.3, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				S_BRANCH %bb.2

				bb.2:
				successors: %bb.3(0x80000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0

				bb.3:
				successors: %bb.4(0x40000000), %bb.6(0x40000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0, implicit %6, implicit %7
				SI_END_CF %5, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				S_CBRANCH_EXECZ %bb.6, implicit $exec

				bb.4:
				successors: %bb.5(0x04000000), %bb.4(0x7c000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0
				S_CBRANCH_EXECZ %bb.4, implicit $exec

				bb.5:
				successors: %bb.6(0x80000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0

				bb.6:
				successors: %bb.7(0x04000000), %bb.1(0x7c000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_CBRANCH_VCCZ %bb.1, implicit $vcc

				bb.7:
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				S_ENDPGM 0
				...
				---
				name: test_no_sink_def_into_loop
				tracksRegLiveness: true
				machineFunctionInfo:
				isEntryFunction: true
				body: \|
				; GFX9-LABEL: name: test_no_sink_def_into_loop
				; GFX9: bb.0.entry:
				; GFX9-NEXT: successors: %bb.1(0x80000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX9-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX9-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY $vgpr2_vgpr3
				; GFX9-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 0
				; GFX9-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[S_MOV_B64_]]
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD killed [[COPY3]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: %6:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD]], 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD1:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD killed [[COPY2]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: %8:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD1]], 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.1:
				; GFX9-NEXT: successors: %bb.2(0x40000000), %bb.3(0x40000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0, implicit %6, implicit %8
				; GFX9-NEXT: [[COPY4:%[0-9]+]]:vgpr_32(s32) = COPY $vgpr0
				; GFX9-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 1
				; GFX9-NEXT: [[V_CMP_LT_I32_e64_:%[0-9]+]]:sreg_64 = V_CMP_LT_I32_e64 [[COPY4]](s32), [[S_MOV_B32_]], implicit $exec
				; GFX9-NEXT: [[SI_IF:%[0-9]+]]:sreg_64 = SI_IF [[V_CMP_LT_I32_e64_]], %bb.3, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: S_BRANCH %bb.2
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.2:
				; GFX9-NEXT: successors: %bb.3(0x80000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.3:
				; GFX9-NEXT: successors: %bb.4(0x40000000), %bb.6(0x40000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: SI_END_CF [[SI_IF]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: S_CBRANCH_EXECZ %bb.6, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.4:
				; GFX9-NEXT: successors: %bb.5(0x04000000), %bb.4(0x7c000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0
				; GFX9-NEXT: S_CBRANCH_EXECZ %bb.4, implicit $exec
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.5:
				; GFX9-NEXT: successors: %bb.6(0x80000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.6:
				; GFX9-NEXT: successors: %bb.7(0x04000000), %bb.1(0x7c000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_CBRANCH_VCCZ %bb.1, implicit $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.7:
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_ENDPGM 0
				bb.0.entry:
				successors: %bb.1(0x80000000)

				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				%101:vgpr_32 = COPY $vgpr0
				%102:vgpr_32 = COPY $vgpr1
				%15:vreg_64 = COPY $vgpr2_vgpr3
				%20:sreg_64 = S_MOV_B64 0
				%30:vreg_64 = COPY %20
				%29:vgpr_32 = GLOBAL_LOAD_DWORD killed %30, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%6:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %29, 0, %101, 0, %102, 0, 0, implicit $mode, implicit $exec
				%31:vgpr_32 = GLOBAL_LOAD_DWORD killed %15, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%7:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %31, 0, %101, 0, %102, 0, 0, implicit $mode, implicit $exec

				bb.1:
				successors: %bb.2(0x40000000), %bb.3(0x40000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0, implicit %6, implicit %7
				%16:vgpr_32(s32) = COPY $vgpr0
				%23:sreg_32 = S_MOV_B32 1
				%24:sreg_64 = V_CMP_LT_I32_e64 %16(s32), %23, implicit $exec
				%0:sreg_64 = COPY %24
				%5:sreg_64 = SI_IF %0, %bb.3, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				S_BRANCH %bb.2

				bb.2:
				successors: %bb.3(0x80000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0

				bb.3:
				successors: %bb.4(0x40000000), %bb.6(0x40000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				SI_END_CF %5, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				S_CBRANCH_EXECZ %bb.6, implicit $exec

				bb.4:
				successors: %bb.5(0x04000000), %bb.4(0x7c000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0
				S_CBRANCH_EXECZ %bb.4, implicit $exec

				bb.5:
				successors: %bb.6(0x80000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0

				bb.6:
				successors: %bb.7(0x04000000), %bb.1(0x7c000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_CBRANCH_VCCZ %bb.1, implicit $vcc

				bb.7:
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				S_ENDPGM 0
				...
				---
				name: test_no_sink_def_into_loop2
				tracksRegLiveness: true
				machineFunctionInfo:
				isEntryFunction: true
				body: \|
				; GFX9-LABEL: name: test_no_sink_def_into_loop2
				; GFX9: bb.0.entry:
				; GFX9-NEXT: successors: %bb.1(0x40000000), %bb.2(0x40000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX9-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX9-NEXT: [[COPY2:%[0-9]+]]:vreg_64 = COPY $vgpr2_vgpr3
				; GFX9-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 0
				; GFX9-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[S_MOV_B64_]]
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD killed [[COPY3]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: %6:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD]], 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: [[GLOBAL_LOAD_DWORD1:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD killed [[COPY2]], 0, 0, implicit $exec :: (load (s32), addrspace 1)
				; GFX9-NEXT: %8:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, [[GLOBAL_LOAD_DWORD1]], 0, [[COPY]], 0, [[COPY1]], 0, 0, implicit $mode, implicit $exec
				; GFX9-NEXT: S_CBRANCH_EXECZ %bb.2, implicit $exec
				; GFX9-NEXT: S_BRANCH %bb.1
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.1:
				; GFX9-NEXT: successors: %bb.2(0x80000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0
				; GFX9-NEXT: S_BRANCH %bb.2
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.2:
				; GFX9-NEXT: successors: %bb.3(0x40000000), %bb.4(0x40000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0, implicit %6, implicit %8
				; GFX9-NEXT: [[COPY4:%[0-9]+]]:vgpr_32(s32) = COPY $vgpr0
				; GFX9-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 1
				; GFX9-NEXT: [[V_CMP_LT_I32_e64_:%[0-9]+]]:sreg_64 = V_CMP_LT_I32_e64 [[COPY4]](s32), [[S_MOV_B32_]], implicit $exec
				; GFX9-NEXT: [[SI_IF:%[0-9]+]]:sreg_64 = SI_IF [[V_CMP_LT_I32_e64_]], %bb.4, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: S_BRANCH %bb.3
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.3:
				; GFX9-NEXT: successors: %bb.4(0x80000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0
				; GFX9-NEXT: S_BRANCH %bb.4
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.4:
				; GFX9-NEXT: successors: %bb.5(0x40000000), %bb.7(0x40000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: SI_END_CF [[SI_IF]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				; GFX9-NEXT: S_CBRANCH_EXECZ %bb.7, implicit $exec
				; GFX9-NEXT: S_BRANCH %bb.5
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.5:
				; GFX9-NEXT: successors: %bb.6(0x04000000), %bb.5(0x7c000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0
				; GFX9-NEXT: S_CBRANCH_EXECZ %bb.5, implicit $exec
				; GFX9-NEXT: S_BRANCH %bb.6
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.6:
				; GFX9-NEXT: successors: %bb.7(0x80000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_NOP 0
				; GFX9-NEXT: S_BRANCH %bb.7
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.7:
				; GFX9-NEXT: successors: %bb.8(0x04000000), %bb.2(0x7c000000)
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_CBRANCH_VCCZ %bb.2, implicit $vcc
				; GFX9-NEXT: S_BRANCH %bb.8
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: bb.8:
				; GFX9-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				; GFX9-NEXT: {{ $}}
				; GFX9-NEXT: S_ENDPGM 0
				bb.0.entry:
				successors: %bb.1(0x40000000), %bb.2 (0x40000000)

				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				%101:vgpr_32 = COPY $vgpr0
				%102:vgpr_32 = COPY $vgpr1
				%15:vreg_64 = COPY $vgpr2_vgpr3
				%20:sreg_64 = S_MOV_B64 0
				%30:vreg_64 = COPY %20
				%29:vgpr_32 = GLOBAL_LOAD_DWORD killed %30, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%6:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %29, 0, %101, 0, %102, 0, 0, implicit $mode, implicit $exec
				%31:vgpr_32 = GLOBAL_LOAD_DWORD killed %15, 0, 0, implicit $exec :: (load (s32), addrspace 1)
				%7:vgpr_32 = contract nofpexcept V_FMAC_F32_e64 0, %31, 0, %101, 0, %102, 0, 0, implicit $mode, implicit $exec
				S_CBRANCH_EXECZ %bb.2, implicit $exec
				S_BRANCH %bb.1

				bb.1:
				successors: %bb.2(0x80000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				S_NOP 0
				S_BRANCH %bb.2

				bb.2:
				successors: %bb.3(0x40000000), %bb.4(0x40000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0, implicit %6, implicit %7
				%16:vgpr_32(s32) = COPY $vgpr0
				%23:sreg_32 = S_MOV_B32 1
				%24:sreg_64 = V_CMP_LT_I32_e64 %16(s32), %23, implicit $exec
				%0:sreg_64 = COPY %24
				%5:sreg_64 = SI_IF %0, %bb.4, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				S_BRANCH %bb.3

				bb.3:
				successors: %bb.4(0x80000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0
				S_BRANCH %bb.4

				bb.4:
				successors: %bb.5(0x40000000), %bb.7(0x40000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				SI_END_CF %5, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
				S_CBRANCH_EXECZ %bb.7, implicit $exec
				S_BRANCH %bb.5

				bb.5:
				successors: %bb.6(0x04000000), %bb.5(0x7c000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0
				S_CBRANCH_EXECZ %bb.5, implicit $exec
				S_BRANCH %bb.6

				bb.6:
				successors: %bb.7(0x80000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_NOP 0
				S_BRANCH %bb.7

				bb.7:
				successors: %bb.8(0x04000000), %bb.2(0x7c000000)
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc

				S_CBRANCH_VCCZ %bb.2, implicit $vcc
				S_BRANCH %bb.8

				bb.8:
				liveins: $vgpr0, $vgpr1, $vgpr2_vgpr3, $vcc
				S_ENDPGM 0
				...

llvm/test/CodeGen/AMDGPU/mul24-pass-ordering.ll

Show First 20 Lines • Show All 48 Lines • ▼ Show 20 Lines	bb23: ; preds = %bb23, %bb
%tmp47 = add i32 %tmp24, %arg2		%tmp47 = add i32 %tmp24, %arg2
br i1 %tmp37, label %bb23, label %.loopexit		br i1 %tmp37, label %bb23, label %.loopexit
}		}

define void @lsr_order_mul24_1(i32 %arg, i32 %arg1, i32 %arg2, float addrspace(3)* nocapture %arg3, i32 %arg4, i32 %arg5, i32 %arg6, i32 %arg7, i32 %arg8, i32 %arg9, float addrspace(1)* nocapture readonly %arg10, i32 %arg11, i32 %arg12, i32 %arg13, i32 %arg14, i32 %arg15, i32 %arg16, i1 zeroext %arg17, i1 zeroext %arg18) #0 {		define void @lsr_order_mul24_1(i32 %arg, i32 %arg1, i32 %arg2, float addrspace(3)* nocapture %arg3, i32 %arg4, i32 %arg5, i32 %arg6, i32 %arg7, i32 %arg8, i32 %arg9, float addrspace(1)* nocapture readonly %arg10, i32 %arg11, i32 %arg12, i32 %arg13, i32 %arg14, i32 %arg15, i32 %arg16, i1 zeroext %arg17, i1 zeroext %arg18) #0 {
; GFX9-LABEL: lsr_order_mul24_1:		; GFX9-LABEL: lsr_order_mul24_1:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v5, 1, v18		; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, v0, v1
; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v5		; GFX9-NEXT: s_and_saveexec_b64 s[8:9], vcc
; GFX9-NEXT: v_cmp_lt_u32_e64 s[4:5], v0, v1
; GFX9-NEXT: s_and_saveexec_b64 s[8:9], s[4:5]
; GFX9-NEXT: s_cbranch_execz .LBB1_3		; GFX9-NEXT: s_cbranch_execz .LBB1_3
; GFX9-NEXT: ; %bb.1: ; %bb19		; GFX9-NEXT: ; %bb.1: ; %bb19
; GFX9-NEXT: v_cvt_f32_u32_e32 v7, v6		; GFX9-NEXT: v_cvt_f32_u32_e32 v7, v6
; GFX9-NEXT: v_add_u32_e32 v4, v4, v0
; GFX9-NEXT: v_and_b32_e32 v5, 0xffffff, v6		; GFX9-NEXT: v_and_b32_e32 v5, 0xffffff, v6
; GFX9-NEXT: v_lshl_add_u32 v6, v4, 2, v3		; GFX9-NEXT: v_and_b32_e32 v8, 1, v18
; GFX9-NEXT: v_rcp_iflag_f32_e32 v7, v7		; GFX9-NEXT: v_add_u32_e32 v4, v4, v0
		; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v7
		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8
		; GFX9-NEXT: v_lshl_add_u32 v7, v4, 2, v3
; GFX9-NEXT: v_lshlrev_b32_e32 v8, 2, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v8, 2, v2
; GFX9-NEXT: v_add_u32_e32 v9, v17, v12		; GFX9-NEXT: v_add_u32_e32 v9, v17, v12
; GFX9-NEXT: s_mov_b64 s[10:11], 0		; GFX9-NEXT: s_mov_b64 s[10:11], 0
; GFX9-NEXT: v_mov_b32_e32 v4, 0		; GFX9-NEXT: v_mov_b32_e32 v4, 0
; GFX9-NEXT: ; implicit-def: $vgpr3		; GFX9-NEXT: ; implicit-def: $vgpr3
; GFX9-NEXT: .LBB1_2: ; %bb23		; GFX9-NEXT: .LBB1_2: ; %bb23
; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v0		; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v0
; GFX9-NEXT: v_add_u32_e32 v12, v17, v0		; GFX9-NEXT: v_add_u32_e32 v12, v17, v0
; GFX9-NEXT: v_add_u32_e32 v19, v9, v0		; GFX9-NEXT: v_add_u32_e32 v19, v9, v0
; GFX9-NEXT: v_add_u32_e32 v0, v0, v2		; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
; GFX9-NEXT: v_madak_f32 v3, v3, v7, 0x3727c5ac		; GFX9-NEXT: v_madak_f32 v3, v3, v6, 0x3727c5ac
; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX9-NEXT: v_mul_u32_u24_e32 v18, v3, v5		; GFX9-NEXT: v_mul_u32_u24_e32 v18, v3, v5
; GFX9-NEXT: v_add_u32_e32 v3, v3, v16		; GFX9-NEXT: v_add_u32_e32 v3, v3, v16
; GFX9-NEXT: v_cmp_lt_u32_e64 s[4:5], v3, v13		; GFX9-NEXT: v_cmp_lt_u32_e64 s[4:5], v3, v13
; GFX9-NEXT: v_mul_lo_u32 v3, v3, v15		; GFX9-NEXT: v_mul_lo_u32 v3, v3, v15
; GFX9-NEXT: v_sub_u32_e32 v12, v12, v18		; GFX9-NEXT: v_sub_u32_e32 v12, v12, v18
; GFX9-NEXT: v_cmp_lt_u32_e64 s[6:7], v12, v14		; GFX9-NEXT: v_cmp_lt_u32_e64 s[6:7], v12, v14
; GFX9-NEXT: v_sub_u32_e32 v18, v19, v18		; GFX9-NEXT: v_sub_u32_e32 v18, v19, v18
; GFX9-NEXT: s_and_b64 s[4:5], s[4:5], s[6:7]		; GFX9-NEXT: s_and_b64 s[4:5], s[4:5], s[6:7]
; GFX9-NEXT: v_add_u32_e32 v3, v18, v3		; GFX9-NEXT: v_add_u32_e32 v3, v18, v3
; GFX9-NEXT: s_and_b64 s[4:5], s[4:5], vcc		; GFX9-NEXT: s_and_b64 s[4:5], s[4:5], vcc
; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, v3, s[4:5]		; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, v3, s[4:5]
; GFX9-NEXT: v_lshlrev_b64 v[18:19], 2, v[3:4]		; GFX9-NEXT: v_lshlrev_b64 v[18:19], 2, v[3:4]
; GFX9-NEXT: v_add_co_u32_e64 v18, s[6:7], v10, v18		; GFX9-NEXT: v_add_co_u32_e64 v18, s[6:7], v10, v18
; GFX9-NEXT: v_addc_co_u32_e64 v19, s[6:7], v11, v19, s[6:7]		; GFX9-NEXT: v_addc_co_u32_e64 v19, s[6:7], v11, v19, s[6:7]
; GFX9-NEXT: global_load_dword v3, v[18:19], off		; GFX9-NEXT: global_load_dword v3, v[18:19], off
; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v0, v1		; GFX9-NEXT: v_cmp_ge_u32_e64 s[6:7], v0, v1
; GFX9-NEXT: s_or_b64 s[10:11], s[6:7], s[10:11]		; GFX9-NEXT: s_or_b64 s[10:11], s[6:7], s[10:11]
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, v3, s[4:5]		; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, v3, s[4:5]
; GFX9-NEXT: ds_write_b32 v6, v3		; GFX9-NEXT: ds_write_b32 v7, v3
; GFX9-NEXT: v_add_u32_e32 v6, v6, v8		; GFX9-NEXT: v_add_u32_e32 v7, v7, v8
; GFX9-NEXT: s_andn2_b64 exec, exec, s[10:11]		; GFX9-NEXT: s_andn2_b64 exec, exec, s[10:11]
; GFX9-NEXT: s_cbranch_execnz .LBB1_2		; GFX9-NEXT: s_cbranch_execnz .LBB1_2
; GFX9-NEXT: .LBB1_3: ; %Flow3		; GFX9-NEXT: .LBB1_3: ; %Flow3
; GFX9-NEXT: s_or_b64 exec, exec, s[8:9]		; GFX9-NEXT: s_or_b64 exec, exec, s[8:9]
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
bb:		bb:
%tmp = icmp ult i32 %arg, %arg1		%tmp = icmp ult i32 %arg, %arg1
▲ Show 20 Lines • Show All 155 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/skip-if-dead.ll

Show First 20 Lines • Show All 1,367 Lines • ▼ Show 20 Lines	export:
ret void		ret void
}		}


define amdgpu_ps void @complex_loop(i32 inreg %cmpa, i32 %cmpb, i32 %cmpc) {		define amdgpu_ps void @complex_loop(i32 inreg %cmpa, i32 %cmpb, i32 %cmpc) {
; SI-LABEL: complex_loop:		; SI-LABEL: complex_loop:
; SI: ; %bb.0: ; %.entry		; SI: ; %bb.0: ; %.entry
; SI-NEXT: s_cmp_lt_i32 s0, 1		; SI-NEXT: s_cmp_lt_i32 s0, 1
; SI-NEXT: v_mov_b32_e32 v2, -1
; SI-NEXT: s_cbranch_scc1 .LBB15_7		; SI-NEXT: s_cbranch_scc1 .LBB15_7
; SI-NEXT: ; %bb.1: ; %.lr.ph		; SI-NEXT: ; %bb.1: ; %.lr.ph
; SI-NEXT: s_mov_b64 s[2:3], exec		; SI-NEXT: s_mov_b64 s[2:3], exec
; SI-NEXT: s_mov_b32 s6, 0		; SI-NEXT: s_mov_b32 s6, 0
; SI-NEXT: s_mov_b64 s[0:1], 0		; SI-NEXT: s_mov_b64 s[0:1], 0
; SI-NEXT: s_branch .LBB15_3		; SI-NEXT: s_branch .LBB15_3
; SI-NEXT: .LBB15_2: ; %latch		; SI-NEXT: .LBB15_2: ; %latch
; SI-NEXT: ; in Loop: Header=BB15_3 Depth=1		; SI-NEXT: ; in Loop: Header=BB15_3 Depth=1
Show All 15 Lines
; SI-NEXT: s_andn2_b64 s[2:3], s[2:3], exec		; SI-NEXT: s_andn2_b64 s[2:3], s[2:3], exec
; SI-NEXT: s_cbranch_scc0 .LBB15_8		; SI-NEXT: s_cbranch_scc0 .LBB15_8
; SI-NEXT: ; %bb.5: ; %kill		; SI-NEXT: ; %bb.5: ; %kill
; SI-NEXT: ; in Loop: Header=BB15_3 Depth=1		; SI-NEXT: ; in Loop: Header=BB15_3 Depth=1
; SI-NEXT: s_mov_b64 exec, 0		; SI-NEXT: s_mov_b64 exec, 0
; SI-NEXT: s_branch .LBB15_2		; SI-NEXT: s_branch .LBB15_2
; SI-NEXT: .LBB15_6: ; %Flow		; SI-NEXT: .LBB15_6: ; %Flow
; SI-NEXT: s_or_b64 exec, exec, s[0:1]		; SI-NEXT: s_or_b64 exec, exec, s[0:1]
; SI-NEXT: .LBB15_7: ; %._crit_edge		; SI-NEXT: exp mrt0 v2, v2, v0, v0 done vm
		; SI-NEXT: s_endpgm
		; SI-NEXT: .LBB15_7:
		; SI-NEXT: v_mov_b32_e32 v2, -1
; SI-NEXT: exp mrt0 v2, v2, v0, v0 done vm		; SI-NEXT: exp mrt0 v2, v2, v0, v0 done vm
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
; SI-NEXT: .LBB15_8:		; SI-NEXT: .LBB15_8:
; SI-NEXT: s_mov_b64 exec, 0		; SI-NEXT: s_mov_b64 exec, 0
; SI-NEXT: exp null off, off, off, off done vm		; SI-NEXT: exp null off, off, off, off done vm
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; GFX10-WAVE64-LABEL: complex_loop:		; GFX10-WAVE64-LABEL: complex_loop:
; GFX10-WAVE64: ; %bb.0: ; %.entry		; GFX10-WAVE64: ; %bb.0: ; %.entry
; GFX10-WAVE64-NEXT: v_mov_b32_e32 v2, -1
; GFX10-WAVE64-NEXT: s_cmp_lt_i32 s0, 1		; GFX10-WAVE64-NEXT: s_cmp_lt_i32 s0, 1
; GFX10-WAVE64-NEXT: s_cbranch_scc1 .LBB15_7		; GFX10-WAVE64-NEXT: s_cbranch_scc1 .LBB15_7
; GFX10-WAVE64-NEXT: ; %bb.1: ; %.lr.ph		; GFX10-WAVE64-NEXT: ; %bb.1: ; %.lr.ph
; GFX10-WAVE64-NEXT: s_mov_b64 s[2:3], exec		; GFX10-WAVE64-NEXT: s_mov_b64 s[2:3], exec
; GFX10-WAVE64-NEXT: s_mov_b32 s6, 0		; GFX10-WAVE64-NEXT: s_mov_b32 s6, 0
; GFX10-WAVE64-NEXT: s_mov_b64 s[0:1], 0		; GFX10-WAVE64-NEXT: s_mov_b64 s[0:1], 0
; GFX10-WAVE64-NEXT: s_branch .LBB15_3		; GFX10-WAVE64-NEXT: s_branch .LBB15_3
; GFX10-WAVE64-NEXT: .LBB15_2: ; %latch		; GFX10-WAVE64-NEXT: .LBB15_2: ; %latch
Show All 16 Lines
; GFX10-WAVE64-NEXT: s_andn2_b64 s[2:3], s[2:3], exec		; GFX10-WAVE64-NEXT: s_andn2_b64 s[2:3], s[2:3], exec
; GFX10-WAVE64-NEXT: s_cbranch_scc0 .LBB15_8		; GFX10-WAVE64-NEXT: s_cbranch_scc0 .LBB15_8
; GFX10-WAVE64-NEXT: ; %bb.5: ; %kill		; GFX10-WAVE64-NEXT: ; %bb.5: ; %kill
; GFX10-WAVE64-NEXT: ; in Loop: Header=BB15_3 Depth=1		; GFX10-WAVE64-NEXT: ; in Loop: Header=BB15_3 Depth=1
; GFX10-WAVE64-NEXT: s_mov_b64 exec, 0		; GFX10-WAVE64-NEXT: s_mov_b64 exec, 0
; GFX10-WAVE64-NEXT: s_branch .LBB15_2		; GFX10-WAVE64-NEXT: s_branch .LBB15_2
; GFX10-WAVE64-NEXT: .LBB15_6: ; %Flow		; GFX10-WAVE64-NEXT: .LBB15_6: ; %Flow
; GFX10-WAVE64-NEXT: s_or_b64 exec, exec, s[0:1]		; GFX10-WAVE64-NEXT: s_or_b64 exec, exec, s[0:1]
; GFX10-WAVE64-NEXT: .LBB15_7: ; %._crit_edge		; GFX10-WAVE64-NEXT: exp mrt0 v2, v2, v0, v0 done vm
		; GFX10-WAVE64-NEXT: s_endpgm
		; GFX10-WAVE64-NEXT: .LBB15_7:
		; GFX10-WAVE64-NEXT: v_mov_b32_e32 v2, -1
; GFX10-WAVE64-NEXT: exp mrt0 v2, v2, v0, v0 done vm		; GFX10-WAVE64-NEXT: exp mrt0 v2, v2, v0, v0 done vm
; GFX10-WAVE64-NEXT: s_endpgm		; GFX10-WAVE64-NEXT: s_endpgm
; GFX10-WAVE64-NEXT: .LBB15_8:		; GFX10-WAVE64-NEXT: .LBB15_8:
; GFX10-WAVE64-NEXT: s_mov_b64 exec, 0		; GFX10-WAVE64-NEXT: s_mov_b64 exec, 0
; GFX10-WAVE64-NEXT: exp null off, off, off, off done vm		; GFX10-WAVE64-NEXT: exp null off, off, off, off done vm
; GFX10-WAVE64-NEXT: s_endpgm		; GFX10-WAVE64-NEXT: s_endpgm
;		;
; GFX10-WAVE32-LABEL: complex_loop:		; GFX10-WAVE32-LABEL: complex_loop:
; GFX10-WAVE32: ; %bb.0: ; %.entry		; GFX10-WAVE32: ; %bb.0: ; %.entry
; GFX10-WAVE32-NEXT: v_mov_b32_e32 v2, -1
; GFX10-WAVE32-NEXT: s_cmp_lt_i32 s0, 1		; GFX10-WAVE32-NEXT: s_cmp_lt_i32 s0, 1
; GFX10-WAVE32-NEXT: s_cbranch_scc1 .LBB15_7		; GFX10-WAVE32-NEXT: s_cbranch_scc1 .LBB15_7
; GFX10-WAVE32-NEXT: ; %bb.1: ; %.lr.ph		; GFX10-WAVE32-NEXT: ; %bb.1: ; %.lr.ph
; GFX10-WAVE32-NEXT: s_mov_b32 s1, exec_lo		; GFX10-WAVE32-NEXT: s_mov_b32 s1, exec_lo
; GFX10-WAVE32-NEXT: s_mov_b32 s0, 0		; GFX10-WAVE32-NEXT: s_mov_b32 s0, 0
; GFX10-WAVE32-NEXT: s_mov_b32 s2, 0		; GFX10-WAVE32-NEXT: s_mov_b32 s2, 0
; GFX10-WAVE32-NEXT: s_branch .LBB15_3		; GFX10-WAVE32-NEXT: s_branch .LBB15_3
; GFX10-WAVE32-NEXT: .LBB15_2: ; %latch		; GFX10-WAVE32-NEXT: .LBB15_2: ; %latch
Show All 16 Lines
; GFX10-WAVE32-NEXT: s_andn2_b32 s1, s1, exec_lo		; GFX10-WAVE32-NEXT: s_andn2_b32 s1, s1, exec_lo
; GFX10-WAVE32-NEXT: s_cbranch_scc0 .LBB15_8		; GFX10-WAVE32-NEXT: s_cbranch_scc0 .LBB15_8
; GFX10-WAVE32-NEXT: ; %bb.5: ; %kill		; GFX10-WAVE32-NEXT: ; %bb.5: ; %kill
; GFX10-WAVE32-NEXT: ; in Loop: Header=BB15_3 Depth=1		; GFX10-WAVE32-NEXT: ; in Loop: Header=BB15_3 Depth=1
; GFX10-WAVE32-NEXT: s_mov_b32 exec_lo, 0		; GFX10-WAVE32-NEXT: s_mov_b32 exec_lo, 0
; GFX10-WAVE32-NEXT: s_branch .LBB15_2		; GFX10-WAVE32-NEXT: s_branch .LBB15_2
; GFX10-WAVE32-NEXT: .LBB15_6: ; %Flow		; GFX10-WAVE32-NEXT: .LBB15_6: ; %Flow
; GFX10-WAVE32-NEXT: s_or_b32 exec_lo, exec_lo, s0		; GFX10-WAVE32-NEXT: s_or_b32 exec_lo, exec_lo, s0
; GFX10-WAVE32-NEXT: .LBB15_7: ; %._crit_edge		; GFX10-WAVE32-NEXT: exp mrt0 v2, v2, v0, v0 done vm
		; GFX10-WAVE32-NEXT: s_endpgm
		; GFX10-WAVE32-NEXT: .LBB15_7:
		; GFX10-WAVE32-NEXT: v_mov_b32_e32 v2, -1
; GFX10-WAVE32-NEXT: exp mrt0 v2, v2, v0, v0 done vm		; GFX10-WAVE32-NEXT: exp mrt0 v2, v2, v0, v0 done vm
; GFX10-WAVE32-NEXT: s_endpgm		; GFX10-WAVE32-NEXT: s_endpgm
; GFX10-WAVE32-NEXT: .LBB15_8:		; GFX10-WAVE32-NEXT: .LBB15_8:
; GFX10-WAVE32-NEXT: s_mov_b32 exec_lo, 0		; GFX10-WAVE32-NEXT: s_mov_b32 exec_lo, 0
; GFX10-WAVE32-NEXT: exp null off, off, off, off done vm		; GFX10-WAVE32-NEXT: exp null off, off, off, off done vm
; GFX10-WAVE32-NEXT: s_endpgm		; GFX10-WAVE32-NEXT: s_endpgm
.entry:		.entry:
%flaga = icmp sgt i32 %cmpa, 0		%flaga = icmp sgt i32 %cmpa, 0
▲ Show 20 Lines • Show All 87 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/stack-pointer-offset-relative-frameindex.ll

	Show All 14 Lines
	; MUBUF-NEXT: s_mov_b32 s39, 0x31c16000			; MUBUF-NEXT: s_mov_b32 s39, 0x31c16000
	; MUBUF-NEXT: s_add_u32 s36, s36, s3			; MUBUF-NEXT: s_add_u32 s36, s36, s3
	; MUBUF-NEXT: s_addc_u32 s37, s37, 0			; MUBUF-NEXT: s_addc_u32 s37, s37, 0
	; MUBUF-NEXT: v_mov_b32_e32 v1, 0x2000			; MUBUF-NEXT: v_mov_b32_e32 v1, 0x2000
	; MUBUF-NEXT: v_mov_b32_e32 v2, 0x4000			; MUBUF-NEXT: v_mov_b32_e32 v2, 0x4000
	; MUBUF-NEXT: v_mov_b32_e32 v3, 0			; MUBUF-NEXT: v_mov_b32_e32 v3, 0
	; MUBUF-NEXT: v_mov_b32_e32 v4, 0x400000			; MUBUF-NEXT: v_mov_b32_e32 v4, 0x400000
	; MUBUF-NEXT: s_mov_b32 s32, 0xc0000			; MUBUF-NEXT: s_mov_b32 s32, 0xc0000
	; MUBUF-NEXT: v_add_nc_u32_e64 v40, 4, 0x4000
	; MUBUF-NEXT: s_getpc_b64 s[4:5]			; MUBUF-NEXT: s_getpc_b64 s[4:5]
	; MUBUF-NEXT: s_add_u32 s4, s4, svm_eval_nodes@rel32@lo+4			; MUBUF-NEXT: s_add_u32 s4, s4, svm_eval_nodes@rel32@lo+4
	; MUBUF-NEXT: s_addc_u32 s5, s5, svm_eval_nodes@rel32@hi+12			; MUBUF-NEXT: s_addc_u32 s5, s5, svm_eval_nodes@rel32@hi+12
	; MUBUF-NEXT: s_waitcnt lgkmcnt(0)			; MUBUF-NEXT: s_waitcnt lgkmcnt(0)
	; MUBUF-NEXT: v_mov_b32_e32 v0, s0			; MUBUF-NEXT: v_mov_b32_e32 v0, s0
	; MUBUF-NEXT: s_mov_b64 s[0:1], s[36:37]			; MUBUF-NEXT: s_mov_b64 s[0:1], s[36:37]
	; MUBUF-NEXT: s_mov_b64 s[2:3], s[38:39]			; MUBUF-NEXT: s_mov_b64 s[2:3], s[38:39]
	; MUBUF-NEXT: s_swappc_b64 s[30:31], s[4:5]			; MUBUF-NEXT: s_swappc_b64 s[30:31], s[4:5]
	; MUBUF-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0			; MUBUF-NEXT: v_cmp_ne_u32_e32 vcc_lo, 0, v0
	; MUBUF-NEXT: s_and_saveexec_b32 s0, vcc_lo			; MUBUF-NEXT: s_and_saveexec_b32 s0, vcc_lo
	; MUBUF-NEXT: s_cbranch_execz .LBB0_2			; MUBUF-NEXT: s_cbranch_execz .LBB0_2
	; MUBUF-NEXT: ; %bb.1: ; %if.then4.i			; MUBUF-NEXT: ; %bb.1: ; %if.then4.i
				; MUBUF-NEXT: v_add_nc_u32_e64 v0, 4, 0x4000
	; MUBUF-NEXT: s_clause 0x1			; MUBUF-NEXT: s_clause 0x1
	; MUBUF-NEXT: buffer_load_dword v0, v40, s[36:39], 0 offen			; MUBUF-NEXT: buffer_load_dword v1, v0, s[36:39], 0 offen
	; MUBUF-NEXT: buffer_load_dword v1, v40, s[36:39], 0 offen offset:4			; MUBUF-NEXT: buffer_load_dword v2, v0, s[36:39], 0 offen offset:4
	; MUBUF-NEXT: s_waitcnt vmcnt(0)			; MUBUF-NEXT: s_waitcnt vmcnt(0)
	; MUBUF-NEXT: v_add_nc_u32_e32 v0, v1, v0			; MUBUF-NEXT: v_add_nc_u32_e32 v0, v2, v1
	; MUBUF-NEXT: v_mul_lo_u32 v0, 0x41c64e6d, v0			; MUBUF-NEXT: v_mul_lo_u32 v0, 0x41c64e6d, v0
	; MUBUF-NEXT: v_add_nc_u32_e32 v0, 0x3039, v0			; MUBUF-NEXT: v_add_nc_u32_e32 v0, 0x3039, v0
	; MUBUF-NEXT: buffer_store_dword v0, v0, s[36:39], 0 offen			; MUBUF-NEXT: buffer_store_dword v0, v0, s[36:39], 0 offen
	; MUBUF-NEXT: .LBB0_2: ; %shader_eval_surface.exit			; MUBUF-NEXT: .LBB0_2: ; %shader_eval_surface.exit
	; MUBUF-NEXT: s_endpgm			; MUBUF-NEXT: s_endpgm
	;			;
	; FLATSCR-LABEL: kernel_background_evaluate:			; FLATSCR-LABEL: kernel_background_evaluate:
	; FLATSCR: ; %bb.0: ; %entry			; FLATSCR: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[MachineSink] Allow sinking of constant or ignorable physreg usesClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 395768

llvm/include/llvm/CodeGen/TargetInstrInfo.h

llvm/lib/CodeGen/MachineSink.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/sdiv.i64.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/srem.i64.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/udiv.i64.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/urem.i64.ll

llvm/test/CodeGen/AMDGPU/frame-index-elimination.ll

llvm/test/CodeGen/AMDGPU/machine-sink-ignorable-exec-use.mir

llvm/test/CodeGen/AMDGPU/mul24-pass-ordering.ll

llvm/test/CodeGen/AMDGPU/skip-if-dead.ll

llvm/test/CodeGen/AMDGPU/stack-pointer-offset-relative-frameindex.ll

[MachineSink] Allow sinking of constant or ignorable physreg uses
ClosedPublic