This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
2/2
SOPInstructions.td
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
addrspacecast.ll
-
agpr-copy-no-free-registers.ll
-
amdgpu-codegenprepare-idiv.ll
-
dagcombine-select.ll
-
extract_vector_dynelt.ll
-
extract_vector_elt-f64.ll
-
extract_vector_elt-i64.ll
-
idiv-licm.ll
-
implicit-kernarg-backend-usage.ll
-
indirect-call-known-callees.ll
-
insert_vector_dynelt.ll
-
insert_vector_elt.ll
-
llvm.mulo.ll
-
load-select-ptr.ll
-
sdiv.ll
-
select-vectors.ll
-
select64.ll
-
selectcc.ll
-
udiv.ll
-
udivrem.ll

Differential D124450

[AMDGPU] Remove hasOneUse check from scalar select pattern
AbandonedPublic

Authored by foad on Apr 26 2022, 5:35 AM.

Download Raw Diff

Details

Reviewers

piotr
arsenm
rampitec
nhaehnle

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	64,739 ms	x64 debian > Clang.CodeGenCXX::dllimport-members.cpp
	60,440 ms	x64 debian > Clang.Driver::arm-cortex-cpus-2.c
	60,580 ms	x64 debian > Clang.Driver::fsanitize.c
	60,480 ms	x64 debian > Clang.OpenMP::target_defaultmap_codegen_01.cpp
	60,230 ms	x64 debian > Clang.OpenMP::target_parallel_for_codegen_registration.cpp
		View Full Test Results (12 Failed)

Event Timeline

foad created this revision.Apr 26 2022, 5:35 AM

Herald added a project: Restricted Project. · View Herald TranscriptApr 26 2022, 5:35 AM

Herald added subscribers: hsmhsm, kerbowa, asbirlea and 7 others. · View Herald Transcript

foad requested review of this revision.Apr 26 2022, 5:35 AM

Herald added a project: Restricted Project. · View Herald TranscriptApr 26 2022, 5:35 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

foad added inline comments.Apr 26 2022, 5:36 AM

llvm/lib/Target/AMDGPU/SOPInstructions.td
512	The hasOneUse check has always been there, since D81925 introduced SelectPat, but I don't see any reason for it.

arsenm accepted this revision.Apr 26 2022, 5:49 AM

This revision is now accepted and ready to land.Apr 26 2022, 5:49 AM

Harbormaster completed remote builds in B161380: Diff 425192.Apr 26 2022, 6:43 AM

I'd love this to go in, but when I added the hasOneUse() check it was certainly needed. If my old notes serve me well there was a crash in ctlz.ll test and I concluded this check was needed to avoid some shenanigans in the si-fix-sgpr-copies. I need to double check if the issue has been fixed or is just hidden.

I'd love this to go in, but when I added the hasOneUse() check it was certainly needed. If my old notes serve me well there was a crash in ctlz.ll test and I concluded this check was needed to avoid some shenanigans in the si-fix-sgpr-copies. I need to double check if the issue has been fixed or is just hidden.

Since posting the patch I've found one out-of-tree case that fails to compile:

; RUN: llc -march=amdgcn -mcpu=gfx1030 < %s
define amdgpu_cs void @main() {
bb:
  %i = load i32, i32 addrspace(3)* null, align 16
  br label %bb1
bb1:
  %i2 = phi i32 [ 0, %bb ], [ %i9, %bb5 ]
  br label %bb3
bb3:
  %i4 = icmp eq i32 %i2, 0
  br i1 %i4, label %bb5, label %bb3
bb5:
  %i6 = icmp ult i32 0, %i
  %i7 = sext i1 %i6 to i32
  %i8 = add i32 %i7, 1
  %i9 = and i32 %i8, %i7
  br label %bb1
}

The DAG just before selection looks like this, with two uses of t23:

t0: ch = EntryToken
  t3: i32,ch = load<(load (s32) from `i32 addrspace(3)* null`, align 16, addrspace 3)> t0, Constant:i32<0>, undef:i32
t23: i1 = setcc t3, Constant:i32<0>, setne:ch
      t17: i32,i1 = subcarry Constant:i32<1>, Constant:i32<0>, t23
    t25: i32 = select t23, t17, Constant:i32<0>
  t11: ch = CopyToReg t0, Register:i32 %0, t25
  t13: ch = CopyToReg t0, Register:i32 %4, Constant:i32<0>
t14: ch = TokenFactor t11, t13

After selection it has introduced a CopyToReg from $scc which I guess we don't support, because it will use SCC_CLASS which is not allocatable:

t0: ch = EntryToken
t1: i32 = S_MOV_B32 TargetConstant:i32<0>
    t29: i32 = V_MOV_B32_e32 TargetConstant:i32<0>
  t3: i32,ch = DS_READ_B32_gfx9<Mem:(load (s32) from `i32 addrspace(3)* null`, align 16, addrspace 3)> t29, TargetConstant:i16<0>, TargetConstant:i1<0>, t0
t23: i1 = S_CMP_LG_U32 t3, t1
        t7: i32 = S_MOV_B32 TargetConstant:i32<1>
      t17: i32,i1 = S_SUB_CO_PSEUDO t7, t1, t23
      t27: ch,glue = CopyToReg t0, Register:i1 $scc, t23
    t25: i32 = S_CSELECT_B32 t17, t1, t27:1
  t11: ch = CopyToReg t0, Register:i32 %0, t25
  t13: ch = CopyToReg t0, Register:i32 %4, t1
t14: ch = TokenFactor t11, t13

Shortly after this it crashes in ScheduleDAGSDNodes::EmitPhysRegCopy with: MachineRegisterInfo.cpp:160: llvm::Register llvm::MachineRegisterInfo::createVirtualRegister(const llvm::TargetRegisterClass *, llvm::StringRef): Assertion 'RegClass->isAllocatable() && "Virtual register RegClass must be allocatable."' failed.

In D124450#3474989, @foad wrote:
I'd love this to go in, but when I added the hasOneUse() check it was certainly needed. If my old notes serve me well there was a crash in ctlz.ll test and I concluded this check was needed to avoid some shenanigans in the si-fix-sgpr-copies. I need to double check if the issue has been fixed or is just hidden.

Since posting the patch I've found one out-of-tree case that fails to compile:
; RUN: llc -march=amdgcn -mcpu=gfx1030 < %s
define amdgpu_cs void @main() {
bb:
  %i = load i32, i32 addrspace(3)* null, align 16
  br label %bb1
bb1:
  %i2 = phi i32 [ 0, %bb ], [ %i9, %bb5 ]
  br label %bb3
bb3:
  %i4 = icmp eq i32 %i2, 0
  br i1 %i4, label %bb5, label %bb3
bb5:
  %i6 = icmp ult i32 0, %i
  %i7 = sext i1 %i6 to i32
  %i8 = add i32 %i7, 1
  %i9 = and i32 %i8, %i7
  br label %bb1
}

Can you recommit this test

Shortly after this it crashes in ScheduleDAGSDNodes::EmitPhysRegCopy with: MachineRegisterInfo.cpp:160: llvm::Register llvm::MachineRegisterInfo::createVirtualRegister(const llvm::TargetRegisterClass *, llvm::StringRef): Assertion 'RegClass->isAllocatable() && "Virtual register RegClass must be allocatable."' failed.

The should be able to use SReg_32 which we do handle

foad mentioned this in rG6753bb2c4126: [AMDGPU] Precommit a test case for D124450.Apr 26 2022, 10:45 AM

Can you [p]recommit this test

6753bb2c41264aed432ffb90d2b0291d0cdb9289

foad mentioned this in rG5fa169335f7d: [AMDGPU] Simplify the test case for D124450.Apr 29 2022, 4:14 AM

The should be able to use SReg_32 which we do handle

I can get that to work with a patch like this: https://reviews.llvm.org/differential/diff/426045/

I'm not too happy that I had to change InstrEmitter::EmitCopyFromReg. It makes me wonder if we should be handling uniform compare+select patterns much more like a flags-based CPU does, either by gluing the s_cmp to the s_cselect, or using ISD::SELECT_CC instead of ISD::SELECT in the first place, so that it is all in one DAG node.

Also the codegen is not particularly pretty, but maybe it can be cleaned up by tweaking SIFixSGPRCopies, which has for some reason converted s_cmp to v_cmp but not converted the following s_cselect to v_cndmask:

diff --git a/llvm/test/CodeGen/AMDGPU/setcc-multiple-use.ll b/llvm/test/CodeGen/AMDGPU/setcc-multiple-use.ll
index bff4c0c1533a..6c99d04f6410 100644
--- a/llvm/test/CodeGen/AMDGPU/setcc-multiple-use.ll
+++ b/llvm/test/CodeGen/AMDGPU/setcc-multiple-use.ll
@@ -18,7 +18,9 @@ define i32 @f() {
 ; CHECK-NEXT:    v_cmp_ne_u32_e32 vcc_lo, 0, v0
 ; CHECK-NEXT:    s_cmpk_lg_u32 vcc_lo, 0x0
 ; CHECK-NEXT:    s_subb_u32 s4, 1, 0
-; CHECK-NEXT:    v_cndmask_b32_e64 v0, 0, s4, vcc_lo
+; CHECK-NEXT:    s_and_b32 s5, vcc_lo, exec_lo
+; CHECK-NEXT:    s_cselect_b32 s4, s4, 0
+; CHECK-NEXT:    v_mov_b32_e32 v0, s4
 ; CHECK-NEXT:    s_setpc_b64 s[30:31]
 bb:
   %i = load i32, i32 addrspace(3)* null, align 16

The biggest headache comes from the fact that during moveToVALU when S_CMP gets converted to V_CMP the users of SCC need to be handled properly otherwise you end up with a weird copy from SCC. I think this is handled right now by adding an extra copy from VCC to SCC to make the connection between V_CMP and S_CSELECT until it is time for the handling of S_CSELECT. This gets more tricky when there are more uses of SCC I guess.

In D124450#3475092, @arsenm wrote:

Shortly after this it crashes in ScheduleDAGSDNodes::EmitPhysRegCopy with: MachineRegisterInfo.cpp:160: llvm::Register llvm::MachineRegisterInfo::createVirtualRegister(const llvm::TargetRegisterClass *, llvm::StringRef): Assertion 'RegClass->isAllocatable() && "Virtual register RegClass must be allocatable."' failed.

The should be able to use SReg_32 which we do handle

In D124450#3482523, @foad wrote:

The should be able to use SReg_32 which we do handle

I can get that to work with a patch like this: https://reviews.llvm.org/differential/diff/426045/

I'm not too happy that I had to change InstrEmitter::EmitCopyFromReg. It makes me wonder if we should be handling uniform compare+select patterns much more like a flags-based CPU does, either by gluing the s_cmp to the s_cselect, or using ISD::SELECT_CC instead of ISD::SELECT in the first place, so that it is all in one DAG node.

I was thinking we would add an SReg_32_PlusSCC class to use for for conditions (or I guess we could just add SCC directly to SReg_32). GlobalISel directly emits copies between SReg_32 and SCC but I guess InstrEmitter's magic requires an allocatable class

Check all uses of the condition are selects.

foad added a child revision: D124852: [AMDGPU] Enable copying SCC.May 3 2022, 6:07 AM

Harbormaster completed remote builds in B162441: Diff 426675.May 3 2022, 7:52 AM

Ping for the new version, which only allows multiple uses if they are all selects. I realise this is not ideal but it is strictly more permissive than the current code, which only allows a single use (which must be a select).

llvm/lib/Target/AMDGPU/SOPInstructions.td
515	This is to cope with other uses that have already been selected to CopyToReg, S_CSELECT_B32. I don't know if there's a better way to handle this.

Herald added a subscriber: kosarev. · View Herald TranscriptMay 12 2022, 1:30 AM

Looks good to me - the extra s_cselect's generated are worth the complexity arising from this patch.

Can you add a test (or point me to an existing one), where there are multiple uses of scc and some selects, but not all, are used by vector instructions so they would normally be transformed to v_cndmask during moveToValu?

Ping for the new version, which only allows multiple uses if they are all selects.

I think this restriction might not be necessary after D128681.

foad mentioned this in D133593: [AMDGPU] Always select s_cselect_b32 for uniform 'select' SDNode.Sep 12 2022, 1:20 AM

In D124450#3693712, @foad wrote:

Ping for the new version, which only allows multiple uses if they are all selects.

I think this restriction might not be necessary after D128681.

Should try with D128681

This revision now requires changes to proceed.Sep 16 2022, 9:32 AM

Superseded by D133593.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SOPInstructions.td

13 lines

test/

CodeGen/

AMDGPU/

addrspacecast.ll

18 lines

agpr-copy-no-free-registers.ll

8 lines

amdgpu-codegenprepare-idiv.ll

844 lines

dagcombine-select.ll

37 lines

extract_vector_dynelt.ll

48 lines

extract_vector_elt-f64.ll

39 lines

extract_vector_elt-i64.ll

46 lines

idiv-licm.ll

8 lines

implicit-kernarg-backend-usage.ll

90 lines

indirect-call-known-callees.ll

65 lines

insert_vector_dynelt.ll

81 lines

130 lines

114 lines

6 lines

38 lines

84 lines

10 lines

8 lines

206 lines

36 lines

Diff 426675

llvm/lib/Target/AMDGPU/SOPInstructions.td

	Show First 20 Lines • Show All 502 Lines • ▼ Show 20 Lines

	// This pattern is restricted to certain subtargets (practically GFX8Plus)			// This pattern is restricted to certain subtargets (practically GFX8Plus)
	// because isel sometimes produces an sreg_64 copy to SCC as a by-product			// because isel sometimes produces an sreg_64 copy to SCC as a by-product
	// of this pattern, and only for subtargets with hasScalarCompareEq64			// of this pattern, and only for subtargets with hasScalarCompareEq64
	// is it possible to map such copy to a single instruction (S_CMP_LG_U64).			// is it possible to map such copy to a single instruction (S_CMP_LG_U64).
	class SelectPat<SDPatternOperator select> : PatFrag <			class SelectPat<SDPatternOperator select> : PatFrag <
	(ops node:$src1, node:$src2),			(ops node:$src1, node:$src2),
	(select SCC, $src1, $src2),			(select SCC, $src1, $src2),
	[{ return Subtarget->hasScalarCompareEq64() &&			[{ if (!Subtarget->hasScalarCompareEq64() \|\| N->isDivergent())
	N->getOperand(0)->hasOneUse() && !N->isDivergent(); }]			return false;
	foadAuthorUnsubmitted Done Reply Inline Actions The hasOneUse check has always been there, since D81925 introduced SelectPat, but I don't see any reason for it. foad: The hasOneUse check has always been there, since D81925 introduced SelectPat, but I don't see…
				SDValue SetCC = N->getOperand(0);
				for (auto I = SetCC->use_begin(), E = SetCC->use_end(); I != E; ++I) {
				if (I->getOpcode() == ISD::CopyToReg)
				foadAuthorUnsubmitted Done Reply Inline Actions This is to cope with other uses that have already been selected to CopyToReg, S_CSELECT_B32. I don't know if there's a better way to handle this. foad: This is to cope with other uses that have already been selected to CopyToReg, S_CSELECT_B32. I…
				continue;
				if (I->getOpcode() != ISD::SELECT \|\| I.getOperandNo() != 0)
				return false;
				}
				return true;
				}]
	>;			>;

	let Uses = [SCC] in {			let Uses = [SCC] in {
	let AddedComplexity = 20 in {			let AddedComplexity = 20 in {
	def S_CSELECT_B32 : SOP2_32 <"s_cselect_b32",			def S_CSELECT_B32 : SOP2_32 <"s_cselect_b32",
	[(set i32:$sdst, (SelectPat<select> i32:$src0, i32:$src1))]			[(set i32:$sdst, (SelectPat<select> i32:$src0, i32:$src1))]
	>;			>;
	}			}
	▲ Show 20 Lines • Show All 1,513 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/addrspacecast.ll

	Show All 14 Lines
	; CI-DAG: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc			; CI-DAG: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc
	; CI-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]			; CI-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]
	; CI-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, [[VPTR]]			; CI-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, [[VPTR]]

	; HSA-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7			; HSA-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7
	; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}			; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}
	; GFX9-DAG: s_getreg_b32 [[SSRC_SHARED:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9-DAG: s_getreg_b32 [[SSRC_SHARED:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 16, 16)
	; GFX9-DAG: s_lshl_b32 [[SSRC_SHARED_BASE:s[0-9]+]], [[SSRC_SHARED]], 16			; GFX9-DAG: s_lshl_b32 [[SSRC_SHARED_BASE:s[0-9]+]], [[SSRC_SHARED]], 16
	; GFX9-DAG: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], [[SSRC_SHARED_BASE]]

	; GFX9-XXX: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], src_shared_base			; GFX9-XXX: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], src_shared_base
	; GFX9: s_cmp_lg_u32 [[PTR]], -1			; GFX9: s_cmp_lg_u32 [[PTR]], -1
	; GFX9: s_cselect_b64 vcc, -1, 0			; GFX9-DAG: s_cselect_b32 [[PTR]], [[PTR]], 0
	; GFX9: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc			; GFX9-DAG: s_cselect_b32 [[SSRC_SHARED_BASE]], [[SSRC_SHARED_BASE]], 0
	; GFX9-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]			; GFX9: v_mov_b32_e32 v[[LO:[0-9]+]], [[PTR]]
	; GFX9-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, [[VPTR]]			; GFX9: v_mov_b32_e32 v[[HI:[0-9]+]], [[SSRC_SHARED_BASE]]

	; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]			; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]

	; At most 2 digits. Make sure src_shared_base is not counted as a high			; At most 2 digits. Make sure src_shared_base is not counted as a high
	; number SGPR.			; number SGPR.

	; CI: NumSgprs: {{[0-9][0-9]+}}			; CI: NumSgprs: {{[0-9][0-9]+}}
	; GFX9: NumSgprs: {{[0-9]+}}			; GFX9: NumSgprs: {{[0-9]+}}
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; CI-DAG: s_cselect_b64 vcc, -1, 0			; CI-DAG: s_cselect_b64 vcc, -1, 0
	; CI-DAG: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc			; CI-DAG: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc
	; CI-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]			; CI-DAG: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]
	; CI-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, [[VPTR]]			; CI-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, [[VPTR]]

	; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}			; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}
	; GFX9-DAG: s_getreg_b32 [[SSRC_PRIVATE:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9-DAG: s_getreg_b32 [[SSRC_PRIVATE:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 0, 16)
	; GFX9-DAG: s_lshl_b32 [[SSRC_PRIVATE_BASE:s[0-9]+]], [[SSRC_PRIVATE]], 16			; GFX9-DAG: s_lshl_b32 [[SSRC_PRIVATE_BASE:s[0-9]+]], [[SSRC_PRIVATE]], 16
	; GFX9-DAG: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], [[SSRC_PRIVATE_BASE]]

	; GFX9-XXX: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], src_private_base			; GFX9-XXX: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], src_private_base

	; GFX9-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7			; GFX9-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7
	; GFX9: s_cmp_lg_u32 [[PTR]], -1			; GFX9: s_cmp_lg_u32 [[PTR]], -1
	; GFX9: s_cselect_b64 vcc, -1, 0			; GFX9-DAG: s_cselect_b32 [[PTR]], [[PTR]], 0
	; GFX9: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc			; GFX9-DAG: s_cselect_b32 [[SSRC_PRIVATE_BASE]], [[SSRC_PRIVATE_BASE]], 0
	; GFX9: v_mov_b32_e32 [[VPTR:v[0-9]+]], [[PTR]]			; GFX9: v_mov_b32_e32 v[[LO:[0-9]+]], [[PTR]]
	; GFX9-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, [[VPTR]]			; GFX9: v_mov_b32_e32 v[[HI:[0-9]+]], [[SSRC_PRIVATE_BASE]]

	; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]			; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]

	; CI: NumSgprs: {{[0-9][0-9]+}}			; CI: NumSgprs: {{[0-9][0-9]+}}
	; GFX9: NumSgprs: {{[0-9]+}}			; GFX9: NumSgprs: {{[0-9]+}}
	define amdgpu_kernel void @use_private_to_flat_addrspacecast(i32 addrspace(5)* %ptr) #0 {			define amdgpu_kernel void @use_private_to_flat_addrspacecast(i32 addrspace(5)* %ptr) #0 {
	%stof = addrspacecast i32 addrspace(5)* %ptr to i32*			%stof = addrspacecast i32 addrspace(5)* %ptr to i32*
	store volatile i32 7, i32* %stof			store volatile i32 7, i32* %stof
	▲ Show 20 Lines • Show All 329 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/agpr-copy-no-free-registers.ll

	Show First 20 Lines • Show All 545 Lines • ▼ Show 20 Lines
	; GFX908-NEXT: s_lshl_b64 s[4:5], s[8:9], 5			; GFX908-NEXT: s_lshl_b64 s[4:5], s[8:9], 5
	; GFX908-NEXT: v_mul_hi_u32 v3, v2, v1			; GFX908-NEXT: v_mul_hi_u32 v3, v2, v1
	; GFX908-NEXT: v_mov_b32_e32 v1, 0			; GFX908-NEXT: v_mov_b32_e32 v1, 0
	; GFX908-NEXT: v_add_u32_e32 v2, v2, v3			; GFX908-NEXT: v_add_u32_e32 v2, v2, v3
	; GFX908-NEXT: v_mul_hi_u32 v4, s0, v2			; GFX908-NEXT: v_mul_hi_u32 v4, s0, v2
	; GFX908-NEXT: v_mul_lo_u32 v5, v4, s1			; GFX908-NEXT: v_mul_lo_u32 v5, v4, s1
	; GFX908-NEXT: v_add_u32_e32 v6, 1, v4			; GFX908-NEXT: v_add_u32_e32 v6, 1, v4
	; GFX908-NEXT: v_sub_u32_e32 v5, s0, v5			; GFX908-NEXT: v_sub_u32_e32 v5, s0, v5
				; GFX908-NEXT: v_subrev_u32_e32 v7, s1, v5
	; GFX908-NEXT: v_cmp_le_u32_e32 vcc, s1, v5			; GFX908-NEXT: v_cmp_le_u32_e32 vcc, s1, v5
	; GFX908-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc			; GFX908-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
	; GFX908-NEXT: v_subrev_u32_e32 v6, s1, v5			; GFX908-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
	; GFX908-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; GFX908-NEXT: v_add_u32_e32 v7, 1, v4			; GFX908-NEXT: v_add_u32_e32 v7, 1, v4
	; GFX908-NEXT: v_cmp_le_u32_e32 vcc, s1, v5			; GFX908-NEXT: v_cmp_le_u32_e32 vcc, s1, v5
	; GFX908-NEXT: s_waitcnt vmcnt(0)			; GFX908-NEXT: s_waitcnt vmcnt(0)
	; GFX908-NEXT: v_and_b32_e32 v28, 0xffff, v0			; GFX908-NEXT: v_and_b32_e32 v28, 0xffff, v0
	; GFX908-NEXT: v_cndmask_b32_e32 v0, v4, v7, vcc			; GFX908-NEXT: v_cndmask_b32_e32 v0, v4, v7, vcc
	; GFX908-NEXT: v_mul_lo_u32 v8, s9, v28			; GFX908-NEXT: v_mul_lo_u32 v8, s9, v28
	; GFX908-NEXT: v_mul_hi_u32 v9, s8, v28			; GFX908-NEXT: v_mul_hi_u32 v9, s8, v28
	; GFX908-NEXT: v_lshlrev_b64 v[2:3], 5, v[0:1]			; GFX908-NEXT: v_lshlrev_b64 v[2:3], 5, v[0:1]
	▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; GFX90A-NEXT: v_pk_mov_b32 v[6:7], s[10:11], s[10:11] op_sel:[0,1]			; GFX90A-NEXT: v_pk_mov_b32 v[6:7], s[10:11], s[10:11] op_sel:[0,1]
	; GFX90A-NEXT: v_mul_lo_u32 v8, s5, v0			; GFX90A-NEXT: v_mul_lo_u32 v8, s5, v0
	; GFX90A-NEXT: v_mul_hi_u32 v8, v0, v8			; GFX90A-NEXT: v_mul_hi_u32 v8, v0, v8
	; GFX90A-NEXT: v_add_u32_e32 v0, v0, v8			; GFX90A-NEXT: v_add_u32_e32 v0, v0, v8
	; GFX90A-NEXT: v_mul_hi_u32 v0, s6, v0			; GFX90A-NEXT: v_mul_hi_u32 v0, s6, v0
	; GFX90A-NEXT: v_mul_lo_u32 v8, v0, s7			; GFX90A-NEXT: v_mul_lo_u32 v8, v0, s7
	; GFX90A-NEXT: v_sub_u32_e32 v8, s6, v8			; GFX90A-NEXT: v_sub_u32_e32 v8, s6, v8
	; GFX90A-NEXT: v_add_u32_e32 v9, 1, v0			; GFX90A-NEXT: v_add_u32_e32 v9, 1, v0
				; GFX90A-NEXT: v_subrev_u32_e32 v11, s7, v8
	; GFX90A-NEXT: v_cmp_le_u32_e32 vcc, s7, v8			; GFX90A-NEXT: v_cmp_le_u32_e32 vcc, s7, v8
	; GFX90A-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc			; GFX90A-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc
	; GFX90A-NEXT: v_subrev_u32_e32 v9, s7, v8			; GFX90A-NEXT: v_cndmask_b32_e32 v8, v8, v11, vcc
	; GFX90A-NEXT: v_cndmask_b32_e32 v8, v8, v9, vcc
	; GFX90A-NEXT: v_add_u32_e32 v9, 1, v0			; GFX90A-NEXT: v_add_u32_e32 v9, 1, v0
	; GFX90A-NEXT: v_cmp_le_u32_e32 vcc, s7, v8			; GFX90A-NEXT: v_cmp_le_u32_e32 vcc, s7, v8
	; GFX90A-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc			; GFX90A-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc
	; GFX90A-NEXT: v_lshlrev_b64 v[8:9], 5, v[0:1]			; GFX90A-NEXT: v_lshlrev_b64 v[8:9], 5, v[0:1]
	; GFX90A-NEXT: s_waitcnt vmcnt(0)			; GFX90A-NEXT: s_waitcnt vmcnt(0)
	; GFX90A-NEXT: v_and_b32_e32 v30, 0xffff, v10			; GFX90A-NEXT: v_and_b32_e32 v30, 0xffff, v10
	; GFX90A-NEXT: v_mul_lo_u32 v11, s1, v30			; GFX90A-NEXT: v_mul_lo_u32 v11, s1, v30
	; GFX90A-NEXT: v_mul_hi_u32 v12, s0, v30			; GFX90A-NEXT: v_mul_hi_u32 v12, s0, v30
	▲ Show 20 Lines • Show All 413 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, s4, v0			; GFX9-NEXT: v_mul_lo_u32 v1, s4, v0
	; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v1			; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
	; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, v0, s3			; GFX9-NEXT: v_mul_lo_u32 v1, v0, s3
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
	; GFX9-NEXT: v_sub_u32_e32 v1, s2, v1			; GFX9-NEXT: v_sub_u32_e32 v1, s2, v1
				; GFX9-NEXT: v_subrev_u32_e32 v4, s3, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: global_store_dword v2, v0, s[0:1]			; GFX9-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = udiv i32 %x, %y			%r = udiv i32 %x, %y
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	▲ Show 20 Lines • Show All 191 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_xor_b32 s2, s2, s5			; GFX9-NEXT: s_xor_b32 s2, s2, s5
	; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX9-NEXT: s_xor_b32 s4, s5, s4			; GFX9-NEXT: s_xor_b32 s4, s5, s4
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v1			; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
	; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, v0, s3			; GFX9-NEXT: v_mul_lo_u32 v1, v0, s3
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
	; GFX9-NEXT: v_sub_u32_e32 v1, s2, v1			; GFX9-NEXT: v_sub_u32_e32 v1, s2, v1
				; GFX9-NEXT: v_subrev_u32_e32 v4, s3, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0
	; GFX9-NEXT: v_subrev_u32_e32 v0, s4, v0			; GFX9-NEXT: v_subrev_u32_e32 v0, s4, v0
	; GFX9-NEXT: global_store_dword v2, v0, s[0:1]			; GFX9-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = sdiv i32 %x, %y			%r = sdiv i32 %x, %y
	▲ Show 20 Lines • Show All 972 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX9-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX9-NEXT: s_sub_i32 s2, 0, s10			; GFX9-NEXT: s_sub_i32 s2, 0, s10
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v1			; GFX9-NEXT: v_mul_lo_u32 v3, s3, v1
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
	; GFX9-NEXT: v_mul_f32_e32 v3, s12, v5			; GFX9-NEXT: v_mul_f32_e32 v2, s12, v5
				; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
				; GFX9-NEXT: v_mul_lo_u32 v3, v0, s8
				; GFX9-NEXT: v_add_u32_e32 v6, 1, v0
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, s8			; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3
	; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s11			; GFX9-NEXT: v_subrev_u32_e32 v7, s8, v3
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v6, vcc
				; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
				; GFX9-NEXT: v_add_u32_e32 v6, 1, v0
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v6, vcc
				; GFX9-NEXT: v_mul_lo_u32 v3, s2, v2
				; GFX9-NEXT: v_cvt_f32_u32_e32 v6, s11
				; GFX9-NEXT: v_mul_lo_u32 v5, v1, s9
				; GFX9-NEXT: v_add_u32_e32 v7, 1, v1
				; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3
				; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v6
				; GFX9-NEXT: v_sub_u32_e32 v5, s5, v5
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v5
				; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
				; GFX9-NEXT: v_mul_f32_e32 v3, s12, v6
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v0			; GFX9-NEXT: s_sub_i32 s2, 0, s11
	; GFX9-NEXT: v_sub_u32_e32 v5, s4, v5			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v7, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v5			; GFX9-NEXT: v_subrev_u32_e32 v8, s9, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v7, s8, v5
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, s9
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v5
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc
	; GFX9-NEXT: v_mul_lo_u32 v7, s2, v3			; GFX9-NEXT: v_mul_lo_u32 v7, s2, v3
	; GFX9-NEXT: v_sub_u32_e32 v6, s5, v6			; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v1			; GFX9-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v6			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v5
	; GFX9-NEXT: v_mul_f32_e32 v2, s12, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX9-NEXT: v_mul_hi_u32 v5, v3, v7			; GFX9-NEXT: v_mul_hi_u32 v5, v3, v7
	; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX9-NEXT: v_add_u32_e32 v6, 1, v1
	; GFX9-NEXT: s_sub_i32 s2, 0, s11			; GFX9-NEXT: v_mul_lo_u32 v8, v2, s10
	; GFX9-NEXT: v_subrev_u32_e32 v7, s9, v6			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v5			; GFX9-NEXT: v_add_u32_e32 v3, v3, v5
	; GFX9-NEXT: v_mul_lo_u32 v5, s2, v2			; GFX9-NEXT: v_mul_hi_u32 v3, s7, v3
	; GFX9-NEXT: v_mul_hi_u32 v3, s6, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v1
	; GFX9-NEXT: v_mul_hi_u32 v5, v2, v5
	; GFX9-NEXT: v_mul_lo_u32 v8, v3, s10
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v7, vcc
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5
	; GFX9-NEXT: v_mul_hi_u32 v5, s7, v2
	; GFX9-NEXT: v_sub_u32_e32 v6, s6, v8			; GFX9-NEXT: v_sub_u32_e32 v6, s6, v8
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v3			; GFX9-NEXT: v_subrev_u32_e32 v8, s10, v6
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v6			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v6, v8, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s10, v6			; GFX9-NEXT: v_mul_lo_u32 v6, v3, s11
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v6, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v5, s11
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v2			; GFX9-NEXT: v_add_u32_e32 v7, 1, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc
	; GFX9-NEXT: v_sub_u32_e32 v3, s7, v6			; GFX9-NEXT: v_add_u32_e32 v7, 1, v2
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v5			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX9-NEXT: v_sub_u32_e32 v5, s7, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v6, s11, v3			; GFX9-NEXT: v_add_u32_e32 v6, 1, v3
				; GFX9-NEXT: v_subrev_u32_e32 v7, s11, v5
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v5
				; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
				; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
				; GFX9-NEXT: v_add_u32_e32 v6, 1, v3
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = udiv <4 x i32> %x, %y			%r = udiv <4 x i32> %x, %y
	store <4 x i32> %r, <4 x i32> addrspace(1)* %out			store <4 x i32> %r, <4 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %x, <4 x i32> %y) {			define amdgpu_kernel void @urem_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %x, <4 x i32> %y) {
	▲ Show 20 Lines • Show All 580 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s15, 0x4f7ffffe			; GFX9-NEXT: s_mov_b32 s15, 0x4f7ffffe
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s2, s8, 31			; GFX9-NEXT: s_ashr_i32 s2, s8, 31
	; GFX9-NEXT: s_add_i32 s3, s8, s2			; GFX9-NEXT: s_add_i32 s3, s8, s2
	; GFX9-NEXT: s_xor_b32 s3, s3, s2			; GFX9-NEXT: s_xor_b32 s3, s3, s2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: s_ashr_i32 s12, s9, 31			; GFX9-NEXT: s_ashr_i32 s13, s9, 31
	; GFX9-NEXT: s_add_i32 s9, s9, s12			; GFX9-NEXT: s_add_i32 s9, s9, s13
	; GFX9-NEXT: s_xor_b32 s9, s9, s12			; GFX9-NEXT: s_xor_b32 s9, s9, s13
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX9-NEXT: s_sub_i32 s14, 0, s3			; GFX9-NEXT: s_sub_i32 s14, 0, s3
	; GFX9-NEXT: s_ashr_i32 s8, s4, 31			; GFX9-NEXT: s_ashr_i32 s8, s4, 31
	; GFX9-NEXT: v_mul_f32_e32 v0, s15, v0			; GFX9-NEXT: v_mul_f32_e32 v0, s15, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: s_add_i32 s4, s4, s8			; GFX9-NEXT: s_add_i32 s4, s4, s8
	; GFX9-NEXT: s_xor_b32 s4, s4, s8			; GFX9-NEXT: s_xor_b32 s4, s4, s8
	; GFX9-NEXT: v_mul_lo_u32 v2, s14, v0			; GFX9-NEXT: v_mul_lo_u32 v2, s14, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, s15, v1			; GFX9-NEXT: v_mul_f32_e32 v1, s15, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: s_sub_i32 s14, 0, s9			; GFX9-NEXT: s_xor_b32 s2, s8, s2
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX9-NEXT: s_ashr_i32 s13, s5, 31			; GFX9-NEXT: s_sub_i32 s8, 0, s9
	; GFX9-NEXT: v_mul_lo_u32 v3, s14, v1			; GFX9-NEXT: s_ashr_i32 s12, s5, 31
	; GFX9-NEXT: s_add_i32 s5, s5, s13			; GFX9-NEXT: s_add_i32 s5, s5, s12
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX9-NEXT: v_mul_hi_u32 v2, v1, v3			; GFX9-NEXT: v_mul_lo_u32 v2, s8, v1
	; GFX9-NEXT: s_xor_b32 s5, s5, s13			; GFX9-NEXT: s_xor_b32 s5, s5, s12
	; GFX9-NEXT: s_xor_b32 s2, s8, s2
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, s3			; GFX9-NEXT: v_mul_lo_u32 v3, v0, s3
				; GFX9-NEXT: v_mul_hi_u32 v2, v1, v2
				; GFX9-NEXT: v_add_u32_e32 v5, 1, v0
				; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3
				; GFX9-NEXT: s_ashr_i32 s4, s10, 31
				; GFX9-NEXT: s_add_i32 s8, s10, s4
				; GFX9-NEXT: s_xor_b32 s8, s8, s4
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v2			; GFX9-NEXT: v_add_u32_e32 v1, v1, v2
	; GFX9-NEXT: v_add_u32_e32 v2, 1, v0			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s8
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3			; GFX9-NEXT: v_subrev_u32_e32 v6, s3, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX9-NEXT: v_subrev_u32_e32 v2, s3, v3			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v2			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
	; GFX9-NEXT: s_ashr_i32 s3, s10, 31			; GFX9-NEXT: v_mul_f32_e32 v2, s15, v2
	; GFX9-NEXT: s_add_i32 s4, s10, s3			; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: v_mul_lo_u32 v3, v1, s9
	; GFX9-NEXT: s_xor_b32 s4, s4, s3			; GFX9-NEXT: s_sub_i32 s3, 0, s8
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_add_u32_e32 v5, 1, v0
	; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s4			; GFX9-NEXT: v_mul_lo_u32 v7, s3, v2
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s9			; GFX9-NEXT: v_sub_u32_e32 v3, s5, v3
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
				; GFX9-NEXT: v_subrev_u32_e32 v6, s9, v3
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3
				; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
				; GFX9-NEXT: v_mul_hi_u32 v6, v2, v7
				; GFX9-NEXT: s_ashr_i32 s3, s6, 31
				; GFX9-NEXT: s_add_i32 s5, s6, s3
				; GFX9-NEXT: s_ashr_i32 s6, s11, 31
				; GFX9-NEXT: s_add_i32 s10, s11, s6
				; GFX9-NEXT: s_xor_b32 s10, s10, s6
				; GFX9-NEXT: v_add_u32_e32 v2, v2, v6
				; GFX9-NEXT: v_cvt_f32_u32_e32 v6, s10
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v1			; GFX9-NEXT: v_add_u32_e32 v5, 1, v1
	; GFX9-NEXT: s_ashr_i32 s8, s11, 31
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX9-NEXT: v_sub_u32_e32 v2, s5, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX9-NEXT: v_mul_f32_e32 v3, s15, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_subrev_u32_e32 v5, s9, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX9-NEXT: s_sub_i32 s5, 0, s4
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v2
	; GFX9-NEXT: v_mul_lo_u32 v2, s5, v3
	; GFX9-NEXT: s_add_i32 s9, s11, s8
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v1			; GFX9-NEXT: v_add_u32_e32 v5, 1, v1
	; GFX9-NEXT: s_xor_b32 s9, s9, s8			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX9-NEXT: v_mul_hi_u32 v2, v3, v2			; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v6
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s9			; GFX9-NEXT: s_xor_b32 s5, s5, s3
	; GFX9-NEXT: s_ashr_i32 s5, s6, 31			; GFX9-NEXT: v_mul_hi_u32 v2, s5, v2
	; GFX9-NEXT: s_add_i32 s6, s6, s5
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v5
	; GFX9-NEXT: s_xor_b32 s6, s6, s5
	; GFX9-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0
	; GFX9-NEXT: v_mul_f32_e32 v3, s15, v3			; GFX9-NEXT: v_mul_f32_e32 v5, s15, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5
	; GFX9-NEXT: v_subrev_u32_e32 v0, s2, v0			; GFX9-NEXT: v_subrev_u32_e32 v0, s2, v0
	; GFX9-NEXT: s_xor_b32 s2, s13, s12			; GFX9-NEXT: s_xor_b32 s2, s12, s13
	; GFX9-NEXT: v_mul_lo_u32 v5, v2, s4
	; GFX9-NEXT: v_xor_b32_e32 v1, s2, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s2, v1
				; GFX9-NEXT: v_mul_lo_u32 v3, v2, s8
	; GFX9-NEXT: v_subrev_u32_e32 v1, s2, v1			; GFX9-NEXT: v_subrev_u32_e32 v1, s2, v1
	; GFX9-NEXT: s_xor_b32 s2, s5, s3			; GFX9-NEXT: s_xor_b32 s2, s3, s4
	; GFX9-NEXT: s_sub_i32 s3, 0, s9			; GFX9-NEXT: s_sub_i32 s3, 0, s10
	; GFX9-NEXT: v_mul_lo_u32 v7, s3, v3			; GFX9-NEXT: v_mul_lo_u32 v8, s3, v5
	; GFX9-NEXT: v_sub_u32_e32 v5, s6, v5			; GFX9-NEXT: v_sub_u32_e32 v3, s5, v3
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v2			; GFX9-NEXT: v_add_u32_e32 v6, 1, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v5			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v6, s4, v5			; GFX9-NEXT: v_mul_hi_u32 v6, v5, v8
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; GFX9-NEXT: v_mul_hi_u32 v6, v3, v7
	; GFX9-NEXT: s_ashr_i32 s3, s7, 31			; GFX9-NEXT: s_ashr_i32 s3, s7, 31
	; GFX9-NEXT: s_add_i32 s5, s7, s3			; GFX9-NEXT: s_add_i32 s4, s7, s3
	; GFX9-NEXT: s_xor_b32 s5, s5, s3			; GFX9-NEXT: s_xor_b32 s4, s4, s3
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v6			; GFX9-NEXT: v_add_u32_e32 v5, v5, v6
	; GFX9-NEXT: v_mul_hi_u32 v3, s5, v3			; GFX9-NEXT: v_mul_hi_u32 v5, s4, v5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v5			; GFX9-NEXT: v_subrev_u32_e32 v7, s8, v3
				; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
				; GFX9-NEXT: v_mul_lo_u32 v3, v5, s10
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v2			; GFX9-NEXT: v_add_u32_e32 v6, 1, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, v3, s9			; GFX9-NEXT: v_add_u32_e32 v6, 1, v5
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v3			; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3
				; GFX9-NEXT: v_subrev_u32_e32 v7, s10, v3
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v3
				; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
				; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
	; GFX9-NEXT: v_xor_b32_e32 v2, s2, v2			; GFX9-NEXT: v_xor_b32_e32 v2, s2, v2
				; GFX9-NEXT: v_add_u32_e32 v6, 1, v5
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v3
	; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v2			; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v2
	; GFX9-NEXT: v_sub_u32_e32 v5, s5, v5			; GFX9-NEXT: s_xor_b32 s2, s3, s6
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v5			; GFX9-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v6, s9, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v5
	; GFX9-NEXT: s_xor_b32 s2, s3, s8
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
	; GFX9-NEXT: v_xor_b32_e32 v3, s2, v3			; GFX9-NEXT: v_xor_b32_e32 v3, s2, v3
	; GFX9-NEXT: v_subrev_u32_e32 v3, s2, v3			; GFX9-NEXT: v_subrev_u32_e32 v3, s2, v3
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = sdiv <4 x i32> %x, %y			%r = sdiv <4 x i32> %x, %y
	store <4 x i32> %r, <4 x i32> addrspace(1)* %out			store <4 x i32> %r, <4 x i32> addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 3,673 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_v2i32_pow2_shl_denom:			; GFX9-LABEL: udiv_v2i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_movk_i32 s2, 0x1000			; GFX9-NEXT: s_movk_i32 s2, 0x1000
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b32 s6, s2, s6			; GFX9-NEXT: s_lshl_b32 s3, s2, s7
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX9-NEXT: s_lshl_b32 s2, s2, s6
	; GFX9-NEXT: s_lshl_b32 s7, s2, s7			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s7			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s3
	; GFX9-NEXT: s_mov_b32 s2, 0x4f7ffffe			; GFX9-NEXT: s_mov_b32 s6, 0x4f7ffffe
				; GFX9-NEXT: s_sub_i32 s7, 0, s3
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: s_sub_i32 s3, 0, s7
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_f32_e32 v0, s2, v0			; GFX9-NEXT: v_mul_f32_e32 v0, s6, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, s2, v1			; GFX9-NEXT: v_mul_f32_e32 v1, s6, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: s_sub_i32 s2, 0, s6			; GFX9-NEXT: s_sub_i32 s6, 0, s2
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX9-NEXT: v_mul_lo_u32 v2, s6, v0
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v1			; GFX9-NEXT: v_mul_lo_u32 v3, s7, v1
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, s6			; GFX9-NEXT: v_mul_lo_u32 v3, v0, s2
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v0			; GFX9-NEXT: v_add_u32_e32 v5, 1, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, s7			; GFX9-NEXT: v_mul_lo_u32 v4, v1, s3
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v1			; GFX9-NEXT: v_add_u32_e32 v6, 1, v1
	; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3			; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3			; GFX9-NEXT: v_subrev_u32_e32 v7, s2, v3
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v5, s6, v3			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
	; GFX9-NEXT: v_sub_u32_e32 v4, s5, v4			; GFX9-NEXT: v_sub_u32_e32 v4, s5, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc			; GFX9-NEXT: v_add_u32_e32 v7, 1, v0
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s7, v4			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3			; GFX9-NEXT: v_subrev_u32_e32 v5, s3, v4
	; GFX9-NEXT: v_subrev_u32_e32 v3, s7, v4			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v6, s[0:1]			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v4
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v0			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y			%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
	%r = udiv <2 x i32> %x, %shl.y			%r = udiv <2 x i32> %x, %shl.y
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @urem_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {
	▲ Show 20 Lines • Show All 471 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_add_i32 s2, s2, s5			; GFX9-NEXT: s_add_i32 s2, s2, s5
	; GFX9-NEXT: s_xor_b32 s2, s2, s5			; GFX9-NEXT: s_xor_b32 s2, s2, s5
	; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v1			; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
	; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, v0, s3			; GFX9-NEXT: v_mul_lo_u32 v1, v0, s3
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
	; GFX9-NEXT: v_sub_u32_e32 v1, s2, v1			; GFX9-NEXT: v_sub_u32_e32 v1, s2, v1
				; GFX9-NEXT: v_subrev_u32_e32 v4, s3, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
				; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1			; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: s_xor_b32 s2, s5, s4			; GFX9-NEXT: s_xor_b32 s2, s5, s4
	; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0
	; GFX9-NEXT: v_subrev_u32_e32 v0, s2, v0			; GFX9-NEXT: v_subrev_u32_e32 v0, s2, v0
	; GFX9-NEXT: global_store_dword v2, v0, s[0:1]			; GFX9-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl i32 4096, %y			%shl.y = shl i32 4096, %y
	%r = sdiv i32 %x, %shl.y			%r = sdiv i32 %x, %shl.y
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	▲ Show 20 Lines • Show All 306 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_mul_lo_u32 v3, s10, v1			; GFX9-NEXT: v_mul_lo_u32 v3, s10, v1
	; GFX9-NEXT: s_xor_b32 s6, s7, s6			; GFX9-NEXT: s_xor_b32 s6, s7, s6
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s1			; GFX9-NEXT: v_mul_lo_u32 v4, v0, s1
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v0			; GFX9-NEXT: v_add_u32_e32 v5, 1, v0
	; GFX9-NEXT: v_sub_u32_e32 v4, s4, v4			; GFX9-NEXT: v_sub_u32_e32 v4, s4, v4
	; GFX9-NEXT: s_xor_b32 s4, s5, s9			; GFX9-NEXT: s_xor_b32 s4, s5, s9
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s1, v4
	; GFX9-NEXT: v_mul_hi_u32 v1, s4, v1			; GFX9-NEXT: v_mul_hi_u32 v1, s4, v1
				; GFX9-NEXT: v_subrev_u32_e32 v6, s1, v4
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s1, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v5, s1, v4			; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s1, v4			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s1, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v3, v1, s0			; GFX9-NEXT: v_mul_lo_u32 v3, v1, s0
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
	; GFX9-NEXT: s_xor_b32 s1, s9, s8			; GFX9-NEXT: s_xor_b32 s1, s9, s8
	; GFX9-NEXT: v_xor_b32_e32 v0, s6, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3			; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3
				; GFX9-NEXT: v_subrev_u32_e32 v5, s0, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s0, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s0, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v4, s0, v3			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s0, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s0, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_xor_b32_e32 v1, s1, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s1, v1
	; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0			; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0
	; GFX9-NEXT: v_subrev_u32_e32 v1, s1, v1			; GFX9-NEXT: v_subrev_u32_e32 v1, s1, v1
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 668 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_movk_i32 s3, 0x11e			; GFX9-NEXT: s_movk_i32 s3, 0x11e
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s3, v4			; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s3, v4
	; GFX9-NEXT: s_mov_b32 s6, 0x976a7376			; GFX9-NEXT: s_mov_b32 s6, 0x976a7376
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s6, v5			; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s6, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s2, v4			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s2, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v7, v5, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v4, v7, v5, s[0:1]
	; GFX9-NEXT: v_add_co_u32_e64 v5, s[0:1], 2, v0			; GFX9-NEXT: v_add_co_u32_e64 v5, s[0:1], 1, v0
	; GFX9-NEXT: v_addc_co_u32_e64 v7, s[0:1], 0, v1, s[0:1]			; GFX9-NEXT: v_addc_co_u32_e64 v7, s[0:1], 0, v1, s[0:1]
	; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 1, v0			; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 2, v0
	; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v1, s[0:1]			; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v1, s[0:1]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v9, v7, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v4, v5, v8, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v5, v7, v9, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v7, s7			; GFX9-NEXT: v_mov_b32_e32 v7, s7
	; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v7, v2, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v7, v2, vcc
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s3, v2			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s3, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s6, v3			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s6, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s2, v2			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s2, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v7, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v7, v3, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v8, v5, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: global_store_dwordx2 v6, v[0:1], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v6, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = udiv i64 %x, 1235195949943			%r = udiv i64 %x, 1235195949943
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @udiv_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @udiv_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {
	▲ Show 20 Lines • Show All 283 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v4			; GFX9-NEXT: v_mul_hi_u32 v6, v0, v4
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2			; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v6, v3			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v6, v3
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc
	; GFX9-NEXT: v_mul_lo_u32 v7, v1, v4			; GFX9-NEXT: v_mul_lo_u32 v7, v1, v4
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX9-NEXT: s_movk_i32 s0, 0xfff
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshr_b64 s[4:5], s[4:5], 12			; GFX9-NEXT: s_lshr_b64 s[0:1], s[4:5], 12
				; GFX9-NEXT: s_movk_i32 s4, 0xfff
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v7			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v4, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v5, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, s6, v1			; GFX9-NEXT: v_mul_lo_u32 v2, s6, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s6, v0			; GFX9-NEXT: v_mul_hi_u32 v3, s6, v0
	; GFX9-NEXT: v_mul_hi_u32 v4, s6, v1			; GFX9-NEXT: v_mul_hi_u32 v4, s6, v1
	; GFX9-NEXT: v_mul_hi_u32 v6, s7, v1			; GFX9-NEXT: v_mul_hi_u32 v6, s7, v1
	; GFX9-NEXT: v_mul_lo_u32 v1, s7, v1			; GFX9-NEXT: v_mul_lo_u32 v1, s7, v1
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc
	; GFX9-NEXT: v_mul_lo_u32 v4, s7, v0			; GFX9-NEXT: v_mul_lo_u32 v4, s7, v0
	; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v6, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v6, v5, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, 2, v0			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, 1, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, s0			; GFX9-NEXT: v_mul_lo_u32 v4, v1, s4
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, s0			; GFX9-NEXT: v_mul_hi_u32 v6, v0, s4
	; GFX9-NEXT: v_mul_lo_u32 v9, v0, s0			; GFX9-NEXT: v_mul_lo_u32 v9, v0, s4
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v1, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v1, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, 1, v0			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, 2, v0
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v1, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v1, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, v6, v4			; GFX9-NEXT: v_add_u32_e32 v4, v6, v4
	; GFX9-NEXT: v_mov_b32_e32 v6, s7			; GFX9-NEXT: v_mov_b32_e32 v6, s7
	; GFX9-NEXT: v_sub_co_u32_e32 v9, vcc, s6, v9			; GFX9-NEXT: v_sub_co_u32_e32 v9, vcc, s6, v9
	; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v6, v4, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v6, v4, vcc
	; GFX9-NEXT: v_subrev_co_u32_e32 v6, vcc, s0, v9			; GFX9-NEXT: v_subrev_co_u32_e32 v6, vcc, s4, v9
	; GFX9-NEXT: v_subbrev_co_u32_e32 v10, vcc, 0, v4, vcc			; GFX9-NEXT: v_subbrev_co_u32_e32 v10, vcc, 0, v4, vcc
	; GFX9-NEXT: s_movk_i32 s0, 0xffe			; GFX9-NEXT: s_movk_i32 s4, 0xffe
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s0, v6			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s4, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10
	; GFX9-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v9
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v4, -1, v6, s[0:1]			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s4, v9
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v1, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v4, -1, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v7, v2, vcc			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v0, v1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v3, v1, v3, vcc
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_cndmask_b32_e32 v2, v0, v2, vcc
	; GFX9-NEXT: v_mov_b32_e32 v1, s5			; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: global_store_dwordx4 v5, v[0:3], s[2:3]			; GFX9-NEXT: global_store_dwordx4 v5, v[0:3], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = udiv <2 x i64> %x, <i64 4096, i64 4095>			%r = udiv <2 x i64> %x, <i64 4096, i64 4095>
	store <2 x i64> %r, <2 x i64> addrspace(1)* %out			store <2 x i64> %r, <2 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @udiv_v2i64_pow2_shl_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {			define amdgpu_kernel void @udiv_v2i64_pow2_shl_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {
	▲ Show 20 Lines • Show All 273 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[2:3], s10, v4			; GFX9-NEXT: v_cmp_lt_u32_e64 s[2:3], s10, v4
	; GFX9-NEXT: v_subb_co_u32_e64 v2, s[0:1], v2, v3, s[0:1]			; GFX9-NEXT: v_subb_co_u32_e64 v2, s[0:1], v2, v3, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s8, v5			; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s8, v5
	; GFX9-NEXT: v_subrev_co_u32_e64 v3, s[0:1], s9, v4			; GFX9-NEXT: v_subrev_co_u32_e64 v3, s[0:1], s9, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[2:3]
	; GFX9-NEXT: v_subbrev_co_u32_e64 v2, s[0:1], 0, v2, s[0:1]			; GFX9-NEXT: v_subbrev_co_u32_e64 v2, s[0:1], 0, v2, s[0:1]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v5, s7			; GFX9-NEXT: v_mov_b32_e32 v4, s7
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v5, v1, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v4, v1, vcc
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s6, v1			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s6, v1
	; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s10, v0			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s10, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v2, v5, v2, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s8, v1			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s8, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: global_store_dwordx2 v6, v[0:1], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v6, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = urem i64 %x, 1235195393993			%r = urem i64 %x, 1235195393993
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @urem_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {
	▲ Show 20 Lines • Show All 311 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i64_oddk_denom:			; GFX9-LABEL: sdiv_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f800000
	; GFX9-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8			; GFX9-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_mov_b32 s2, 0xffed2705			; GFX9-NEXT: s_mov_b32 s4, 0xffed2705
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s2			; GFX9-NEXT: v_mul_lo_u32 v2, v1, s4
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s2			; GFX9-NEXT: v_mul_hi_u32 v3, v0, s4
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s2			; GFX9-NEXT: v_mul_lo_u32 v4, v0, s4
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v8, v0, v2
	; GFX9-NEXT: v_mul_lo_u32 v7, v1, v4			; GFX9-NEXT: v_mul_lo_u32 v7, v1, v4
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v8, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v8, vcc
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2			; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v7			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v4, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v5, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s2			; GFX9-NEXT: v_mul_lo_u32 v2, v1, s4
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s2			; GFX9-NEXT: v_mul_hi_u32 v3, v0, s4
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s2			; GFX9-NEXT: v_mul_lo_u32 v4, v0, s4
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s2, s7, 31			; GFX9-NEXT: s_ashr_i32 s4, s3, 31
	; GFX9-NEXT: s_add_u32 s0, s6, s2			; GFX9-NEXT: s_add_u32 s2, s2, s4
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0
	; GFX9-NEXT: v_mul_lo_u32 v7, v0, v2			; GFX9-NEXT: v_mul_lo_u32 v7, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v4			; GFX9-NEXT: v_mul_hi_u32 v8, v0, v4
	; GFX9-NEXT: v_mul_hi_u32 v9, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v9, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v6, v1, v4			; GFX9-NEXT: v_mul_hi_u32 v6, v1, v4
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4			; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v7, v4			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v7, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v6, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v5, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: s_mov_b32 s3, s2			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_addc_u32 s1, s7, s2			; GFX9-NEXT: s_addc_u32 s3, s3, s4
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: s_xor_b64 s[0:1], s[0:1], s[2:3]			; GFX9-NEXT: s_xor_b64 s[2:3], s[2:3], s[4:5]
	; GFX9-NEXT: v_mul_lo_u32 v2, s0, v1			; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s0, v0			; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX9-NEXT: v_mul_hi_u32 v4, s0, v1			; GFX9-NEXT: v_mul_hi_u32 v4, s2, v1
	; GFX9-NEXT: v_mul_hi_u32 v6, s1, v1			; GFX9-NEXT: v_mul_hi_u32 v6, s3, v1
	; GFX9-NEXT: v_mul_lo_u32 v1, s1, v1			; GFX9-NEXT: v_mul_lo_u32 v1, s3, v1
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc
	; GFX9-NEXT: v_mul_lo_u32 v4, s1, v0			; GFX9-NEXT: v_mul_lo_u32 v4, s3, v0
	; GFX9-NEXT: v_mul_hi_u32 v0, s1, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s3, v0
	; GFX9-NEXT: s_mov_b32 s3, 0x12d8fb			; GFX9-NEXT: s_mov_b32 s5, 0x12d8fb
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v6, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v6, v5, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, 2, v0			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, 1, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, s3			; GFX9-NEXT: v_mul_lo_u32 v4, v1, s5
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, s3			; GFX9-NEXT: v_mul_hi_u32 v6, v0, s5
	; GFX9-NEXT: v_mul_lo_u32 v9, v0, s3			; GFX9-NEXT: v_mul_lo_u32 v9, v0, s5
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v1, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v1, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, 1, v0			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, 2, v0
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v1, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v1, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, v6, v4			; GFX9-NEXT: v_add_u32_e32 v4, v6, v4
	; GFX9-NEXT: v_mov_b32_e32 v6, s1			; GFX9-NEXT: v_mov_b32_e32 v6, s3
	; GFX9-NEXT: v_sub_co_u32_e32 v9, vcc, s0, v9			; GFX9-NEXT: v_sub_co_u32_e32 v9, vcc, s2, v9
	; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v6, v4, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v6, v4, vcc
	; GFX9-NEXT: v_subrev_co_u32_e32 v6, vcc, s3, v9			; GFX9-NEXT: v_subrev_co_u32_e32 v6, vcc, s5, v9
	; GFX9-NEXT: v_subbrev_co_u32_e32 v10, vcc, 0, v4, vcc			; GFX9-NEXT: v_subbrev_co_u32_e32 v10, vcc, 0, v4, vcc
	; GFX9-NEXT: s_mov_b32 s0, 0x12d8fa			; GFX9-NEXT: s_mov_b32 s2, 0x12d8fa
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s0, v6			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s2, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10
	; GFX9-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v9
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v4, -1, v6, s[0:1]			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s2, v9
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v7, v2, vcc			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, -1, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_xor_b32_e32 v1, s2, v1			; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1
	; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s2, v0			; GFX9-NEXT: v_mov_b32_e32 v2, s4
				; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s4, v0
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v2, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v2, vcc
	; GFX9-NEXT: global_store_dwordx2 v5, v[0:1], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v5, v[0:1], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = sdiv i64 %x, 1235195			%r = sdiv i64 %x, 1235195
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @sdiv_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @sdiv_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {
	; CHECK-LABEL: @sdiv_i64_pow2k_denom(			; CHECK-LABEL: @sdiv_i64_pow2k_denom(
	▲ Show 20 Lines • Show All 285 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s8, v4			; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s8, v4
	; GFX9-NEXT: v_subbrev_co_u32_e64 v5, s[0:1], 0, v5, s[0:1]			; GFX9-NEXT: v_subbrev_co_u32_e64 v5, s[0:1], 0, v5, s[0:1]
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v5			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v6			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s9, v5			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s9, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v7, v6, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v5, v7, v6, s[0:1]
	; GFX9-NEXT: v_add_co_u32_e64 v6, s[0:1], 2, v0			; GFX9-NEXT: v_add_co_u32_e64 v6, s[0:1], 1, v0
	; GFX9-NEXT: v_addc_co_u32_e64 v7, s[0:1], 0, v1, s[0:1]			; GFX9-NEXT: v_addc_co_u32_e64 v7, s[0:1], 0, v1, s[0:1]
	; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 1, v0			; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 2, v0
	; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v1, s[0:1]			; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v1, s[0:1]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v9, v7, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v5, v6, v8, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v6, v7, v9, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v7, s7			; GFX9-NEXT: v_mov_b32_e32 v7, s7
	; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v7, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v7, v3, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v4			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s9, v3			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s9, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v7, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v7, v4, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v8, v6, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: s_xor_b64 s[0:1], s[10:11], s[2:3]			; GFX9-NEXT: s_xor_b64 s[0:1], s[10:11], s[2:3]
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s0, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s0, v0
	; GFX9-NEXT: v_xor_b32_e32 v1, s1, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s1, v1
	; GFX9-NEXT: v_mov_b32_e32 v3, s1			; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s0, v0			; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s0, v0
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl i64 4096, %y			%shl.y = shl i64 4096, %y
	▲ Show 20 Lines • Show All 209 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
				; GFX9-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9-NEXT: s_ashr_i32 s2, s5, 31
				; GFX9-NEXT: s_lshr_b32 s2, s2, 20
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, s8			; GFX9-NEXT: v_mul_hi_u32 v2, v0, s8
	; GFX9-NEXT: v_mul_lo_u32 v3, v1, s8			; GFX9-NEXT: v_mul_lo_u32 v3, v1, s8
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, s8			; GFX9-NEXT: v_mul_lo_u32 v5, v0, s8
				; GFX9-NEXT: s_add_u32 s2, s4, s2
				; GFX9-NEXT: s_addc_u32 s3, s5, 0
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v3			; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, v2			; GFX9-NEXT: v_mul_lo_u32 v3, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v5			; GFX9-NEXT: v_mul_hi_u32 v6, v0, v5
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2			; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v6, v3			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v6, v3
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc
	; GFX9-NEXT: v_mul_lo_u32 v7, v1, v5			; GFX9-NEXT: v_mul_lo_u32 v7, v1, v5
	; GFX9-NEXT: v_mul_hi_u32 v5, v1, v5			; GFX9-NEXT: v_mul_hi_u32 v5, v1, v5
				; GFX9-NEXT: s_ashr_i64 s[2:3], s[2:3], 12
				; GFX9-NEXT: s_ashr_i32 s4, s7, 31
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v7			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v5, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v8, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v8, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v5, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s8			; GFX9-NEXT: v_mul_lo_u32 v2, v1, s8
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s8			; GFX9-NEXT: v_mul_hi_u32 v3, v0, s8
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, s8			; GFX9-NEXT: v_mul_lo_u32 v5, v0, s8
	; GFX9-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x24			; GFX9-NEXT: s_add_u32 s6, s6, s4
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_ashr_i32 s2, s5, 31
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0
	; GFX9-NEXT: v_mul_lo_u32 v7, v0, v2			; GFX9-NEXT: v_mul_lo_u32 v7, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v5			; GFX9-NEXT: v_mul_hi_u32 v8, v0, v5
	; GFX9-NEXT: v_mul_hi_u32 v9, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v9, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v6, v1, v5			; GFX9-NEXT: v_mul_hi_u32 v6, v1, v5
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, v5			; GFX9-NEXT: v_mul_lo_u32 v5, v1, v5
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX9-NEXT: s_lshr_b32 s2, s2, 20
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v7, v5			; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v7, v5
	; GFX9-NEXT: s_add_u32 s2, s4, s2
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v8, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v8, v6, vcc
	; GFX9-NEXT: s_addc_u32 s3, s5, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v4, vcc
	; GFX9-NEXT: s_ashr_i64 s[2:3], s[2:3], 12
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v5, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v5, v2
	; GFX9-NEXT: s_ashr_i32 s4, s7, 31
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
	; GFX9-NEXT: s_add_u32 s6, s6, s4
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_addc_u32 s7, s7, s4			; GFX9-NEXT: s_addc_u32 s7, s7, s4
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: s_xor_b64 s[6:7], s[6:7], s[4:5]			; GFX9-NEXT: s_xor_b64 s[6:7], s[6:7], s[4:5]
	; GFX9-NEXT: v_mul_lo_u32 v2, s6, v1			; GFX9-NEXT: v_mul_lo_u32 v2, s6, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s6, v0			; GFX9-NEXT: v_mul_hi_u32 v3, s6, v0
	; GFX9-NEXT: v_mul_hi_u32 v5, s6, v1			; GFX9-NEXT: v_mul_hi_u32 v5, s6, v1
	; GFX9-NEXT: v_mul_hi_u32 v6, s7, v1			; GFX9-NEXT: v_mul_hi_u32 v6, s7, v1
	; GFX9-NEXT: v_mul_lo_u32 v1, s7, v1			; GFX9-NEXT: v_mul_lo_u32 v1, s7, v1
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, s7, v0			; GFX9-NEXT: v_mul_lo_u32 v5, s7, v0
	; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0
	; GFX9-NEXT: s_movk_i32 s0, 0xfff			; GFX9-NEXT: s_movk_i32 s5, 0xfff
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v5			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v6, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v6, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, 2, v0			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, 1, v0
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, s0			; GFX9-NEXT: v_mul_lo_u32 v5, v1, s5
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, s0			; GFX9-NEXT: v_mul_hi_u32 v6, v0, s5
	; GFX9-NEXT: v_mul_lo_u32 v9, v0, s0			; GFX9-NEXT: v_mul_lo_u32 v9, v0, s5
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v1, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v1, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, 1, v0			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, 2, v0
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v1, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v1, vcc
	; GFX9-NEXT: v_add_u32_e32 v5, v6, v5			; GFX9-NEXT: v_add_u32_e32 v5, v6, v5
	; GFX9-NEXT: v_mov_b32_e32 v6, s7			; GFX9-NEXT: v_mov_b32_e32 v6, s7
	; GFX9-NEXT: v_sub_co_u32_e32 v9, vcc, s6, v9			; GFX9-NEXT: v_sub_co_u32_e32 v9, vcc, s6, v9
	; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v6, v5, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v6, v5, vcc
	; GFX9-NEXT: v_subrev_co_u32_e32 v6, vcc, s0, v9			; GFX9-NEXT: v_subrev_co_u32_e32 v6, vcc, s5, v9
	; GFX9-NEXT: v_subbrev_co_u32_e32 v10, vcc, 0, v5, vcc			; GFX9-NEXT: v_subbrev_co_u32_e32 v10, vcc, 0, v5, vcc
	; GFX9-NEXT: s_movk_i32 s0, 0xffe			; GFX9-NEXT: s_movk_i32 s5, 0xffe
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s0, v6			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s5, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10
	; GFX9-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, -1, v6, vcc
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v9
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v5, -1, v6, s[0:1]			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s5, v9
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v7, v2, vcc			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, -1, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
				; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0
	; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1
	; GFX9-NEXT: v_mov_b32_e32 v3, s4			; GFX9-NEXT: v_mov_b32_e32 v3, s4
	; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s4, v0			; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s4, v0
	; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v1, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v1, v3, vcc
	; GFX9-NEXT: v_mov_b32_e32 v0, s2			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, s3			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[8:9]			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = sdiv <2 x i64> %x, <i64 4096, i64 4095>			%r = sdiv <2 x i64> %x, <i64 4096, i64 4095>
	store <2 x i64> %r, <2 x i64> addrspace(1)* %out			store <2 x i64> %r, <2 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @sdiv_v2i64_pow2_shl_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {			define amdgpu_kernel void @sdiv_v2i64_pow2_shl_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x, <2 x i64> %y) {
	; CHECK-LABEL: @sdiv_v2i64_pow2_shl_denom(			; CHECK-LABEL: @sdiv_v2i64_pow2_shl_denom(
	▲ Show 20 Lines • Show All 355 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_mul_hi_u32 v5, s4, v1			; GFX9-NEXT: v_mul_hi_u32 v5, s4, v1
	; GFX9-NEXT: v_mul_hi_u32 v6, s5, v1			; GFX9-NEXT: v_mul_hi_u32 v6, s5, v1
	; GFX9-NEXT: v_mul_lo_u32 v1, s5, v1			; GFX9-NEXT: v_mul_lo_u32 v1, s5, v1
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v4, v3			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v4, v3
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, s5, v2			; GFX9-NEXT: v_mul_lo_u32 v5, s5, v2
	; GFX9-NEXT: v_mul_hi_u32 v2, s5, v2			; GFX9-NEXT: v_mul_hi_u32 v2, s5, v2
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: s_xor_b64 s[12:13], s[14:15], s[12:13]
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v4, v2, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v4, v2, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v0, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v0, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v2, v1			; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v2, v1
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v3, s8, v2			; GFX9-NEXT: v_mul_lo_u32 v3, s8, v2
	; GFX9-NEXT: v_mul_hi_u32 v4, s8, v1			; GFX9-NEXT: v_mul_hi_u32 v4, s8, v1
	; GFX9-NEXT: v_mul_lo_u32 v5, s9, v1			; GFX9-NEXT: v_mul_lo_u32 v5, s9, v1
	; GFX9-NEXT: v_mov_b32_e32 v6, s9			; GFX9-NEXT: v_mov_b32_e32 v6, s9
	; GFX9-NEXT: v_add_u32_e32 v3, v4, v3			; GFX9-NEXT: v_add_u32_e32 v3, v4, v3
	; GFX9-NEXT: v_mul_lo_u32 v4, s8, v1			; GFX9-NEXT: v_mul_lo_u32 v4, s8, v1
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v5			; GFX9-NEXT: v_add_u32_e32 v3, v3, v5
	; GFX9-NEXT: v_sub_u32_e32 v5, s5, v3			; GFX9-NEXT: v_sub_u32_e32 v5, s5, v3
	; GFX9-NEXT: v_sub_co_u32_e32 v4, vcc, s4, v4			; GFX9-NEXT: v_sub_co_u32_e32 v4, vcc, s4, v4
	; GFX9-NEXT: v_subb_co_u32_e64 v5, s[0:1], v5, v6, vcc			; GFX9-NEXT: v_subb_co_u32_e64 v5, s[0:1], v5, v6, vcc
	; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s8, v4			; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s8, v4
	; GFX9-NEXT: v_subbrev_co_u32_e64 v5, s[0:1], 0, v5, s[0:1]			; GFX9-NEXT: v_subbrev_co_u32_e64 v5, s[0:1], 0, v5, s[0:1]
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v5			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v6			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s9, v5			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s9, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v7, v6, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v5, v7, v6, s[0:1]
	; GFX9-NEXT: v_add_co_u32_e64 v6, s[0:1], 2, v1			; GFX9-NEXT: v_add_co_u32_e64 v6, s[0:1], 1, v1
	; GFX9-NEXT: v_addc_co_u32_e64 v7, s[0:1], 0, v2, s[0:1]			; GFX9-NEXT: v_addc_co_u32_e64 v7, s[0:1], 0, v2, s[0:1]
	; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 1, v1			; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 2, v1
	; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v2, s[0:1]			; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v2, s[0:1]
	; GFX9-NEXT: s_ashr_i32 s4, s11, 31
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5
				; GFX9-NEXT: v_cndmask_b32_e64 v5, v6, v8, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v6, v7, v9, s[0:1]
				; GFX9-NEXT: s_xor_b64 s[0:1], s[14:15], s[12:13]
				; GFX9-NEXT: s_ashr_i32 s4, s11, 31
	; GFX9-NEXT: s_add_u32 s10, s10, s4			; GFX9-NEXT: s_add_u32 s10, s10, s4
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v9, v7, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v7, s5			; GFX9-NEXT: v_mov_b32_e32 v7, s5
	; GFX9-NEXT: s_mov_b32 s5, s4			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_addc_u32 s11, s11, s4			; GFX9-NEXT: s_addc_u32 s11, s11, s4
	; GFX9-NEXT: s_xor_b64 s[10:11], s[10:11], s[4:5]			; GFX9-NEXT: s_xor_b64 s[10:11], s[10:11], s[4:5]
	; GFX9-NEXT: v_cvt_f32_u32_e32 v9, s10
	; GFX9-NEXT: v_cvt_f32_u32_e32 v10, s11
	; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v7, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v7, v3, vcc
				; GFX9-NEXT: v_cvt_f32_u32_e32 v7, s10
				; GFX9-NEXT: v_cvt_f32_u32_e32 v8, s11
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v4			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v4
				; GFX9-NEXT: v_mac_f32_e32 v7, s16, v8
				; GFX9-NEXT: v_rcp_f32_e32 v7, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s9, v3			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s9, v3
	; GFX9-NEXT: v_mac_f32_e32 v9, s16, v10			; GFX9-NEXT: v_cndmask_b32_e32 v3, v9, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v7, v4, vcc
	; GFX9-NEXT: v_rcp_f32_e32 v4, v9
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX9-NEXT: v_mul_f32_e32 v3, s17, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v8, v6, s[0:1]			; GFX9-NEXT: v_mul_f32_e32 v4, s18, v3
	; GFX9-NEXT: v_mul_f32_e32 v4, s17, v4			; GFX9-NEXT: v_trunc_f32_e32 v4, v4
	; GFX9-NEXT: v_mul_f32_e32 v5, s18, v4			; GFX9-NEXT: v_mac_f32_e32 v3, s19, v4
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_mac_f32_e32 v4, s19, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: s_sub_u32 s8, 0, s10
	; GFX9-NEXT: s_sub_u32 s0, 0, s10			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; GFX9-NEXT: s_subb_u32 s1, 0, s11			; GFX9-NEXT: s_subb_u32 s9, 0, s11
	; GFX9-NEXT: v_mul_hi_u32 v6, s0, v4			; GFX9-NEXT: v_mul_hi_u32 v6, s8, v3
	; GFX9-NEXT: v_mul_lo_u32 v7, s0, v5			; GFX9-NEXT: v_mul_lo_u32 v7, s8, v4
	; GFX9-NEXT: v_mul_lo_u32 v8, s1, v4			; GFX9-NEXT: v_mul_lo_u32 v8, s9, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v3, s0, v4			; GFX9-NEXT: v_mul_lo_u32 v5, s8, v3
	; GFX9-NEXT: v_add_u32_e32 v6, v6, v7			; GFX9-NEXT: v_add_u32_e32 v6, v6, v7
	; GFX9-NEXT: v_add_u32_e32 v6, v6, v8			; GFX9-NEXT: v_add_u32_e32 v6, v6, v8
	; GFX9-NEXT: v_mul_lo_u32 v7, v4, v6			; GFX9-NEXT: v_mul_lo_u32 v7, v3, v6
	; GFX9-NEXT: v_mul_hi_u32 v8, v4, v3			; GFX9-NEXT: v_mul_hi_u32 v8, v3, v5
	; GFX9-NEXT: v_mul_hi_u32 v9, v4, v6			; GFX9-NEXT: v_mul_hi_u32 v9, v3, v6
	; GFX9-NEXT: v_mul_hi_u32 v10, v5, v6			; GFX9-NEXT: v_mul_hi_u32 v10, v4, v6
	; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6			; GFX9-NEXT: v_mul_lo_u32 v6, v4, v6
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc
	; GFX9-NEXT: v_mul_lo_u32 v9, v5, v3			; GFX9-NEXT: v_mul_lo_u32 v9, v4, v5
	; GFX9-NEXT: v_mul_hi_u32 v3, v5, v3			; GFX9-NEXT: v_mul_hi_u32 v5, v4, v5
	; GFX9-NEXT: s_ashr_i32 s8, s7, 31			; GFX9-NEXT: v_xor_b32_e32 v1, s0, v1
	; GFX9-NEXT: s_mov_b32 s9, s8			; GFX9-NEXT: v_xor_b32_e32 v2, s1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v9			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v9
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v8, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v8, v5, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v10, v0, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v10, v0, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v4, v3			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v5, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v4, v6, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX9-NEXT: v_mul_lo_u32 v5, s8, v4
	; GFX9-NEXT: v_mul_hi_u32 v6, s0, v3			; GFX9-NEXT: v_mul_hi_u32 v6, s8, v3
	; GFX9-NEXT: v_mul_lo_u32 v7, s1, v3			; GFX9-NEXT: v_mul_lo_u32 v7, s9, v3
	; GFX9-NEXT: v_mul_lo_u32 v8, s0, v3			; GFX9-NEXT: v_mul_lo_u32 v8, s8, v3
	; GFX9-NEXT: s_add_u32 s0, s6, s8			; GFX9-NEXT: s_ashr_i32 s8, s7, 31
	; GFX9-NEXT: v_add_u32_e32 v5, v6, v5			; GFX9-NEXT: v_add_u32_e32 v5, v6, v5
	; GFX9-NEXT: v_add_u32_e32 v5, v5, v7			; GFX9-NEXT: v_add_u32_e32 v5, v5, v7
	; GFX9-NEXT: v_mul_lo_u32 v9, v3, v5			; GFX9-NEXT: v_mul_lo_u32 v9, v3, v5
	; GFX9-NEXT: v_mul_hi_u32 v10, v3, v8			; GFX9-NEXT: v_mul_hi_u32 v10, v3, v8
	; GFX9-NEXT: v_mul_hi_u32 v11, v3, v5			; GFX9-NEXT: v_mul_hi_u32 v11, v3, v5
	; GFX9-NEXT: v_mul_hi_u32 v7, v4, v8			; GFX9-NEXT: v_mul_hi_u32 v7, v4, v8
	; GFX9-NEXT: v_mul_lo_u32 v8, v4, v8			; GFX9-NEXT: v_mul_lo_u32 v8, v4, v8
	; GFX9-NEXT: v_mul_hi_u32 v6, v4, v5			; GFX9-NEXT: v_mul_hi_u32 v6, v4, v5
	; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v10, v9			; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v10, v9
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, 0, v11, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, 0, v11, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, v4, v5			; GFX9-NEXT: v_mul_lo_u32 v5, v4, v5
	; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8			; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v10, v7, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v10, v7, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v6, v0, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v6, v0, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v7, v5			; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v7, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v6, vcc
				; GFX9-NEXT: s_add_u32 s6, s6, s8
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5
	; GFX9-NEXT: s_addc_u32 s1, s7, s8			; GFX9-NEXT: s_mov_b32 s9, s8
				; GFX9-NEXT: s_addc_u32 s7, s7, s8
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v4, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v4, v6, vcc
	; GFX9-NEXT: s_xor_b64 s[6:7], s[0:1], s[8:9]			; GFX9-NEXT: s_xor_b64 s[6:7], s[6:7], s[8:9]
	; GFX9-NEXT: v_mul_lo_u32 v5, s6, v4			; GFX9-NEXT: v_mul_lo_u32 v5, s6, v4
	; GFX9-NEXT: v_mul_hi_u32 v6, s6, v3			; GFX9-NEXT: v_mul_hi_u32 v6, s6, v3
	; GFX9-NEXT: v_mul_hi_u32 v8, s6, v4			; GFX9-NEXT: v_mul_hi_u32 v8, s6, v4
	; GFX9-NEXT: v_mul_hi_u32 v9, s7, v4			; GFX9-NEXT: v_mul_hi_u32 v9, s7, v4
	; GFX9-NEXT: v_mul_lo_u32 v4, s7, v4			; GFX9-NEXT: v_mul_lo_u32 v4, s7, v4
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v6, v5			; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v6, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v8, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v8, vcc
	; GFX9-NEXT: v_mul_lo_u32 v8, s7, v3			; GFX9-NEXT: v_mul_lo_u32 v8, s7, v3
	; GFX9-NEXT: v_mul_hi_u32 v3, s7, v3			; GFX9-NEXT: v_mul_hi_u32 v3, s7, v3
	; GFX9-NEXT: v_xor_b32_e32 v1, s12, v1			; GFX9-NEXT: v_mov_b32_e32 v7, s1
	; GFX9-NEXT: v_xor_b32_e32 v2, s13, v2
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v8			; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v8
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v3, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v9, v0, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v9, v0, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, s10, v4			; GFX9-NEXT: v_mul_lo_u32 v5, s10, v4
	; GFX9-NEXT: v_mul_hi_u32 v6, s10, v3			; GFX9-NEXT: v_mul_hi_u32 v6, s10, v3
	; GFX9-NEXT: v_mul_lo_u32 v8, s11, v3			; GFX9-NEXT: v_mul_lo_u32 v8, s11, v3
	; GFX9-NEXT: v_mov_b32_e32 v7, s13			; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s0, v1
	; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s12, v1
	; GFX9-NEXT: v_add_u32_e32 v5, v6, v5			; GFX9-NEXT: v_add_u32_e32 v5, v6, v5
	; GFX9-NEXT: v_mul_lo_u32 v6, s10, v3			; GFX9-NEXT: v_mul_lo_u32 v6, s10, v3
	; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v2, v7, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v2, v7, vcc
	; GFX9-NEXT: v_add_u32_e32 v5, v5, v8			; GFX9-NEXT: v_add_u32_e32 v5, v5, v8
	; GFX9-NEXT: v_sub_u32_e32 v7, s7, v5			; GFX9-NEXT: v_sub_u32_e32 v7, s7, v5
	; GFX9-NEXT: v_mov_b32_e32 v8, s11			; GFX9-NEXT: v_mov_b32_e32 v8, s11
	; GFX9-NEXT: v_sub_co_u32_e32 v6, vcc, s6, v6			; GFX9-NEXT: v_sub_co_u32_e32 v6, vcc, s6, v6
	; GFX9-NEXT: v_subb_co_u32_e64 v7, s[0:1], v7, v8, vcc			; GFX9-NEXT: v_subb_co_u32_e64 v7, s[0:1], v7, v8, vcc
	; GFX9-NEXT: v_subrev_co_u32_e64 v8, s[0:1], s10, v6			; GFX9-NEXT: v_subrev_co_u32_e64 v8, s[0:1], s10, v6
	; GFX9-NEXT: v_subbrev_co_u32_e64 v7, s[0:1], 0, v7, s[0:1]			; GFX9-NEXT: v_subbrev_co_u32_e64 v7, s[0:1], 0, v7, s[0:1]
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v7			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[0:1]
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v8			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v8
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[0:1]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v7			; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v9, v8, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v7, v9, v8, s[0:1]
	; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 2, v3			; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 1, v3
	; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v4, s[0:1]			; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v4, s[0:1]
	; GFX9-NEXT: v_add_co_u32_e64 v10, s[0:1], 1, v3			; GFX9-NEXT: v_add_co_u32_e64 v10, s[0:1], 2, v3
	; GFX9-NEXT: v_addc_co_u32_e64 v11, s[0:1], 0, v4, s[0:1]			; GFX9-NEXT: v_addc_co_u32_e64 v11, s[0:1], 0, v4, s[0:1]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v11, v9, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v7, v8, v10, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v8, v9, v11, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v9, s7			; GFX9-NEXT: v_mov_b32_e32 v9, s7
	; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v9, v5, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v9, v5, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v5			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v6			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s11, v5			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s11, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v9, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v9, v6, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v10, v8, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: s_xor_b64 s[0:1], s[8:9], s[4:5]			; GFX9-NEXT: s_xor_b64 s[0:1], s[8:9], s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v8, vcc
	; GFX9-NEXT: v_xor_b32_e32 v3, s0, v3			; GFX9-NEXT: v_xor_b32_e32 v3, s0, v3
	; GFX9-NEXT: v_xor_b32_e32 v4, s1, v4			; GFX9-NEXT: v_xor_b32_e32 v4, s1, v4
	; GFX9-NEXT: v_mov_b32_e32 v5, s1			; GFX9-NEXT: v_mov_b32_e32 v5, s1
	; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s0, v3			; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s0, v3
	; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v4, v5, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v4, v5, vcc
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dwordx4 v0, v[1:4], s[2:3]			; GFX9-NEXT: global_store_dwordx4 v0, v[1:4], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i64_oddk_denom:			; GFX9-LABEL: srem_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f800000
	; GFX9-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8			; GFX9-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_mov_b32 s2, 0xffed2705			; GFX9-NEXT: s_mov_b32 s4, 0xffed2705
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s2			; GFX9-NEXT: v_mul_lo_u32 v2, v1, s4
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s2			; GFX9-NEXT: v_mul_hi_u32 v3, v0, s4
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s2			; GFX9-NEXT: v_mul_lo_u32 v4, v0, s4
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v8, v0, v2
	; GFX9-NEXT: v_mul_lo_u32 v7, v1, v4			; GFX9-NEXT: v_mul_lo_u32 v7, v1, v4
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v8, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v8, vcc
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2			; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v7			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v4, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v5, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s2			; GFX9-NEXT: v_mul_lo_u32 v2, v1, s4
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s2			; GFX9-NEXT: v_mul_hi_u32 v3, v0, s4
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s2			; GFX9-NEXT: v_mul_lo_u32 v4, v0, s4
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s2, s7, 31			; GFX9-NEXT: s_ashr_i32 s4, s3, 31
	; GFX9-NEXT: s_add_u32 s0, s6, s2			; GFX9-NEXT: s_add_u32 s2, s2, s4
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0
	; GFX9-NEXT: v_mul_lo_u32 v7, v0, v2			; GFX9-NEXT: v_mul_lo_u32 v7, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v4			; GFX9-NEXT: v_mul_hi_u32 v8, v0, v4
	; GFX9-NEXT: v_mul_hi_u32 v9, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v9, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v6, v1, v4			; GFX9-NEXT: v_mul_hi_u32 v6, v1, v4
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4			; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v7, v4			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v7, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v6, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v5, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: s_mov_b32 s3, s2			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_addc_u32 s1, s7, s2			; GFX9-NEXT: s_addc_u32 s3, s3, s4
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: s_xor_b64 s[0:1], s[0:1], s[2:3]			; GFX9-NEXT: s_xor_b64 s[2:3], s[2:3], s[4:5]
	; GFX9-NEXT: v_mul_lo_u32 v2, s0, v1			; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s0, v0			; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX9-NEXT: v_mul_hi_u32 v4, s0, v1			; GFX9-NEXT: v_mul_hi_u32 v4, s2, v1
	; GFX9-NEXT: v_mul_hi_u32 v6, s1, v1			; GFX9-NEXT: v_mul_hi_u32 v6, s3, v1
	; GFX9-NEXT: v_mul_lo_u32 v1, s1, v1			; GFX9-NEXT: v_mul_lo_u32 v1, s3, v1
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc
	; GFX9-NEXT: v_mul_lo_u32 v4, s1, v0			; GFX9-NEXT: v_mul_lo_u32 v4, s3, v0
	; GFX9-NEXT: v_mul_hi_u32 v0, s1, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s3, v0
	; GFX9-NEXT: s_mov_b32 s3, 0x12d8fb			; GFX9-NEXT: s_mov_b32 s5, 0x12d8fb
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v6, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, v6, v5, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, s3			; GFX9-NEXT: v_mul_lo_u32 v1, v1, s5
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, s3			; GFX9-NEXT: v_mul_hi_u32 v2, v0, s5
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s3			; GFX9-NEXT: v_mul_lo_u32 v0, v0, s5
	; GFX9-NEXT: v_add_u32_e32 v1, v2, v1			; GFX9-NEXT: v_add_u32_e32 v1, v2, v1
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: v_mov_b32_e32 v2, s3
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s0, v0			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s2, v0
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v1, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v1, vcc
	; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s3, v0			; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s5, v0
	; GFX9-NEXT: v_subbrev_co_u32_e32 v3, vcc, 0, v1, vcc			; GFX9-NEXT: v_subbrev_co_u32_e32 v3, vcc, 0, v1, vcc
	; GFX9-NEXT: v_subrev_co_u32_e32 v4, vcc, s3, v2			; GFX9-NEXT: v_subrev_co_u32_e32 v4, vcc, s5, v2
	; GFX9-NEXT: v_subbrev_co_u32_e32 v6, vcc, 0, v3, vcc			; GFX9-NEXT: v_subbrev_co_u32_e32 v6, vcc, 0, v3, vcc
	; GFX9-NEXT: s_mov_b32 s0, 0x12d8fa			; GFX9-NEXT: s_mov_b32 s2, 0x12d8fa
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s0, v2			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s2, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v7, -1, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v7, -1, v7, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v1
	; GFX9-NEXT: v_cndmask_b32_e64 v6, -1, v6, s[0:1]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s2, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
	; GFX9-NEXT: v_xor_b32_e32 v1, s2, v1			; GFX9-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s2, v0			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
				; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
				; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0
				; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1
				; GFX9-NEXT: v_mov_b32_e32 v2, s4
				; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s4, v0
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v2, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v2, vcc
	; GFX9-NEXT: global_store_dwordx2 v5, v[0:1], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v5, v[0:1], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = srem i64 %x, 1235195			%r = srem i64 %x, 1235195
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @srem_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {
	; CHECK-LABEL: @srem_i64_pow2k_denom(			; CHECK-LABEL: @srem_i64_pow2k_denom(
	▲ Show 20 Lines • Show All 291 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v5			; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v5
	; GFX9-NEXT: v_subb_co_u32_e64 v3, s[0:1], v3, v4, s[0:1]			; GFX9-NEXT: v_subb_co_u32_e64 v3, s[0:1], v3, v4, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s9, v6			; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s9, v6
	; GFX9-NEXT: v_subrev_co_u32_e64 v4, s[0:1], s8, v5			; GFX9-NEXT: v_subrev_co_u32_e64 v4, s[0:1], s8, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[2:3]
	; GFX9-NEXT: v_subbrev_co_u32_e64 v3, s[0:1], 0, v3, s[0:1]			; GFX9-NEXT: v_subbrev_co_u32_e64 v3, s[0:1], 0, v3, s[0:1]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v6, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v4, v5, v4, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v6, s7			; GFX9-NEXT: v_mov_b32_e32 v5, s7
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v6, v1, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v5, v1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v3, v6, v3, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s9, v1			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s9, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v4, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s10, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s10, v0
	; GFX9-NEXT: v_xor_b32_e32 v1, s10, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s10, v1
	; GFX9-NEXT: v_mov_b32_e32 v3, s10			; GFX9-NEXT: v_mov_b32_e32 v3, s10
	; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s10, v0			; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s10, v0
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl i64 4096, %y			%shl.y = shl i64 4096, %y
	▲ Show 20 Lines • Show All 450 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_mov_b32_e32 v4, s13			; GFX9-NEXT: v_mov_b32_e32 v4, s13
	; GFX9-NEXT: v_sub_co_u32_e32 v1, vcc, s14, v1			; GFX9-NEXT: v_sub_co_u32_e32 v1, vcc, s14, v1
	; GFX9-NEXT: v_subb_co_u32_e64 v3, s[0:1], v3, v4, vcc			; GFX9-NEXT: v_subb_co_u32_e64 v3, s[0:1], v3, v4, vcc
	; GFX9-NEXT: v_subrev_co_u32_e64 v5, s[0:1], s12, v1			; GFX9-NEXT: v_subrev_co_u32_e64 v5, s[0:1], s12, v1
	; GFX9-NEXT: v_subbrev_co_u32_e64 v6, s[2:3], 0, v3, s[0:1]			; GFX9-NEXT: v_subbrev_co_u32_e64 v6, s[2:3], 0, v3, s[0:1]
	; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v6			; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]
	; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v5			; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v5
				; GFX9-NEXT: v_subb_co_u32_e64 v3, s[0:1], v3, v4, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v6			; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[2:3]
	; GFX9-NEXT: s_ashr_i32 s2, s11, 31
	; GFX9-NEXT: v_subb_co_u32_e64 v3, s[0:1], v3, v4, s[0:1]
	; GFX9-NEXT: s_add_u32 s10, s10, s2
	; GFX9-NEXT: v_subrev_co_u32_e64 v4, s[0:1], s12, v5			; GFX9-NEXT: v_subrev_co_u32_e64 v4, s[0:1], s12, v5
	; GFX9-NEXT: s_mov_b32 s3, s2			; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[2:3]
	; GFX9-NEXT: s_addc_u32 s11, s11, s2
	; GFX9-NEXT: v_subbrev_co_u32_e64 v3, s[0:1], 0, v3, s[0:1]			; GFX9-NEXT: v_subbrev_co_u32_e64 v3, s[0:1], 0, v3, s[0:1]
	; GFX9-NEXT: s_xor_b64 s[10:11], s[10:11], s[2:3]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7
	; GFX9-NEXT: v_cvt_f32_u32_e32 v7, s10			; GFX9-NEXT: v_cndmask_b32_e64 v4, v5, v4, s[0:1]
	; GFX9-NEXT: v_cvt_f32_u32_e32 v8, s11
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v6, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v6, v3, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v6, s15			; GFX9-NEXT: s_ashr_i32 s0, s11, 31
	; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v6, v2, vcc			; GFX9-NEXT: s_add_u32 s2, s10, s0
				; GFX9-NEXT: s_mov_b32 s1, s0
				; GFX9-NEXT: s_addc_u32 s3, s11, s0
				; GFX9-NEXT: v_mov_b32_e32 v5, s15
				; GFX9-NEXT: s_xor_b64 s[10:11], s[2:3], s[0:1]
				; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v5, v2, vcc
				; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s10
				; GFX9-NEXT: v_cvt_f32_u32_e32 v6, s11
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s13, v2			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s13, v2
	; GFX9-NEXT: v_mac_f32_e32 v7, s16, v8			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v1
	; GFX9-NEXT: v_rcp_f32_e32 v7, v7			; GFX9-NEXT: v_mac_f32_e32 v5, s16, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc			; GFX9-NEXT: v_rcp_f32_e32 v5, v5
				; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s13, v2			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s13, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, v7, v8, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v4, s[0:1]			; GFX9-NEXT: v_mul_f32_e32 v3, s17, v5
	; GFX9-NEXT: v_mul_f32_e32 v4, s17, v7			; GFX9-NEXT: v_mul_f32_e32 v5, s18, v3
	; GFX9-NEXT: v_mul_f32_e32 v5, s18, v4
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_trunc_f32_e32 v5, v5
	; GFX9-NEXT: v_mac_f32_e32 v4, s19, v5			; GFX9-NEXT: v_mac_f32_e32 v3, s19, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5
	; GFX9-NEXT: s_sub_u32 s0, 0, s10			; GFX9-NEXT: s_sub_u32 s0, 0, s10
	; GFX9-NEXT: s_subb_u32 s1, 0, s11			; GFX9-NEXT: s_subb_u32 s1, 0, s11
	; GFX9-NEXT: v_mul_hi_u32 v6, s0, v4			; GFX9-NEXT: v_mul_hi_u32 v6, s0, v3
	; GFX9-NEXT: v_mul_lo_u32 v7, s0, v5			; GFX9-NEXT: v_mul_lo_u32 v7, s0, v5
	; GFX9-NEXT: v_mul_lo_u32 v8, s1, v4			; GFX9-NEXT: v_mul_lo_u32 v8, s1, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_mul_lo_u32 v3, s0, v4			; GFX9-NEXT: v_mul_lo_u32 v4, s0, v3
	; GFX9-NEXT: v_add_u32_e32 v6, v6, v7			; GFX9-NEXT: v_add_u32_e32 v6, v6, v7
	; GFX9-NEXT: v_add_u32_e32 v6, v6, v8			; GFX9-NEXT: v_add_u32_e32 v6, v6, v8
	; GFX9-NEXT: v_mul_lo_u32 v7, v4, v6			; GFX9-NEXT: v_mul_lo_u32 v7, v3, v6
	; GFX9-NEXT: v_mul_hi_u32 v8, v4, v3			; GFX9-NEXT: v_mul_hi_u32 v8, v3, v4
	; GFX9-NEXT: v_mul_hi_u32 v9, v4, v6			; GFX9-NEXT: v_mul_hi_u32 v9, v3, v6
	; GFX9-NEXT: v_mul_hi_u32 v10, v5, v6			; GFX9-NEXT: v_mul_hi_u32 v10, v5, v6
	; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6			; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc
	; GFX9-NEXT: v_mul_lo_u32 v9, v5, v3			; GFX9-NEXT: v_mul_lo_u32 v9, v5, v4
	; GFX9-NEXT: v_mul_hi_u32 v3, v5, v3			; GFX9-NEXT: v_mul_hi_u32 v4, v5, v4
	; GFX9-NEXT: s_ashr_i32 s12, s7, 31			; GFX9-NEXT: s_ashr_i32 s12, s7, 31
	; GFX9-NEXT: s_mov_b32 s13, s12			; GFX9-NEXT: s_mov_b32 s13, s12
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v9			; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v9
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v8, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v8, v4, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v10, v0, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v10, v0, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v4, v3			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v5, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v5, v6, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX9-NEXT: v_mul_lo_u32 v5, s0, v4
	; GFX9-NEXT: v_mul_hi_u32 v6, s0, v3			; GFX9-NEXT: v_mul_hi_u32 v6, s0, v3
	; GFX9-NEXT: v_mul_lo_u32 v7, s1, v3			; GFX9-NEXT: v_mul_lo_u32 v7, s1, v3
	; GFX9-NEXT: v_mul_lo_u32 v8, s0, v3			; GFX9-NEXT: v_mul_lo_u32 v8, s0, v3
	; GFX9-NEXT: s_add_u32 s0, s6, s12			; GFX9-NEXT: s_add_u32 s0, s6, s12
	; GFX9-NEXT: v_add_u32_e32 v5, v6, v5			; GFX9-NEXT: v_add_u32_e32 v5, v6, v5
	; GFX9-NEXT: v_add_u32_e32 v5, v5, v7			; GFX9-NEXT: v_add_u32_e32 v5, v5, v7
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s10, v7			; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s10, v7
	; GFX9-NEXT: v_subb_co_u32_e64 v5, s[0:1], v5, v6, s[0:1]			; GFX9-NEXT: v_subb_co_u32_e64 v5, s[0:1], v5, v6, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v10, 0, -1, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v10, 0, -1, s[2:3]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s11, v8			; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s11, v8
	; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s10, v7			; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s10, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v9, v9, v10, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v9, v9, v10, s[2:3]
	; GFX9-NEXT: v_subbrev_co_u32_e64 v5, s[0:1], 0, v5, s[0:1]			; GFX9-NEXT: v_subbrev_co_u32_e64 v5, s[0:1], 0, v5, s[0:1]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v9			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v9
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v8, v5, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v6, v7, v6, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v8, s7			; GFX9-NEXT: v_mov_b32_e32 v7, s7
	; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v8, v4, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v7, v4, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v4			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v5, v8, v5, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s11, v4			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s11, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v8, v8, v9, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7
				; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v7, v6, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: v_xor_b32_e32 v3, s12, v3			; GFX9-NEXT: v_xor_b32_e32 v3, s12, v3
	; GFX9-NEXT: v_xor_b32_e32 v4, s12, v4			; GFX9-NEXT: v_xor_b32_e32 v4, s12, v4
	; GFX9-NEXT: v_mov_b32_e32 v5, s12			; GFX9-NEXT: v_mov_b32_e32 v5, s12
	; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s12, v3			; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s12, v3
	; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v4, v5, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v4, v5, vcc
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dwordx4 v0, v[1:4], s[4:5]			; GFX9-NEXT: global_store_dwordx4 v0, v[1:4], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y			%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y
	%r = srem <2 x i64> %x, %shl.y			%r = srem <2 x i64> %x, %shl.y
	store <2 x i64> %r, <2 x i64> addrspace(1)* %out			store <2 x i64> %r, <2 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/dagcombine-select.ll

Show All 34 Lines	define amdgpu_kernel void @select_and3(i32 addrspace(1)* %p, i32 %x, i32 %y) {
%c = icmp slt i32 %x, 11		%c = icmp slt i32 %x, 11
%s = select i1 %c, i32 -1, i32 0		%s = select i1 %c, i32 -1, i32 0
%a = and i32 %y, %s		%a = and i32 %y, %s
store i32 %a, i32 addrspace(1)* %p, align 4		store i32 %a, i32 addrspace(1)* %p, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_and_v4:		; GCN-LABEL: {{^}}select_and_v4:
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], 0, v{{[0-9]+}},		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], 0, v{{[0-9]+}},		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], 0, v{{[0-9]+}},		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], 0, v{{[0-9]+}},		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0
; GCN-NOT: v_and_b32		; GCN-NOT: v_and_b32
; GCN: store_dword		; GCN: store_dword
define amdgpu_kernel void @select_and_v4(<4 x i32> addrspace(1)* %p, i32 %x, <4 x i32> %y) {		define amdgpu_kernel void @select_and_v4(<4 x i32> addrspace(1)* %p, i32 %x, <4 x i32> %y) {
%c = icmp slt i32 %x, 11		%c = icmp slt i32 %x, 11
%s = select i1 %c, <4 x i32> zeroinitializer, <4 x i32> <i32 -1, i32 -1, i32 -1, i32 -1>		%s = select i1 %c, <4 x i32> zeroinitializer, <4 x i32> <i32 -1, i32 -1, i32 -1, i32 -1>
%a = and <4 x i32> %s, %y		%a = and <4 x i32> %s, %y
store <4 x i32> %a, <4 x i32> addrspace(1)* %p, align 32		store <4 x i32> %a, <4 x i32> addrspace(1)* %p, align 32
ret void		ret void
Show All 34 Lines	define amdgpu_kernel void @select_or3(i32 addrspace(1)* %p, i32 %x, i32 %y) {
%c = icmp slt i32 %x, 11		%c = icmp slt i32 %x, 11
%s = select i1 %c, i32 -1, i32 0		%s = select i1 %c, i32 -1, i32 0
%a = or i32 %y, %s		%a = or i32 %y, %s
store i32 %a, i32 addrspace(1)* %p, align 4		store i32 %a, i32 addrspace(1)* %p, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_or_v4:		; GCN-LABEL: {{^}}select_or_v4:
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], -1, v{{[0-9]+}},		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, -1
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], -1, v{{[0-9]+}},		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, -1
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], -1, v{{[0-9]+}},		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, -1
; GCN: v_cndmask_b32_e32 [[SEL:v[0-9]+]], -1, v{{[0-9]+}},		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, -1
; GCN-NOT: v_or_b32		; GCN-NOT: v_or_b32
; GCN: store_dword		; GCN: store_dword
define amdgpu_kernel void @select_or_v4(<4 x i32> addrspace(1)* %p, i32 %x, <4 x i32> %y) {		define amdgpu_kernel void @select_or_v4(<4 x i32> addrspace(1)* %p, i32 %x, <4 x i32> %y) {
%c = icmp slt i32 %x, 11		%c = icmp slt i32 %x, 11
%s = select i1 %c, <4 x i32> zeroinitializer, <4 x i32> <i32 -1, i32 -1, i32 -1, i32 -1>		%s = select i1 %c, <4 x i32> zeroinitializer, <4 x i32> <i32 -1, i32 -1, i32 -1, i32 -1>
%a = or <4 x i32> %s, %y		%a = or <4 x i32> %s, %y
store <4 x i32> %a, <4 x i32> addrspace(1)* %p, align 32		store <4 x i32> %a, <4 x i32> addrspace(1)* %p, align 32
ret void		ret void
Show All 33 Lines
define amdgpu_kernel void @sel_constants_sub_constant_sel_constants_v2i16(<2 x i16> addrspace(1)* %p, i1 %cond) {		define amdgpu_kernel void @sel_constants_sub_constant_sel_constants_v2i16(<2 x i16> addrspace(1)* %p, i1 %cond) {
%sel = select i1 %cond, <2 x i16> <i16 -4, i16 2>, <2 x i16> <i16 3, i16 1>		%sel = select i1 %cond, <2 x i16> <i16 -4, i16 2>, <2 x i16> <i16 3, i16 1>
%bo = sub <2 x i16> <i16 5, i16 7>, %sel		%bo = sub <2 x i16> <i16 5, i16 7>, %sel
store <2 x i16> %bo, <2 x i16> addrspace(1)* %p, align 4		store <2 x i16> %bo, <2 x i16> addrspace(1)* %p, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}sel_constants_sub_constant_sel_constants_v4i32:		; GCN-LABEL: {{^}}sel_constants_sub_constant_sel_constants_v4i32:
; GCN-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, 2, 9,		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 9, 2
; GCN-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, 6, 5,		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 5, 6
; GCN-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, 10, 6,		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 6, 10
; GCN-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, 14, 7,		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 7, 14
define amdgpu_kernel void @sel_constants_sub_constant_sel_constants_v4i32(<4 x i32> addrspace(1)* %p, i1 %cond) {		define amdgpu_kernel void @sel_constants_sub_constant_sel_constants_v4i32(<4 x i32> addrspace(1)* %p, i1 %cond) {
%sel = select i1 %cond, <4 x i32> <i32 -4, i32 2, i32 3, i32 4>, <4 x i32> <i32 3, i32 1, i32 -1, i32 -3>		%sel = select i1 %cond, <4 x i32> <i32 -4, i32 2, i32 3, i32 4>, <4 x i32> <i32 3, i32 1, i32 -1, i32 -3>
%bo = sub <4 x i32> <i32 5, i32 7, i32 9, i32 11>, %sel		%bo = sub <4 x i32> <i32 5, i32 7, i32 9, i32 11>, %sel
store <4 x i32> %bo, <4 x i32> addrspace(1)* %p, align 32		store <4 x i32> %bo, <4 x i32> addrspace(1)* %p, align 32
ret void		ret void
}		}

; GCN-LABEL: {{^}}sdiv_constant_sel_constants_i64:		; GCN-LABEL: {{^}}sdiv_constant_sel_constants_i64:
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
define amdgpu_kernel void @fsub_constant_sel_constants_v2f16(<2 x half> addrspace(1)* %p, i1 %cond) {		define amdgpu_kernel void @fsub_constant_sel_constants_v2f16(<2 x half> addrspace(1)* %p, i1 %cond) {
%sel = select i1 %cond, <2 x half> <half -2.0, half -3.0>, <2 x half> <half -1.0, half 4.0>		%sel = select i1 %cond, <2 x half> <half -2.0, half -3.0>, <2 x half> <half -1.0, half 4.0>
%bo = fsub <2 x half> <half -1.0, half 2.0>, %sel		%bo = fsub <2 x half> <half -1.0, half 2.0>, %sel
store <2 x half> %bo, <2 x half> addrspace(1)* %p, align 4		store <2 x half> %bo, <2 x half> addrspace(1)* %p, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}fsub_constant_sel_constants_v4f32:		; GCN-LABEL: {{^}}fsub_constant_sel_constants_v4f32:
; GCN-DAG: v_mov_b32_e32 [[T2:v[0-9]+]], 0x40a00000		; GCN-DAG: s_mov_b32 [[T4:s[0-9]+]], 0x41500000
; GCN-DAG: v_mov_b32_e32 [[T3:v[0-9]+]], 0x41100000		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 1.0, 0
; GCN-DAG: v_mov_b32_e32 [[T4:v[0-9]+]], 0x41500000		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 0x40a00000, 2.0
; GCN-DAG: v_mov_b32_e32 [[F4:v[0-9]+]], 0x40c00000		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, 0x41100000, 4.0
; GCN-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, 0, 1.0,		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, [[T4]], 0x40c00000
; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 2.0, [[T2]],
; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 4.0, [[T3]],
; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, [[F4]], [[T4]],
define amdgpu_kernel void @fsub_constant_sel_constants_v4f32(<4 x float> addrspace(1)* %p, i1 %cond) {		define amdgpu_kernel void @fsub_constant_sel_constants_v4f32(<4 x float> addrspace(1)* %p, i1 %cond) {
%sel = select i1 %cond, <4 x float> <float -2.0, float -3.0, float -4.0, float -5.0>, <4 x float> <float -1.0, float 0.0, float 1.0, float 2.0>		%sel = select i1 %cond, <4 x float> <float -2.0, float -3.0, float -4.0, float -5.0>, <4 x float> <float -1.0, float 0.0, float 1.0, float 2.0>
%bo = fsub <4 x float> <float -1.0, float 2.0, float 5.0, float 8.0>, %sel		%bo = fsub <4 x float> <float -1.0, float 2.0, float 5.0, float 8.0>, %sel
store <4 x float> %bo, <4 x float> addrspace(1)* %p, align 32		store <4 x float> %bo, <4 x float> addrspace(1)* %p, align 32
ret void		ret void
}		}

; GCN-LABEL: {{^}}fdiv_constant_sel_constants:		; GCN-LABEL: {{^}}fdiv_constant_sel_constants:
Show All 16 Lines

llvm/test/CodeGen/AMDGPU/extract_vector_dynelt.ll

Show All 32 Lines
entry:		entry:
%ext = extractelement <4 x i32> <i32 0, i32 1, i32 2, i32 4>, i32 %sel		%ext = extractelement <4 x i32> <i32 0, i32 1, i32 2, i32 4>, i32 %sel
store i32 %ext, i32 addrspace(1)* %out		store i32 %ext, i32 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}double4_extelt:		; GCN-LABEL: {{^}}double4_extelt:
; GCN-NOT: buffer_		; GCN-NOT: buffer_
; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1		; GCN: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1
; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, {{[^,]+}}
; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, {{[^,]+}}
; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0		; GCN: s_cmp_eq_u32 [[IDX]], 2
; GCN-DAG: s_cmp_eq_u32 [[IDX]], 3		; GCN: s_cselect_b32 s{{[0-9]+}}, {{[^,]+}}, s{{[0-9]+}}
; GCN-DAG: s_cselect_b64 [[C3:[^,]+]], -1, 0		; GCN: s_cselect_b32 s{{[0-9]+}}, {{[^,]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C1]]		; GCN: s_cmp_eq_u32 [[IDX]], 3
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C2]]		; GCN: s_cselect_b32 s{{[0-9]+}}, {{[^,]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C3]]		; GCN: s_cselect_b32 s{{[0-9]+}}, {{[^,]+}}, s{{[0-9]+}}
; GCN: store_dwordx2 v[{{[0-9:]+}}]		; GCN: store_dwordx2 v[{{[0-9:]+}}]
define amdgpu_kernel void @double4_extelt(double addrspace(1)* %out, i32 %sel) {		define amdgpu_kernel void @double4_extelt(double addrspace(1)* %out, i32 %sel) {
entry:		entry:
%ext = extractelement <4 x double> <double 0.01, double 1.01, double 2.01, double 4.01>, i32 %sel		%ext = extractelement <4 x double> <double 0.01, double 1.01, double 2.01, double 4.01>, i32 %sel
store double %ext, double addrspace(1)* %out		store double %ext, double addrspace(1)* %out
ret void		ret void
}		}

		; FIXME: Compares and selects are being reordered, generating ugly code to copy
		; scc into an sgpr pair.

; GCN-LABEL: {{^}}double5_extelt:		; GCN-LABEL: {{^}}double5_extelt:
; GCN-NOT: buffer_		; GCN-NOT: buffer_
; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1		; GCN: s_cmp_eq_u32 [[IDX:s[0-9]+]], 3
; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0		; GCN: s_cselect_b64 vcc, -1, 0
; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2		; GCN: s_cmp_eq_u32 [[IDX]], 4
; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0		; GCN: s_cselect_b64 s[{{[0-9]+:[0-9]+}}], -1, 0
; GCN-DAG: s_cmp_eq_u32 [[IDX]], 3		; GCN: s_cmp_eq_u32 [[IDX]], 1
; GCN-DAG: s_cselect_b64 [[C3:[^,]+]], -1, 0		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, {{[^,]+}}
; GCN-DAG: s_cmp_eq_u32 [[IDX]], 4		; GCN: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, {{[^,]+}}
; GCN-DAG: s_cselect_b64 [[C4:[^,]+]], -1, 0		; GCN: s_cmp_eq_u32 [[IDX]], 2
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C1]]		; GCN: s_cselect_b32 s{{[0-9]+}}, {{[^,]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C2]]		; GCN: s_cselect_b32 s{{[0-9]+}}, {{[^,]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C3]]
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C4]]
; GCN: store_dwordx2 v[{{[0-9:]+}}]		; GCN: store_dwordx2 v[{{[0-9:]+}}]
define amdgpu_kernel void @double5_extelt(double addrspace(1)* %out, i32 %sel) {		define amdgpu_kernel void @double5_extelt(double addrspace(1)* %out, i32 %sel) {
entry:		entry:
%ext = extractelement <5 x double> <double 0.01, double 1.01, double 2.01, double 4.01, double 5.01>, i32 %sel		%ext = extractelement <5 x double> <double 0.01, double 1.01, double 2.01, double 4.01, double 5.01>, i32 %sel
store double %ext, double addrspace(1)* %out		store double %ext, double addrspace(1)* %out
ret void		ret void
}		}

Show All 23 Lines	entry:
%ext = extractelement <2 x float> <float 0.0, float 1.0>, i32 %sel		%ext = extractelement <2 x float> <float 0.0, float 1.0>, i32 %sel
store float %ext, float addrspace(1)* %out		store float %ext, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}double2_extelt:		; GCN-LABEL: {{^}}double2_extelt:
; GCN-NOT: buffer_		; GCN-NOT: buffer_
; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1		; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1
; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, {{[^,]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C1]]		; GCN-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, {{[^,]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, {{[^,]+}}, {{[^,]+}}, [[C1]]
; GCN: store_dwordx2 v[{{[0-9:]+}}]		; GCN: store_dwordx2 v[{{[0-9:]+}}]
define amdgpu_kernel void @double2_extelt(double addrspace(1)* %out, i32 %sel) {		define amdgpu_kernel void @double2_extelt(double addrspace(1)* %out, i32 %sel) {
entry:		entry:
%ext = extractelement <2 x double> <double 0.01, double 1.01>, i32 %sel		%ext = extractelement <2 x double> <double 0.01, double 1.01>, i32 %sel
store double %ext, double addrspace(1)* %out		store double %ext, double addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 360 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/extract_vector_elt-f64.ll

	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s

	; GCN-LABEL: {{^}}extract_vector_elt_v3f64_2:			; GCN-LABEL: {{^}}extract_vector_elt_v3f64_2:
	; GCN: buffer_load_dwordx4			; GCN: buffer_load_dwordx4
	; GCN: buffer_load_dwordx2			; GCN: buffer_load_dwordx2
	; GCN: buffer_store_dwordx2			; GCN: buffer_store_dwordx2
	define amdgpu_kernel void @extract_vector_elt_v3f64_2(double addrspace(1)* %out, <3 x double> addrspace(1)* %in) #0 {			define amdgpu_kernel void @extract_vector_elt_v3f64_2(double addrspace(1)* %out, <3 x double> addrspace(1)* %in) #0 {
	%ld = load volatile <3 x double>, <3 x double> addrspace(1)* %in			%ld = load volatile <3 x double>, <3 x double> addrspace(1)* %in
	%elt = extractelement <3 x double> %ld, i32 2			%elt = extractelement <3 x double> %ld, i32 2
	store volatile double %elt, double addrspace(1)* %out			store volatile double %elt, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dyn_extract_vector_elt_v3f64:			; GCN-LABEL: {{^}}dyn_extract_vector_elt_v3f64:
	; GCN-NOT: buffer_load			; GCN-NOT: buffer_load
	; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1			; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1
	; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0			; SI-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0
				; VI-COUNT-2: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2			; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2
	; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0			; SI-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]			; VI-COUNT-2: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]			; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]			; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]			; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
				; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
	; GCN: store_dwordx2 v[{{[0-9:]+}}]			; GCN: store_dwordx2 v[{{[0-9:]+}}]
	define amdgpu_kernel void @dyn_extract_vector_elt_v3f64(double addrspace(1)* %out, <3 x double> %foo, i32 %elt) #0 {			define amdgpu_kernel void @dyn_extract_vector_elt_v3f64(double addrspace(1)* %out, <3 x double> %foo, i32 %elt) #0 {
	%dynelt = extractelement <3 x double> %foo, i32 %elt			%dynelt = extractelement <3 x double> %foo, i32 %elt
	store volatile double %dynelt, double addrspace(1)* %out			store volatile double %dynelt, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dyn_extract_vector_elt_v4f64:			; GCN-LABEL: {{^}}dyn_extract_vector_elt_v4f64:
	; GCN-NOT: buffer_load			; GCN-NOT: buffer_load
	; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1			; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1
	; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0			; SI-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0
				; VI-COUNT-2: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2			; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2
	; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0			; SI-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0
				; VI-COUNT-2: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: s_cmp_eq_u32 [[IDX]], 3			; GCN-DAG: s_cmp_eq_u32 [[IDX]], 3
	; GCN-DAG: s_cselect_b64 [[C3:[^,]+]], -1, 0			; SI-DAG: s_cselect_b64 [[C3:[^,]+]], -1, 0
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]			; VI-COUNT-2: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]			; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]			; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]			; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]			; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
	; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]			; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]
				; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]
	; GCN: store_dwordx2 v[{{[0-9:]+}}]			; GCN: store_dwordx2 v[{{[0-9:]+}}]
	define amdgpu_kernel void @dyn_extract_vector_elt_v4f64(double addrspace(1)* %out, <4 x double> %foo, i32 %elt) #0 {			define amdgpu_kernel void @dyn_extract_vector_elt_v4f64(double addrspace(1)* %out, <4 x double> %foo, i32 %elt) #0 {
	%dynelt = extractelement <4 x double> %foo, i32 %elt			%dynelt = extractelement <4 x double> %foo, i32 %elt
	store volatile double %dynelt, double addrspace(1)* %out			store volatile double %dynelt, double addrspace(1)* %out
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

llvm/test/CodeGen/AMDGPU/extract_vector_elt-i64.ll

; RUN: llc -march=amdgcn -mtriple=amdgcn-- -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mtriple=amdgcn-- -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,SI %s
; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,VI %s

; How the replacement of i64 stores with v2i32 stores resulted in		; How the replacement of i64 stores with v2i32 stores resulted in
; breaking other users of the bitcast if they already existed		; breaking other users of the bitcast if they already existed

; GCN-LABEL: {{^}}extract_vector_elt_select_error:		; GCN-LABEL: {{^}}extract_vector_elt_select_error:
; GCN: buffer_store_dword		; GCN: buffer_store_dword
; GCN: buffer_store_dword		; GCN: buffer_store_dword
; GCN: buffer_store_dwordx2		; GCN: buffer_store_dwordx2
Show All 16 Lines	define amdgpu_kernel void @extract_vector_elt_v2i64(i64 addrspace(1)* %out, <2 x i64> %foo) #0 {
store volatile i64 %p1, i64 addrspace(1)* %out		store volatile i64 %p1, i64 addrspace(1)* %out
store volatile i64 %p0, i64 addrspace(1)* %out1		store volatile i64 %p0, i64 addrspace(1)* %out1
ret void		ret void
}		}

; GCN-LABEL: {{^}}dyn_extract_vector_elt_v2i64:		; GCN-LABEL: {{^}}dyn_extract_vector_elt_v2i64:
; GCN-NOT: buffer_load		; GCN-NOT: buffer_load
; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1		; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1
; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0		; SI-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]		; VI-COUNT-2: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
; GCN: store_dwordx2 v[{{[0-9:]+}}]		; GCN: store_dwordx2 v[{{[0-9:]+}}]
define amdgpu_kernel void @dyn_extract_vector_elt_v2i64(i64 addrspace(1)* %out, <2 x i64> %foo, i32 %elt) #0 {		define amdgpu_kernel void @dyn_extract_vector_elt_v2i64(i64 addrspace(1)* %out, <2 x i64> %foo, i32 %elt) #0 {
%dynelt = extractelement <2 x i64> %foo, i32 %elt		%dynelt = extractelement <2 x i64> %foo, i32 %elt
store volatile i64 %dynelt, i64 addrspace(1)* %out		store volatile i64 %dynelt, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}dyn_extract_vector_elt_v2i64_2:		; GCN-LABEL: {{^}}dyn_extract_vector_elt_v2i64_2:
Show All 10 Lines	define amdgpu_kernel void @dyn_extract_vector_elt_v2i64_2(i64 addrspace(1)* %out, <2 x i64> addrspace(1)* %foo, i32 %elt, <2 x i64> %arst) #0 {
%dynelt = extractelement <2 x i64> %or, i32 %elt		%dynelt = extractelement <2 x i64> %or, i32 %elt
store volatile i64 %dynelt, i64 addrspace(1)* %out		store volatile i64 %dynelt, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}dyn_extract_vector_elt_v3i64:		; GCN-LABEL: {{^}}dyn_extract_vector_elt_v3i64:
; GCN-NOT: buffer_load		; GCN-NOT: buffer_load
; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1		; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1
; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0		; SI-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0
		; VI-COUNT-2: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2		; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2
; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0		; SI-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]		; VI-COUNT-2: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
; GCN: store_dwordx2 v[{{[0-9:]+}}]		; GCN: store_dwordx2 v[{{[0-9:]+}}]
define amdgpu_kernel void @dyn_extract_vector_elt_v3i64(i64 addrspace(1)* %out, <3 x i64> %foo, i32 %elt) #0 {		define amdgpu_kernel void @dyn_extract_vector_elt_v3i64(i64 addrspace(1)* %out, <3 x i64> %foo, i32 %elt) #0 {
%dynelt = extractelement <3 x i64> %foo, i32 %elt		%dynelt = extractelement <3 x i64> %foo, i32 %elt
store volatile i64 %dynelt, i64 addrspace(1)* %out		store volatile i64 %dynelt, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}dyn_extract_vector_elt_v4i64:		; GCN-LABEL: {{^}}dyn_extract_vector_elt_v4i64:
; GCN-NOT: buffer_load		; GCN-NOT: buffer_load
; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1		; GCN-DAG: s_cmp_eq_u32 [[IDX:s[0-9]+]], 1
; GCN-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0		; SI-DAG: s_cselect_b64 [[C1:[^,]+]], -1, 0
		; VI-COUNT-2: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2		; GCN-DAG: s_cmp_eq_u32 [[IDX]], 2
; GCN-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0		; SI-DAG: s_cselect_b64 [[C2:[^,]+]], -1, 0
		; VI-COUNT-2: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: s_cmp_eq_u32 [[IDX]], 3		; GCN-DAG: s_cmp_eq_u32 [[IDX]], 3
; GCN-DAG: s_cselect_b64 [[C3:[^,]+]], -1, 0		; SI-DAG: s_cselect_b64 [[C3:[^,]+]], -1, 0
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]		; VI-COUNT-2: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C1]]
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C2]]
; GCN-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]
		; SI-DAG: v_cndmask_b32_e{{32\|64}} v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, [[C3]]
; GCN: store_dwordx2 v[{{[0-9:]+}}]		; GCN: store_dwordx2 v[{{[0-9:]+}}]
define amdgpu_kernel void @dyn_extract_vector_elt_v4i64(i64 addrspace(1)* %out, <4 x i64> %foo, i32 %elt) #0 {		define amdgpu_kernel void @dyn_extract_vector_elt_v4i64(i64 addrspace(1)* %out, <4 x i64> %foo, i32 %elt) #0 {
%dynelt = extractelement <4 x i64> %foo, i32 %elt		%dynelt = extractelement <4 x i64> %foo, i32 %elt
store volatile i64 %dynelt, i64 addrspace(1)* %out		store volatile i64 %dynelt, i64 addrspace(1)* %out
ret void		ret void
}		}

attributes #0 = { nounwind }		attributes #0 = { nounwind }

llvm/test/CodeGen/AMDGPU/idiv-licm.ll

	Show All 23 Lines
	; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_mul_lo_u32 v3, s5, v2			; GFX9-NEXT: v_mul_lo_u32 v3, s5, v2
	; GFX9-NEXT: v_not_b32_e32 v5, v2			; GFX9-NEXT: v_not_b32_e32 v5, v2
	; GFX9-NEXT: v_mul_lo_u32 v5, s4, v5			; GFX9-NEXT: v_mul_lo_u32 v5, s4, v5
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v2			; GFX9-NEXT: v_add_u32_e32 v4, 1, v2
	; GFX9-NEXT: v_add_u32_e32 v3, s2, v3			; GFX9-NEXT: v_add_u32_e32 v3, s2, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v3
				; GFX9-NEXT: v_add_u32_e32 v5, s2, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, s2, v5			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: s_add_u32 s2, s2, 1			; GFX9-NEXT: s_add_u32 s2, s2, 1
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v2			; GFX9-NEXT: v_add_u32_e32 v4, 1, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v3
	; GFX9-NEXT: s_addc_u32 s3, s3, 0			; GFX9-NEXT: s_addc_u32 s3, s3, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX9-NEXT: global_store_dword v1, v2, s[0:1]			; GFX9-NEXT: global_store_dword v1, v2, s[0:1]
	; GFX9-NEXT: s_add_u32 s0, s0, 4			; GFX9-NEXT: s_add_u32 s0, s0, 4
	; GFX9-NEXT: s_addc_u32 s1, s1, 0			; GFX9-NEXT: s_addc_u32 s1, s1, 0
	▲ Show 20 Lines • Show All 179 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v1			; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: .LBB2_1: ; %bb3			; GFX9-NEXT: .LBB2_1: ; %bb3
	; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1			; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX9-NEXT: v_mul_hi_u32 v2, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v2, s4, v0
	; GFX9-NEXT: v_mul_lo_u32 v3, v2, s3			; GFX9-NEXT: v_mul_lo_u32 v3, v2, s3
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v2			; GFX9-NEXT: v_add_u32_e32 v4, 1, v2
	; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3			; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3
				; GFX9-NEXT: v_subrev_u32_e32 v5, s3, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v4, s3, v3			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v2			; GFX9-NEXT: v_add_u32_e32 v4, 1, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX9-NEXT: v_xor_b32_e32 v2, s2, v2			; GFX9-NEXT: v_xor_b32_e32 v2, s2, v2
	; GFX9-NEXT: s_add_i32 s4, s4, 1			; GFX9-NEXT: s_add_i32 s4, s4, 1
	; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v2			; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dword v1, v2, s[0:1]			; GFX9-NEXT: global_store_dword v1, v2, s[0:1]
	▲ Show 20 Lines • Show All 518 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/implicit-kernarg-backend-usage.ll

	Show All 10 Lines
	; GFX8V3-LABEL: addrspacecast:			; GFX8V3-LABEL: addrspacecast:
	; GFX8V3: ; %bb.0:			; GFX8V3: ; %bb.0:
	; GFX8V3-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0			; GFX8V3-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
	; GFX8V3-NEXT: s_load_dword s2, s[4:5], 0x44			; GFX8V3-NEXT: s_load_dword s2, s[4:5], 0x44
	; GFX8V3-NEXT: s_load_dword s3, s[4:5], 0x40			; GFX8V3-NEXT: s_load_dword s3, s[4:5], 0x40
	; GFX8V3-NEXT: v_mov_b32_e32 v4, 1			; GFX8V3-NEXT: v_mov_b32_e32 v4, 1
	; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)			; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8V3-NEXT: s_cmp_lg_u32 s0, -1			; GFX8V3-NEXT: s_cmp_lg_u32 s0, -1
	; GFX8V3-NEXT: v_mov_b32_e32 v0, s2			; GFX8V3-NEXT: s_cselect_b32 s2, s2, 0
	; GFX8V3-NEXT: s_cselect_b64 vcc, -1, 0			; GFX8V3-NEXT: s_cselect_b32 s0, s0, 0
	; GFX8V3-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GFX8V3-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V3-NEXT: s_cmp_lg_u32 s1, -1			; GFX8V3-NEXT: s_cmp_lg_u32 s1, -1
	; GFX8V3-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX8V3-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V3-NEXT: v_mov_b32_e32 v2, s3			; GFX8V3-NEXT: v_mov_b32_e32 v1, s2
	; GFX8V3-NEXT: s_cselect_b64 vcc, -1, 0			; GFX8V3-NEXT: s_cselect_b32 s0, s3, 0
	; GFX8V3-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc			; GFX8V3-NEXT: s_cselect_b32 s1, s1, 0
	; GFX8V3-NEXT: v_mov_b32_e32 v2, s1			; GFX8V3-NEXT: v_mov_b32_e32 v2, s1
	; GFX8V3-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX8V3-NEXT: v_mov_b32_e32 v3, s0
	; GFX8V3-NEXT: flat_store_dword v[0:1], v4			; GFX8V3-NEXT: flat_store_dword v[0:1], v4
	; GFX8V3-NEXT: s_waitcnt vmcnt(0)			; GFX8V3-NEXT: s_waitcnt vmcnt(0)
	; GFX8V3-NEXT: v_mov_b32_e32 v0, 2			; GFX8V3-NEXT: v_mov_b32_e32 v0, 2
	; GFX8V3-NEXT: flat_store_dword v[2:3], v0			; GFX8V3-NEXT: flat_store_dword v[2:3], v0
	; GFX8V3-NEXT: s_waitcnt vmcnt(0)			; GFX8V3-NEXT: s_waitcnt vmcnt(0)
	; GFX8V3-NEXT: s_endpgm			; GFX8V3-NEXT: s_endpgm
	;			;
	; GFX8V4-LABEL: addrspacecast:			; GFX8V4-LABEL: addrspacecast:
	; GFX8V4: ; %bb.0:			; GFX8V4: ; %bb.0:
	; GFX8V4-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0			; GFX8V4-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
	; GFX8V4-NEXT: s_load_dword s2, s[4:5], 0x44			; GFX8V4-NEXT: s_load_dword s2, s[4:5], 0x44
	; GFX8V4-NEXT: s_load_dword s3, s[4:5], 0x40			; GFX8V4-NEXT: s_load_dword s3, s[4:5], 0x40
	; GFX8V4-NEXT: v_mov_b32_e32 v4, 1			; GFX8V4-NEXT: v_mov_b32_e32 v4, 1
	; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)			; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8V4-NEXT: s_cmp_lg_u32 s0, -1			; GFX8V4-NEXT: s_cmp_lg_u32 s0, -1
	; GFX8V4-NEXT: v_mov_b32_e32 v0, s2			; GFX8V4-NEXT: s_cselect_b32 s2, s2, 0
	; GFX8V4-NEXT: s_cselect_b64 vcc, -1, 0			; GFX8V4-NEXT: s_cselect_b32 s0, s0, 0
	; GFX8V4-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GFX8V4-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V4-NEXT: s_cmp_lg_u32 s1, -1			; GFX8V4-NEXT: s_cmp_lg_u32 s1, -1
	; GFX8V4-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX8V4-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V4-NEXT: v_mov_b32_e32 v2, s3			; GFX8V4-NEXT: v_mov_b32_e32 v1, s2
	; GFX8V4-NEXT: s_cselect_b64 vcc, -1, 0			; GFX8V4-NEXT: s_cselect_b32 s0, s3, 0
	; GFX8V4-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc			; GFX8V4-NEXT: s_cselect_b32 s1, s1, 0
	; GFX8V4-NEXT: v_mov_b32_e32 v2, s1			; GFX8V4-NEXT: v_mov_b32_e32 v2, s1
	; GFX8V4-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX8V4-NEXT: v_mov_b32_e32 v3, s0
	; GFX8V4-NEXT: flat_store_dword v[0:1], v4			; GFX8V4-NEXT: flat_store_dword v[0:1], v4
	; GFX8V4-NEXT: s_waitcnt vmcnt(0)			; GFX8V4-NEXT: s_waitcnt vmcnt(0)
	; GFX8V4-NEXT: v_mov_b32_e32 v0, 2			; GFX8V4-NEXT: v_mov_b32_e32 v0, 2
	; GFX8V4-NEXT: flat_store_dword v[2:3], v0			; GFX8V4-NEXT: flat_store_dword v[2:3], v0
	; GFX8V4-NEXT: s_waitcnt vmcnt(0)			; GFX8V4-NEXT: s_waitcnt vmcnt(0)
	; GFX8V4-NEXT: s_endpgm			; GFX8V4-NEXT: s_endpgm
	;			;
	; GFX8V5-LABEL: addrspacecast:			; GFX8V5-LABEL: addrspacecast:
	; GFX8V5: ; %bb.0:			; GFX8V5: ; %bb.0:
	; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX8V5-NEXT: s_load_dword s2, s[4:5], 0xc8			; GFX8V5-NEXT: s_load_dword s2, s[4:5], 0xc8
	; GFX8V5-NEXT: s_load_dword s3, s[4:5], 0xcc			; GFX8V5-NEXT: s_load_dword s3, s[4:5], 0xcc
	; GFX8V5-NEXT: v_mov_b32_e32 v4, 1			; GFX8V5-NEXT: v_mov_b32_e32 v4, 1
	; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)			; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8V5-NEXT: s_cmp_lg_u32 s0, -1			; GFX8V5-NEXT: s_cmp_lg_u32 s0, -1
	; GFX8V5-NEXT: v_mov_b32_e32 v0, s2			; GFX8V5-NEXT: s_cselect_b32 s2, s2, 0
	; GFX8V5-NEXT: s_cselect_b64 vcc, -1, 0			; GFX8V5-NEXT: s_cselect_b32 s0, s0, 0
	; GFX8V5-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V5-NEXT: s_cmp_lg_u32 s1, -1			; GFX8V5-NEXT: s_cmp_lg_u32 s1, -1
	; GFX8V5-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V5-NEXT: v_mov_b32_e32 v2, s3			; GFX8V5-NEXT: v_mov_b32_e32 v1, s2
	; GFX8V5-NEXT: s_cselect_b64 vcc, -1, 0			; GFX8V5-NEXT: s_cselect_b32 s0, s3, 0
	; GFX8V5-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc			; GFX8V5-NEXT: s_cselect_b32 s1, s1, 0
	; GFX8V5-NEXT: v_mov_b32_e32 v2, s1			; GFX8V5-NEXT: v_mov_b32_e32 v2, s1
	; GFX8V5-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX8V5-NEXT: v_mov_b32_e32 v3, s0
	; GFX8V5-NEXT: flat_store_dword v[0:1], v4			; GFX8V5-NEXT: flat_store_dword v[0:1], v4
	; GFX8V5-NEXT: s_waitcnt vmcnt(0)			; GFX8V5-NEXT: s_waitcnt vmcnt(0)
	; GFX8V5-NEXT: v_mov_b32_e32 v0, 2			; GFX8V5-NEXT: v_mov_b32_e32 v0, 2
	; GFX8V5-NEXT: flat_store_dword v[2:3], v0			; GFX8V5-NEXT: flat_store_dword v[2:3], v0
	; GFX8V5-NEXT: s_waitcnt vmcnt(0)			; GFX8V5-NEXT: s_waitcnt vmcnt(0)
	; GFX8V5-NEXT: s_endpgm			; GFX8V5-NEXT: s_endpgm
	;			;
	; GFX9V3-LABEL: addrspacecast:			; GFX9V3-LABEL: addrspacecast:
	; GFX9V3: ; %bb.0:			; GFX9V3: ; %bb.0:
	; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V3-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V3-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
	; GFX9V3-NEXT: s_lshl_b32 s2, s2, 16			; GFX9V3-NEXT: s_lshl_b32 s2, s2, 16
	; GFX9V3-NEXT: v_mov_b32_e32 v0, s2
	; GFX9V3-NEXT: v_mov_b32_e32 v4, 1			; GFX9V3-NEXT: v_mov_b32_e32 v4, 1
	; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V3-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V3-NEXT: s_cmp_lg_u32 s0, -1
	; GFX9V3-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V3-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V3-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GFX9V3-NEXT: v_mov_b32_e32 v0, s0			; GFX9V3-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V3-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V3-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V3-NEXT: s_cselect_b32 s2, s2, 0
	; GFX9V3-NEXT: s_lshl_b32 s0, s0, 16			; GFX9V3-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V3-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V3-NEXT: s_cmp_lg_u32 s1, -1
	; GFX9V3-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX9V3-NEXT: v_mov_b32_e32 v1, s2
	; GFX9V3-NEXT: v_mov_b32_e32 v2, s0			; GFX9V3-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V3-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V3-NEXT: s_cselect_b32 s1, s1, 0
	; GFX9V3-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
	; GFX9V3-NEXT: v_mov_b32_e32 v2, s1			; GFX9V3-NEXT: v_mov_b32_e32 v2, s1
	; GFX9V3-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX9V3-NEXT: v_mov_b32_e32 v3, s0
	; GFX9V3-NEXT: flat_store_dword v[0:1], v4			; GFX9V3-NEXT: flat_store_dword v[0:1], v4
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: v_mov_b32_e32 v0, 2			; GFX9V3-NEXT: v_mov_b32_e32 v0, 2
	; GFX9V3-NEXT: flat_store_dword v[2:3], v0			; GFX9V3-NEXT: flat_store_dword v[2:3], v0
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: s_endpgm			; GFX9V3-NEXT: s_endpgm
	;			;
	; GFX9V4-LABEL: addrspacecast:			; GFX9V4-LABEL: addrspacecast:
	; GFX9V4: ; %bb.0:			; GFX9V4: ; %bb.0:
	; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V4-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V4-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
	; GFX9V4-NEXT: s_lshl_b32 s2, s2, 16			; GFX9V4-NEXT: s_lshl_b32 s2, s2, 16
	; GFX9V4-NEXT: v_mov_b32_e32 v0, s2
	; GFX9V4-NEXT: v_mov_b32_e32 v4, 1			; GFX9V4-NEXT: v_mov_b32_e32 v4, 1
	; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V4-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V4-NEXT: s_cmp_lg_u32 s0, -1
	; GFX9V4-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V4-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V4-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GFX9V4-NEXT: v_mov_b32_e32 v0, s0			; GFX9V4-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V4-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V4-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V4-NEXT: s_cselect_b32 s2, s2, 0
	; GFX9V4-NEXT: s_lshl_b32 s0, s0, 16			; GFX9V4-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V4-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V4-NEXT: s_cmp_lg_u32 s1, -1
	; GFX9V4-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX9V4-NEXT: v_mov_b32_e32 v1, s2
	; GFX9V4-NEXT: v_mov_b32_e32 v2, s0			; GFX9V4-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V4-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V4-NEXT: s_cselect_b32 s1, s1, 0
	; GFX9V4-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
	; GFX9V4-NEXT: v_mov_b32_e32 v2, s1			; GFX9V4-NEXT: v_mov_b32_e32 v2, s1
	; GFX9V4-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX9V4-NEXT: v_mov_b32_e32 v3, s0
	; GFX9V4-NEXT: flat_store_dword v[0:1], v4			; GFX9V4-NEXT: flat_store_dword v[0:1], v4
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: v_mov_b32_e32 v0, 2			; GFX9V4-NEXT: v_mov_b32_e32 v0, 2
	; GFX9V4-NEXT: flat_store_dword v[2:3], v0			; GFX9V4-NEXT: flat_store_dword v[2:3], v0
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: s_endpgm			; GFX9V4-NEXT: s_endpgm
	;			;
	; GFX9V5-LABEL: addrspacecast:			; GFX9V5-LABEL: addrspacecast:
	; GFX9V5: ; %bb.0:			; GFX9V5: ; %bb.0:
	; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V5-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V5-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
	; GFX9V5-NEXT: s_lshl_b32 s2, s2, 16			; GFX9V5-NEXT: s_lshl_b32 s2, s2, 16
	; GFX9V5-NEXT: v_mov_b32_e32 v0, s2
	; GFX9V5-NEXT: v_mov_b32_e32 v4, 1			; GFX9V5-NEXT: v_mov_b32_e32 v4, 1
	; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V5-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V5-NEXT: s_cmp_lg_u32 s0, -1
	; GFX9V5-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V5-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V5-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
	; GFX9V5-NEXT: v_mov_b32_e32 v0, s0			; GFX9V5-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V5-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V5-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V5-NEXT: s_cselect_b32 s2, s2, 0
	; GFX9V5-NEXT: s_lshl_b32 s0, s0, 16			; GFX9V5-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V5-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V5-NEXT: s_cmp_lg_u32 s1, -1
	; GFX9V5-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX9V5-NEXT: v_mov_b32_e32 v1, s2
	; GFX9V5-NEXT: v_mov_b32_e32 v2, s0			; GFX9V5-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V5-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9V5-NEXT: s_cselect_b32 s1, s1, 0
	; GFX9V5-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
	; GFX9V5-NEXT: v_mov_b32_e32 v2, s1			; GFX9V5-NEXT: v_mov_b32_e32 v2, s1
	; GFX9V5-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GFX9V5-NEXT: v_mov_b32_e32 v3, s0
	; GFX9V5-NEXT: flat_store_dword v[0:1], v4			; GFX9V5-NEXT: flat_store_dword v[0:1], v4
	; GFX9V5-NEXT: s_waitcnt vmcnt(0)			; GFX9V5-NEXT: s_waitcnt vmcnt(0)
	; GFX9V5-NEXT: v_mov_b32_e32 v0, 2			; GFX9V5-NEXT: v_mov_b32_e32 v0, 2
	; GFX9V5-NEXT: flat_store_dword v[2:3], v0			; GFX9V5-NEXT: flat_store_dword v[2:3], v0
	; GFX9V5-NEXT: s_waitcnt vmcnt(0)			; GFX9V5-NEXT: s_waitcnt vmcnt(0)
	; GFX9V5-NEXT: s_endpgm			; GFX9V5-NEXT: s_endpgm
	%flat.private = addrspacecast i32 addrspace(5)* %ptr.private to i32*			%flat.private = addrspacecast i32 addrspace(5)* %ptr.private to i32*
	%flat.local = addrspacecast i32 addrspace(3)* %ptr.local to i32*			%flat.local = addrspacecast i32 addrspace(3)* %ptr.local to i32*
	▲ Show 20 Lines • Show All 377 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/indirect-call-known-callees.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 < %s \| FileCheck %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 < %s \| FileCheck %s

	; We have an indirect call with a known set of callees, which are			; We have an indirect call with a known set of callees, which are
	; known to not need any special inputs. The ABI still needs to use the			; known to not need any special inputs. The ABI still needs to use the
	; register			; register

	; FIXME: Passing real values for workitem ID, and 0s that can be undef			; FIXME: Passing real values for workitem ID, and 0s that can be undef

	define amdgpu_kernel void @indirect_call_known_no_special_inputs() {			define amdgpu_kernel void @indirect_call_known_no_special_inputs() {
	; CHECK-LABEL: indirect_call_known_no_special_inputs:			; CHECK-LABEL: indirect_call_known_no_special_inputs:
	; CHECK: ; %bb.0: ; %bb			; CHECK: ; %bb.0: ; %bb
	; CHECK-NEXT: s_add_u32 flat_scratch_lo, s4, s7			; CHECK-NEXT: s_add_u32 flat_scratch_lo, s4, s7
	; CHECK-NEXT: s_addc_u32 flat_scratch_hi, s5, 0			; CHECK-NEXT: s_addc_u32 flat_scratch_hi, s5, 0
	; CHECK-NEXT: s_mov_b64 s[4:5], 0
	; CHECK-NEXT: s_load_dword s4, s[4:5], 0x0
	; CHECK-NEXT: s_add_u32 s0, s0, s7			; CHECK-NEXT: s_add_u32 s0, s0, s7
	; CHECK-NEXT: s_addc_u32 s1, s1, 0			; CHECK-NEXT: s_addc_u32 s1, s1, 0
	; CHECK-NEXT: s_mov_b32 s33, s6			; CHECK-NEXT: s_mov_b64 s[4:5], 0
	; CHECK-NEXT: v_mov_b32_e32 v31, v0			; CHECK-NEXT: s_load_dword s7, s[4:5], 0x0
	; CHECK-NEXT: s_waitcnt lgkmcnt(0)
	; CHECK-NEXT: s_bitcmp1_b32 s4, 0
	; CHECK-NEXT: s_cselect_b64 vcc, -1, 0
	; CHECK-NEXT: s_getpc_b64 s[4:5]			; CHECK-NEXT: s_getpc_b64 s[4:5]
	; CHECK-NEXT: s_add_u32 s4, s4, wobble@gotpcrel32@lo+4			; CHECK-NEXT: s_add_u32 s4, s4, wobble@gotpcrel32@lo+4
	; CHECK-NEXT: s_addc_u32 s5, s5, wobble@gotpcrel32@hi+12			; CHECK-NEXT: s_addc_u32 s5, s5, wobble@gotpcrel32@hi+12
	; CHECK-NEXT: s_getpc_b64 s[6:7]			; CHECK-NEXT: s_getpc_b64 s[8:9]
	; CHECK-NEXT: s_add_u32 s6, s6, snork@gotpcrel32@lo+4			; CHECK-NEXT: s_add_u32 s8, s8, snork@gotpcrel32@lo+4
	; CHECK-NEXT: s_addc_u32 s7, s7, snork@gotpcrel32@hi+12			; CHECK-NEXT: s_addc_u32 s9, s9, snork@gotpcrel32@hi+12
	; CHECK-NEXT: s_load_dwordx2 s[8:9], s[6:7], 0x0			; CHECK-NEXT: s_load_dwordx2 s[10:11], s[8:9], 0x0
	; CHECK-NEXT: s_load_dwordx2 s[10:11], s[4:5], 0x0			; CHECK-NEXT: s_load_dwordx2 s[12:13], s[4:5], 0x0
	; CHECK-NEXT: s_mov_b32 s32, 0			; CHECK-NEXT: s_mov_b64 s[8:9], 0
	; CHECK-NEXT: s_mov_b64 s[4:5], exec
	; CHECK-NEXT: s_waitcnt lgkmcnt(0)			; CHECK-NEXT: s_waitcnt lgkmcnt(0)
	; CHECK-NEXT: v_mov_b32_e32 v0, s9			; CHECK-NEXT: s_and_b32 s4, 1, s7
	; CHECK-NEXT: v_mov_b32_e32 v1, s11			; CHECK-NEXT: s_cmp_eq_u32 s4, 1
	; CHECK-NEXT: v_mov_b32_e32 v2, s8			; CHECK-NEXT: v_mov_b32_e32 v31, v0
	; CHECK-NEXT: v_mov_b32_e32 v4, s10			; CHECK-NEXT: s_cselect_b32 s5, s13, s11
	; CHECK-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc			; CHECK-NEXT: s_cselect_b32 s4, s12, s10
	; CHECK-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; CHECK-NEXT: s_mov_b32 s12, s6
	; CHECK-NEXT: v_mov_b32_e32 v1, 0			; CHECK-NEXT: v_mov_b32_e32 v1, 0
	; CHECK-NEXT: .LBB0_1: ; =>This Inner Loop Header: Depth=1			; CHECK-NEXT: v_mov_b32_e32 v4, 0
	; CHECK-NEXT: v_readfirstlane_b32 s4, v2			; CHECK-NEXT: s_mov_b32 s32, 0
	; CHECK-NEXT: v_readfirstlane_b32 s5, v3
	; CHECK-NEXT: v_cmp_eq_u64_e32 vcc, s[4:5], v[2:3]
	; CHECK-NEXT: s_and_saveexec_b64 s[34:35], vcc
	; CHECK-NEXT: s_mov_b64 s[8:9], 0
	; CHECK-NEXT: s_mov_b32 s12, s33
	; CHECK-NEXT: v_mov_b32_e32 v4, v1
	; CHECK-NEXT: s_swappc_b64 s[30:31], s[4:5]			; CHECK-NEXT: s_swappc_b64 s[30:31], s[4:5]
	; CHECK-NEXT: ; implicit-def: $vgpr2_vgpr3
	; CHECK-NEXT: ; implicit-def: $vgpr31
	; CHECK-NEXT: ; implicit-def: $vgpr1
	; CHECK-NEXT: s_xor_b64 exec, exec, s[34:35]
	; CHECK-NEXT: s_cbranch_execnz .LBB0_1
	; CHECK-NEXT: ; %bb.2:
	; CHECK-NEXT: s_endpgm			; CHECK-NEXT: s_endpgm

	; CHECK: .amdhsa_kernarg_size 0
	; CHECK-NEXT: .amdhsa_user_sgpr_count 6
	; CHECK-NEXT: .amdhsa_user_sgpr_private_segment_buffer 1
	; CHECK-NEXT: .amdhsa_user_sgpr_dispatch_ptr 0
	; CHECK-NEXT: .amdhsa_user_sgpr_queue_ptr 0
	; CHECK-NEXT: .amdhsa_user_sgpr_kernarg_segment_ptr 0
	; CHECK-NEXT: .amdhsa_user_sgpr_dispatch_id 0
	; CHECK-NEXT: .amdhsa_user_sgpr_flat_scratch_init 1
	; CHECK-NEXT: .amdhsa_user_sgpr_private_segment_size 0
	; CHECK-NEXT: .amdhsa_system_sgpr_private_segment_wavefront_offset 1
	; CHECK-NEXT: .amdhsa_system_sgpr_workgroup_id_x 1
	; CHECK-NEXT: .amdhsa_system_sgpr_workgroup_id_y 0
	; CHECK-NEXT: .amdhsa_system_sgpr_workgroup_id_z 0
	; CHECK-NEXT: .amdhsa_system_sgpr_workgroup_info 0
	; CHECK-NEXT: .amdhsa_system_vgpr_workitem_id 0
	bb:			bb:
	%cond = load i1, i1 addrspace(4)* null			%cond = load i1, i1 addrspace(4)* null
	%tmp = select i1 %cond, void (i8, i32, i8)* bitcast (void ()* @wobble to void (i8, i32, i8)), void (i8, i32, i8) bitcast (void ()* @snork to void (i8, i32, i8)*)			%tmp = select i1 %cond, void (i8, i32, i8)* bitcast (void ()* @wobble to void (i8, i32, i8)), void (i8, i32, i8) bitcast (void ()* @snork to void (i8, i32, i8)*)
	call void %tmp(i8* undef, i32 undef, i8* undef)			call void %tmp(i8* undef, i32 undef, i8* undef)
	ret void			ret void
	}			}

	define void @wobble() {			define void @wobble() {
	Show All 16 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_dynelt.ll

	Show First 20 Lines • Show All 611 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_kernel void @double2_inselt(<2 x double> addrspace(1)* %out, <2 x double> %vec, i32 %sel) {			define amdgpu_kernel void @double2_inselt(<2 x double> addrspace(1)* %out, <2 x double> %vec, i32 %sel) {
	; GCN-LABEL: double2_inselt:			; GCN-LABEL: double2_inselt:
	; GCN: ; %bb.0: ; %entry			; GCN: ; %bb.0: ; %entry
	; GCN-NEXT: s_load_dword s2, s[0:1], 0x44			; GCN-NEXT: s_load_dword s2, s[0:1], 0x44
	; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34			; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GCN-NEXT: v_mov_b32_e32 v0, 0x3ff00000			; GCN-NEXT: s_mov_b32 s3, 0x3ff00000
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_cmp_eq_u32 s2, 1			; GCN-NEXT: s_cmp_eq_u32 s2, 1
	; GCN-NEXT: v_mov_b32_e32 v1, s7			; GCN-NEXT: s_cselect_b32 s7, s3, s7
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0			; GCN-NEXT: s_cselect_b32 s6, 0, s6
	; GCN-NEXT: v_cndmask_b32_e32 v3, v1, v0, vcc
	; GCN-NEXT: v_mov_b32_e32 v1, s6
	; GCN-NEXT: s_cmp_eq_u32 s2, 0			; GCN-NEXT: s_cmp_eq_u32 s2, 0
	; GCN-NEXT: v_cndmask_b32_e64 v2, v1, 0, vcc			; GCN-NEXT: s_cselect_b32 s2, s3, s5
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: s_cselect_b32 s3, 0, s4
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0
	; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v0, vcc
	; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v5, s1			; GCN-NEXT: v_mov_b32_e32 v5, s1
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc			; GCN-NEXT: v_mov_b32_e32 v0, s3
				; GCN-NEXT: v_mov_b32_e32 v1, s2
				; GCN-NEXT: v_mov_b32_e32 v2, s6
				; GCN-NEXT: v_mov_b32_e32 v3, s7
	; GCN-NEXT: v_mov_b32_e32 v4, s0			; GCN-NEXT: v_mov_b32_e32 v4, s0
	; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	entry:			entry:
	%v = insertelement <2 x double> %vec, double 1.000000e+00, i32 %sel			%v = insertelement <2 x double> %vec, double 1.000000e+00, i32 %sel
	store <2 x double> %v, <2 x double> addrspace(1)* %out			store <2 x double> %v, <2 x double> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @double5_inselt(<5 x double> addrspace(1)* %out, <5 x double> %vec, i32 %sel) {			define amdgpu_kernel void @double5_inselt(<5 x double> addrspace(1)* %out, <5 x double> %vec, i32 %sel) {
	; GCN-LABEL: double5_inselt:			; GCN-LABEL: double5_inselt:
	; GCN: ; %bb.0: ; %entry			; GCN: ; %bb.0: ; %entry
	; GCN-NEXT: s_load_dword s12, s[0:1], 0xa4			; GCN-NEXT: s_load_dword s12, s[0:1], 0xa4
	; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x84			; GCN-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x84
	; GCN-NEXT: s_load_dwordx2 s[10:11], s[0:1], 0x24			; GCN-NEXT: s_load_dwordx2 s[10:11], s[0:1], 0x24
	; GCN-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x64			; GCN-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x64
	; GCN-NEXT: v_mov_b32_e32 v4, 0x3ff00000			; GCN-NEXT: s_mov_b32 s13, 0x3ff00000
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_cmp_eq_u32 s12, 4			; GCN-NEXT: s_cmp_eq_u32 s12, 4
	; GCN-NEXT: v_mov_b32_e32 v0, s9			; GCN-NEXT: s_cselect_b32 s9, s13, s9
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0			; GCN-NEXT: s_cselect_b32 s8, 0, s8
	; GCN-NEXT: v_cndmask_b32_e32 v9, v0, v4, vcc
	; GCN-NEXT: v_mov_b32_e32 v0, s8
	; GCN-NEXT: s_cmp_eq_u32 s12, 1			; GCN-NEXT: s_cmp_eq_u32 s12, 1
	; GCN-NEXT: v_cndmask_b32_e64 v8, v0, 0, vcc			; GCN-NEXT: s_cselect_b32 s3, s13, s3
	; GCN-NEXT: v_mov_b32_e32 v0, s3			; GCN-NEXT: s_cselect_b32 s2, 0, s2
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0
	; GCN-NEXT: v_cndmask_b32_e32 v3, v0, v4, vcc
	; GCN-NEXT: v_mov_b32_e32 v0, s2
	; GCN-NEXT: s_cmp_eq_u32 s12, 0			; GCN-NEXT: s_cmp_eq_u32 s12, 0
	; GCN-NEXT: v_cndmask_b32_e64 v2, v0, 0, vcc			; GCN-NEXT: v_mov_b32_e32 v4, s8
	; GCN-NEXT: v_mov_b32_e32 v0, s1			; GCN-NEXT: v_mov_b32_e32 v5, s9
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0			; GCN-NEXT: s_cselect_b32 s8, s13, s1
	; GCN-NEXT: v_cndmask_b32_e32 v1, v0, v4, vcc			; GCN-NEXT: s_cselect_b32 s9, 0, s0
	; GCN-NEXT: v_mov_b32_e32 v0, s0
	; GCN-NEXT: s_cmp_eq_u32 s12, 3			; GCN-NEXT: s_cmp_eq_u32 s12, 3
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc			; GCN-NEXT: s_cselect_b32 s0, s13, s7
	; GCN-NEXT: v_mov_b32_e32 v5, s7			; GCN-NEXT: s_cselect_b32 s1, 0, s6
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0
	; GCN-NEXT: v_cndmask_b32_e32 v7, v5, v4, vcc
	; GCN-NEXT: v_mov_b32_e32 v5, s6
	; GCN-NEXT: s_cmp_eq_u32 s12, 2			; GCN-NEXT: s_cmp_eq_u32 s12, 2
	; GCN-NEXT: v_cndmask_b32_e64 v6, v5, 0, vcc			; GCN-NEXT: s_cselect_b32 s5, s13, s5
	; GCN-NEXT: s_cselect_b64 vcc, -1, 0			; GCN-NEXT: s_cselect_b32 s4, 0, s4
				; GCN-NEXT: v_mov_b32_e32 v3, s0
	; GCN-NEXT: s_add_u32 s0, s10, 16			; GCN-NEXT: s_add_u32 s0, s10, 16
	; GCN-NEXT: v_mov_b32_e32 v5, s5			; GCN-NEXT: v_mov_b32_e32 v2, s1
	; GCN-NEXT: s_addc_u32 s1, s11, 0			; GCN-NEXT: s_addc_u32 s1, s11, 0
	; GCN-NEXT: v_cndmask_b32_e32 v5, v5, v4, vcc			; GCN-NEXT: v_mov_b32_e32 v7, s1
	; GCN-NEXT: v_mov_b32_e32 v4, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v11, s1			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, 0, vcc			; GCN-NEXT: v_mov_b32_e32 v6, s0
	; GCN-NEXT: v_mov_b32_e32 v10, s0			; GCN-NEXT: flat_store_dwordx4 v[6:7], v[0:3]
	; GCN-NEXT: flat_store_dwordx4 v[10:11], v[4:7]			; GCN-NEXT: v_mov_b32_e32 v6, s10
				; GCN-NEXT: v_mov_b32_e32 v0, s9
				; GCN-NEXT: v_mov_b32_e32 v1, s8
				; GCN-NEXT: v_mov_b32_e32 v2, s2
				; GCN-NEXT: v_mov_b32_e32 v3, s3
				; GCN-NEXT: v_mov_b32_e32 v7, s11
	; GCN-NEXT: s_add_u32 s0, s10, 32			; GCN-NEXT: s_add_u32 s0, s10, 32
	; GCN-NEXT: v_mov_b32_e32 v4, s10			; GCN-NEXT: flat_store_dwordx4 v[6:7], v[0:3]
	; GCN-NEXT: v_mov_b32_e32 v5, s11
	; GCN-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GCN-NEXT: s_addc_u32 s1, s11, 0			; GCN-NEXT: s_addc_u32 s1, s11, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s0			; GCN-NEXT: v_mov_b32_e32 v0, s0
	; GCN-NEXT: v_mov_b32_e32 v1, s1			; GCN-NEXT: v_mov_b32_e32 v1, s1
	; GCN-NEXT: flat_store_dwordx2 v[0:1], v[8:9]			; GCN-NEXT: flat_store_dwordx2 v[0:1], v[4:5]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	entry:			entry:
	%v = insertelement <5 x double> %vec, double 1.000000e+00, i32 %sel			%v = insertelement <5 x double> %vec, double 1.000000e+00, i32 %sel
	store <5 x double> %v, <5 x double> addrspace(1)* %out			store <5 x double> %v, <5 x double> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @double8_inselt(<8 x double> addrspace(1)* %out, <8 x double> %vec, i32 %sel) {			define amdgpu_kernel void @double8_inselt(<8 x double> addrspace(1)* %out, <8 x double> %vec, i32 %sel) {
	▲ Show 20 Lines • Show All 1,376 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

	Show First 20 Lines • Show All 1,622 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc			; SI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: dynamic_insertelement_v2f64:			; VI-LABEL: dynamic_insertelement_v2f64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dword s8, s[4:5], 0x60			; VI-NEXT: s_load_dword s8, s[4:5], 0x60
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x30			; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x30
	; VI-NEXT: v_mov_b32_e32 v1, 0x40200000			; VI-NEXT: s_mov_b32 s9, 0x40200000
	; VI-NEXT: s_mov_b32 s7, 0x1100f000			; VI-NEXT: s_mov_b32 s3, 0x1100f000
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_cmp_eq_u32 s8, 1			; VI-NEXT: s_cmp_eq_u32 s8, 1
	; VI-NEXT: v_mov_b32_e32 v0, s3			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_cselect_b64 vcc, -1, 0			; VI-NEXT: s_cselect_b32 s7, s9, s7
	; VI-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc			; VI-NEXT: s_cselect_b32 s6, 0, s6
	; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: s_cmp_eq_u32 s8, 0			; VI-NEXT: s_cmp_eq_u32 s8, 0
	; VI-NEXT: v_cndmask_b32_e64 v2, v0, 0, vcc			; VI-NEXT: s_cselect_b32 s5, s9, s5
	; VI-NEXT: v_mov_b32_e32 v0, s1			; VI-NEXT: s_cselect_b32 s4, 0, s4
	; VI-NEXT: s_cselect_b64 vcc, -1, 0			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_cndmask_b32_e32 v1, v0, v1, vcc			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v2, s6
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%vecins = insertelement <2 x double> %a, double 8.0, i32 %b			%vecins = insertelement <2 x double> %a, double 8.0, i32 %b
	store <2 x double> %vecins, <2 x double> addrspace(1)* %out, align 16			store <2 x double> %vecins, <2 x double> addrspace(1)* %out, align 16
	ret void			ret void
	}			}

	define amdgpu_kernel void @dynamic_insertelement_v2i64(<2 x i64> addrspace(1)* %out, <2 x i64> %a, i32 %b) nounwind {			define amdgpu_kernel void @dynamic_insertelement_v2i64(<2 x i64> addrspace(1)* %out, <2 x i64> %a, i32 %b) nounwind {
	; SI-LABEL: dynamic_insertelement_v2i64:			; SI-LABEL: dynamic_insertelement_v2i64:
	Show All 16 Lines
	; SI-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[2:3]			; SI-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[2:3]
	; SI-NEXT: v_mov_b32_e32 v0, s0			; SI-NEXT: v_mov_b32_e32 v0, s0
	; SI-NEXT: v_cndmask_b32_e64 v0, v0, 5, s[2:3]			; SI-NEXT: v_cndmask_b32_e64 v0, v0, 5, s[2:3]
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: dynamic_insertelement_v2i64:			; VI-LABEL: dynamic_insertelement_v2i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dword s10, s[4:5], 0x20			; VI-NEXT: s_load_dword s8, s[4:5], 0x20
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x10
	; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0			; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
	; VI-NEXT: s_mov_b32 s7, 0x1100f000			; VI-NEXT: s_mov_b32 s7, 0x1100f000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_cmp_eq_u32 s10, 1			; VI-NEXT: s_cmp_eq_u32 s8, 1
	; VI-NEXT: v_mov_b32_e32 v0, s3			; VI-NEXT: s_cselect_b32 s3, 0, s3
	; VI-NEXT: s_cselect_b64 s[8:9], -1, 0			; VI-NEXT: s_cselect_b32 s2, 5, s2
	; VI-NEXT: v_cndmask_b32_e64 v3, v0, 0, s[8:9]			; VI-NEXT: s_cmp_eq_u32 s8, 0
	; VI-NEXT: v_mov_b32_e32 v0, s2			; VI-NEXT: s_cselect_b32 s1, 0, s1
	; VI-NEXT: s_cmp_eq_u32 s10, 0			; VI-NEXT: s_cselect_b32 s0, 5, s0
	; VI-NEXT: v_cndmask_b32_e64 v2, v0, 5, s[8:9]
	; VI-NEXT: v_mov_b32_e32 v0, s1
	; VI-NEXT: s_cselect_b64 s[2:3], -1, 0
	; VI-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[2:3]
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, 5, s[2:3]			; VI-NEXT: v_mov_b32_e32 v1, s1
				; VI-NEXT: v_mov_b32_e32 v2, s2
				; VI-NEXT: v_mov_b32_e32 v3, s3
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%vecins = insertelement <2 x i64> %a, i64 5, i32 %b			%vecins = insertelement <2 x i64> %a, i64 5, i32 %b
	store <2 x i64> %vecins, <2 x i64> addrspace(1)* %out, align 8			store <2 x i64> %vecins, <2 x i64> addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	define amdgpu_kernel void @dynamic_insertelement_v3i64(<3 x i64> addrspace(1)* %out, <3 x i64> %a, i32 %b) nounwind {			define amdgpu_kernel void @dynamic_insertelement_v3i64(<3 x i64> addrspace(1)* %out, <3 x i64> %a, i32 %b) nounwind {
	Show All 25 Lines
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: v_cndmask_b32_e64 v4, v4, 5, s[6:7]			; SI-NEXT: v_cndmask_b32_e64 v4, v4, 5, s[6:7]
	; SI-NEXT: buffer_store_dwordx2 v[4:5], off, s[0:3], 0 offset:16			; SI-NEXT: buffer_store_dwordx2 v[4:5], off, s[0:3], 0 offset:16
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: dynamic_insertelement_v3i64:			; VI-LABEL: dynamic_insertelement_v3i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dword s12, s[4:5], 0x40			; VI-NEXT: s_load_dword s6, s[4:5], 0x40
	; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; VI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x20			; VI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x20
	; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x30			; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x30
	; VI-NEXT: s_mov_b32 s3, 0x1100f000			; VI-NEXT: s_mov_b32 s3, 0x1100f000
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_cmp_eq_u32 s12, 1			; VI-NEXT: s_cmp_eq_u32 s6, 1
	; VI-NEXT: s_cselect_b64 s[6:7], -1, 0
	; VI-NEXT: v_mov_b32_e32 v0, s11
	; VI-NEXT: v_cndmask_b32_e64 v3, v0, 0, s[6:7]
	; VI-NEXT: v_mov_b32_e32 v0, s10
	; VI-NEXT: s_cmp_eq_u32 s12, 0
	; VI-NEXT: v_cndmask_b32_e64 v2, v0, 5, s[6:7]
	; VI-NEXT: v_mov_b32_e32 v0, s9
	; VI-NEXT: s_cselect_b64 s[6:7], -1, 0
	; VI-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[6:7]
	; VI-NEXT: v_mov_b32_e32 v0, s8
	; VI-NEXT: s_cmp_eq_u32 s12, 2
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, 5, s[6:7]
	; VI-NEXT: v_mov_b32_e32 v4, s5
	; VI-NEXT: s_cselect_b64 s[6:7], -1, 0
	; VI-NEXT: v_cndmask_b32_e64 v5, v4, 0, s[6:7]
	; VI-NEXT: v_mov_b32_e32 v4, s4
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: v_cndmask_b32_e64 v4, v4, 5, s[6:7]			; VI-NEXT: s_cselect_b32 s7, 0, s11
	; VI-NEXT: buffer_store_dwordx2 v[4:5], off, s[0:3], 0 offset:16			; VI-NEXT: s_cselect_b32 s10, 5, s10
				; VI-NEXT: s_cmp_eq_u32 s6, 0
				; VI-NEXT: s_cselect_b32 s9, 0, s9
				; VI-NEXT: s_cselect_b32 s8, 5, s8
				; VI-NEXT: s_cmp_eq_u32 s6, 2
				; VI-NEXT: s_cselect_b32 s5, 0, s5
				; VI-NEXT: s_cselect_b32 s4, 5, s4
				; VI-NEXT: v_mov_b32_e32 v0, s4
				; VI-NEXT: v_mov_b32_e32 v1, s5
				; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0 offset:16
				; VI-NEXT: v_mov_b32_e32 v0, s8
				; VI-NEXT: v_mov_b32_e32 v1, s9
				; VI-NEXT: v_mov_b32_e32 v2, s10
				; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%vecins = insertelement <3 x i64> %a, i64 5, i32 %b			%vecins = insertelement <3 x i64> %a, i64 5, i32 %b
	store <3 x i64> %vecins, <3 x i64> addrspace(1)* %out, align 32			store <3 x i64> %vecins, <3 x i64> addrspace(1)* %out, align 32
	ret void			ret void
	}			}

	define amdgpu_kernel void @dynamic_insertelement_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, i32 %b) nounwind {			define amdgpu_kernel void @dynamic_insertelement_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, i32 %b) nounwind {
	Show All 33 Lines
	; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16			; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: dynamic_insertelement_v4f64:			; VI-LABEL: dynamic_insertelement_v4f64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dword s6, s[4:5], 0x40			; VI-NEXT: s_load_dword s6, s[4:5], 0x40
	; VI-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x20			; VI-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x20
	; VI-NEXT: v_mov_b32_e32 v4, 0x40200000
	; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; VI-NEXT: s_mov_b32 s4, 0x40200000
	; VI-NEXT: s_mov_b32 s3, 0x1100f000			; VI-NEXT: s_mov_b32 s3, 0x1100f000
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_cmp_eq_u32 s6, 1			; VI-NEXT: s_cmp_eq_u32 s6, 1
	; VI-NEXT: v_mov_b32_e32 v0, s11			; VI-NEXT: s_cselect_b32 s5, s4, s11
	; VI-NEXT: s_cselect_b64 vcc, -1, 0			; VI-NEXT: s_cselect_b32 s7, 0, s10
	; VI-NEXT: v_cndmask_b32_e32 v3, v0, v4, vcc
	; VI-NEXT: v_mov_b32_e32 v0, s10
	; VI-NEXT: s_cmp_eq_u32 s6, 0			; VI-NEXT: s_cmp_eq_u32 s6, 0
	; VI-NEXT: v_cndmask_b32_e64 v2, v0, 0, vcc			; VI-NEXT: s_cselect_b32 s9, s4, s9
	; VI-NEXT: v_mov_b32_e32 v0, s9			; VI-NEXT: s_cselect_b32 s8, 0, s8
	; VI-NEXT: s_cselect_b64 vcc, -1, 0
	; VI-NEXT: v_cndmask_b32_e32 v1, v0, v4, vcc
	; VI-NEXT: v_mov_b32_e32 v0, s8
	; VI-NEXT: s_cmp_eq_u32 s6, 3			; VI-NEXT: s_cmp_eq_u32 s6, 3
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc			; VI-NEXT: s_cselect_b32 s10, s4, s15
	; VI-NEXT: v_mov_b32_e32 v5, s15			; VI-NEXT: s_cselect_b32 s11, 0, s14
	; VI-NEXT: s_cselect_b64 vcc, -1, 0
	; VI-NEXT: v_cndmask_b32_e32 v7, v5, v4, vcc
	; VI-NEXT: v_mov_b32_e32 v5, s14
	; VI-NEXT: s_cmp_eq_u32 s6, 2			; VI-NEXT: s_cmp_eq_u32 s6, 2
	; VI-NEXT: v_cndmask_b32_e64 v6, v5, 0, vcc			; VI-NEXT: s_cselect_b32 s4, s4, s13
	; VI-NEXT: v_mov_b32_e32 v5, s13			; VI-NEXT: s_cselect_b32 s6, 0, s12
	; VI-NEXT: s_cselect_b64 vcc, -1, 0
	; VI-NEXT: v_cndmask_b32_e32 v5, v5, v4, vcc
	; VI-NEXT: v_mov_b32_e32 v4, s12
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: v_cndmask_b32_e64 v4, v4, 0, vcc			; VI-NEXT: v_mov_b32_e32 v0, s6
	; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16			; VI-NEXT: v_mov_b32_e32 v1, s4
				; VI-NEXT: v_mov_b32_e32 v2, s11
				; VI-NEXT: v_mov_b32_e32 v3, s10
				; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
				; VI-NEXT: s_nop 0
				; VI-NEXT: v_mov_b32_e32 v0, s8
				; VI-NEXT: v_mov_b32_e32 v1, s9
				; VI-NEXT: v_mov_b32_e32 v2, s7
				; VI-NEXT: v_mov_b32_e32 v3, s5
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%vecins = insertelement <4 x double> %a, double 8.0, i32 %b			%vecins = insertelement <4 x double> %a, double 8.0, i32 %b
	store <4 x double> %vecins, <4 x double> addrspace(1)* %out, align 16			store <4 x double> %vecins, <4 x double> addrspace(1)* %out, align 16
	ret void			ret void
	}			}

	define amdgpu_kernel void @dynamic_insertelement_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, i32 %b) #0 {			define amdgpu_kernel void @dynamic_insertelement_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, i32 %b) #0 {
	▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.mulo.ll

	Show First 20 Lines • Show All 242 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mul_hi_u32 s10, s1, s3			; GFX9-NEXT: s_mul_hi_u32 s10, s1, s3
	; GFX9-NEXT: s_addc_u32 s4, s5, s4			; GFX9-NEXT: s_addc_u32 s4, s5, s4
	; GFX9-NEXT: s_addc_u32 s5, s10, 0			; GFX9-NEXT: s_addc_u32 s5, s10, 0
	; GFX9-NEXT: s_mul_i32 s1, s1, s3			; GFX9-NEXT: s_mul_i32 s1, s1, s3
	; GFX9-NEXT: s_add_u32 s4, s4, s1			; GFX9-NEXT: s_add_u32 s4, s4, s1
	; GFX9-NEXT: s_addc_u32 s5, 0, s5			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: s_add_i32 s1, s8, s7			; GFX9-NEXT: s_add_i32 s1, s8, s7
	; GFX9-NEXT: s_add_i32 s1, s1, s6			; GFX9-NEXT: s_add_i32 s1, s1, s6
				; GFX9-NEXT: s_mul_i32 s0, s0, s2
	; GFX9-NEXT: s_cmp_lg_u64 s[4:5], 0			; GFX9-NEXT: s_cmp_lg_u64 s[4:5], 0
	; GFX9-NEXT: s_mul_i32 s2, s0, s2			; GFX9-NEXT: s_cselect_b32 s1, 0, s1
	; GFX9-NEXT: v_mov_b32_e32 v0, s1			; GFX9-NEXT: s_cselect_b32 s0, 0, s0
	; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[0:1]
	; GFX9-NEXT: global_store_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: umulo_i64_s:			; GFX10-LABEL: umulo_i64_s:
	; GFX10: ; %bb.0: ; %bb			; GFX10: ; %bb.0: ; %bb
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_mul_i32 s7, s0, s3			; GFX10-NEXT: s_mul_i32 s7, s0, s3
	Show All 9 Lines
	; GFX10-NEXT: s_addc_u32 s3, s5, s4			; GFX10-NEXT: s_addc_u32 s3, s5, s4
	; GFX10-NEXT: s_addc_u32 s5, s9, 0			; GFX10-NEXT: s_addc_u32 s5, s9, 0
	; GFX10-NEXT: s_add_u32 s4, s3, s1			; GFX10-NEXT: s_add_u32 s4, s3, s1
	; GFX10-NEXT: s_addc_u32 s5, 0, s5			; GFX10-NEXT: s_addc_u32 s5, 0, s5
	; GFX10-NEXT: s_add_i32 s1, s8, s7			; GFX10-NEXT: s_add_i32 s1, s8, s7
	; GFX10-NEXT: s_mul_i32 s0, s0, s2			; GFX10-NEXT: s_mul_i32 s0, s0, s2
	; GFX10-NEXT: s_add_i32 s1, s1, s6			; GFX10-NEXT: s_add_i32 s1, s1, s6
	; GFX10-NEXT: s_cmp_lg_u64 s[4:5], 0			; GFX10-NEXT: s_cmp_lg_u64 s[4:5], 0
	; GFX10-NEXT: s_cselect_b32 s2, -1, 0			; GFX10-NEXT: s_cselect_b32 s0, 0, s0
	; GFX10-NEXT: v_cndmask_b32_e64 v1, s1, 0, s2			; GFX10-NEXT: s_cselect_b32 s1, 0, s1
	; GFX10-NEXT: v_cndmask_b32_e64 v0, s0, 0, s2			; GFX10-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: global_store_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	bb:			bb:
	%umulo = tail call { i64, i1 } @llvm.umul.with.overflow.i64(i64 %x, i64 %y)			%umulo = tail call { i64, i1 } @llvm.umul.with.overflow.i64(i64 %x, i64 %y)
	%mul = extractvalue { i64, i1 } %umulo, 0			%mul = extractvalue { i64, i1 } %umulo, 0
	%overflow = extractvalue { i64, i1 } %umulo, 1			%overflow = extractvalue { i64, i1 } %umulo, 1
	%res = select i1 %overflow, i64 0, i64 %mul			%res = select i1 %overflow, i64 0, i64 %mul
	store i64 %res, i64 addrspace(1)* undef			store i64 %res, i64 addrspace(1)* undef
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: smulo_i64_s:			; GFX9-LABEL: smulo_i64_s:
	; GFX9: ; %bb.0: ; %bb			; GFX9: ; %bb.0: ; %bb
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mul_i32 s7, s0, s3			; GFX9-NEXT: s_mul_i32 s7, s0, s3
	; GFX9-NEXT: s_mul_hi_u32 s8, s0, s2			; GFX9-NEXT: s_mul_hi_u32 s8, s0, s2
	; GFX9-NEXT: s_mul_hi_u32 s6, s0, s3			; GFX9-NEXT: s_mul_hi_u32 s5, s0, s3
	; GFX9-NEXT: s_add_u32 s9, s8, s7			; GFX9-NEXT: s_add_u32 s9, s8, s7
	; GFX9-NEXT: s_mul_i32 s5, s1, s2			; GFX9-NEXT: s_mul_i32 s6, s1, s2
	; GFX9-NEXT: s_addc_u32 s6, 0, s6			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: s_mul_hi_u32 s4, s1, s2			; GFX9-NEXT: s_mul_hi_u32 s4, s1, s2
	; GFX9-NEXT: s_add_u32 s9, s9, s5			; GFX9-NEXT: s_add_u32 s9, s9, s6
	; GFX9-NEXT: s_mul_hi_i32 s10, s1, s3			; GFX9-NEXT: s_mul_hi_i32 s10, s1, s3
	; GFX9-NEXT: s_addc_u32 s4, s6, s4			; GFX9-NEXT: s_addc_u32 s4, s5, s4
	; GFX9-NEXT: s_addc_u32 s6, s10, 0			; GFX9-NEXT: s_addc_u32 s5, s10, 0
	; GFX9-NEXT: s_mul_i32 s9, s1, s3			; GFX9-NEXT: s_mul_i32 s9, s1, s3
	; GFX9-NEXT: s_add_u32 s4, s4, s9			; GFX9-NEXT: s_add_u32 s4, s4, s9
	; GFX9-NEXT: s_addc_u32 s6, 0, s6			; GFX9-NEXT: s_addc_u32 s5, 0, s5
	; GFX9-NEXT: s_sub_u32 s9, s4, s2			; GFX9-NEXT: s_sub_u32 s9, s4, s2
	; GFX9-NEXT: s_subb_u32 s10, s6, 0			; GFX9-NEXT: s_subb_u32 s10, s5, 0
	; GFX9-NEXT: s_cmp_lt_i32 s1, 0			; GFX9-NEXT: s_cmp_lt_i32 s1, 0
	; GFX9-NEXT: v_mov_b32_e32 v0, s6			; GFX9-NEXT: s_cselect_b32 s4, s9, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s10			; GFX9-NEXT: s_cselect_b32 s1, s10, s5
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_sub_u32 s9, s4, s0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX9-NEXT: s_subb_u32 s5, s1, 0
	; GFX9-NEXT: v_mov_b32_e32 v1, s4
	; GFX9-NEXT: v_mov_b32_e32 v2, s9
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v1, v2, vcc
	; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s0, v2
	; GFX9-NEXT: v_subbrev_co_u32_e32 v1, vcc, 0, v0, vcc
	; GFX9-NEXT: s_cmp_lt_i32 s3, 0			; GFX9-NEXT: s_cmp_lt_i32 s3, 0
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b32 s5, s5, s1
				; GFX9-NEXT: s_cselect_b32 s4, s9, s4
	; GFX9-NEXT: s_add_i32 s1, s8, s7			; GFX9-NEXT: s_add_i32 s1, s8, s7
	; GFX9-NEXT: s_add_i32 s1, s1, s5			; GFX9-NEXT: s_add_i32 s1, s1, s6
	; GFX9-NEXT: s_ashr_i32 s4, s1, 31			; GFX9-NEXT: s_ashr_i32 s6, s1, 31
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v0, v1, vcc			; GFX9-NEXT: s_mov_b32 s7, s6
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc
	; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_mul_i32 s0, s0, s2			; GFX9-NEXT: s_mul_i32 s0, s0, s2
	; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, s[4:5], v[0:1]			; GFX9-NEXT: s_cmp_lg_u64 s[4:5], s[6:7]
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: s_cselect_b32 s1, 0, s1
				; GFX9-NEXT: s_cselect_b32 s0, 0, s0
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v2, 0, vcc			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, 0, vcc
	; GFX9-NEXT: global_store_dwordx2 v[0:1], v[0:1], off			; GFX9-NEXT: global_store_dwordx2 v[0:1], v[0:1], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: smulo_i64_s:			; GFX10-LABEL: smulo_i64_s:
	; GFX10: ; %bb.0: ; %bb			; GFX10: ; %bb.0: ; %bb
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_mul_i32 s7, s0, s3			; GFX10-NEXT: s_mul_i32 s7, s0, s3
	; GFX10-NEXT: s_mul_hi_u32 s8, s0, s2			; GFX10-NEXT: s_mul_hi_u32 s8, s0, s2
	; GFX10-NEXT: s_mul_hi_u32 s6, s0, s3			; GFX10-NEXT: s_mul_hi_u32 s5, s0, s3
	; GFX10-NEXT: s_mul_i32 s5, s1, s2			; GFX10-NEXT: s_mul_i32 s6, s1, s2
	; GFX10-NEXT: s_add_u32 s11, s8, s7			; GFX10-NEXT: s_add_u32 s11, s8, s7
	; GFX10-NEXT: s_mul_hi_u32 s4, s1, s2			; GFX10-NEXT: s_mul_hi_u32 s4, s1, s2
	; GFX10-NEXT: s_addc_u32 s6, 0, s6			; GFX10-NEXT: s_addc_u32 s5, 0, s5
	; GFX10-NEXT: s_mul_hi_i32 s9, s1, s3			; GFX10-NEXT: s_mul_hi_i32 s9, s1, s3
	; GFX10-NEXT: s_add_u32 s11, s11, s5			; GFX10-NEXT: s_add_u32 s11, s11, s6
	; GFX10-NEXT: s_mul_i32 s10, s1, s3			; GFX10-NEXT: s_mul_i32 s10, s1, s3
	; GFX10-NEXT: s_addc_u32 s4, s6, s4			; GFX10-NEXT: s_addc_u32 s4, s5, s4
	; GFX10-NEXT: s_addc_u32 s6, s9, 0			; GFX10-NEXT: s_addc_u32 s5, s9, 0
	; GFX10-NEXT: s_add_u32 s4, s4, s10			; GFX10-NEXT: s_add_u32 s4, s4, s10
	; GFX10-NEXT: s_addc_u32 s6, 0, s6			; GFX10-NEXT: s_addc_u32 s5, 0, s5
	; GFX10-NEXT: s_sub_u32 s9, s4, s2			; GFX10-NEXT: s_sub_u32 s9, s4, s2
	; GFX10-NEXT: s_subb_u32 s10, s6, 0			; GFX10-NEXT: s_subb_u32 s10, s5, 0
	; GFX10-NEXT: v_mov_b32_e32 v1, s9
	; GFX10-NEXT: s_cmp_lt_i32 s1, 0			; GFX10-NEXT: s_cmp_lt_i32 s1, 0
	; GFX10-NEXT: v_mov_b32_e32 v0, s10			; GFX10-NEXT: s_cselect_b32 s1, s9, s4
	; GFX10-NEXT: s_cselect_b32 vcc_lo, -1, 0			; GFX10-NEXT: s_cselect_b32 s4, s10, s5
				; GFX10-NEXT: s_sub_u32 s9, s1, s0
				; GFX10-NEXT: s_subb_u32 s5, s4, 0
	; GFX10-NEXT: s_cmp_lt_i32 s3, 0			; GFX10-NEXT: s_cmp_lt_i32 s3, 0
	; GFX10-NEXT: v_cndmask_b32_e32 v2, s4, v1, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e32 v0, s6, v0, vcc_lo
	; GFX10-NEXT: v_sub_co_u32 v3, vcc_lo, v2, s0
	; GFX10-NEXT: v_subrev_co_ci_u32_e32 v1, vcc_lo, 0, v0, vcc_lo
	; GFX10-NEXT: s_cselect_b32 vcc_lo, -1, 0
	; GFX10-NEXT: s_add_i32 s1, s8, s7
	; GFX10-NEXT: s_mul_i32 s0, s0, s2			; GFX10-NEXT: s_mul_i32 s0, s0, s2
	; GFX10-NEXT: s_add_i32 s1, s1, s5			; GFX10-NEXT: s_cselect_b32 s5, s5, s4
	; GFX10-NEXT: v_cndmask_b32_e32 v1, v0, v1, vcc_lo			; GFX10-NEXT: s_cselect_b32 s4, s9, s1
	; GFX10-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc_lo			; GFX10-NEXT: s_add_i32 s1, s8, s7
	; GFX10-NEXT: s_ashr_i32 s4, s1, 31			; GFX10-NEXT: s_add_i32 s1, s1, s6
	; GFX10-NEXT: s_mov_b32 s5, s4			; GFX10-NEXT: s_ashr_i32 s6, s1, 31
	; GFX10-NEXT: v_cmp_ne_u64_e32 vcc_lo, s[4:5], v[0:1]			; GFX10-NEXT: s_mov_b32 s7, s6
	; GFX10-NEXT: v_cndmask_b32_e64 v1, s1, 0, vcc_lo			; GFX10-NEXT: s_cmp_lg_u64 s[4:5], s[6:7]
	; GFX10-NEXT: v_cndmask_b32_e64 v0, s0, 0, vcc_lo			; GFX10-NEXT: s_cselect_b32 s0, 0, s0
				; GFX10-NEXT: s_cselect_b32 s1, 0, s1
				; GFX10-NEXT: v_mov_b32_e32 v0, s0
				; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: global_store_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_store_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	bb:			bb:
	%umulo = tail call { i64, i1 } @llvm.smul.with.overflow.i64(i64 %x, i64 %y)			%umulo = tail call { i64, i1 } @llvm.smul.with.overflow.i64(i64 %x, i64 %y)
	%mul = extractvalue { i64, i1 } %umulo, 0			%mul = extractvalue { i64, i1 } %umulo, 0
	%overflow = extractvalue { i64, i1 } %umulo, 1			%overflow = extractvalue { i64, i1 } %umulo, 1
	%res = select i1 %overflow, i64 0, i64 %mul			%res = select i1 %overflow, i64 0, i64 %mul
	store i64 %res, i64 addrspace(1)* undef			store i64 %res, i64 addrspace(1)* undef
	▲ Show 20 Lines • Show All 92 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/load-select-ptr.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; Combine on select c, (load x), (load y) -> load (select c, x, y)			; Combine on select c, (load x), (load y) -> load (select c, x, y)
	; drops MachinePointerInfo, so it can't be relied on for correctness.			; drops MachinePointerInfo, so it can't be relied on for correctness.

	; GCN-LABEL: {{^}}select_ptr_crash_i64_flat:			; GCN-LABEL: {{^}}select_ptr_crash_i64_flat:
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2

	; GCN: s_cmp_eq_u32			; GCN: s_cmp_eq_u32
	; GCN: v_cndmask_b32			; GCN-COUNT-2: s_cselect_b32
	; GCN: v_cndmask_b32

	; GCN-NOT: load_dword			; GCN-NOT: load_dword
	; GCN: flat_load_dwordx2			; GCN: flat_load_dwordx2
	; GCN-NOT: load_dword			; GCN-NOT: load_dword

	; GCN: flat_store_dwordx2			; GCN: flat_store_dwordx2
	define amdgpu_kernel void @select_ptr_crash_i64_flat(i32 %tmp, [8 x i32], i64* %ptr0, [8 x i32], i64* %ptr1, [8 x i32], i64 addrspace(1)* %ptr2) {			define amdgpu_kernel void @select_ptr_crash_i64_flat(i32 %tmp, [8 x i32], i64* %ptr0, [8 x i32], i64* %ptr1, [8 x i32], i64 addrspace(1)* %ptr2) {
	%tmp2 = icmp eq i32 %tmp, 0			%tmp2 = icmp eq i32 %tmp, 0
	%tmp3 = load i64, i64* %ptr0, align 8			%tmp3 = load i64, i64* %ptr0, align 8
	%tmp4 = load i64, i64* %ptr1, align 8			%tmp4 = load i64, i64* %ptr1, align 8
	%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4			%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4
	store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8			store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8
	ret void			ret void
	}			}

	; The transform currently doesn't happen for non-addrspace 0, but it			; The transform currently doesn't happen for non-addrspace 0, but it
	; should.			; should.

	; GCN-LABEL: {{^}}select_ptr_crash_i64_global:			; GCN-LABEL: {{^}}select_ptr_crash_i64_global:
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2			; GCN: s_load_dwordx2
	; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}			; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}
	; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}			; GCN: s_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}
	; GCN: v_cndmask_b32			; GCN-COUNT-2: s_cselect_b32
	; GCN: v_cndmask_b32
	; GCN: flat_store_dwordx2			; GCN: flat_store_dwordx2
	define amdgpu_kernel void @select_ptr_crash_i64_global(i32 %tmp, [8 x i32], i64 addrspace(1)* %ptr0, [8 x i32], i64 addrspace(1)* %ptr1, [8 x i32], i64 addrspace(1)* %ptr2) {			define amdgpu_kernel void @select_ptr_crash_i64_global(i32 %tmp, [8 x i32], i64 addrspace(1)* %ptr0, [8 x i32], i64 addrspace(1)* %ptr1, [8 x i32], i64 addrspace(1)* %ptr2) {
	%tmp2 = icmp eq i32 %tmp, 0			%tmp2 = icmp eq i32 %tmp, 0
	%tmp3 = load i64, i64 addrspace(1)* %ptr0, align 8			%tmp3 = load i64, i64 addrspace(1)* %ptr0, align 8
	%tmp4 = load i64, i64 addrspace(1)* %ptr1, align 8			%tmp4 = load i64, i64 addrspace(1)* %ptr1, align 8
	%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4			%tmp5 = select i1 %tmp2, i64 %tmp3, i64 %tmp4
	store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8			store i64 %tmp5, i64 addrspace(1)* %ptr2, align 8
	ret void			ret void
	Show All 35 Lines

llvm/test/CodeGen/AMDGPU/sdiv.ll

	Show First 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; TONGA-NEXT: v_xor_b32_e32 v2, v5, v2			; TONGA-NEXT: v_xor_b32_e32 v2, v5, v2
	; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3			; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3
	; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4			; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4
	; TONGA-NEXT: v_add_u32_e32 v3, vcc, v4, v3			; TONGA-NEXT: v_add_u32_e32 v3, vcc, v4, v3
	; TONGA-NEXT: v_mul_hi_u32 v3, v0, v3			; TONGA-NEXT: v_mul_hi_u32 v3, v0, v3
	; TONGA-NEXT: v_mul_lo_u32 v4, v3, v1			; TONGA-NEXT: v_mul_lo_u32 v4, v3, v1
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v3			; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v3
	; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v4, v0			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v4, v0
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
	; TONGA-NEXT: v_subrev_u32_e32 v4, vcc, v1, v0			; TONGA-NEXT: v_subrev_u32_e32 v4, vcc, v1, v0
	; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
				; TONGA-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
				; TONGA-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3			; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; TONGA-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v2			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v2
	; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v2			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v2, v0
	; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0			; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i32:			; GFX9-LABEL: sdiv_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	Show All 20 Lines
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_lo_u32 v4, v4, v3			; GFX9-NEXT: v_mul_lo_u32 v4, v4, v3
	; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4			; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v4			; GFX9-NEXT: v_add_u32_e32 v3, v3, v4
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v0, v3
	; GFX9-NEXT: v_mul_lo_u32 v4, v3, v1			; GFX9-NEXT: v_mul_lo_u32 v4, v3, v1
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v3			; GFX9-NEXT: v_add_u32_e32 v5, 1, v3
	; GFX9-NEXT: v_sub_u32_e32 v0, v0, v4			; GFX9-NEXT: v_sub_u32_e32 v0, v0, v4
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; GFX9-NEXT: v_sub_u32_e32 v4, v0, v1			; GFX9-NEXT: v_sub_u32_e32 v4, v0, v1
				; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v3			; GFX9-NEXT: v_add_u32_e32 v4, 1, v3
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v2			; GFX9-NEXT: v_xor_b32_e32 v0, v0, v2
	; GFX9-NEXT: v_sub_u32_e32 v0, v0, v2			; GFX9-NEXT: v_sub_u32_e32 v0, v0, v2
	; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0
	▲ Show 20 Lines • Show All 364 Lines • ▼ Show 20 Lines
	; TONGA-NEXT: v_mul_lo_u32 v6, v4, v2			; TONGA-NEXT: v_mul_lo_u32 v6, v4, v2
	; TONGA-NEXT: v_mul_lo_u32 v10, v5, v3			; TONGA-NEXT: v_mul_lo_u32 v10, v5, v3
	; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v4			; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v4
	; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v6			; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v6
	; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v1, v10			; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v1, v10
	; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v5			; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
	; TONGA-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; TONGA-NEXT: v_sub_u32_e32 v6, vcc, v0, v2			; TONGA-NEXT: v_sub_u32_e32 v6, vcc, v0, v2
	; TONGA-NEXT: v_cndmask_b32_e64 v5, v5, v11, s[2:3]			; TONGA-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; TONGA-NEXT: v_sub_u32_e32 v7, vcc, v1, v3			; TONGA-NEXT: v_sub_u32_e32 v7, vcc, v1, v3
				; TONGA-NEXT: v_cndmask_b32_e64 v5, v5, v11, s[2:3]
	; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]
	; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; TONGA-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]			; TONGA-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]
	; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v5			; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; TONGA-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; TONGA-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v6			; GFX9-NEXT: v_mul_hi_u32 v6, v0, v6
	; GFX9-NEXT: v_mul_hi_u32 v7, v1, v7			; GFX9-NEXT: v_mul_hi_u32 v7, v1, v7
	; GFX9-NEXT: v_mul_lo_u32 v8, v6, v2			; GFX9-NEXT: v_mul_lo_u32 v8, v6, v2
	; GFX9-NEXT: v_mul_lo_u32 v9, v7, v3			; GFX9-NEXT: v_mul_lo_u32 v9, v7, v3
	; GFX9-NEXT: v_add_u32_e32 v10, 1, v6			; GFX9-NEXT: v_add_u32_e32 v10, 1, v6
	; GFX9-NEXT: v_add_u32_e32 v11, 1, v7			; GFX9-NEXT: v_add_u32_e32 v11, 1, v7
	; GFX9-NEXT: v_sub_u32_e32 v0, v0, v8			; GFX9-NEXT: v_sub_u32_e32 v0, v0, v8
	; GFX9-NEXT: v_sub_u32_e32 v1, v1, v9			; GFX9-NEXT: v_sub_u32_e32 v1, v1, v9
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GFX9-NEXT: v_sub_u32_e32 v8, v0, v2			; GFX9-NEXT: v_sub_u32_e32 v8, v0, v2
				; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v10, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v10, vcc
	; GFX9-NEXT: v_cmp_ge_u32_e64 s[0:1], v1, v3
	; GFX9-NEXT: v_sub_u32_e32 v9, v1, v3			; GFX9-NEXT: v_sub_u32_e32 v9, v1, v3
				; GFX9-NEXT: v_cmp_ge_u32_e64 s[0:1], v1, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v8, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v8, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v11, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v11, s[0:1]
	; GFX9-NEXT: v_add_u32_e32 v8, 1, v6			; GFX9-NEXT: v_add_u32_e32 v8, 1, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[0:1]
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GFX9-NEXT: v_add_u32_e32 v9, 1, v7			; GFX9-NEXT: v_add_u32_e32 v9, 1, v7
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v6, v8, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v6, v8, vcc
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	▲ Show 20 Lines • Show All 435 Lines • ▼ Show 20 Lines
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6
	; TONGA-NEXT: v_cndmask_b32_e32 v2, v10, v8, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v2, v10, v8, vcc
	; TONGA-NEXT: v_xor_b32_e32 v2, v2, v17			; TONGA-NEXT: v_xor_b32_e32 v2, v2, v17
	; TONGA-NEXT: v_mul_lo_u32 v5, v4, v7			; TONGA-NEXT: v_mul_lo_u32 v5, v4, v7
	; TONGA-NEXT: v_subrev_u32_e32 v2, vcc, v17, v2			; TONGA-NEXT: v_subrev_u32_e32 v2, vcc, v17, v2
	; TONGA-NEXT: v_xor_b32_e32 v6, v9, v14			; TONGA-NEXT: v_xor_b32_e32 v6, v9, v14
	; TONGA-NEXT: v_sub_u32_e32 v3, vcc, v3, v5			; TONGA-NEXT: v_sub_u32_e32 v3, vcc, v3, v5
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v4			; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v4
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v7			; TONGA-NEXT: v_sub_u32_e32 v8, vcc, v3, v7
	; TONGA-NEXT: v_cndmask_b32_e64 v4, v4, v5, s[0:1]			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v3, v7
	; TONGA-NEXT: v_sub_u32_e32 v5, vcc, v3, v7			; TONGA-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v4			; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v4
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v3, v7			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v3, v7
	; TONGA-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc
	; TONGA-NEXT: v_xor_b32_e32 v3, v3, v6			; TONGA-NEXT: v_xor_b32_e32 v3, v3, v6
	; TONGA-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3			; TONGA-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3
	; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	▲ Show 20 Lines • Show All 999 Lines • ▼ Show 20 Lines
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v1			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v1
	; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3			; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3
	; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4			; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4
	; TONGA-NEXT: v_add_u32_e32 v3, vcc, v4, v3			; TONGA-NEXT: v_add_u32_e32 v3, vcc, v4, v3
	; TONGA-NEXT: v_mul_hi_u32 v3, v5, v3			; TONGA-NEXT: v_mul_hi_u32 v3, v5, v3
	; TONGA-NEXT: v_mul_lo_u32 v1, v3, v2			; TONGA-NEXT: v_mul_lo_u32 v1, v3, v2
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3			; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3
	; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v1, v5			; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v1, v2			; TONGA-NEXT: v_subrev_u32_e32 v5, vcc, v2, v1
	; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2
	; TONGA-NEXT: v_subrev_u32_e32 v4, vcc, v2, v1			; TONGA-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; TONGA-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3			; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2
	; TONGA-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc
	; TONGA-NEXT: v_xor_b32_e32 v1, v1, v0			; TONGA-NEXT: v_xor_b32_e32 v1, v1, v0
	; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v0, v1			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v0, v1
	; TONGA-NEXT: v_bfe_i32 v0, v0, 0, 25			; TONGA-NEXT: v_bfe_i32 v0, v0, 0, 25
	; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0			; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	Show All 28 Lines
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_lo_u32 v4, v4, v3			; GFX9-NEXT: v_mul_lo_u32 v4, v4, v3
	; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4			; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v4			; GFX9-NEXT: v_add_u32_e32 v3, v3, v4
	; GFX9-NEXT: v_mul_hi_u32 v3, v5, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v5, v3
	; GFX9-NEXT: v_mul_lo_u32 v4, v3, v2			; GFX9-NEXT: v_mul_lo_u32 v4, v3, v2
	; GFX9-NEXT: v_add_u32_e32 v1, 1, v3			; GFX9-NEXT: v_add_u32_e32 v1, 1, v3
	; GFX9-NEXT: v_sub_u32_e32 v4, v5, v4			; GFX9-NEXT: v_sub_u32_e32 v4, v5, v4
				; GFX9-NEXT: v_sub_u32_e32 v5, v4, v2
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v4, v2			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v4, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX9-NEXT: v_sub_u32_e32 v3, v4, v2			; GFX9-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
	; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v3, v2			; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v3, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v0			; GFX9-NEXT: v_xor_b32_e32 v1, v1, v0
	; GFX9-NEXT: v_sub_u32_e32 v0, v1, v0			; GFX9-NEXT: v_sub_u32_e32 v0, v1, v0
	; GFX9-NEXT: v_bfe_i32 v0, v0, 0, 25			; GFX9-NEXT: v_bfe_i32 v0, v0, 0, 25
	; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 225 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/select-vectors.ll

Show First 20 Lines • Show All 152 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_select_v8i16(<8 x i16> addrspace(1)* %out, <8 x i16> addrspace(1)* %a.ptr, <8 x i16> addrspace(1)* %b.ptr, i32 %c) #0 {
store <8 x i16> %select, <8 x i16> addrspace(1)* %out, align 4		store <8 x i16> %select, <8 x i16> addrspace(1)* %out, align 4
ret void		ret void
}		}

; FIXME: Expansion with bitwise operations may be better if doing a		; FIXME: Expansion with bitwise operations may be better if doing a
; vector select with SGPR inputs.		; vector select with SGPR inputs.

; GCN-LABEL: {{^}}s_select_v2i32:		; GCN-LABEL: {{^}}s_select_v2i32:
; GCN: v_cndmask_b32_e32		; SI-COUNT-2: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32		; GFX89-COUNT-2: s_cselect_b32
; GCN: buffer_store_dwordx2		; GCN: buffer_store_dwordx2
define amdgpu_kernel void @s_select_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> %a, <2 x i32> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> %a, <2 x i32> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <2 x i32> %a, <2 x i32> %b		%select = select i1 %cmp, <2 x i32> %a, <2 x i32> %b
store <2 x i32> %select, <2 x i32> addrspace(1)* %out, align 8		store <2 x i32> %select, <2 x i32> addrspace(1)* %out, align 8
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_select_v4i32:		; GCN-LABEL: {{^}}s_select_v4i32:
; GCN: v_cndmask_b32_e32		; SI-COUNT-4: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32		; GFX89-COUNT-4: s_cselect_b32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
define amdgpu_kernel void @s_select_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %a, <4 x i32> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %a, <4 x i32> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <4 x i32> %a, <4 x i32> %b		%select = select i1 %cmp, <4 x i32> %a, <4 x i32> %b
store <4 x i32> %select, <4 x i32> addrspace(1)* %out, align 16		store <4 x i32> %select, <4 x i32> addrspace(1)* %out, align 16
ret void		ret void
}		}

Show All 11 Lines	bb:
%tmp2 = icmp ult i32 %cond, 32		%tmp2 = icmp ult i32 %cond, 32
%val = load <4 x i32>, <4 x i32> addrspace(1)* %in		%val = load <4 x i32>, <4 x i32> addrspace(1)* %in
%tmp3 = select i1 %tmp2, <4 x i32> %val, <4 x i32> zeroinitializer		%tmp3 = select i1 %tmp2, <4 x i32> %val, <4 x i32> zeroinitializer
store <4 x i32> %tmp3, <4 x i32> addrspace(1)* %out, align 16		store <4 x i32> %tmp3, <4 x i32> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_v8i32:		; GCN-LABEL: {{^}}select_v8i32:
; GCN: v_cndmask_b32_e32		; SI-COUNT-8: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32		; GFX89-COUNT-8: s_cselect_b32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
define amdgpu_kernel void @select_v8i32(<8 x i32> addrspace(1)* %out, <8 x i32> %a, <8 x i32> %b, i32 %c) #0 {		define amdgpu_kernel void @select_v8i32(<8 x i32> addrspace(1)* %out, <8 x i32> %a, <8 x i32> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <8 x i32> %a, <8 x i32> %b		%select = select i1 %cmp, <8 x i32> %a, <8 x i32> %b
store <8 x i32> %select, <8 x i32> addrspace(1)* %out, align 16		store <8 x i32> %select, <8 x i32> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_select_v2f32:		; GCN-LABEL: {{^}}s_select_v2f32:
; GCN-DAG: s_load_dwordx4 s[[[ALO:[0-9]+]]:[[BHI:[0-9]+]]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}		; GCN-DAG: s_load_dwordx4 s[[[ALO:[0-9]+]]:[[BHI:[0-9]+]]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}

; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[BHI]]		; SI-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[BHI]]
; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[ALO]]		; SI-DAG: v_mov_b32_e32 v{{[0-9]+}}, s[[ALO]]
; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}		; GCN-DAG: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}

; GCN-DAG: v_cndmask_b32_e32		; SI-DAG: v_cndmask_b32_e32
; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}		; SI-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}
; GCN-DAG: v_cndmask_b32_e32		; SI-DAG: v_cndmask_b32_e32
		; GFX89-DAG: s_cselect_b32 s{{[0-9]+}}, s{{[0-9]+}}, s[[BHI]]
		; GFX89-DAG: s_cselect_b32 s{{[0-9]+}}, s[[ALO]], s{{[0-9]+}}
; GCN: buffer_store_dwordx2		; GCN: buffer_store_dwordx2
define amdgpu_kernel void @s_select_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <2 x float> %a, <2 x float> %b		%select = select i1 %cmp, <2 x float> %a, <2 x float> %b
store <2 x float> %select, <2 x float> addrspace(1)* %out, align 16		store <2 x float> %select, <2 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_select_v3f32:		; GCN-LABEL: {{^}}s_select_v3f32:
; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}		; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}

; GCN: v_cndmask_b32_e32		; SI-COUNT-3: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32		; GFX89-COUNT-3: s_cselect_b32
; GCN: v_cndmask_b32_e32

; GCN: buffer_store_dwordx		; GCN: buffer_store_dwordx
define amdgpu_kernel void @s_select_v3f32(<3 x float> addrspace(1)* %out, <3 x float> %a, <3 x float> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v3f32(<3 x float> addrspace(1)* %out, <3 x float> %a, <3 x float> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <3 x float> %a, <3 x float> %b		%select = select i1 %cmp, <3 x float> %a, <3 x float> %b
store <3 x float> %select, <3 x float> addrspace(1)* %out, align 16		store <3 x float> %select, <3 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_select_v4f32:		; GCN-LABEL: {{^}}s_select_v4f32:
; GCN: s_load_dwordx8		; GCN: s_load_dwordx8
; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}		; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}

; GCN: v_cndmask_b32_e32		; SI-COUNT-4: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32		; GFX89-COUNT-4: s_cselect_b32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32

; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
define amdgpu_kernel void @s_select_v4f32(<4 x float> addrspace(1)* %out, <4 x float> %a, <4 x float> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v4f32(<4 x float> addrspace(1)* %out, <4 x float> %a, <4 x float> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <4 x float> %a, <4 x float> %b		%select = select i1 %cmp, <4 x float> %a, <4 x float> %b
store <4 x float> %select, <4 x float> addrspace(1)* %out, align 16		store <4 x float> %select, <4 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}
Show All 14 Lines	bb:
%tmp3 = select i1 %tmp2, <4 x float> %val, <4 x float> zeroinitializer		%tmp3 = select i1 %tmp2, <4 x float> %val, <4 x float> zeroinitializer
store <4 x float> %tmp3, <4 x float> addrspace(1)* %out, align 16		store <4 x float> %tmp3, <4 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_select_v5f32:		; GCN-LABEL: {{^}}s_select_v5f32:
; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}		; GCN: s_cmp_eq_u32 s{{[0-9]+}}, 0{{$}}

; GCN: v_cndmask_b32_e32		; SI-COUNT-5: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32		; GFX89-COUNT-5: s_cselect_b32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32

; GCN: buffer_store_dwordx		; GCN: buffer_store_dwordx
define amdgpu_kernel void @s_select_v5f32(<5 x float> addrspace(1)* %out, <5 x float> %a, <5 x float> %b, i32 %c) #0 {		define amdgpu_kernel void @s_select_v5f32(<5 x float> addrspace(1)* %out, <5 x float> %a, <5 x float> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <5 x float> %a, <5 x float> %b		%select = select i1 %cmp, <5 x float> %a, <5 x float> %b
store <5 x float> %select, <5 x float> addrspace(1)* %out, align 16		store <5 x float> %select, <5 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}
Show All 10 Lines
define amdgpu_kernel void @select_v8f32(<8 x float> addrspace(1)* %out, <8 x float> %a, <8 x float> %b, i32 %c) #0 {		define amdgpu_kernel void @select_v8f32(<8 x float> addrspace(1)* %out, <8 x float> %a, <8 x float> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <8 x float> %a, <8 x float> %b		%select = select i1 %cmp, <8 x float> %a, <8 x float> %b
store <8 x float> %select, <8 x float> addrspace(1)* %out, align 16		store <8 x float> %select, <8 x float> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_v2f64:		; GCN-LABEL: {{^}}select_v2f64:
; GCN: v_cndmask_b32_e32		; SI-COUNT-4: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32		; GFX89-COUNT-4: s_cselect_b32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
define amdgpu_kernel void @select_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %a, <2 x double> %b, i32 %c) #0 {		define amdgpu_kernel void @select_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %a, <2 x double> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <2 x double> %a, <2 x double> %b		%select = select i1 %cmp, <2 x double> %a, <2 x double> %b
store <2 x double> %select, <2 x double> addrspace(1)* %out, align 16		store <2 x double> %select, <2 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_v4f64:		; GCN-LABEL: {{^}}select_v4f64:
; GCN: v_cndmask_b32_e32		; SI-COUNT-8: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32		; GFX89-COUNT-8: s_cselect_b32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
define amdgpu_kernel void @select_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, <4 x double> %b, i32 %c) #0 {		define amdgpu_kernel void @select_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, <4 x double> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <4 x double> %a, <4 x double> %b		%select = select i1 %cmp, <4 x double> %a, <4 x double> %b
store <4 x double> %select, <4 x double> addrspace(1)* %out, align 16		store <4 x double> %select, <4 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}select_v8f64:		; GCN-LABEL: {{^}}select_v8f64:
; GCN: v_cndmask_b32_e32		; SI-COUNT-16: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32		; GFX89-COUNT-16: s_cselect_b32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
; GCN: v_cndmask_b32_e32
define amdgpu_kernel void @select_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, <8 x double> %b, i32 %c) #0 {		define amdgpu_kernel void @select_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, <8 x double> %b, i32 %c) #0 {
%cmp = icmp eq i32 %c, 0		%cmp = icmp eq i32 %c, 0
%select = select i1 %cmp, <8 x double> %a, <8 x double> %b		%select = select i1 %cmp, <8 x double> %a, <8 x double> %b
store <8 x double> %select, <8 x double> addrspace(1)* %out, align 16		store <8 x double> %select, <8 x double> addrspace(1)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_select_v2f16:		; GCN-LABEL: {{^}}v_select_v2f16:
▲ Show 20 Lines • Show All 42 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/select64.ll

; RUN: llc < %s -march=amdgcn -mcpu=tahiti -verify-machineinstrs \| FileCheck -check-prefixes=SI,GCN %s		; RUN: llc < %s -march=amdgcn -mcpu=tahiti -verify-machineinstrs \| FileCheck -check-prefixes=SI,GCN %s
; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -check-prefixes=VI,GCN %s		; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -check-prefixes=VI,GCN %s

; GCN-LABEL: {{^}}select0:		; GCN-LABEL: {{^}}select0:
; i64 select should be split into two i32 selects, and we shouldn't need		; i64 select should be split into two i32 selects, and we shouldn't need
; to use a shfit to extract the hi dword of the input.		; to use a shfit to extract the hi dword of the input.
; GCN-NOT: s_lshr_b64		; GCN-NOT: s_lshr_b64
; GCN: v_cndmask		; SI-COUNT-2: v_cndmask
; GCN: v_cndmask		; VI-COUNT-2: s_cselect
define amdgpu_kernel void @select0(i64 addrspace(1)* %out, i32 %cond, i64 %in) {		define amdgpu_kernel void @select0(i64 addrspace(1)* %out, i32 %cond, i64 %in) {
entry:		entry:
%0 = icmp ugt i32 %cond, 5		%0 = icmp ugt i32 %cond, 5
%1 = select i1 %0, i64 0, i64 %in		%1 = select i1 %0, i64 0, i64 %in
store i64 %1, i64 addrspace(1)* %out		store i64 %1, i64 addrspace(1)* %out
ret void		ret void
}		}

Show All 34 Lines	define amdgpu_kernel void @v_select_trunc_i64_2(i32 addrspace(1)* %out, i32 %cond, i64 addrspace(1)* %aptr, i64 addrspace(1)* %bptr) nounwind {
%b = load i64, i64 addrspace(1)* %bptr, align 8		%b = load i64, i64 addrspace(1)* %bptr, align 8
%sel = select i1 %cmp, i64 %a, i64 %b		%sel = select i1 %cmp, i64 %a, i64 %b
%trunc = trunc i64 %sel to i32		%trunc = trunc i64 %sel to i32
store i32 %trunc, i32 addrspace(1)* %out, align 4		store i32 %trunc, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_select_i64_split_imm:		; GCN-LABEL: {{^}}v_select_i64_split_imm:
; GCN-DAG: v_cndmask_b32_e32 {{v[0-9]+}}, 0, {{v[0-9]+}}		; SI-DAG: v_cndmask_b32_e32 {{v[0-9]+}}, 0, {{v[0-9]+}}
; GCN-DAG: v_cndmask_b32_e32 {{v[0-9]+}}, 63, {{v[0-9]+}}		; SI-DAG: v_cndmask_b32_e32 {{v[0-9]+}}, 63, {{v[0-9]+}}
		; VI-DAG: s_cselect_b32 {{s[0-9]+}}, {{s[0-9]+}}, 0
		; VI-DAG: s_cselect_b32 {{s[0-9]+}}, {{s[0-9]+}}, 63
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @v_select_i64_split_imm(i64 addrspace(1)* %out, i32 %cond, i64 addrspace(1)* %aptr, i64 addrspace(1)* %bptr) nounwind {		define amdgpu_kernel void @v_select_i64_split_imm(i64 addrspace(1)* %out, i32 %cond, i64 addrspace(1)* %aptr, i64 addrspace(1)* %bptr) nounwind {
%cmp = icmp ugt i32 %cond, 5		%cmp = icmp ugt i32 %cond, 5
%a = load i64, i64 addrspace(1)* %aptr, align 8		%a = load i64, i64 addrspace(1)* %aptr, align 8
%b = load i64, i64 addrspace(1)* %bptr, align 8		%b = load i64, i64 addrspace(1)* %bptr, align 8
%sel = select i1 %cmp, i64 %a, i64 270582939648 ; 63 << 32		%sel = select i1 %cmp, i64 %a, i64 270582939648 ; 63 << 32
store i64 %sel, i64 addrspace(1)* %out, align 8		store i64 %sel, i64 addrspace(1)* %out, align 8
ret void		ret void
}		}

llvm/test/CodeGen/AMDGPU/selectcc.ll

	; RUN: llc -verify-machineinstrs -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s			; RUN: llc -verify-machineinstrs -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s
	; RUN: llc -verify-machineinstrs -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefixes=GCN,SI -check-prefix=FUNC %s			; RUN: llc -verify-machineinstrs -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefixes=SI -check-prefix=FUNC %s
	; RUN: llc -verify-machineinstrs -march=amdgcn -mcpu=tonga < %s \| FileCheck -check-prefixes=GCN,VI -check-prefix=FUNC %s			; RUN: llc -verify-machineinstrs -march=amdgcn -mcpu=tonga < %s \| FileCheck -check-prefixes=VI -check-prefix=FUNC %s

	; FUNC-LABEL: {{^}}selectcc_i64:			; FUNC-LABEL: {{^}}selectcc_i64:
	; EG: XOR_INT			; EG: XOR_INT
	; EG: XOR_INT			; EG: XOR_INT
	; EG: OR_INT			; EG: OR_INT
	; EG: CNDE_INT			; EG: CNDE_INT
	; EG: CNDE_INT			; EG: CNDE_INT
	; SI: v_cmp_eq_u64			; SI: v_cmp_eq_u64
				; SI-COUNT-2: v_cndmask
	; VI: s_cmp_eq_u64			; VI: s_cmp_eq_u64
	; GCN: v_cndmask			; VI-COUNT-2: s_cselect
	; GCN: v_cndmask
	define amdgpu_kernel void @selectcc_i64(i64 addrspace(1) * %out, i64 %lhs, i64 %rhs, i64 %true, i64 %false) {			define amdgpu_kernel void @selectcc_i64(i64 addrspace(1) * %out, i64 %lhs, i64 %rhs, i64 %true, i64 %false) {
	entry:			entry:
	%0 = icmp eq i64 %lhs, %rhs			%0 = icmp eq i64 %lhs, %rhs
	%1 = select i1 %0, i64 %true, i64 %false			%1 = select i1 %0, i64 %true, i64 %false
	store i64 %1, i64 addrspace(1)* %out			store i64 %1, i64 addrspace(1)* %out
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/udiv.ll

	Show First 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_cvt_u32_f32_e32 v2, v2			; VI-NEXT: v_cvt_u32_f32_e32 v2, v2
	; VI-NEXT: v_mul_lo_u32 v3, v3, v2			; VI-NEXT: v_mul_lo_u32 v3, v3, v2
	; VI-NEXT: v_mul_hi_u32 v3, v2, v3			; VI-NEXT: v_mul_hi_u32 v3, v2, v3
	; VI-NEXT: v_add_u32_e32 v2, vcc, v3, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, v3, v2
	; VI-NEXT: v_mul_hi_u32 v2, v0, v2			; VI-NEXT: v_mul_hi_u32 v2, v0, v2
	; VI-NEXT: v_mul_lo_u32 v3, v2, v1			; VI-NEXT: v_mul_lo_u32 v3, v2, v1
	; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v2			; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v2
	; VI-NEXT: v_subrev_u32_e32 v0, vcc, v3, v0			; VI-NEXT: v_subrev_u32_e32 v0, vcc, v3, v0
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; VI-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v3, vcc, v1, v0			; VI-NEXT: v_subrev_u32_e32 v3, vcc, v1, v0
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
				; VI-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
				; VI-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; VI-NEXT: v_add_u32_e32 v3, vcc, 1, v2			; VI-NEXT: v_add_u32_e32 v3, vcc, 1, v2
	; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; VI-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GCN-LABEL: udiv_i32:			; GCN-LABEL: udiv_i32:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	Show All 12 Lines
	; GCN-NEXT: v_mul_hi_u32 v3, v2, v3			; GCN-NEXT: v_mul_hi_u32 v3, v2, v3
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_u32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_mul_hi_u32 v4, v0, v2			; GCN-NEXT: v_mul_hi_u32 v4, v0, v2
	; GCN-NEXT: v_mov_b32_e32 v2, s0			; GCN-NEXT: v_mov_b32_e32 v2, s0
	; GCN-NEXT: v_mov_b32_e32 v3, s1			; GCN-NEXT: v_mov_b32_e32 v3, s1
	; GCN-NEXT: v_mul_lo_u32 v5, v4, v1			; GCN-NEXT: v_mul_lo_u32 v5, v4, v1
	; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; GCN-NEXT: v_subrev_u32_e32 v0, vcc, v5, v0			; GCN-NEXT: v_subrev_u32_e32 v0, vcc, v5, v0
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[0:1]
	; GCN-NEXT: v_subrev_u32_e32 v5, vcc, v1, v0			; GCN-NEXT: v_subrev_u32_e32 v5, vcc, v1, v0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[0:1]			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
				; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
				; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
	; GCN-NEXT: v_add_u32_e32 v5, vcc, 1, v4			; GCN-NEXT: v_add_u32_e32 v5, vcc, 1, v4
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; GCN-NEXT: v_cndmask_b32_e32 v0, v4, v5, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v4, v5, vcc
	; GCN-NEXT: flat_store_dword v[2:3], v0			; GCN-NEXT: flat_store_dword v[2:3], v0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: udiv_i32:			; GFX1030-LABEL: udiv_i32:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; SI-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
	; SI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: s_udiv_i32:			; VI-LABEL: s_udiv_i32:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_cvt_f32_u32_e32 v0, s3			; VI-NEXT: v_cvt_f32_u32_e32 v0, s5
	; VI-NEXT: s_sub_i32 s4, 0, s3			; VI-NEXT: s_sub_i32 s2, 0, s5
	; VI-NEXT: v_rcp_iflag_f32_e32 v0, v0			; VI-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; VI-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; VI-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; VI-NEXT: v_cvt_u32_f32_e32 v0, v0			; VI-NEXT: v_cvt_u32_f32_e32 v0, v0
	; VI-NEXT: v_mul_lo_u32 v1, s4, v0			; VI-NEXT: v_mul_lo_u32 v1, s2, v0
	; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: v_mul_hi_u32 v1, v0, v1			; VI-NEXT: v_mul_hi_u32 v1, v0, v1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; VI-NEXT: v_mul_hi_u32 v0, s2, v0			; VI-NEXT: v_mul_hi_u32 v0, s4, v0
	; VI-NEXT: v_mul_lo_u32 v1, v0, s3			; VI-NEXT: v_mul_lo_u32 v1, v0, s5
	; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0			; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0
	; VI-NEXT: v_sub_u32_e32 v1, vcc, s2, v1			; VI-NEXT: v_sub_u32_e32 v1, vcc, s4, v1
	; VI-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1			; VI-NEXT: v_subrev_u32_e32 v3, vcc, s5, v1
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; VI-NEXT: v_cmp_le_u32_e32 vcc, s5, v1
	; VI-NEXT: v_subrev_u32_e32 v2, vcc, s3, v1			; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; VI-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]			; VI-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0			; VI-NEXT: v_add_u32_e32 v2, vcc, 1, v0
	; VI-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; VI-NEXT: v_cmp_le_u32_e32 vcc, s5, v1
	; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GCN-LABEL: s_udiv_i32:			; GCN-LABEL: s_udiv_i32:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GCN-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s3			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s1
	; GCN-NEXT: s_sub_i32 s0, 0, s3			; GCN-NEXT: s_sub_i32 s2, 0, s1
	; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GCN-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GCN-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v1, s0, v0			; GCN-NEXT: v_mul_lo_u32 v1, s2, v0
				; GCN-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x0
	; GCN-NEXT: v_mul_hi_u32 v1, v0, v1			; GCN-NEXT: v_mul_hi_u32 v1, v0, v1
	; GCN-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_mul_hi_u32 v0, s2, v0			; GCN-NEXT: v_mul_hi_u32 v0, s0, v0
	; GCN-NEXT: v_mul_lo_u32 v1, v0, s3			; GCN-NEXT: v_mul_lo_u32 v1, v0, s1
	; GCN-NEXT: v_add_u32_e32 v2, vcc, 1, v0			; GCN-NEXT: v_add_u32_e32 v2, vcc, 1, v0
	; GCN-NEXT: v_sub_u32_e32 v1, vcc, s2, v1			; GCN-NEXT: v_sub_u32_e32 v1, vcc, s0, v1
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1			; GCN-NEXT: v_subrev_u32_e32 v3, vcc, s1, v1
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GCN-NEXT: v_cmp_le_u32_e32 vcc, s1, v1
	; GCN-NEXT: v_subrev_u32_e32 v2, vcc, s3, v1			; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]			; GCN-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GCN-NEXT: v_add_u32_e32 v2, vcc, 1, v0			; GCN-NEXT: v_add_u32_e32 v2, vcc, 1, v0
	; GCN-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GCN-NEXT: v_cmp_le_u32_e32 vcc, s1, v1
	; GCN-NEXT: v_cndmask_b32_e32 v2, v0, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v0, v2, vcc
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v0, s2
				; GCN-NEXT: v_mov_b32_e32 v1, s3
	; GCN-NEXT: flat_store_dword v[0:1], v2			; GCN-NEXT: flat_store_dword v[0:1], v2
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: s_udiv_i32:			; GFX1030-LABEL: s_udiv_i32:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8			; GFX1030-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8
	; GFX1030-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v0, s1			; GFX1030-NEXT: v_cvt_f32_u32_e32 v0, s1
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mul_lo_u32 v6, v4, v2			; VI-NEXT: v_mul_lo_u32 v6, v4, v2
	; VI-NEXT: v_mul_lo_u32 v8, v5, v3			; VI-NEXT: v_mul_lo_u32 v8, v5, v3
	; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v4			; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v4
	; VI-NEXT: v_subrev_u32_e32 v0, vcc, v6, v0			; VI-NEXT: v_subrev_u32_e32 v0, vcc, v6, v0
	; VI-NEXT: v_subrev_u32_e32 v1, vcc, v8, v1			; VI-NEXT: v_subrev_u32_e32 v1, vcc, v8, v1
	; VI-NEXT: v_add_u32_e32 v9, vcc, 1, v5			; VI-NEXT: v_add_u32_e32 v9, vcc, 1, v5
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
	; VI-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v6, vcc, v2, v0			; VI-NEXT: v_subrev_u32_e32 v6, vcc, v2, v0
	; VI-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[2:3]			; VI-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v7, vcc, v3, v1			; VI-NEXT: v_subrev_u32_e32 v7, vcc, v3, v1
				; VI-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[2:3]
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]
	; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; VI-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]			; VI-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]
	; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v5			; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v5
	; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; VI-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc
	; VI-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; VI-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc			; VI-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc
	Show All 32 Lines
	; GCN-NEXT: v_mul_lo_u32 v8, v6, v2			; GCN-NEXT: v_mul_lo_u32 v8, v6, v2
	; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v6			; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v6
	; GCN-NEXT: v_mul_lo_u32 v10, v7, v3			; GCN-NEXT: v_mul_lo_u32 v10, v7, v3
	; GCN-NEXT: v_subrev_u32_e32 v0, vcc, v8, v0			; GCN-NEXT: v_subrev_u32_e32 v0, vcc, v8, v0
	; GCN-NEXT: v_add_u32_e32 v11, vcc, 1, v7			; GCN-NEXT: v_add_u32_e32 v11, vcc, 1, v7
	; GCN-NEXT: v_subrev_u32_e32 v1, vcc, v10, v1			; GCN-NEXT: v_subrev_u32_e32 v1, vcc, v10, v1
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
	; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[0:1]
	; GCN-NEXT: v_subrev_u32_e32 v8, vcc, v2, v0			; GCN-NEXT: v_subrev_u32_e32 v8, vcc, v2, v0
	; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v11, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[0:1]
	; GCN-NEXT: v_subrev_u32_e32 v9, vcc, v3, v1			; GCN-NEXT: v_subrev_u32_e32 v9, vcc, v3, v1
				; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v11, s[2:3]
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v8, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v8, s[0:1]
	; GCN-NEXT: v_add_u32_e32 v8, vcc, 1, v6			; GCN-NEXT: v_add_u32_e32 v8, vcc, 1, v6
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[2:3]
	; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v7			; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v7
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v8, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v8, vcc
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; GCN-NEXT: v_cndmask_b32_e32 v1, v7, v9, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v7, v9, vcc
	Show All 27 Lines
	; GFX1030-NEXT: v_mul_hi_u32 v5, v0, v5			; GFX1030-NEXT: v_mul_hi_u32 v5, v0, v5
	; GFX1030-NEXT: v_mul_hi_u32 v6, v1, v6			; GFX1030-NEXT: v_mul_hi_u32 v6, v1, v6
	; GFX1030-NEXT: v_mul_lo_u32 v7, v5, v2			; GFX1030-NEXT: v_mul_lo_u32 v7, v5, v2
	; GFX1030-NEXT: v_mul_lo_u32 v8, v6, v3			; GFX1030-NEXT: v_mul_lo_u32 v8, v6, v3
	; GFX1030-NEXT: v_sub_nc_u32_e32 v0, v0, v7			; GFX1030-NEXT: v_sub_nc_u32_e32 v0, v0, v7
	; GFX1030-NEXT: v_add_nc_u32_e32 v7, 1, v5			; GFX1030-NEXT: v_add_nc_u32_e32 v7, 1, v5
	; GFX1030-NEXT: v_sub_nc_u32_e32 v1, v1, v8			; GFX1030-NEXT: v_sub_nc_u32_e32 v1, v1, v8
	; GFX1030-NEXT: v_add_nc_u32_e32 v8, 1, v6			; GFX1030-NEXT: v_add_nc_u32_e32 v8, 1, v6
				; GFX1030-NEXT: v_sub_nc_u32_e32 v9, v0, v2
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v0, v2			; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v0, v2
	; GFX1030-NEXT: v_sub_nc_u32_e32 v9, v1, v3
	; GFX1030-NEXT: v_cmp_ge_u32_e64 s0, v1, v3			; GFX1030-NEXT: v_cmp_ge_u32_e64 s0, v1, v3
	; GFX1030-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc_lo
	; GFX1030-NEXT: v_sub_nc_u32_e32 v7, v0, v2			; GFX1030-NEXT: v_sub_nc_u32_e32 v7, v1, v3
				; GFX1030-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc_lo
	; GFX1030-NEXT: v_cndmask_b32_e64 v6, v6, v8, s0			; GFX1030-NEXT: v_cndmask_b32_e64 v6, v6, v8, s0
	; GFX1030-NEXT: v_cndmask_b32_e64 v1, v1, v9, s0			; GFX1030-NEXT: v_add_nc_u32_e32 v8, 1, v5
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e64 v1, v1, v7, s0
	; GFX1030-NEXT: v_add_nc_u32_e32 v7, 1, v5
	; GFX1030-NEXT: v_add_nc_u32_e32 v8, 1, v6
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v0, v2			; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v0, v2
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v5, v7, vcc_lo			; GFX1030-NEXT: v_add_nc_u32_e32 v7, 1, v6
				; GFX1030-NEXT: v_cndmask_b32_e32 v0, v5, v8, vcc_lo
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v1, v3			; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v1, v3
	; GFX1030-NEXT: v_cndmask_b32_e32 v1, v6, v8, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v1, v6, v7, vcc_lo
	; GFX1030-NEXT: global_store_dwordx2 v4, v[0:1], s[4:5]			; GFX1030-NEXT: global_store_dwordx2 v4, v[0:1], s[4:5]
	; GFX1030-NEXT: s_endpgm			; GFX1030-NEXT: s_endpgm
	;			;
	; EG-LABEL: udiv_v2i32:			; EG-LABEL: udiv_v2i32:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 0 @6			; EG-NEXT: TEX 0 @6
	; EG-NEXT: ALU 33, @9, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 33, @9, KC0[CB0:0-32], KC1[]
	▲ Show 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_add_u32_e32 v13, vcc, 1, v8			; VI-NEXT: v_add_u32_e32 v13, vcc, 1, v8
	; VI-NEXT: v_add_u32_e32 v15, vcc, 1, v9			; VI-NEXT: v_add_u32_e32 v15, vcc, 1, v9
	; VI-NEXT: v_add_u32_e32 v17, vcc, 1, v10			; VI-NEXT: v_add_u32_e32 v17, vcc, 1, v10
	; VI-NEXT: v_add_u32_e32 v19, vcc, 1, v11			; VI-NEXT: v_add_u32_e32 v19, vcc, 1, v11
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0			; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0
	; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1			; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1
	; VI-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2			; VI-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2
	; VI-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3			; VI-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3
	; VI-NEXT: v_cndmask_b32_e64 v8, v8, v13, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v12, vcc, v0, v4			; VI-NEXT: v_subrev_u32_e32 v12, vcc, v0, v4
	; VI-NEXT: v_cndmask_b32_e64 v9, v9, v15, s[2:3]			; VI-NEXT: v_cndmask_b32_e64 v8, v8, v13, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v13, vcc, v1, v5			; VI-NEXT: v_subrev_u32_e32 v13, vcc, v1, v5
	; VI-NEXT: v_cndmask_b32_e64 v10, v10, v17, s[4:5]			; VI-NEXT: v_cndmask_b32_e64 v9, v9, v15, s[2:3]
	; VI-NEXT: v_subrev_u32_e32 v14, vcc, v2, v6			; VI-NEXT: v_subrev_u32_e32 v14, vcc, v2, v6
	; VI-NEXT: v_cndmask_b32_e64 v11, v11, v19, s[6:7]			; VI-NEXT: v_cndmask_b32_e64 v10, v10, v17, s[4:5]
	; VI-NEXT: v_subrev_u32_e32 v15, vcc, v3, v7			; VI-NEXT: v_subrev_u32_e32 v15, vcc, v3, v7
				; VI-NEXT: v_cndmask_b32_e64 v11, v11, v19, s[6:7]
	; VI-NEXT: v_cndmask_b32_e64 v4, v4, v12, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v4, v4, v12, s[0:1]
	; VI-NEXT: v_add_u32_e32 v12, vcc, 1, v8			; VI-NEXT: v_add_u32_e32 v12, vcc, 1, v8
	; VI-NEXT: v_cndmask_b32_e64 v5, v5, v13, s[2:3]			; VI-NEXT: v_cndmask_b32_e64 v5, v5, v13, s[2:3]
	; VI-NEXT: v_add_u32_e32 v13, vcc, 1, v9			; VI-NEXT: v_add_u32_e32 v13, vcc, 1, v9
	; VI-NEXT: v_cndmask_b32_e64 v6, v6, v14, s[4:5]			; VI-NEXT: v_cndmask_b32_e64 v6, v6, v14, s[4:5]
	; VI-NEXT: v_add_u32_e32 v14, vcc, 1, v10			; VI-NEXT: v_add_u32_e32 v14, vcc, 1, v10
	; VI-NEXT: v_cndmask_b32_e64 v7, v7, v15, s[6:7]			; VI-NEXT: v_cndmask_b32_e64 v7, v7, v15, s[6:7]
	; VI-NEXT: v_add_u32_e32 v15, vcc, 1, v11			; VI-NEXT: v_add_u32_e32 v15, vcc, 1, v11
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_add_u32_e32 v15, vcc, 1, v10			; GCN-NEXT: v_add_u32_e32 v15, vcc, 1, v10
	; GCN-NEXT: v_add_u32_e32 v17, vcc, 1, v11			; GCN-NEXT: v_add_u32_e32 v17, vcc, 1, v11
	; GCN-NEXT: v_add_u32_e32 v14, vcc, 1, v12			; GCN-NEXT: v_add_u32_e32 v14, vcc, 1, v12
	; GCN-NEXT: v_add_u32_e32 v16, vcc, 1, v13			; GCN-NEXT: v_add_u32_e32 v16, vcc, 1, v13
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1
	; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2			; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2
	; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3			; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3
				; GCN-NEXT: v_subrev_u32_e32 v18, vcc, v0, v4
	; GCN-NEXT: v_cndmask_b32_e64 v10, v10, v15, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v10, v10, v15, s[0:1]
	; GCN-NEXT: v_subrev_u32_e32 v15, vcc, v0, v4			; GCN-NEXT: v_subrev_u32_e32 v15, vcc, v1, v5
	; GCN-NEXT: v_cndmask_b32_e64 v11, v11, v17, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v11, v11, v17, s[2:3]
	; GCN-NEXT: v_subrev_u32_e32 v17, vcc, v1, v5			; GCN-NEXT: v_subrev_u32_e32 v17, vcc, v2, v6
	; GCN-NEXT: v_cndmask_b32_e64 v12, v12, v14, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v12, v12, v14, s[4:5]
	; GCN-NEXT: v_subrev_u32_e32 v14, vcc, v2, v6			; GCN-NEXT: v_subrev_u32_e32 v14, vcc, v3, v7
	; GCN-NEXT: v_cndmask_b32_e64 v13, v13, v16, s[6:7]			; GCN-NEXT: v_cndmask_b32_e64 v13, v13, v16, s[6:7]
	; GCN-NEXT: v_subrev_u32_e32 v16, vcc, v3, v7			; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v18, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v15, s[0:1]			; GCN-NEXT: v_add_u32_e32 v16, vcc, 1, v10
	; GCN-NEXT: v_add_u32_e32 v15, vcc, 1, v10			; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v15, s[2:3]
	; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v17, s[2:3]			; GCN-NEXT: v_add_u32_e32 v15, vcc, 1, v11
	; GCN-NEXT: v_add_u32_e32 v17, vcc, 1, v11			; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v17, s[4:5]
	; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v14, s[4:5]			; GCN-NEXT: v_add_u32_e32 v17, vcc, 1, v12
	; GCN-NEXT: v_add_u32_e32 v14, vcc, 1, v12			; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v14, s[6:7]
	; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v16, s[6:7]			; GCN-NEXT: v_add_u32_e32 v14, vcc, 1, v13
	; GCN-NEXT: v_add_u32_e32 v16, vcc, 1, v13
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v4, v0			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v4, v0
	; GCN-NEXT: v_cndmask_b32_e32 v0, v10, v15, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v10, v16, vcc
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v5, v1			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v5, v1
	; GCN-NEXT: v_cndmask_b32_e32 v1, v11, v17, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v11, v15, vcc
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v6, v2			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v6, v2
	; GCN-NEXT: v_cndmask_b32_e32 v2, v12, v14, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v12, v17, vcc
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v7, v3			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v7, v3
	; GCN-NEXT: v_cndmask_b32_e32 v3, v13, v16, vcc			; GCN-NEXT: v_cndmask_b32_e32 v3, v13, v14, vcc
	; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]			; GCN-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: udiv_v4i32:			; GFX1030-LABEL: udiv_v4i32:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0			; GFX1030-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
	; GFX1030-NEXT: v_mov_b32_e32 v8, 0			; GFX1030-NEXT: v_mov_b32_e32 v8, 0
	; GFX1030-NEXT: s_mov_b32 s0, 0x4f7ffffe			; GFX1030-NEXT: s_mov_b32 s0, 0x4f7ffffe
	; GFX1030-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-NEXT: s_clause 0x1			; GFX1030-NEXT: s_clause 0x1
	; GFX1030-NEXT: global_load_dwordx4 v[0:3], v8, s[6:7] offset:16			; GFX1030-NEXT: global_load_dwordx4 v[0:3], v8, s[6:7] offset:16
	; GFX1030-NEXT: global_load_dwordx4 v[4:7], v8, s[6:7]			; GFX1030-NEXT: global_load_dwordx4 v[4:7], v8, s[6:7]
	; GFX1030-NEXT: s_waitcnt vmcnt(1)			; GFX1030-NEXT: s_waitcnt vmcnt(1)
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v9, v0			; GFX1030-NEXT: v_cvt_f32_u32_e32 v9, v0
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v10, v1			; GFX1030-NEXT: v_cvt_f32_u32_e32 v10, v1
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v11, v2
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v12, v3			; GFX1030-NEXT: v_cvt_f32_u32_e32 v12, v3
				; GFX1030-NEXT: v_cvt_f32_u32_e32 v11, v2
	; GFX1030-NEXT: v_sub_nc_u32_e32 v13, 0, v0			; GFX1030-NEXT: v_sub_nc_u32_e32 v13, 0, v0
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v9, v9			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v9, v9
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v10, v10			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v10, v10
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v11, v11
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v12, v12			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v12, v12
				; GFX1030-NEXT: v_rcp_iflag_f32_e32 v11, v11
	; GFX1030-NEXT: v_sub_nc_u32_e32 v14, 0, v1			; GFX1030-NEXT: v_sub_nc_u32_e32 v14, 0, v1
	; GFX1030-NEXT: v_sub_nc_u32_e32 v15, 0, v2
	; GFX1030-NEXT: v_sub_nc_u32_e32 v16, 0, v3			; GFX1030-NEXT: v_sub_nc_u32_e32 v16, 0, v3
				; GFX1030-NEXT: v_sub_nc_u32_e32 v15, 0, v2
	; GFX1030-NEXT: v_mul_f32_e32 v9, s0, v9			; GFX1030-NEXT: v_mul_f32_e32 v9, s0, v9
	; GFX1030-NEXT: v_mul_f32_e32 v10, s0, v10			; GFX1030-NEXT: v_mul_f32_e32 v10, s0, v10
	; GFX1030-NEXT: v_mul_f32_e32 v11, s0, v11
	; GFX1030-NEXT: v_mul_f32_e32 v12, s0, v12			; GFX1030-NEXT: v_mul_f32_e32 v12, s0, v12
				; GFX1030-NEXT: v_mul_f32_e32 v11, s0, v11
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v9, v9			; GFX1030-NEXT: v_cvt_u32_f32_e32 v9, v9
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v10, v10			; GFX1030-NEXT: v_cvt_u32_f32_e32 v10, v10
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v11, v11
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v12, v12			; GFX1030-NEXT: v_cvt_u32_f32_e32 v12, v12
				; GFX1030-NEXT: v_cvt_u32_f32_e32 v11, v11
	; GFX1030-NEXT: v_mul_lo_u32 v13, v13, v9			; GFX1030-NEXT: v_mul_lo_u32 v13, v13, v9
	; GFX1030-NEXT: v_mul_lo_u32 v14, v14, v10			; GFX1030-NEXT: v_mul_lo_u32 v14, v14, v10
	; GFX1030-NEXT: v_mul_lo_u32 v15, v15, v11
	; GFX1030-NEXT: v_mul_lo_u32 v16, v16, v12			; GFX1030-NEXT: v_mul_lo_u32 v16, v16, v12
				; GFX1030-NEXT: v_mul_lo_u32 v15, v15, v11
	; GFX1030-NEXT: v_mul_hi_u32 v13, v9, v13			; GFX1030-NEXT: v_mul_hi_u32 v13, v9, v13
	; GFX1030-NEXT: v_mul_hi_u32 v14, v10, v14			; GFX1030-NEXT: v_mul_hi_u32 v14, v10, v14
	; GFX1030-NEXT: v_mul_hi_u32 v15, v11, v15
	; GFX1030-NEXT: v_mul_hi_u32 v16, v12, v16			; GFX1030-NEXT: v_mul_hi_u32 v16, v12, v16
				; GFX1030-NEXT: v_mul_hi_u32 v15, v11, v15
	; GFX1030-NEXT: v_add_nc_u32_e32 v9, v9, v13			; GFX1030-NEXT: v_add_nc_u32_e32 v9, v9, v13
	; GFX1030-NEXT: v_add_nc_u32_e32 v10, v10, v14			; GFX1030-NEXT: v_add_nc_u32_e32 v10, v10, v14
	; GFX1030-NEXT: v_add_nc_u32_e32 v11, v11, v15
	; GFX1030-NEXT: v_add_nc_u32_e32 v12, v12, v16			; GFX1030-NEXT: v_add_nc_u32_e32 v12, v12, v16
				; GFX1030-NEXT: v_add_nc_u32_e32 v11, v11, v15
	; GFX1030-NEXT: s_waitcnt vmcnt(0)			; GFX1030-NEXT: s_waitcnt vmcnt(0)
	; GFX1030-NEXT: v_mul_hi_u32 v9, v4, v9			; GFX1030-NEXT: v_mul_hi_u32 v9, v4, v9
	; GFX1030-NEXT: v_mul_hi_u32 v10, v5, v10			; GFX1030-NEXT: v_mul_hi_u32 v10, v5, v10
	; GFX1030-NEXT: v_mul_hi_u32 v11, v6, v11
	; GFX1030-NEXT: v_mul_hi_u32 v12, v7, v12			; GFX1030-NEXT: v_mul_hi_u32 v12, v7, v12
				; GFX1030-NEXT: v_mul_hi_u32 v11, v6, v11
	; GFX1030-NEXT: v_mul_lo_u32 v13, v9, v0			; GFX1030-NEXT: v_mul_lo_u32 v13, v9, v0
	; GFX1030-NEXT: v_mul_lo_u32 v14, v10, v1			; GFX1030-NEXT: v_mul_lo_u32 v14, v10, v1
	; GFX1030-NEXT: v_mul_lo_u32 v15, v11, v2
	; GFX1030-NEXT: v_mul_lo_u32 v16, v12, v3			; GFX1030-NEXT: v_mul_lo_u32 v16, v12, v3
				; GFX1030-NEXT: v_mul_lo_u32 v15, v11, v2
	; GFX1030-NEXT: v_add_nc_u32_e32 v17, 1, v9			; GFX1030-NEXT: v_add_nc_u32_e32 v17, 1, v9
	; GFX1030-NEXT: v_add_nc_u32_e32 v18, 1, v10			; GFX1030-NEXT: v_add_nc_u32_e32 v18, 1, v10
	; GFX1030-NEXT: v_add_nc_u32_e32 v19, 1, v11			; GFX1030-NEXT: v_add_nc_u32_e32 v19, 1, v11
	; GFX1030-NEXT: v_sub_nc_u32_e32 v4, v4, v13			; GFX1030-NEXT: v_sub_nc_u32_e32 v4, v4, v13
	; GFX1030-NEXT: v_sub_nc_u32_e32 v5, v5, v14			; GFX1030-NEXT: v_sub_nc_u32_e32 v5, v5, v14
	; GFX1030-NEXT: v_sub_nc_u32_e32 v6, v6, v15
	; GFX1030-NEXT: v_sub_nc_u32_e32 v7, v7, v16			; GFX1030-NEXT: v_sub_nc_u32_e32 v7, v7, v16
	; GFX1030-NEXT: v_add_nc_u32_e32 v13, 1, v12			; GFX1030-NEXT: v_add_nc_u32_e32 v13, 1, v12
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v4, v0			; GFX1030-NEXT: v_sub_nc_u32_e32 v6, v6, v15
	; GFX1030-NEXT: v_sub_nc_u32_e32 v14, v4, v0			; GFX1030-NEXT: v_sub_nc_u32_e32 v14, v4, v0
	; GFX1030-NEXT: v_cmp_ge_u32_e64 s0, v5, v1			; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v4, v0
	; GFX1030-NEXT: v_sub_nc_u32_e32 v15, v5, v1			; GFX1030-NEXT: v_sub_nc_u32_e32 v15, v5, v1
	; GFX1030-NEXT: v_cmp_ge_u32_e64 s1, v6, v2			; GFX1030-NEXT: v_cmp_ge_u32_e64 s0, v5, v1
				; GFX1030-NEXT: v_cmp_ge_u32_e64 s2, v7, v3
				; GFX1030-NEXT: v_sub_nc_u32_e32 v16, v6, v2
	; GFX1030-NEXT: v_cndmask_b32_e32 v9, v9, v17, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v9, v9, v17, vcc_lo
	; GFX1030-NEXT: v_cndmask_b32_e32 v4, v4, v14, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v4, v4, v14, vcc_lo
	; GFX1030-NEXT: v_cndmask_b32_e64 v10, v10, v18, s0			; GFX1030-NEXT: v_cndmask_b32_e64 v10, v10, v18, s0
	; GFX1030-NEXT: v_sub_nc_u32_e32 v16, v6, v2			; GFX1030-NEXT: v_cmp_ge_u32_e64 s1, v6, v2
	; GFX1030-NEXT: v_cmp_ge_u32_e64 s2, v7, v3			; GFX1030-NEXT: v_cndmask_b32_e64 v12, v12, v13, s2
	; GFX1030-NEXT: v_add_nc_u32_e32 v14, 1, v9			; GFX1030-NEXT: v_add_nc_u32_e32 v13, 1, v9
	; GFX1030-NEXT: v_cndmask_b32_e64 v5, v5, v15, s0			; GFX1030-NEXT: v_cndmask_b32_e64 v5, v5, v15, s0
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v4, v0			; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v4, v0
	; GFX1030-NEXT: v_cndmask_b32_e64 v11, v11, v19, s1			; GFX1030-NEXT: v_cndmask_b32_e64 v11, v11, v19, s1
	; GFX1030-NEXT: v_cndmask_b32_e64 v12, v12, v13, s2			; GFX1030-NEXT: v_sub_nc_u32_e32 v17, v7, v3
	; GFX1030-NEXT: v_sub_nc_u32_e32 v13, v7, v3			; GFX1030-NEXT: v_add_nc_u32_e32 v14, 1, v10
	; GFX1030-NEXT: v_add_nc_u32_e32 v15, 1, v10
	; GFX1030-NEXT: v_cndmask_b32_e64 v6, v6, v16, s1			; GFX1030-NEXT: v_cndmask_b32_e64 v6, v6, v16, s1
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v9, v14, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v0, v9, v13, vcc_lo
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v5, v1			; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v5, v1
	; GFX1030-NEXT: v_add_nc_u32_e32 v16, 1, v11			; GFX1030-NEXT: v_add_nc_u32_e32 v15, 1, v11
	; GFX1030-NEXT: v_cndmask_b32_e64 v7, v7, v13, s2			; GFX1030-NEXT: v_cndmask_b32_e64 v7, v7, v17, s2
	; GFX1030-NEXT: v_add_nc_u32_e32 v13, 1, v12			; GFX1030-NEXT: v_add_nc_u32_e32 v16, 1, v12
	; GFX1030-NEXT: v_cndmask_b32_e32 v1, v10, v15, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v1, v10, v14, vcc_lo
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v6, v2			; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v6, v2
	; GFX1030-NEXT: v_cndmask_b32_e32 v2, v11, v16, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v2, v11, v15, vcc_lo
	; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v7, v3			; GFX1030-NEXT: v_cmp_ge_u32_e32 vcc_lo, v7, v3
	; GFX1030-NEXT: v_cndmask_b32_e32 v3, v12, v13, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v3, v12, v16, vcc_lo
	; GFX1030-NEXT: global_store_dwordx4 v8, v[0:3], s[4:5]			; GFX1030-NEXT: global_store_dwordx4 v8, v[0:3], s[4:5]
	; GFX1030-NEXT: s_endpgm			; GFX1030-NEXT: s_endpgm
	;			;
	; EG-LABEL: udiv_v4i32:			; EG-LABEL: udiv_v4i32:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @10, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @10, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 1 @6			; EG-NEXT: TEX 1 @6
	; EG-NEXT: ALU 65, @11, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 65, @11, KC0[CB0:0-32], KC1[]
	▲ Show 20 Lines • Show All 918 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_cvt_u32_f32_e32 v1, v1			; VI-NEXT: v_cvt_u32_f32_e32 v1, v1
	; VI-NEXT: v_mul_lo_u32 v4, v4, v1			; VI-NEXT: v_mul_lo_u32 v4, v4, v1
	; VI-NEXT: v_mul_hi_u32 v4, v1, v4			; VI-NEXT: v_mul_hi_u32 v4, v1, v4
	; VI-NEXT: v_add_u32_e32 v1, vcc, v4, v1			; VI-NEXT: v_add_u32_e32 v1, vcc, v4, v1
	; VI-NEXT: v_mul_hi_u32 v1, v2, v1			; VI-NEXT: v_mul_hi_u32 v1, v2, v1
	; VI-NEXT: v_mul_lo_u32 v3, v1, v0			; VI-NEXT: v_mul_lo_u32 v3, v1, v0
	; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v1			; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v1
	; VI-NEXT: v_subrev_u32_e32 v2, vcc, v3, v2			; VI-NEXT: v_subrev_u32_e32 v2, vcc, v3, v2
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v2, v0
	; VI-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v3, vcc, v0, v2			; VI-NEXT: v_subrev_u32_e32 v3, vcc, v0, v2
	; VI-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
				; VI-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
				; VI-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; VI-NEXT: v_add_u32_e32 v3, vcc, 1, v1			; VI-NEXT: v_add_u32_e32 v3, vcc, 1, v1
	; VI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
	; VI-NEXT: v_cndmask_b32_e32 v0, v1, v3, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v1, v3, vcc
	; VI-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; VI-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GCN-LABEL: v_udiv_i24:			; GCN-LABEL: v_udiv_i24:
	Show All 35 Lines
	; GCN-NEXT: v_mul_hi_u32 v4, v1, v4			; GCN-NEXT: v_mul_hi_u32 v4, v1, v4
	; GCN-NEXT: v_add_u32_e32 v0, vcc, v4, v1			; GCN-NEXT: v_add_u32_e32 v0, vcc, v4, v1
	; GCN-NEXT: v_mul_hi_u32 v4, v2, v0			; GCN-NEXT: v_mul_hi_u32 v4, v2, v0
	; GCN-NEXT: v_mov_b32_e32 v0, s0			; GCN-NEXT: v_mov_b32_e32 v0, s0
	; GCN-NEXT: v_mov_b32_e32 v1, s1			; GCN-NEXT: v_mov_b32_e32 v1, s1
	; GCN-NEXT: v_mul_lo_u32 v5, v4, v3			; GCN-NEXT: v_mul_lo_u32 v5, v4, v3
	; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; GCN-NEXT: v_subrev_u32_e32 v2, vcc, v5, v2			; GCN-NEXT: v_subrev_u32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v2, v3
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[0:1]
	; GCN-NEXT: v_subrev_u32_e32 v5, vcc, v3, v2			; GCN-NEXT: v_subrev_u32_e32 v5, vcc, v3, v2
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v3
				; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
				; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GCN-NEXT: v_add_u32_e32 v5, vcc, 1, v4			; GCN-NEXT: v_add_u32_e32 v5, vcc, 1, v4
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v3			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v3
	; GCN-NEXT: v_cndmask_b32_e32 v2, v4, v5, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v4, v5, vcc
	; GCN-NEXT: v_and_b32_e32 v2, 0xffffff, v2			; GCN-NEXT: v_and_b32_e32 v2, 0xffffff, v2
	; GCN-NEXT: flat_store_dword v[0:1], v2			; GCN-NEXT: flat_store_dword v[0:1], v2
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: v_udiv_i24:			; GFX1030-LABEL: v_udiv_i24:
	▲ Show 20 Lines • Show All 870 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/udivrem.ll

	Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v1, v2, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, v1, v2, s[0:1]
	; GFX6-NEXT: buffer_store_dword v0, off, s[8:11], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[8:11], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_udivrem:			; GFX8-LABEL: test_udivrem:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dword s6, s[0:1], 0x98			; GFX8-NEXT: s_load_dword s4, s[0:1], 0x98
	; GFX8-NEXT: s_load_dword s7, s[0:1], 0x74			; GFX8-NEXT: s_load_dword s5, s[0:1], 0x74
	; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x4c
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s4
	; GFX8-NEXT: s_sub_i32 s2, 0, s6			; GFX8-NEXT: s_sub_i32 s2, 0, s4
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX8-NEXT: v_mul_lo_u32 v1, s2, v0			; GFX8-NEXT: v_mul_lo_u32 v1, s2, v0
	; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x4c
	; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; GFX8-NEXT: v_mul_hi_u32 v2, s7, v0			; GFX8-NEXT: v_mul_hi_u32 v2, s5, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_mul_lo_u32 v3, v2, s6			; GFX8-NEXT: v_mul_lo_u32 v3, v2, s4
	; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2			; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2
	; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s7, v3			; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s5, v3
	; GFX8-NEXT: v_cmp_le_u32_e64 s[0:1], s6, v3			; GFX8-NEXT: v_subrev_u32_e32 v5, vcc, s4, v3
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s4, v3
	; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s6, v3			; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2			; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2
	; GFX8-NEXT: v_cmp_le_u32_e64 s[0:1], s6, v3			; GFX8-NEXT: v_subrev_u32_e32 v5, vcc, s4, v3
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s4, v3
	; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s6, v3			; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: v_mov_b32_e32 v0, s4			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v3, v4, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e32 v2, v3, v5, vcc
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	%result0 = udiv i32 %x, %y			%result0 = udiv i32 %x, %y
	store i32 %result0, i32 addrspace(1)* %out0			store i32 %result0, i32 addrspace(1)* %out0
	%result1 = urem i32 %x, %y			%result1 = urem i32 %x, %y
	store i32 %result1, i32 addrspace(1)* %out1			store i32 %result1, i32 addrspace(1)* %out1
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 366 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Remove hasOneUse check from scalar select patternAbandonedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 426675

llvm/lib/Target/AMDGPU/SOPInstructions.td

llvm/test/CodeGen/AMDGPU/addrspacecast.ll

llvm/test/CodeGen/AMDGPU/agpr-copy-no-free-registers.ll

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

llvm/test/CodeGen/AMDGPU/dagcombine-select.ll

llvm/test/CodeGen/AMDGPU/extract_vector_dynelt.ll

llvm/test/CodeGen/AMDGPU/extract_vector_elt-f64.ll

llvm/test/CodeGen/AMDGPU/extract_vector_elt-i64.ll

llvm/test/CodeGen/AMDGPU/idiv-licm.ll

llvm/test/CodeGen/AMDGPU/implicit-kernarg-backend-usage.ll

llvm/test/CodeGen/AMDGPU/indirect-call-known-callees.ll

llvm/test/CodeGen/AMDGPU/insert_vector_dynelt.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

llvm/test/CodeGen/AMDGPU/llvm.mulo.ll

llvm/test/CodeGen/AMDGPU/load-select-ptr.ll

llvm/test/CodeGen/AMDGPU/sdiv.ll

llvm/test/CodeGen/AMDGPU/select-vectors.ll

llvm/test/CodeGen/AMDGPU/select64.ll

llvm/test/CodeGen/AMDGPU/selectcc.ll

llvm/test/CodeGen/AMDGPU/udiv.ll

llvm/test/CodeGen/AMDGPU/udivrem.ll

[AMDGPU] Remove hasOneUse check from scalar select pattern
AbandonedPublic