This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
12/51
AMDGPUAtomicOptimizer.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
atomic_optimizations_mul_one.ll
-
global-atomic-fadd.f32-no-rtn.ll
-
global-atomic-fadd.f32-rtn.ll
-
atomic_optimizations_local_pointer.ll
-
atomics-hw-remarks-gfx90a.ll
-
global-atomic-fadd.f32-no-rtn.ll
-
global-atomic-fadd.f32-rtn.ll
-
global-atomic-scan.ll
-
global-atomics-fp-wrong-subtarget.ll
-
global-atomics-fp.ll
-
global_atomic_optimizer_fp_rtn.ll
-
global_atomics_iterative_scan.ll
3/5
global_atomics_iterative_scan_fp.ll
-
global_atomics_optimizer_fp_no_rtn.ll
-
global_atomics_scan_fadd.ll
-
llvm.amdgcn.atomic.fadd.ll
-
local-atomics-fp.ll

Differential D156301

[AMDGPU] Support FAdd/FSub global atomics in AMDGPUAtomicOptimizer.
ClosedPublic

Authored by pravinjagtap on Jul 26 2023, 1:45 AM.

Download Raw Diff

Details

Reviewers

arsenm
foad
b-sumner
ruiling
cdevadas

Group Reviewers

Restricted Project

Commits

rGf09360d20d41: [AMDGPU] Support FAdd/FSub global atomics in AMDGPUAtomicOptimizer.

Summary

Reduction and Scan are implemented using Iterative
and DPP strategy for float type.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

pravinjagtap created this revision.Jul 26 2023, 1:45 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 26 2023, 1:45 AM

Herald added subscribers: foad, kerbowa, hiraditya and 5 others. · View Herald Transcript

pravinjagtap requested review of this revision.Jul 26 2023, 1:45 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 26 2023, 1:45 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

pravinjagtap edited the summary of this revision. (Show Details)Jul 26 2023, 1:54 AM

pravinjagtap added reviewers: foad, b-sumner.

Herald added a subscriber: StephenFan. · View Herald TranscriptJul 26 2023, 1:54 AM

pravinjagtap added a reviewer: ruiling.Jul 26 2023, 2:17 AM

Harbormaster completed remote builds in B248189: Diff 544260.Jul 26 2023, 6:36 AM

the fmin/fmax case and fadd/fsub cases have nothing to do with each other, you're probably better off handling them in separate patches

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
140	AtomicRMWInst already has isFloatingPointOperation/isFPOperation for this, which also picks up fsub
207	Should also handle fsub
380	you can't do it like this, you should use minnum/maxnum intrinsics
637	This would be +infinity for fmax. For fadd you there isn't really an identity value since fadd -0, 0 -> -0. You probably can't do this without nsz, which we don't have a way of representing. I have a draft patch for unsafe FP atomic metadata I don't have time to pick up.
639	This would be -infinity
810	I don't follow how this can be a convert and multiply

arsenm added inline comments.Jul 26 2023, 7:11 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
637	For fadd you can use -0 as the identify value. For fsub I think 0 works: Check instcombine: define float @fsub_fold(float %x) { %add = fsub float %x, 0.0 ret float %add } define float @fadd_fold_n0(float %x) { %add = fadd float %x, -0.0 ret float %add } This is of course ignoring signaling nan quieting and denormal flushes

foad added inline comments.Jul 27 2023, 3:01 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
639	No, the identity should be +inf for fmin and -inf for fmax.

Spitting the Support of Floating Point Ops into two seperate patches.

pravinjagtap retitled this revision from [WIP] Support FP global atomics in AMDGPUAtomicOptimizer. to [WIP] Support FAdd/FSub global atomics in AMDGPUAtomicOptimizer..Jul 28 2023, 11:01 AM

pravinjagtap edited the summary of this revision. (Show Details)

arsenm added inline comments.Jul 28 2023, 11:29 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
213	I think this is a bad interpretation of the strategy option. Doing nothing just because you wanted something else is worse than just using an implemented path. Also you can just implement this with dpp?
317	Doesn't consider half Should also handle <2 x half>, but atomicrmw doesn't support vectors now (you need the intrinsics for those)
605	You shouldn't need a cast after D147732

arsenm added inline comments.Jul 28 2023, 11:51 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
820	These belong with the other patch

Harbormaster completed remote builds in B248893: Diff 545226.Jul 28 2023, 11:54 AM

pravinjagtap added inline comments.Jul 28 2023, 9:05 PM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
213	Also you can just implement this with dpp? If I understand correctly, current dpp intrinsics that we need for reduction & scan(`llvm.amdgcn.update.dpp`) can return only `integer` types (accepts inputs with any types). @foad Is it possible to extend current dpp implementation for float types as well ?

pravinjagtap added inline comments.Jul 28 2023, 9:13 PM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
213	Also you can just implement this with dpp? If I understand correctly, current dpp intrinsics that we need for reduction & scan(`llvm.amdgcn.update.dpp`) can return only `integer` types (accepts inputs with any types). I am wrong, this intrinsic is lowered to V_MOV_B32_dpp when matched with i32 types. I think, we should be able to implement dpp for floats with bitcasts noise.

pravinjagtap added inline comments.Jul 29 2023, 11:56 PM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp

213

I am able to generate functionally correct code for scan with DPP strategy but it needs lot of bitcast mess for llvm.amdgcn.set.inactive.i32 and lvm.amdgcn.update.dpp.i32. Is there any better way of doing this ?

%16 = bitcast float %9 to i32
%17 = call i32 @llvm.amdgcn.set.inactive.i32(i32 %16, i32 0)
%18 = bitcast i32 %17 to float
%19 = bitcast i32 %16 to float
%20 = bitcast float %18 to i32
%21 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %20, i32 273, i32 15, i32 15, i1 false)
%22 = bitcast i32 %21 to float
%23 = bitcast i32 %20 to float
%24 = fadd float %23, %22
%25 = bitcast float %24 to i32
%26 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %25, i32 274, i32 15, i32 15, i1 false)
%27 = bitcast i32 %26 to float
%28 = bitcast i32 %25 to float
%29 = fadd float %28, %27
%30 = bitcast float %29 to i32
%31 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %30, i32 276, i32 15, i32 15, i1 false)
%32 = bitcast i32 %31 to float
%33 = bitcast i32 %30 to float
%34 = fadd float %33, %32
%35 = bitcast float %34 to i32
%36 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %35, i32 280, i32 15, i32 15, i1 false)
%37 = bitcast i32 %36 to float
%38 = bitcast i32 %35 to float
%39 = fadd float %38, %37
%40 = bitcast float %39 to i32
%41 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %40, i32 322, i32 10, i32 15, i1 false)
%42 = bitcast i32 %41 to float
%43 = bitcast i32 %40 to float
%44 = fadd float %43, %42
%45 = bitcast float %44 to i32
%46 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %45, i32 323, i32 12, i32 15, i1 false)
%47 = bitcast i32 %46 to float
%48 = bitcast i32 %45 to float
%49 = fadd float %48, %47
%50 = bitcast float %49 to i32
%51 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %50, i32 312, i32 15, i32 15, i1 false)
%52 = bitcast i32 %51 to float
%53 = bitcast float %49 to i32
%54 = call i32 @llvm.amdgcn.readlane(i32 %53, i32 63)
%55 = bitcast i32 %54 to float
%56 = call float @llvm.amdgcn.strict.wwm.f32(float %55)

pravinjagtap mentioned this in D156647: [AMDGPU] Extend f32 support for llvm.amdgcn.update.dpp intrinsic.Jul 31 2023, 12:07 AM

pravinjagtap added inline comments.Jul 31 2023, 2:32 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
317	Doesn't consider half Appears that `_Float16` is not supported for atomics in HIP: https://cuda.godbolt.org/z/Gf7so4Y9K

arsenm added inline comments.Jul 31 2023, 5:26 PM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
317	Doesn't matter, the IR does. You should select the types you do handle, not try to exclude ones you don't

Supported float type for Atomic Ops in Atomic Optimizer for DPP strategy.
This mostly requires the bitcasting noise before and after:

amdgcn.set.inactive
amdgcn.update.dpp
amdgcn.readlane
amdgcn.writelane
amdgcn.permlanex16
amdgcn.permlanex64

We can get rid of this noise after D147732 and D156647.

pravinjagtap added inline comments.Aug 2 2023, 1:33 AM

llvm/test/CodeGen/AMDGPU/global_atomics_iterative_scan_fp.ll
146	This & next test points are already covered above. Will remove this.

Harbormaster completed remote builds in B249689: Diff 546342.Aug 2 2023, 2:31 AM

pravinjagtap updated this revision to Diff 546403.Aug 2 2023, 4:12 AM

Fixed/updated lit tests

pravinjagtap edited the summary of this revision. (Show Details)Aug 2 2023, 4:13 AM

Harbormaster completed remote builds in B249728: Diff 546403.Aug 2 2023, 7:04 AM

pravinjagtap retitled this revision from [WIP] Support FAdd/FSub global atomics in AMDGPUAtomicOptimizer. to [AMDGPU] Support FAdd/FSub global atomics in AMDGPUAtomicOptimizer..Aug 2 2023, 8:18 PM

pravinjagtap edited the summary of this revision. (Show Details)

pravinjagtap added a reviewer: cdevadas.

cdevadas added inline comments.Aug 2 2023, 8:36 PM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
607	You could use the ternary operator to initialize them.

pravinjagtap added inline comments.Aug 2 2023, 9:11 PM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
607	You could use the ternary operator to initialize them. Wherever there are two bit-cast statements, I have used if loop and ternary operator for single bit-cast statement. I will update this to ternary at all places.

pravinjagtap added a child revision: D157265: [AMDGPU] Reorder atomic optimizer to avoid CAS loop..Aug 7 2023, 2:43 AM

pravinjagtap added a reviewer: Restricted Project.Aug 7 2023, 7:44 AM

arsenm added inline comments.Aug 10 2023, 2:49 PM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
316	The intrinsics should just be deleted, everything should move to atomicrmw
419–423	You can just unconditionally call CreateBitCast, it's a no-op if the type matches anyway
637	Identity value for fadd is -0, you got these backwards
639	identity for fsub is +0, so no true
736–740	Can you just make getIdentityValueForAtomicOp return a Constant? Or add a variant that does?

Addressed review comments

foad added inline comments.Aug 11 2023, 2:26 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
78	No need to pass in isAtomicFloatingPointTy to all these functions. It is just V->getType()->isFloatingPointTy().
315	Don't need to change this
631–634	You can derive C from Ty, and BitWidth from Ty, so the arguments should just be: `AtomicRMWInst::BinOp Op, Type *Ty`
810	In general fmul will not give the exact same answer as a sequence of fadds, so you probably need to check some fast math flags before doing this.

Harbormaster completed remote builds in B251878: Diff 549294.Aug 11 2023, 3:43 AM

Code clean up..

pravinjagtap added inline comments.Aug 11 2023, 4:41 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
636	Is it safe to get BitWidth like this ? We dont need this for `float` types

foad added inline comments.Aug 11 2023, 4:57 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
636	Simpler to call Ty->getPrimitiveSizeInBits() unconditionally.
731–732	Might be clearer as: `Mbcnt = isAtomicFloatingPointTy ? B.CreateUIToFP(Mbcnt, Ty) : B.CreateIntCast(Mbcnt, Ty, false);` (instead of doing the fp cast on line 996) since in both cases we want to convert Mbcnt to type Ty.

foad added inline comments.Aug 11 2023, 4:59 AM

llvm/test/CodeGen/AMDGPU/local-atomics-fp.ll
250–1	Please pre-commit the conversion to generated checks
llvm/test/CodeGen/AMDGPU/shl_add_ptr_global.ll
1 ↗	(On Diff #549344)	Please pre-commit the conversion to generated checks

pravinjagtap added inline comments.Aug 11 2023, 5:46 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
731–732	If we convert `Mbcnt` to `float` here, Integer comparison will fail at line no 869

foad added inline comments.Aug 11 2023, 6:00 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
731–732	Then I suggest moving the casts (both int and fp cases) down to line 976. Currently, for a 64-bit integer atomic, we will case mbcnt to i64 here, so the comparison on line 869 will be an i64 comparison. That is silly. There is no need for the comparison to be wider than i32.

Harbormaster completed remote builds in B251924: Diff 549344.Aug 11 2023, 6:53 AM

addressed reveiw comments.

pravinjagtap added inline comments.Aug 11 2023, 7:10 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
837	I hope, this stops 64 bit comparisons for 64 bit atomic values. Please check effect of this in `llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll`

foad added inline comments.Aug 11 2023, 7:16 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
837	I don't actually see any 64-bit cmp instructions in that test, even before your patch. I guess we already managed to shrink them back to 32-bit comparisons.

pravinjagtap added inline comments.Aug 11 2023, 7:30 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
837	Having 32-bit comparison here for all the cases (int, long, float, wavefront size 32/64) is fine right ? Or do I need to revert this change?

foad added inline comments.Aug 11 2023, 7:42 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
837	It is fine. We are talking about the `laneid == 0` comparison, which should always be 32-bit even for a 64-bit atomic, since the laneid is just a small integer in the range 0..63.

Harbormaster completed remote builds in B251951: Diff 549380.Aug 11 2023, 9:07 AM

arsenm added inline comments.Aug 11 2023, 9:20 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
78	This is wrong in the case of FP typed xchg, which the pass just happens to not handle

foad added inline comments.Aug 15 2023, 2:23 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
392–393	Simplify this, here and in other functions
527	Do these bitcasts unconditionally, here and below.

Added unconditional bitcasts. Also, code clean up

Harbormaster completed remote builds in B252880: Diff 550656.Aug 16 2023, 5:16 AM

pravinjagtap removed a child revision: D157265: [AMDGPU] Reorder atomic optimizer to avoid CAS loop..Aug 17 2023, 5:24 AM

Rebased

Harbormaster completed remote builds in B253200: Diff 551104.Aug 17 2023, 6:38 AM

pravinjagtap mentioned this in rGaf5fd142d352: [AMDGPU] Extend f32 support for llvm.amdgcn.update.dpp intrinsic.Aug 17 2023, 7:45 AM

pravinjagtap added a child revision: D157265: [AMDGPU] Reorder atomic optimizer to avoid CAS loop..Aug 17 2023, 8:08 AM

pravinjagtap added a parent revision: D157712: [AMDGPU] Autogenerate & pre-commit tests for D156301 and D157388.Aug 17 2023, 10:54 PM

Rebased

Harbormaster completed remote builds in B253401: Diff 551392.Aug 18 2023, 1:07 AM

arsenm added inline comments.Aug 18 2023, 5:41 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
402	Do you want to switch to the float overloads for the DPP intrinsic here or in a follow up?

pravinjagtap added inline comments.Aug 18 2023, 6:04 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
402	I would prefer in follow up patch.

pravinjagtap mentioned this in rGc931f2e6fd0c: [AMDGPU] Autogenerate & pre-commit tests for D156301 and D157388.Aug 18 2023, 6:51 AM

Switched to the float overloads for the DPP intrinsic

Harbormaster completed remote builds in B254056: Diff 552309.Aug 22 2023, 5:26 AM

pravinjagtap added a parent revision: D156647: [AMDGPU] Extend f32 support for llvm.amdgcn.update.dpp intrinsic.Aug 22 2023, 9:07 PM

ping.

Missing IR check lines? I thought you added some in a previous diff

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
355	Can you use B.CreateFAdd instead of the low level CreateBinOp? You'll need that to handle strictfp correctly
358–359	Ditto
808–810	We don't have fast math flags on atomics, but you would need to expand to the add sequence without some kind of reassociate flag

In D156301#4612013, @arsenm wrote:

Missing IR check lines? I thought you added some in a previous diff

IR checks have been added in files:

llvm/test/CodeGen/AMDGPU/global_atomics_optimizer_fp_no_rtn.ll
llvm/test/CodeGen/AMDGPU/global_atomic_optimizer_fp_rtn.ll

Fixed the strictfp handling

pravinjagtap mentioned this in D157265: [AMDGPU] Reorder atomic optimizer to avoid CAS loop..Aug 23 2023, 9:13 PM

pravinjagtap added inline comments.Aug 23 2023, 9:31 PM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
808–810	If the logic of `no-of-active-lanes * uniform float value` is not valid here for uniform value case, then can we use the logic implemented in `buildScanIteratively` for divergent values (even if the input value is uniform in atomics). Or, we want sequence of additions avoiding the loop (branch instructions) that we have in `buildScanIteratively`. We also need to write back this intermediate values of sequence of additions if results is needed later in the kernel.

Harbormaster completed remote builds in B254525: Diff 552974.Aug 23 2023, 9:35 PM

pravinjagtap added inline comments.Aug 23 2023, 10:12 PM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
808–810	CC: @b-sumner @foad

arsenm accepted this revision.Aug 29 2023, 4:12 PM

arsenm added inline comments.

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
808–810	I suppose this is fine. You didn't have any adding order guarantee before

This revision is now accepted and ready to land.Aug 29 2023, 4:12 PM

Addressed reveiw comment: trunc instead of bitcast

Harbormaster completed remote builds in B255739: Diff 554641.Aug 30 2023, 5:28 AM

Closed by commit rGf09360d20d41: [AMDGPU] Support FAdd/FSub global atomics in AMDGPUAtomicOptimizer. (authored by pravinjagtap). · Explain WhyAug 30 2023, 8:58 AM

This revision was automatically updated to reflect the committed changes.

pravinjagtap added a commit: rGf09360d20d41: [AMDGPU] Support FAdd/FSub global atomics in AMDGPUAtomicOptimizer..

foad added inline comments.Sep 12 2023, 3:06 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
651–654	These are the wrong way round. You want +0 for fadd and -0 for fsub.

arsenm added inline comments.Sep 12 2023, 3:12 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
651–654	No? This was wrong before and corrected. InstCombine uses -0 as fadd identity and +0 as fsub identity

foad added inline comments.Sep 12 2023, 3:16 AM

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
651–654	Oh yeah, you're right. Sorry for the noise.

foad added inline comments.Sep 12 2023, 3:23 AM

llvm/test/CodeGen/AMDGPU/global_atomics_iterative_scan_fp.ll
172–241	This fsub code does not look right (both strategies). First you do an fsub-reduction, and then you do an atomic fsub of the reduced value. That is like a double negative - you will end up adding the values to the memory location. I think you need to do an fadd reduction followed by an atomic fsub, or vice versa. Have you run any conformance tests that exercise this code?

pravinjagtap added inline comments.Sep 12 2023, 4:04 AM

llvm/test/CodeGen/AMDGPU/global_atomics_iterative_scan_fp.ll
172–241	This holds true for integer sub also right? I have ran psdb and gfx pipeline which runs some conformance tests. I will take closer look to see test coverage required to exercise this.

pravinjagtap added inline comments.Sep 12 2023, 4:44 AM

llvm/test/CodeGen/AMDGPU/global_atomics_iterative_scan_fp.ll
172–241	This did not get caught because atomic `fsub` is transformed to `fadd` before we reach atomic-optimizer: https://cuda.godbolt.org/z/56ToP79Pb

foad added inline comments.Sep 12 2023, 5:05 AM

llvm/test/CodeGen/AMDGPU/global_atomics_iterative_scan_fp.ll
172–241	For integer sub this is already handled by: const AtomicRMWInst::BinOp ScanOp = Op == AtomicRMWInst::Sub ? AtomicRMWInst::Add : Op;

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPUAtomicOptimizer.cpp

204 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

atomic_optimizations_mul_one.ll

194 lines

global-atomic-fadd.f32-no-rtn.ll

96 lines

global-atomic-fadd.f32-rtn.ll

101 lines

atomic_optimizations_local_pointer.ll

240 lines

atomics-hw-remarks-gfx90a.ll

16 lines

global-atomic-fadd.f32-no-rtn.ll

85 lines

global-atomic-fadd.f32-rtn.ll

94 lines

global-atomic-scan.ll

408 lines

global-atomics-fp-wrong-subtarget.ll

16 lines

global-atomics-fp.ll

212 lines

global_atomic_optimizer_fp_rtn.ll

640 lines

global_atomics_iterative_scan.ll

16 lines

global_atomics_iterative_scan_fp.ll

249 lines

global_atomics_optimizer_fp_no_rtn.ll

468 lines

global_atomics_scan_fadd.ll

732 lines

llvm.amdgcn.atomic.fadd.ll

4 lines

local-atomics-fp.ll

322 lines

Diff 554745

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp

Show First 20 Lines • Show All 69 Lines • ▼ Show 20 Lines private:

const UniformityInfo *UA; const UniformityInfo *UA;

const DataLayout *DL; const DataLayout *DL;

DomTreeUpdater &DTU; DomTreeUpdater &DTU;

const GCNSubtarget *ST; const GCNSubtarget *ST;

bool IsPixelShader; bool IsPixelShader;

ScanOptions ScanImpl; ScanOptions ScanImpl;

Value *buildReduction(IRBuilder<> &B, AtomicRMWInst::BinOp Op, Value *V, Value *buildReduction(IRBuilder<> &B, AtomicRMWInst::BinOp Op, Value *V,

Value *const Identity) const; Value *const Identity) const;

foadUnsubmitted

Not Done

No need to pass in isAtomicFloatingPointTy to all these functions. It is just V->getType()->isFloatingPointTy().

foad: No need to pass in isAtomicFloatingPointTy to all these functions. It is just V->getType()…

arsenmUnsubmitted

Not Done

This is wrong in the case of FP typed xchg, which the pass just happens to not handle

arsenm: This is wrong in the case of FP typed xchg, which the pass just happens to not handle

Value *buildScan(IRBuilder<> &B, AtomicRMWInst::BinOp Op, Value *V, Value *buildScan(IRBuilder<> &B, AtomicRMWInst::BinOp Op, Value *V,

Value *const Identity) const; Value *const Identity) const;

Value *buildShiftRight(IRBuilder<> &B, Value *V, Value *const Identity) const; Value *buildShiftRight(IRBuilder<> &B, Value *V, Value *const Identity) const;

std::pair<Value *, Value *> std::pair<Value *, Value *>

buildScanIteratively(IRBuilder<> &B, AtomicRMWInst::BinOp Op, buildScanIteratively(IRBuilder<> &B, AtomicRMWInst::BinOp Op,

Value *const Identity, Value *V, Instruction &I, Value *const Identity, Value *V, Instruction &I,

BasicBlock *ComputeLoop, BasicBlock *ComputeEnd) const; BasicBlock *ComputeLoop, BasicBlock *ComputeEnd) const;

▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines bool AMDGPUAtomicOptimizer::runOnFunction(Function &F) {

return AMDGPUAtomicOptimizerImpl(UA, DL, DTU, ST, IsPixelShader, ScanImpl) return AMDGPUAtomicOptimizerImpl(UA, DL, DTU, ST, IsPixelShader, ScanImpl)

.run(F); .run(F);

} }

PreservedAnalyses AMDGPUAtomicOptimizerPass::run(Function &F, PreservedAnalyses AMDGPUAtomicOptimizerPass::run(Function &F,

FunctionAnalysisManager &AM) { FunctionAnalysisManager &AM) {

const auto *UA = &AM.getResult<UniformityInfoAnalysis>(F); const auto *UA = &AM.getResult<UniformityInfoAnalysis>(F);

const DataLayout *DL = &F.getParent()->getDataLayout(); const DataLayout *DL = &F.getParent()->getDataLayout();

arsenmUnsubmitted

Not Done

AtomicRMWInst already has isFloatingPointOperation/isFPOperation for this, which also picks up fsub

arsenm: AtomicRMWInst already has isFloatingPointOperation/isFPOperation for this, which also picks up…

DomTreeUpdater DTU(&AM.getResult<DominatorTreeAnalysis>(F), DomTreeUpdater DTU(&AM.getResult<DominatorTreeAnalysis>(F),

DomTreeUpdater::UpdateStrategy::Lazy); DomTreeUpdater::UpdateStrategy::Lazy);

const GCNSubtarget *ST = &TM.getSubtarget<GCNSubtarget>(F); const GCNSubtarget *ST = &TM.getSubtarget<GCNSubtarget>(F);

bool IsPixelShader = F.getCallingConv() == CallingConv::AMDGPU_PS; bool IsPixelShader = F.getCallingConv() == CallingConv::AMDGPU_PS;

bool IsChanged = bool IsChanged =

▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines void AMDGPUAtomicOptimizerImpl::visitAtomicRMWInst(AtomicRMWInst &I) {

case AtomicRMWInst::Sub: case AtomicRMWInst::Sub:

case AtomicRMWInst::And: case AtomicRMWInst::And:

case AtomicRMWInst::Or: case AtomicRMWInst::Or:

case AtomicRMWInst::Xor: case AtomicRMWInst::Xor:

case AtomicRMWInst::Max: case AtomicRMWInst::Max:

case AtomicRMWInst::Min: case AtomicRMWInst::Min:

case AtomicRMWInst::UMax: case AtomicRMWInst::UMax:

case AtomicRMWInst::UMin: case AtomicRMWInst::UMin:

case AtomicRMWInst::FAdd:

case AtomicRMWInst::FSub:

break; break;

arsenmUnsubmitted

Not Done

Should also handle fsub

arsenm: Should also handle fsub

} }

// Only 32-bit floating point atomic ops are supported.

if (AtomicRMWInst::isFPOperation(Op) && !I.getType()->isFloatTy()) {

return;

}

arsenmUnsubmitted

Not Done

I think this is a bad interpretation of the strategy option. Doing nothing just because you wanted something else is worse than just using an implemented path. Also you can just implement this with dpp?

arsenm: I think this is a bad interpretation of the strategy option. Doing nothing just because you…

pravinjagtapAuthorUnsubmitted

Done

Also you can just implement this with dpp?

If I understand correctly, current dpp intrinsics that we need for reduction & scan(llvm.amdgcn.update.dpp) can return only integer types (accepts inputs with any types). @foad Is it possible to extend current dpp implementation for float types as well ?

pravinjagtap: > Also you can just implement this with dpp? If I understand correctly, current dpp intrinsics…

pravinjagtapAuthorUnsubmitted

Done

Also you can just implement this with dpp?

If I understand correctly, current dpp intrinsics that we need for reduction & scan(llvm.amdgcn.update.dpp) can return only integer types (accepts inputs with any types).

I am wrong, this intrinsic is lowered to V_MOV_B32_dpp when matched with i32 types. I think, we should be able to implement dpp for floats with bitcasts noise.

pravinjagtap: > > Also you can just implement this with dpp? > > If I understand correctly, current dpp…

pravinjagtapAuthorUnsubmitted

Done

%16 = bitcast float %9 to i32
%17 = call i32 @llvm.amdgcn.set.inactive.i32(i32 %16, i32 0)
%18 = bitcast i32 %17 to float
%19 = bitcast i32 %16 to float
%20 = bitcast float %18 to i32
%21 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %20, i32 273, i32 15, i32 15, i1 false)
%22 = bitcast i32 %21 to float
%23 = bitcast i32 %20 to float
%24 = fadd float %23, %22
%25 = bitcast float %24 to i32
%26 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %25, i32 274, i32 15, i32 15, i1 false)
%27 = bitcast i32 %26 to float
%28 = bitcast i32 %25 to float
%29 = fadd float %28, %27
%30 = bitcast float %29 to i32
%31 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %30, i32 276, i32 15, i32 15, i1 false)
%32 = bitcast i32 %31 to float
%33 = bitcast i32 %30 to float
%34 = fadd float %33, %32
%35 = bitcast float %34 to i32
%36 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %35, i32 280, i32 15, i32 15, i1 false)
%37 = bitcast i32 %36 to float
%38 = bitcast i32 %35 to float
%39 = fadd float %38, %37
%40 = bitcast float %39 to i32
%41 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %40, i32 322, i32 10, i32 15, i1 false)
%42 = bitcast i32 %41 to float
%43 = bitcast i32 %40 to float
%44 = fadd float %43, %42
%45 = bitcast float %44 to i32
%46 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %45, i32 323, i32 12, i32 15, i1 false)
%47 = bitcast i32 %46 to float
%48 = bitcast i32 %45 to float
%49 = fadd float %48, %47
%50 = bitcast float %49 to i32
%51 = call i32 @llvm.amdgcn.update.dpp.i32(i32 0, i32 %50, i32 312, i32 15, i32 15, i1 false)
%52 = bitcast i32 %51 to float
%53 = bitcast float %49 to i32
%54 = call i32 @llvm.amdgcn.readlane(i32 %53, i32 63)
%55 = bitcast i32 %54 to float
%56 = call float @llvm.amdgcn.strict.wwm.f32(float %55)

pravinjagtap: I am able to generate functionally correct code for scan with DPP strategy but it needs lot of…

const unsigned PtrIdx = 0; const unsigned PtrIdx = 0;

const unsigned ValIdx = 1; const unsigned ValIdx = 1;

// If the pointer operand is divergent, then each lane is doing an atomic // If the pointer operand is divergent, then each lane is doing an atomic

// operation on a different address, and we cannot optimize that. // operation on a different address, and we cannot optimize that.

if (UA->isDivergentUse(I.getOperandUse(PtrIdx))) { if (UA->isDivergentUse(I.getOperandUse(PtrIdx))) {

return; return;

} }

▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines void AMDGPUAtomicOptimizerImpl::visitIntrinsicInst(IntrinsicInst &I) {

case Intrinsic::amdgcn_struct_ptr_buffer_atomic_umax: case Intrinsic::amdgcn_struct_ptr_buffer_atomic_umax:

case Intrinsic::amdgcn_raw_buffer_atomic_umax: case Intrinsic::amdgcn_raw_buffer_atomic_umax:

case Intrinsic::amdgcn_raw_ptr_buffer_atomic_umax: case Intrinsic::amdgcn_raw_ptr_buffer_atomic_umax:

Op = AtomicRMWInst::UMax; Op = AtomicRMWInst::UMax;

break; break;

} }

const unsigned ValIdx = 0; const unsigned ValIdx = 0;

foadUnsubmitted

Not Done

Don't need to change this

foad: Don't need to change this

const bool ValDivergent = UA->isDivergentUse(I.getOperandUse(ValIdx)); const bool ValDivergent = UA->isDivergentUse(I.getOperandUse(ValIdx));

arsenmUnsubmitted

Not Done

The intrinsics should just be deleted, everything should move to atomicrmw

arsenm: The intrinsics should just be deleted, everything should move to atomicrmw

arsenmUnsubmitted

Not Done

Doesn't consider half

Should also handle <2 x half>, but atomicrmw doesn't support vectors now (you need the intrinsics for those)

arsenm: Doesn't consider half Should also handle <2 x half>, but atomicrmw doesn't support vectors now…

pravinjagtapAuthorUnsubmitted

Done

Doesn't consider half

Appears that _Float16 is not supported for atomics in HIP: https://cuda.godbolt.org/z/Gf7so4Y9K

pravinjagtap: > Doesn't consider half Appears that `_Float16` is not supported for atomics in HIP: https…

arsenmUnsubmitted

Not Done

Doesn't matter, the IR does. You should select the types you do handle, not try to exclude ones you don't

arsenm: Doesn't matter, the IR does. You should select the types you do handle, not try to exclude ones…

// If the value operand is divergent, each lane is contributing a different // If the value operand is divergent, each lane is contributing a different

// value to the atomic calculation. We can only optimize divergent values if // value to the atomic calculation. We can only optimize divergent values if

// we have DPP available on our subtarget, and the atomic operation is 32 // we have DPP available on our subtarget, and the atomic operation is 32

// bits. // bits.

if (ValDivergent && if (ValDivergent &&

(!ST->hasDPP() || DL->getTypeSizeInBits(I.getType()) != 32)) { (!ST->hasDPP() || DL->getTypeSizeInBits(I.getType()) != 32)) {

return; return;

} }

Show All 20 Lines static Value *buildNonAtomicBinOp(IRBuilder<> &B, AtomicRMWInst::BinOp Op,

Value *LHS, Value *RHS) { Value *LHS, Value *RHS) {

CmpInst::Predicate Pred; CmpInst::Predicate Pred;

switch (Op) { switch (Op) {

default: default:

llvm_unreachable("Unhandled atomic op"); llvm_unreachable("Unhandled atomic op");

case AtomicRMWInst::Add: case AtomicRMWInst::Add:

return B.CreateBinOp(Instruction::Add, LHS, RHS); return B.CreateBinOp(Instruction::Add, LHS, RHS);

case AtomicRMWInst::FAdd:

return B.CreateFAdd(LHS, RHS);

arsenmUnsubmitted

Not Done

Can you use B.CreateFAdd instead of the low level CreateBinOp? You'll need that to handle strictfp correctly

arsenm: Can you use B.CreateFAdd instead of the low level CreateBinOp? You'll need that to handle…

case AtomicRMWInst::Sub: case AtomicRMWInst::Sub:

return B.CreateBinOp(Instruction::Sub, LHS, RHS); return B.CreateBinOp(Instruction::Sub, LHS, RHS);

case AtomicRMWInst::FSub:

return B.CreateFSub(LHS, RHS);

arsenmUnsubmitted

Not Done

Ditto

arsenm: Ditto

case AtomicRMWInst::And: case AtomicRMWInst::And:

return B.CreateBinOp(Instruction::And, LHS, RHS); return B.CreateBinOp(Instruction::And, LHS, RHS);

case AtomicRMWInst::Or: case AtomicRMWInst::Or:

return B.CreateBinOp(Instruction::Or, LHS, RHS); return B.CreateBinOp(Instruction::Or, LHS, RHS);

case AtomicRMWInst::Xor: case AtomicRMWInst::Xor:

return B.CreateBinOp(Instruction::Xor, LHS, RHS); return B.CreateBinOp(Instruction::Xor, LHS, RHS);

case AtomicRMWInst::Max: case AtomicRMWInst::Max:

Pred = CmpInst::ICMP_SGT; Pred = CmpInst::ICMP_SGT;

break; break;

case AtomicRMWInst::Min: case AtomicRMWInst::Min:

Pred = CmpInst::ICMP_SLT; Pred = CmpInst::ICMP_SLT;

break; break;

case AtomicRMWInst::UMax: case AtomicRMWInst::UMax:

Pred = CmpInst::ICMP_UGT; Pred = CmpInst::ICMP_UGT;

break; break;

case AtomicRMWInst::UMin: case AtomicRMWInst::UMin:

Pred = CmpInst::ICMP_ULT; Pred = CmpInst::ICMP_ULT;

break; break;

} }

Value *Cond = B.CreateICmp(Pred, LHS, RHS); Value *Cond = B.CreateICmp(Pred, LHS, RHS);

arsenmUnsubmitted

Not Done

you can't do it like this, you should use minnum/maxnum intrinsics

arsenm: you can't do it like this, you should use minnum/maxnum intrinsics

return B.CreateSelect(Cond, LHS, RHS); return B.CreateSelect(Cond, LHS, RHS);

} }

// Use the builder to create a reduction of V across the wavefront, with all // Use the builder to create a reduction of V across the wavefront, with all

// lanes active, returning the same result in all lanes. // lanes active, returning the same result in all lanes.

Value *AMDGPUAtomicOptimizerImpl::buildReduction(IRBuilder<> &B, Value *AMDGPUAtomicOptimizerImpl::buildReduction(IRBuilder<> &B,

AtomicRMWInst::BinOp Op, AtomicRMWInst::BinOp Op,

Value *V, Value *V,

Value *const Identity) const { Value *const Identity) const {

Type *const Ty = V->getType(); Type *AtomicTy = V->getType();

Type *IntNTy = B.getIntNTy(AtomicTy->getPrimitiveSizeInBits());

Module *M = B.GetInsertBlock()->getModule(); Module *M = B.GetInsertBlock()->getModule();

Function *UpdateDPP = Function *UpdateDPP =

foadUnsubmitted

Not Done

Type *Int32Ty = B.getInt32Ty();

- bool isAtomicFloatingPointTy = AtomicTy->isFloatingPointTy();

- Type *UpdateDPPTy = isAtomicFloatingPointTy ? Int32Ty : AtomicTy;

+ Type *UpdateDPPTy = B.getIntNTy(AtomicTy->getPrimitiveSizeInBits());

Module *M = B.GetInsertBlock()->getModule();

Simplify this, here and in other functions

foad: Simplify this, here and in other functions

Intrinsic::getDeclaration(M, Intrinsic::amdgcn_update_dpp, Ty); Intrinsic::getDeclaration(M, Intrinsic::amdgcn_update_dpp, AtomicTy);

// Reduce within each row of 16 lanes. // Reduce within each row of 16 lanes.

for (unsigned Idx = 0; Idx < 4; Idx++) { for (unsigned Idx = 0; Idx < 4; Idx++) {

V = buildNonAtomicBinOp( V = buildNonAtomicBinOp(

B, Op, V, B, Op, V,

B.CreateCall(UpdateDPP, B.CreateCall(UpdateDPP,

{Identity, V, B.getInt32(DPP::ROW_XMASK0 | 1 << Idx), {Identity, V, B.getInt32(DPP::ROW_XMASK0 | 1 << Idx),

B.getInt32(0xf), B.getInt32(0xf), B.getFalse()})); B.getInt32(0xf), B.getInt32(0xf), B.getFalse()}));

arsenmUnsubmitted

Not Done

Do you want to switch to the float overloads for the DPP intrinsic here or in a follow up?

arsenm: Do you want to switch to the float overloads for the DPP intrinsic here or in a follow up?

pravinjagtapAuthorUnsubmitted

Done

I would prefer in follow up patch.

pravinjagtap: I would prefer in follow up patch.

} }

// Reduce within each pair of rows (i.e. 32 lanes). // Reduce within each pair of rows (i.e. 32 lanes).

assert(ST->hasPermLaneX16()); assert(ST->hasPermLaneX16());

V = buildNonAtomicBinOp( V = B.CreateBitCast(V, IntNTy);

B, Op, V, Value *Permlanex16Call = B.CreateIntrinsic(

B.CreateIntrinsic(

Intrinsic::amdgcn_permlanex16, {}, Intrinsic::amdgcn_permlanex16, {},

{V, V, B.getInt32(-1), B.getInt32(-1), B.getFalse(), B.getFalse()})); {V, V, B.getInt32(-1), B.getInt32(-1), B.getFalse(), B.getFalse()});

V = buildNonAtomicBinOp(B, Op, B.CreateBitCast(V, AtomicTy),

if (ST->isWave32()) B.CreateBitCast(Permlanex16Call, AtomicTy));

if (ST->isWave32()) {

return V; return V;

}

if (ST->hasPermLane64()) { if (ST->hasPermLane64()) {

// Reduce across the upper and lower 32 lanes. // Reduce across the upper and lower 32 lanes.

return buildNonAtomicBinOp( V = B.CreateBitCast(V, IntNTy);

B, Op, V, B.CreateIntrinsic(Intrinsic::amdgcn_permlane64, {}, V)); Value *Permlane64Call =

B.CreateIntrinsic(Intrinsic::amdgcn_permlane64, {}, V);

return buildNonAtomicBinOp(B, Op, B.CreateBitCast(V, AtomicTy),

B.CreateBitCast(Permlane64Call, AtomicTy));

arsenmUnsubmitted

Not Done

You can just unconditionally call CreateBitCast, it's a no-op if the type matches anyway

arsenm: You can just unconditionally call CreateBitCast, it's a no-op if the type matches anyway

} }

// Pick an arbitrary lane from 0..31 and an arbitrary lane from 32..63 and // Pick an arbitrary lane from 0..31 and an arbitrary lane from 32..63 and

// combine them with a scalar operation. // combine them with a scalar operation.

Function *ReadLane = Function *ReadLane =

Intrinsic::getDeclaration(M, Intrinsic::amdgcn_readlane, {}); Intrinsic::getDeclaration(M, Intrinsic::amdgcn_readlane, {});

Value *const Lane0 = B.CreateCall(ReadLane, {V, B.getInt32(0)}); V = B.CreateBitCast(V, IntNTy);

Value *const Lane32 = B.CreateCall(ReadLane, {V, B.getInt32(32)}); Value *Lane0 = B.CreateCall(ReadLane, {V, B.getInt32(0)});

return buildNonAtomicBinOp(B, Op, Lane0, Lane32); Value *Lane32 = B.CreateCall(ReadLane, {V, B.getInt32(32)});

return buildNonAtomicBinOp(B, Op, B.CreateBitCast(Lane0, AtomicTy),

B.CreateBitCast(Lane32, AtomicTy));

} }

// Use the builder to create an inclusive scan of V across the wavefront, with // Use the builder to create an inclusive scan of V across the wavefront, with

// all lanes active. // all lanes active.

Value *AMDGPUAtomicOptimizerImpl::buildScan(IRBuilder<> &B, Value *AMDGPUAtomicOptimizerImpl::buildScan(IRBuilder<> &B,

AtomicRMWInst::BinOp Op, Value *V, AtomicRMWInst::BinOp Op, Value *V,

Value *const Identity) const { Value *Identity) const {

Type *const Ty = V->getType(); Type *AtomicTy = V->getType();

Type *IntNTy = B.getIntNTy(AtomicTy->getPrimitiveSizeInBits());

Module *M = B.GetInsertBlock()->getModule(); Module *M = B.GetInsertBlock()->getModule();

Function *UpdateDPP = Function *UpdateDPP =

Intrinsic::getDeclaration(M, Intrinsic::amdgcn_update_dpp, Ty); Intrinsic::getDeclaration(M, Intrinsic::amdgcn_update_dpp, AtomicTy);

for (unsigned Idx = 0; Idx < 4; Idx++) { for (unsigned Idx = 0; Idx < 4; Idx++) {

V = buildNonAtomicBinOp( V = buildNonAtomicBinOp(

B, Op, V, B, Op, V,

B.CreateCall(UpdateDPP, B.CreateCall(UpdateDPP,

{Identity, V, B.getInt32(DPP::ROW_SHR0 | 1 << Idx), {Identity, V, B.getInt32(DPP::ROW_SHR0 | 1 << Idx),

B.getInt32(0xf), B.getInt32(0xf), B.getFalse()})); B.getInt32(0xf), B.getInt32(0xf), B.getFalse()}));

} }

Show All 11 Lines V = buildNonAtomicBinOp(

B.getInt32(0xf), B.getFalse()})); B.getInt32(0xf), B.getFalse()}));

} else { } else {

// On GFX10 all DPP operations are confined to a single row. To get cross- // On GFX10 all DPP operations are confined to a single row. To get cross-

// row operations we have to use permlane or readlane. // row operations we have to use permlane or readlane.

// Combine lane 15 into lanes 16..31 (and, for wave 64, lane 47 into lanes // Combine lane 15 into lanes 16..31 (and, for wave 64, lane 47 into lanes

// 48..63). // 48..63).

assert(ST->hasPermLaneX16()); assert(ST->hasPermLaneX16());

Value *const PermX = B.CreateIntrinsic( V = B.CreateBitCast(V, IntNTy);

Value *PermX = B.CreateIntrinsic(

Intrinsic::amdgcn_permlanex16, {}, Intrinsic::amdgcn_permlanex16, {},

{V, V, B.getInt32(-1), B.getInt32(-1), B.getFalse(), B.getFalse()}); {V, V, B.getInt32(-1), B.getInt32(-1), B.getFalse(), B.getFalse()});

V = buildNonAtomicBinOp(

B, Op, V, Value *UpdateDPPCall =

B.CreateCall(UpdateDPP, B.CreateCall(UpdateDPP, {Identity, B.CreateBitCast(PermX, AtomicTy),

{Identity, PermX, B.getInt32(DPP::QUAD_PERM_ID), B.getInt32(DPP::QUAD_PERM_ID), B.getInt32(0xa),

B.getInt32(0xa), B.getInt32(0xf), B.getFalse()})); B.getInt32(0xf), B.getFalse()});

V = buildNonAtomicBinOp(B, Op, B.CreateBitCast(V, AtomicTy), UpdateDPPCall);

if (!ST->isWave32()) { if (!ST->isWave32()) {

// Combine lane 31 into lanes 32..63. // Combine lane 31 into lanes 32..63.

V = B.CreateBitCast(V, IntNTy);

Value *const Lane31 = B.CreateIntrinsic(Intrinsic::amdgcn_readlane, {}, Value *const Lane31 = B.CreateIntrinsic(Intrinsic::amdgcn_readlane, {},

{V, B.getInt32(31)}); {V, B.getInt32(31)});

V = buildNonAtomicBinOp(

B, Op, V, Value *UpdateDPPCall = B.CreateCall(

B.CreateCall(UpdateDPP, UpdateDPP, {Identity, Lane31, B.getInt32(DPP::QUAD_PERM_ID),

{Identity, Lane31, B.getInt32(DPP::QUAD_PERM_ID), B.getInt32(0xc), B.getInt32(0xf), B.getFalse()});

B.getInt32(0xc), B.getInt32(0xf), B.getFalse()}));

V = buildNonAtomicBinOp(B, Op, B.CreateBitCast(V, AtomicTy),

UpdateDPPCall);

} }

return V; return V;

} }

// Use the builder to create a shift right of V across the wavefront, with all // Use the builder to create a shift right of V across the wavefront, with all

// lanes active, to turn an inclusive scan into an exclusive scan. // lanes active, to turn an inclusive scan into an exclusive scan.

Value *AMDGPUAtomicOptimizerImpl::buildShiftRight(IRBuilder<> &B, Value *V, Value *AMDGPUAtomicOptimizerImpl::buildShiftRight(IRBuilder<> &B, Value *V,

Value *const Identity) const { Value *Identity) const {

Type *const Ty = V->getType(); Type *AtomicTy = V->getType();

Type *IntNTy = B.getIntNTy(AtomicTy->getPrimitiveSizeInBits());

Module *M = B.GetInsertBlock()->getModule(); Module *M = B.GetInsertBlock()->getModule();

Function *UpdateDPP = Function *UpdateDPP =

Intrinsic::getDeclaration(M, Intrinsic::amdgcn_update_dpp, Ty); Intrinsic::getDeclaration(M, Intrinsic::amdgcn_update_dpp, AtomicTy);

if (ST->hasDPPWavefrontShifts()) { if (ST->hasDPPWavefrontShifts()) {

// GFX9 has DPP wavefront shift operations. // GFX9 has DPP wavefront shift operations.

V = B.CreateCall(UpdateDPP, V = B.CreateCall(UpdateDPP,

{Identity, V, B.getInt32(DPP::WAVE_SHR1), B.getInt32(0xf), {Identity, V, B.getInt32(DPP::WAVE_SHR1), B.getInt32(0xf),

B.getInt32(0xf), B.getFalse()}); B.getInt32(0xf), B.getFalse()});

} else { } else {

Function *ReadLane = Function *ReadLane =

Intrinsic::getDeclaration(M, Intrinsic::amdgcn_readlane, {}); Intrinsic::getDeclaration(M, Intrinsic::amdgcn_readlane, {});

Function *WriteLane = Function *WriteLane =

Intrinsic::getDeclaration(M, Intrinsic::amdgcn_writelane, {}); Intrinsic::getDeclaration(M, Intrinsic::amdgcn_writelane, {});

// On GFX10 all DPP operations are confined to a single row. To get cross- // On GFX10 all DPP operations are confined to a single row. To get cross-

// row operations we have to use permlane or readlane. // row operations we have to use permlane or readlane.

Value *Old = V; Value *Old = V;

V = B.CreateCall(UpdateDPP, V = B.CreateCall(UpdateDPP,

foadUnsubmitted

Not Done

Do these bitcasts unconditionally, here and below.

foad: Do these bitcasts unconditionally, here and below.

{Identity, V, B.getInt32(DPP::ROW_SHR0 + 1), {Identity, V, B.getInt32(DPP::ROW_SHR0 + 1),

B.getInt32(0xf), B.getInt32(0xf), B.getFalse()}); B.getInt32(0xf), B.getInt32(0xf), B.getFalse()});

// Copy the old lane 15 to the new lane 16. // Copy the old lane 15 to the new lane 16.

V = B.CreateCall(WriteLane, {B.CreateCall(ReadLane, {Old, B.getInt32(15)}),

B.getInt32(16), V});

if (!ST->isWave32()) {

// Copy the old lane 31 to the new lane 32.

V = B.CreateCall( V = B.CreateCall(

WriteLane, WriteLane,

{B.CreateCall(ReadLane, {Old, B.getInt32(31)}), B.getInt32(32), V}); {B.CreateCall(ReadLane, {B.CreateBitCast(Old, IntNTy), B.getInt32(15)}),

B.getInt32(16), B.CreateBitCast(V, IntNTy)});

V = B.CreateBitCast(V, AtomicTy);

if (!ST->isWave32()) {

// Copy the old lane 31 to the new lane 32.

V = B.CreateBitCast(V, IntNTy);

V = B.CreateCall(WriteLane,

{B.CreateCall(ReadLane, {B.CreateBitCast(Old, IntNTy),

B.getInt32(31)}),

B.getInt32(32), V});

// Copy the old lane 47 to the new lane 48. // Copy the old lane 47 to the new lane 48.

V = B.CreateCall( V = B.CreateCall(

WriteLane, WriteLane,

{B.CreateCall(ReadLane, {Old, B.getInt32(47)}), B.getInt32(48), V}); {B.CreateCall(ReadLane, {Old, B.getInt32(47)}), B.getInt32(48), V});

V = B.CreateBitCast(V, AtomicTy);

} }

return V; return V;

} }

// Use the builder to create an exclusive scan and compute the final reduced // Use the builder to create an exclusive scan and compute the final reduced

// value using an iterative approach. This provides an alternative // value using an iterative approach. This provides an alternative

// implementation to DPP which uses WMM for scan computations. This API iterate // implementation to DPP which uses WMM for scan computations. This API iterate

// over active lanes to read, compute and update the value using // over active lanes to read, compute and update the value using

// readlane and writelane intrinsics. // readlane and writelane intrinsics.

std::pair<Value *, Value *> AMDGPUAtomicOptimizerImpl::buildScanIteratively( std::pair<Value *, Value *> AMDGPUAtomicOptimizerImpl::buildScanIteratively(

IRBuilder<> &B, AtomicRMWInst::BinOp Op, Value *const Identity, Value *V, IRBuilder<> &B, AtomicRMWInst::BinOp Op, Value *const Identity, Value *V,

Instruction &I, BasicBlock *ComputeLoop, BasicBlock *ComputeEnd) const { Instruction &I, BasicBlock *ComputeLoop, BasicBlock *ComputeEnd) const {

auto *Ty = I.getType(); auto *Ty = I.getType();

auto *WaveTy = B.getIntNTy(ST->getWavefrontSize()); auto *WaveTy = B.getIntNTy(ST->getWavefrontSize());

auto *EntryBB = I.getParent(); auto *EntryBB = I.getParent();

auto NeedResult = !I.use_empty(); auto NeedResult = !I.use_empty();

auto *Ballot = auto *Ballot =

B.CreateIntrinsic(Intrinsic::amdgcn_ballot, WaveTy, B.getTrue()); B.CreateIntrinsic(Intrinsic::amdgcn_ballot, WaveTy, B.getTrue());

// Start inserting instructions for ComputeLoop block // Start inserting instructions for ComputeLoop block

B.SetInsertPoint(ComputeLoop); B.SetInsertPoint(ComputeLoop);

// Phi nodes for Accumulator, Scan results destination, and Active Lanes // Phi nodes for Accumulator, Scan results destination, and Active Lanes

auto *Accumulator = B.CreatePHI(Ty, 2, "Accumulator"); auto *Accumulator = B.CreatePHI(Ty, 2, "Accumulator");

Accumulator->addIncoming(Identity, EntryBB); Accumulator->addIncoming(Identity, EntryBB);

PHINode *OldValuePhi = nullptr; PHINode *OldValuePhi = nullptr;

if (NeedResult) { if (NeedResult) {

OldValuePhi = B.CreatePHI(Ty, 2, "OldValuePhi"); OldValuePhi = B.CreatePHI(Ty, 2, "OldValuePhi");

OldValuePhi->addIncoming(PoisonValue::get(Ty), EntryBB); OldValuePhi->addIncoming(PoisonValue::get(Ty), EntryBB);

} }

auto *ActiveBits = B.CreatePHI(WaveTy, 2, "ActiveBits"); auto *ActiveBits = B.CreatePHI(WaveTy, 2, "ActiveBits");

ActiveBits->addIncoming(Ballot, EntryBB); ActiveBits->addIncoming(Ballot, EntryBB);

// Use llvm.cttz instrinsic to find the lowest remaining active lane. // Use llvm.cttz instrinsic to find the lowest remaining active lane.

auto *FF1 = auto *FF1 =

B.CreateIntrinsic(Intrinsic::cttz, WaveTy, {ActiveBits, B.getTrue()}); B.CreateIntrinsic(Intrinsic::cttz, WaveTy, {ActiveBits, B.getTrue()});

auto *LaneIdxInt = B.CreateTrunc(FF1, Ty);

Type *IntNTy = B.getIntNTy(Ty->getPrimitiveSizeInBits());

auto *LaneIdxInt = B.CreateTrunc(FF1, IntNTy);

// Get the value required for atomic operation // Get the value required for atomic operation

auto *LaneValue = V = B.CreateBitCast(V, IntNTy);

Value *LaneValue =

B.CreateIntrinsic(Intrinsic::amdgcn_readlane, {}, {V, LaneIdxInt}); B.CreateIntrinsic(Intrinsic::amdgcn_readlane, {}, {V, LaneIdxInt});

LaneValue = B.CreateBitCast(LaneValue, Ty);

// Perform writelane if intermediate scan results are required later in the // Perform writelane if intermediate scan results are required later in the

// kernel computations // kernel computations

Value *OldValue = nullptr; Value *OldValue = nullptr;

if (NeedResult) { if (NeedResult) {

OldValue = B.CreateIntrinsic(Intrinsic::amdgcn_writelane, {}, OldValue =

{Accumulator, LaneIdxInt, OldValuePhi}); B.CreateIntrinsic(Intrinsic::amdgcn_writelane, {},

{B.CreateBitCast(Accumulator, IntNTy), LaneIdxInt,

B.CreateBitCast(OldValuePhi, IntNTy)});

arsenmUnsubmitted

Not Done

You shouldn't need a cast after D147732

arsenm: You shouldn't need a cast after D147732

OldValue = B.CreateBitCast(OldValue, Ty);

OldValuePhi->addIncoming(OldValue, ComputeLoop); OldValuePhi->addIncoming(OldValue, ComputeLoop);

cdevadasUnsubmitted

Not Done

You could use the ternary operator to initialize them.

cdevadas: You could use the ternary operator to initialize them.

pravinjagtapAuthorUnsubmitted

Done

You could use the ternary operator to initialize them.

Wherever there are two bit-cast statements, I have used if loop and ternary operator for single bit-cast statement. I will update this to ternary at all places.

pravinjagtap: > You could use the ternary operator to initialize them. Wherever there are two bit-cast…

} }

// Accumulate the results // Accumulate the results

auto *NewAccumulator = buildNonAtomicBinOp(B, Op, Accumulator, LaneValue); auto *NewAccumulator = buildNonAtomicBinOp(B, Op, Accumulator, LaneValue);

Accumulator->addIncoming(NewAccumulator, ComputeLoop); Accumulator->addIncoming(NewAccumulator, ComputeLoop);

// Set bit to zero of current active lane so that for next iteration llvm.cttz // Set bit to zero of current active lane so that for next iteration llvm.cttz

// return the next active lane // return the next active lane

auto *Mask = B.CreateShl(ConstantInt::get(WaveTy, 1), FF1); auto *Mask = B.CreateShl(ConstantInt::get(WaveTy, 1), FF1);

auto *InverseMask = B.CreateXor(Mask, ConstantInt::get(WaveTy, -1)); auto *InverseMask = B.CreateXor(Mask, ConstantInt::get(WaveTy, -1));

auto *NewActiveBits = B.CreateAnd(ActiveBits, InverseMask); auto *NewActiveBits = B.CreateAnd(ActiveBits, InverseMask);

ActiveBits->addIncoming(NewActiveBits, ComputeLoop); ActiveBits->addIncoming(NewActiveBits, ComputeLoop);

// Branch out of the loop when all lanes are processed. // Branch out of the loop when all lanes are processed.

auto *IsEnd = B.CreateICmpEQ(NewActiveBits, ConstantInt::get(WaveTy, 0)); auto *IsEnd = B.CreateICmpEQ(NewActiveBits, ConstantInt::get(WaveTy, 0));

B.CreateCondBr(IsEnd, ComputeEnd, ComputeLoop); B.CreateCondBr(IsEnd, ComputeEnd, ComputeLoop);

B.SetInsertPoint(ComputeEnd); B.SetInsertPoint(ComputeEnd);

return {OldValue, NewAccumulator}; return {OldValue, NewAccumulator};

} }

static APInt getIdentityValueForAtomicOp(AtomicRMWInst::BinOp Op, static Constant *getIdentityValueForAtomicOp(Type *const Ty,

unsigned BitWidth) { AtomicRMWInst::BinOp Op) {

LLVMContext &C = Ty->getContext();

const unsigned BitWidth = Ty->getPrimitiveSizeInBits();

foadUnsubmitted

Not Done

You can derive C from Ty, and BitWidth from Ty, so the arguments should just be: AtomicRMWInst::BinOp Op, Type *Ty

foad: You can derive C from Ty, and BitWidth from Ty, so the arguments should just be: `AtomicRMWInst…

switch (Op) { switch (Op) {

default: default:

pravinjagtapAuthorUnsubmitted

Done

Is it safe to get BitWidth like this ? We dont need this for float types

pravinjagtap: Is it safe to get BitWidth like this ? We dont need this for `float` types

foadUnsubmitted

Not Done

Simpler to call Ty->getPrimitiveSizeInBits() unconditionally.

foad: Simpler to call Ty->getPrimitiveSizeInBits() unconditionally.

llvm_unreachable("Unhandled atomic op"); llvm_unreachable("Unhandled atomic op");

arsenmUnsubmitted

Not Done

This would be +infinity for fmax.

For fadd you there isn't really an identity value since fadd -0, 0 -> -0. You probably can't do this without nsz, which we don't have a way of representing.

I have a draft patch for unsafe FP atomic metadata I don't have time to pick up.

arsenm: This would be +infinity for fmax. For fadd you there isn't really an identity value since fadd…

arsenmUnsubmitted

Not Done

For fadd you can use -0 as the identify value. For fsub I think 0 works:

Check instcombine:

define float @fsub_fold(float %x) {

%add = fsub float %x, 0.0
ret float %add

}

define float @fadd_fold_n0(float %x) {

%add = fadd float %x, -0.0
ret float %add

}

This is of course ignoring signaling nan quieting and denormal flushes

arsenm: For fadd you can use -0 as the identify value. For fsub I think 0 works: Check instcombine…

arsenmUnsubmitted

Not Done

Identity value for fadd is -0, you got these backwards

arsenm: Identity value for fadd is -0, you got these backwards

case AtomicRMWInst::Add: case AtomicRMWInst::Add:

case AtomicRMWInst::Sub: case AtomicRMWInst::Sub:

arsenmUnsubmitted

Not Done

This would be -infinity

arsenm: This would be -infinity

foadUnsubmitted

Not Done

No, the identity should be +inf for fmin and -inf for fmax.

foad: No, the identity should be +inf for fmin and -inf for fmax.

arsenmUnsubmitted

Not Done

identity for fsub is +0, so no true

arsenm: identity for fsub is +0, so no true

case AtomicRMWInst::Or: case AtomicRMWInst::Or:

case AtomicRMWInst::Xor: case AtomicRMWInst::Xor:

case AtomicRMWInst::UMax: case AtomicRMWInst::UMax:

return APInt::getMinValue(BitWidth); return ConstantInt::get(C, APInt::getMinValue(BitWidth));

case AtomicRMWInst::And: case AtomicRMWInst::And:

case AtomicRMWInst::UMin: case AtomicRMWInst::UMin:

return APInt::getMaxValue(BitWidth); return ConstantInt::get(C, APInt::getMaxValue(BitWidth));

case AtomicRMWInst::Max: case AtomicRMWInst::Max:

return APInt::getSignedMinValue(BitWidth); return ConstantInt::get(C, APInt::getSignedMinValue(BitWidth));

case AtomicRMWInst::Min: case AtomicRMWInst::Min:

return APInt::getSignedMaxValue(BitWidth); return ConstantInt::get(C, APInt::getSignedMaxValue(BitWidth));

case AtomicRMWInst::FAdd:

return ConstantFP::get(C, APFloat::getZero(Ty->getFltSemantics(), true));

case AtomicRMWInst::FSub:

return ConstantFP::get(C, APFloat::getZero(Ty->getFltSemantics(), false));

foadUnsubmitted

Not Done

These are the wrong way round. You want +0 for fadd and -0 for fsub.

foad: These are the wrong way round. You want +0 for fadd and -0 for fsub.

arsenmUnsubmitted

Not Done

No? This was wrong before and corrected. InstCombine uses -0 as fadd identity and +0 as fsub identity

arsenm: No? This was wrong before and corrected. InstCombine uses -0 as fadd identity and +0 as fsub…

foadUnsubmitted

Not Done

Oh yeah, you're right. Sorry for the noise.

foad: Oh yeah, you're right. Sorry for the noise.

} }

static Value *buildMul(IRBuilder<> &B, Value *LHS, Value *RHS) { static Value *buildMul(IRBuilder<> &B, Value *LHS, Value *RHS) {

const ConstantInt *CI = dyn_cast<ConstantInt>(LHS); const ConstantInt *CI = dyn_cast<ConstantInt>(LHS);

return (CI && CI->isOne()) ? RHS : B.CreateMul(LHS, RHS); return (CI && CI->isOne()) ? RHS : B.CreateMul(LHS, RHS);

} }

void AMDGPUAtomicOptimizerImpl::optimizeAtomic(Instruction &I, void AMDGPUAtomicOptimizerImpl::optimizeAtomic(Instruction &I,

AtomicRMWInst::BinOp Op, AtomicRMWInst::BinOp Op,

unsigned ValIdx, unsigned ValIdx,

bool ValDivergent) const { bool ValDivergent) const {

// Start building just before the instruction. // Start building just before the instruction.

IRBuilder<> B(&I); IRBuilder<> B(&I);

if (AtomicRMWInst::isFPOperation(Op)) {

B.setIsFPConstrained(I.getFunction()->hasFnAttribute(Attribute::StrictFP));

}

// If we are in a pixel shader, because of how we have to mask out helper // If we are in a pixel shader, because of how we have to mask out helper

// lane invocations, we need to record the entry and exit BB's. // lane invocations, we need to record the entry and exit BB's.

BasicBlock *PixelEntryBB = nullptr; BasicBlock *PixelEntryBB = nullptr;

BasicBlock *PixelExitBB = nullptr; BasicBlock *PixelExitBB = nullptr;

// If we're optimizing an atomic within a pixel shader, we need to wrap the // If we're optimizing an atomic within a pixel shader, we need to wrap the

// entire atomic operation in a helper-lane check. We do not want any helper // entire atomic operation in a helper-lane check. We do not want any helper

// lanes that are around only for the purposes of derivatives to take part // lanes that are around only for the purposes of derivatives to take part

Show All 10 Lines if (IsPixelShader) {

// Record I's new position as the exit block. // Record I's new position as the exit block.

PixelExitBB = I.getParent(); PixelExitBB = I.getParent();

I.moveBefore(NonHelperTerminator); I.moveBefore(NonHelperTerminator);

B.SetInsertPoint(&I); B.SetInsertPoint(&I);

} }

Type *const Ty = I.getType(); Type *const Ty = I.getType();

Type *Int32Ty = B.getInt32Ty();

Type *IntNTy = B.getIntNTy(Ty->getPrimitiveSizeInBits());

bool isAtomicFloatingPointTy = Ty->isFloatingPointTy();

const unsigned TyBitWidth = DL->getTypeSizeInBits(Ty); const unsigned TyBitWidth = DL->getTypeSizeInBits(Ty);

auto *const VecTy = FixedVectorType::get(B.getInt32Ty(), 2); auto *const VecTy = FixedVectorType::get(Int32Ty, 2);

// This is the value in the atomic operation we need to combine in order to // This is the value in the atomic operation we need to combine in order to

// reduce the number of atomic operations. // reduce the number of atomic operations.

Value *const V = I.getOperand(ValIdx); Value *V = I.getOperand(ValIdx);

// We need to know how many lanes are active within the wavefront, and we do // We need to know how many lanes are active within the wavefront, and we do

// this by doing a ballot of active lanes. // this by doing a ballot of active lanes.

Type *const WaveTy = B.getIntNTy(ST->getWavefrontSize()); Type *const WaveTy = B.getIntNTy(ST->getWavefrontSize());

CallInst *const Ballot = CallInst *const Ballot =

B.CreateIntrinsic(Intrinsic::amdgcn_ballot, WaveTy, B.getTrue()); B.CreateIntrinsic(Intrinsic::amdgcn_ballot, WaveTy, B.getTrue());

// We need to know how many lanes are active within the wavefront that are // We need to know how many lanes are active within the wavefront that are

// below us. If we counted each lane linearly starting from 0, a lane is // below us. If we counted each lane linearly starting from 0, a lane is

// below us only if its associated index was less than ours. We do this by // below us only if its associated index was less than ours. We do this by

// using the mbcnt intrinsic. // using the mbcnt intrinsic.

Value *Mbcnt; Value *Mbcnt;

if (ST->isWave32()) { if (ST->isWave32()) {

Mbcnt = B.CreateIntrinsic(Intrinsic::amdgcn_mbcnt_lo, {}, Mbcnt = B.CreateIntrinsic(Intrinsic::amdgcn_mbcnt_lo, {},

{Ballot, B.getInt32(0)}); {Ballot, B.getInt32(0)});

} else { } else {

Value *const BitCast = B.CreateBitCast(Ballot, VecTy); Value *const ExtractLo = B.CreateTrunc(Ballot, Int32Ty);

Value *const ExtractLo = B.CreateExtractElement(BitCast, B.getInt32(0)); Value *const ExtractHi = B.CreateTrunc(B.CreateLShr(Ballot, 32), Int32Ty);

Value *const ExtractHi = B.CreateExtractElement(BitCast, B.getInt32(1));

Mbcnt = B.CreateIntrinsic(Intrinsic::amdgcn_mbcnt_lo, {}, Mbcnt = B.CreateIntrinsic(Intrinsic::amdgcn_mbcnt_lo, {},

{ExtractLo, B.getInt32(0)}); {ExtractLo, B.getInt32(0)});

Mbcnt = Mbcnt =

B.CreateIntrinsic(Intrinsic::amdgcn_mbcnt_hi, {}, {ExtractHi, Mbcnt}); B.CreateIntrinsic(Intrinsic::amdgcn_mbcnt_hi, {}, {ExtractHi, Mbcnt});

} }

Mbcnt = B.CreateIntCast(Mbcnt, Ty, false);

foadUnsubmitted

Not Done

Might be clearer as:
Mbcnt = isAtomicFloatingPointTy ? B.CreateUIToFP(Mbcnt, Ty) : B.CreateIntCast(Mbcnt, Ty, false);
(instead of doing the fp cast on line 996) since in both cases we want to convert Mbcnt to type Ty.

foad: Might be clearer as: `Mbcnt = isAtomicFloatingPointTy ? B.CreateUIToFP(Mbcnt, Ty) : B.

pravinjagtapAuthorUnsubmitted

Done

If we convert Mbcnt to float here, Integer comparison will fail at line no 869

pravinjagtap: If we convert `Mbcnt` to `float` here, Integer comparison will fail at line no 869

foadUnsubmitted

Not Done

Then I suggest moving the casts (both int and fp cases) down to line 976.

Currently, for a 64-bit integer atomic, we will case mbcnt to i64 here, so the comparison on line 869 will be an i64 comparison. That is silly. There is no need for the comparison to be wider than i32.

foad: Then I suggest moving the casts (both int and fp cases) down to line 976. Currently, for a 64…

Value *const Identity = B.getInt(getIdentityValueForAtomicOp(Op, TyBitWidth)); Function *F = I.getFunction();

LLVMContext &C = F->getContext();

Value *Identity = getIdentityValueForAtomicOp(Ty, Op);

Value *ExclScan = nullptr; Value *ExclScan = nullptr;

Value *NewV = nullptr; Value *NewV = nullptr;

const bool NeedResult = !I.use_empty(); const bool NeedResult = !I.use_empty();

arsenmUnsubmitted

Not Done

Can you just make getIdentityValueForAtomicOp return a Constant? Or add a variant that does?

arsenm: Can you just make getIdentityValueForAtomicOp return a Constant? Or add a variant that does?

Function *F = I.getFunction();

LLVMContext &C = F->getContext();

BasicBlock *ComputeLoop = nullptr; BasicBlock *ComputeLoop = nullptr;

BasicBlock *ComputeEnd = nullptr; BasicBlock *ComputeEnd = nullptr;

// If we have a divergent value in each lane, we need to combine the value // If we have a divergent value in each lane, we need to combine the value

// using DPP. // using DPP.

if (ValDivergent) { if (ValDivergent) {

const AtomicRMWInst::BinOp ScanOp = const AtomicRMWInst::BinOp ScanOp =

Op == AtomicRMWInst::Sub ? AtomicRMWInst::Add : Op; Op == AtomicRMWInst::Sub ? AtomicRMWInst::Add : Op;

if (ScanImpl == ScanOptions::DPP) { if (ScanImpl == ScanOptions::DPP) {

// First we need to set all inactive invocations to the identity value, so // First we need to set all inactive invocations to the identity value, so

// that they can correctly contribute to the final result. // that they can correctly contribute to the final result.

NewV = V = B.CreateBitCast(V, IntNTy);

B.CreateIntrinsic(Intrinsic::amdgcn_set_inactive, Ty, {V, Identity}); Identity = B.CreateBitCast(Identity, IntNTy);

NewV = B.CreateIntrinsic(Intrinsic::amdgcn_set_inactive, IntNTy,

{V, Identity});

NewV = B.CreateBitCast(NewV, Ty);

V = B.CreateBitCast(V, Ty);

Identity = B.CreateBitCast(Identity, Ty);

const AtomicRMWInst::BinOp ScanOp = const AtomicRMWInst::BinOp ScanOp =

Op == AtomicRMWInst::Sub ? AtomicRMWInst::Add : Op; Op == AtomicRMWInst::Sub ? AtomicRMWInst::Add : Op;

if (!NeedResult && ST->hasPermLaneX16()) { if (!NeedResult && ST->hasPermLaneX16()) {

// On GFX10 the permlanex16 instruction helps us build a reduction // On GFX10 the permlanex16 instruction helps us build a reduction

// without too many readlanes and writelanes, which are generally bad // without too many readlanes and writelanes, which are generally bad

// for performance. // for performance.

NewV = buildReduction(B, ScanOp, NewV, Identity); NewV = buildReduction(B, ScanOp, NewV, Identity);

} else { } else {

NewV = buildScan(B, ScanOp, NewV, Identity); NewV = buildScan(B, ScanOp, NewV, Identity);

if (NeedResult) if (NeedResult)

ExclScan = buildShiftRight(B, NewV, Identity); ExclScan = buildShiftRight(B, NewV, Identity);

// Read the value from the last lane, which has accumulated the values // Read the value from the last lane, which has accumulated the values

// of each active lane in the wavefront. This will be our new value // of each active lane in the wavefront. This will be our new value

// which we will provide to the atomic operation. // which we will provide to the atomic operation.

Value *const LastLaneIdx = B.getInt32(ST->getWavefrontSize() - 1); Value *const LastLaneIdx = B.getInt32(ST->getWavefrontSize() - 1);

assert(TyBitWidth == 32); assert(TyBitWidth == 32);

NewV = B.CreateBitCast(NewV, IntNTy);

NewV = B.CreateIntrinsic(Intrinsic::amdgcn_readlane, {}, NewV = B.CreateIntrinsic(Intrinsic::amdgcn_readlane, {},

{NewV, LastLaneIdx}); {NewV, LastLaneIdx});

NewV = B.CreateBitCast(NewV, Ty);

} }

// Finally mark the readlanes in the WWM section. // Finally mark the readlanes in the WWM section.

NewV = B.CreateIntrinsic(Intrinsic::amdgcn_strict_wwm, Ty, NewV); NewV = B.CreateIntrinsic(Intrinsic::amdgcn_strict_wwm, Ty, NewV);

} else if (ScanImpl == ScanOptions::Iterative) { } else if (ScanImpl == ScanOptions::Iterative) {

// Alternative implementation for scan // Alternative implementation for scan

ComputeLoop = BasicBlock::Create(C, "ComputeLoop", F); ComputeLoop = BasicBlock::Create(C, "ComputeLoop", F);

ComputeEnd = BasicBlock::Create(C, "ComputeEnd", F); ComputeEnd = BasicBlock::Create(C, "ComputeEnd", F);

std::tie(ExclScan, NewV) = buildScanIteratively(B, ScanOp, Identity, V, I, std::tie(ExclScan, NewV) = buildScanIteratively(B, ScanOp, Identity, V, I,

Show All 10 Lines if (ValDivergent) {

case AtomicRMWInst::Sub: { case AtomicRMWInst::Sub: {

// The new value we will be contributing to the atomic operation is the // The new value we will be contributing to the atomic operation is the

// old value times the number of active lanes. // old value times the number of active lanes.

Value *const Ctpop = B.CreateIntCast( Value *const Ctpop = B.CreateIntCast(

B.CreateUnaryIntrinsic(Intrinsic::ctpop, Ballot), Ty, false); B.CreateUnaryIntrinsic(Intrinsic::ctpop, Ballot), Ty, false);

NewV = buildMul(B, V, Ctpop); NewV = buildMul(B, V, Ctpop);

break; break;

} }

case AtomicRMWInst::FAdd:

case AtomicRMWInst::FSub: {

Value *const Ctpop = B.CreateIntCast(

B.CreateUnaryIntrinsic(Intrinsic::ctpop, Ballot), Int32Ty, false);

Value *const CtpopFP = B.CreateUIToFP(Ctpop, Ty);

NewV = B.CreateFMul(V, CtpopFP);

arsenmUnsubmitted

Not Done

I don't follow how this can be a convert and multiply

arsenm: I don't follow how this can be a convert and multiply

foadUnsubmitted

Not Done

In general fmul will not give the exact same answer as a sequence of fadds, so you probably need to check some fast math flags before doing this.

foad: In general fmul will not give the exact same answer as a sequence of fadds, so you probably…

arsenmUnsubmitted

Not Done

We don't have fast math flags on atomics, but you would need to expand to the add sequence without some kind of reassociate flag

arsenm: We don't have fast math flags on atomics, but you would need to expand to the add sequence…

pravinjagtapAuthorUnsubmitted

Done

If the logic of no-of-active-lanes * uniform float value is not valid here for uniform value case, then can we use the logic implemented in buildScanIteratively for divergent values (even if the input value is uniform in atomics).

Or, we want sequence of additions avoiding the loop (branch instructions) that we have in buildScanIteratively. We also need to write back this intermediate values of sequence of additions if results is needed later in the kernel.

pravinjagtap: If the logic of `no-of-active-lanes * uniform float value` is not valid here for uniform value…

pravinjagtapAuthorUnsubmitted

Done

CC: @b-sumner @foad

pravinjagtap: CC: @b-sumner @foad

arsenmUnsubmitted

Not Done

I suppose this is fine. You didn't have any adding order guarantee before

arsenm: I suppose this is fine. You didn't have any adding order guarantee before

break;

}

case AtomicRMWInst::And: case AtomicRMWInst::And:

case AtomicRMWInst::Or: case AtomicRMWInst::Or:

case AtomicRMWInst::Max: case AtomicRMWInst::Max:

case AtomicRMWInst::Min: case AtomicRMWInst::Min:

case AtomicRMWInst::UMax: case AtomicRMWInst::UMax:

case AtomicRMWInst::UMin: case AtomicRMWInst::UMin:

// These operations with a uniform value are idempotent: doing the atomic // These operations with a uniform value are idempotent: doing the atomic

// operation multiple times has the same effect as doing it once. // operation multiple times has the same effect as doing it once.

arsenmUnsubmitted

Not Done

These belong with the other patch

arsenm: These belong with the other patch

NewV = V; NewV = V;

break; break;

case AtomicRMWInst::Xor: case AtomicRMWInst::Xor:

// The new value we will be contributing to the atomic operation is the // The new value we will be contributing to the atomic operation is the

// old value times the parity of the number of active lanes. // old value times the parity of the number of active lanes.

Value *const Ctpop = B.CreateIntCast( Value *const Ctpop = B.CreateIntCast(

B.CreateUnaryIntrinsic(Intrinsic::ctpop, Ballot), Ty, false); B.CreateUnaryIntrinsic(Intrinsic::ctpop, Ballot), Ty, false);

NewV = buildMul(B, V, B.CreateAnd(Ctpop, 1)); NewV = buildMul(B, V, B.CreateAnd(Ctpop, 1));

break; break;

} }

// We only want a single lane to enter our new control flow, and we do this // We only want a single lane to enter our new control flow, and we do this

// by checking if there are any active lanes below us. Only one lane will // by checking if there are any active lanes below us. Only one lane will

// have 0 active lanes below us, so that will be the only one to progress. // have 0 active lanes below us, so that will be the only one to progress.

Value *const Cond = B.CreateICmpEQ(Mbcnt, B.getIntN(TyBitWidth, 0)); Value *const Cond = B.CreateICmpEQ(Mbcnt, B.getInt32(0));

pravinjagtapAuthorUnsubmitted

Done

I hope, this stops 64 bit comparisons for 64 bit atomic values. Please check effect of this in llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll

pravinjagtap: I hope, this stops 64 bit comparisons for 64 bit atomic values. Please check effect of this in…

foadUnsubmitted

Not Done

I don't actually see any 64-bit cmp instructions in that test, even before your patch. I guess we already managed to shrink them back to 32-bit comparisons.

foad: I don't actually see any 64-bit cmp instructions in that test, even before your patch. I guess…

pravinjagtapAuthorUnsubmitted

Done

Having 32-bit comparison here for all the cases (int, long, float, wavefront size 32/64) is fine right ? Or do I need to revert this change?

pravinjagtap: Having 32-bit comparison here for all the cases (int, long, float, wavefront size 32/64) is…

foadUnsubmitted

Not Done

It is fine. We are talking about the laneid == 0 comparison, which should always be 32-bit even for a 64-bit atomic, since the laneid is just a small integer in the range 0..63.

foad: It is fine. We are talking about the `laneid == 0` comparison, which should always be 32-bit…

// Store I's original basic block before we split the block. // Store I's original basic block before we split the block.

BasicBlock *const EntryBB = I.getParent(); BasicBlock *const EntryBB = I.getParent();

// We need to introduce some new control flow to force a single lane to be // We need to introduce some new control flow to force a single lane to be

// active. We do this by splitting I's basic block at I, and introducing the // active. We do this by splitting I's basic block at I, and introducing the

// new block such that: // new block such that:

// entry --> single_lane -\ // entry --> single_lane -\

▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines if (NeedResult) {

PHI->addIncoming(NewI, SingleLaneTerminator->getParent()); PHI->addIncoming(NewI, SingleLaneTerminator->getParent());

// We need to broadcast the value who was the lowest active lane (the first // We need to broadcast the value who was the lowest active lane (the first

// lane) to all other lanes in the wavefront. We use an intrinsic for this, // lane) to all other lanes in the wavefront. We use an intrinsic for this,

// but have to handle 64-bit broadcasts with two calls to this intrinsic. // but have to handle 64-bit broadcasts with two calls to this intrinsic.

Value *BroadcastI = nullptr; Value *BroadcastI = nullptr;

if (TyBitWidth == 64) { if (TyBitWidth == 64) {

Value *const ExtractLo = B.CreateTrunc(PHI, B.getInt32Ty()); Value *const ExtractLo = B.CreateTrunc(PHI, Int32Ty);

Value *const ExtractHi = Value *const ExtractHi = B.CreateTrunc(B.CreateLShr(PHI, 32), Int32Ty);

B.CreateTrunc(B.CreateLShr(PHI, 32), B.getInt32Ty());

CallInst *const ReadFirstLaneLo = CallInst *const ReadFirstLaneLo =

B.CreateIntrinsic(Intrinsic::amdgcn_readfirstlane, {}, ExtractLo); B.CreateIntrinsic(Intrinsic::amdgcn_readfirstlane, {}, ExtractLo);

CallInst *const ReadFirstLaneHi = CallInst *const ReadFirstLaneHi =

B.CreateIntrinsic(Intrinsic::amdgcn_readfirstlane, {}, ExtractHi); B.CreateIntrinsic(Intrinsic::amdgcn_readfirstlane, {}, ExtractHi);

Value *const PartialInsert = B.CreateInsertElement( Value *const PartialInsert = B.CreateInsertElement(

PoisonValue::get(VecTy), ReadFirstLaneLo, B.getInt32(0)); PoisonValue::get(VecTy), ReadFirstLaneLo, B.getInt32(0));

Value *const Insert = Value *const Insert =

B.CreateInsertElement(PartialInsert, ReadFirstLaneHi, B.getInt32(1)); B.CreateInsertElement(PartialInsert, ReadFirstLaneHi, B.getInt32(1));

BroadcastI = B.CreateBitCast(Insert, Ty); BroadcastI = B.CreateBitCast(Insert, Ty);

} else if (TyBitWidth == 32) { } else if (TyBitWidth == 32) {

Value *CastedPhi = B.CreateBitCast(PHI, IntNTy);

BroadcastI =

B.CreateIntrinsic(Intrinsic::amdgcn_readfirstlane, {}, CastedPhi);

BroadcastI = B.CreateBitCast(BroadcastI, Ty);

BroadcastI = B.CreateIntrinsic(Intrinsic::amdgcn_readfirstlane, {}, PHI);

} else { } else {

llvm_unreachable("Unhandled atomic bit width"); llvm_unreachable("Unhandled atomic bit width");

} }

// Now that we have the result of our single atomic operation, we need to // Now that we have the result of our single atomic operation, we need to

// get our individual lane's slice into the result. We use the lane offset // get our individual lane's slice into the result. We use the lane offset

// we previously calculated combined with the atomic result value we got // we previously calculated combined with the atomic result value we got

// from the first lane, to get our lane's index into the atomic result. // from the first lane, to get our lane's index into the atomic result.

Value *LaneOffset = nullptr; Value *LaneOffset = nullptr;

if (ValDivergent) { if (ValDivergent) {

if (ScanImpl == ScanOptions::DPP) { if (ScanImpl == ScanOptions::DPP) {

LaneOffset = LaneOffset =

B.CreateIntrinsic(Intrinsic::amdgcn_strict_wwm, Ty, ExclScan); B.CreateIntrinsic(Intrinsic::amdgcn_strict_wwm, Ty, ExclScan);

} else if (ScanImpl == ScanOptions::Iterative) { } else if (ScanImpl == ScanOptions::Iterative) {

LaneOffset = ExclScan; LaneOffset = ExclScan;

} else { } else {

llvm_unreachable("Atomic Optimzer is disabled for None strategy"); llvm_unreachable("Atomic Optimzer is disabled for None strategy");

} }

} else { } else {

Mbcnt = isAtomicFloatingPointTy ? B.CreateUIToFP(Mbcnt, Ty)

: B.CreateIntCast(Mbcnt, Ty, false);

switch (Op) { switch (Op) {

default: default:

llvm_unreachable("Unhandled atomic op"); llvm_unreachable("Unhandled atomic op");

case AtomicRMWInst::Add: case AtomicRMWInst::Add:

case AtomicRMWInst::Sub: case AtomicRMWInst::Sub:

LaneOffset = buildMul(B, V, Mbcnt); LaneOffset = buildMul(B, V, Mbcnt);

break; break;

case AtomicRMWInst::And: case AtomicRMWInst::And:

case AtomicRMWInst::Or: case AtomicRMWInst::Or:

case AtomicRMWInst::Max: case AtomicRMWInst::Max:

case AtomicRMWInst::Min: case AtomicRMWInst::Min:

case AtomicRMWInst::UMax: case AtomicRMWInst::UMax:

case AtomicRMWInst::UMin: case AtomicRMWInst::UMin:

LaneOffset = B.CreateSelect(Cond, Identity, V); LaneOffset = B.CreateSelect(Cond, Identity, V);

break; break;

case AtomicRMWInst::Xor: case AtomicRMWInst::Xor:

LaneOffset = buildMul(B, V, B.CreateAnd(Mbcnt, 1)); LaneOffset = buildMul(B, V, B.CreateAnd(Mbcnt, 1));

break; break;

case AtomicRMWInst::FAdd:

case AtomicRMWInst::FSub: {

LaneOffset = B.CreateFMul(V, Mbcnt);

break;

}

} }

Value *const Result = buildNonAtomicBinOp(B, Op, BroadcastI, LaneOffset); Value *const Result = buildNonAtomicBinOp(B, Op, BroadcastI, LaneOffset);

if (IsPixelShader) { if (IsPixelShader) {

// Need a final PHI to reconverge to above the helper lane branch mask. // Need a final PHI to reconverge to above the helper lane branch mask.

B.SetInsertPoint(PixelExitBB->getFirstNonPHI()); B.SetInsertPoint(PixelExitBB->getFirstNonPHI());

Show All 24 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/atomic_optimizations_mul_one.ll

; NOTE: Assertions have been autogenerated by utils/update_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --version 3
; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: opt -S -mtriple=amdgcn-- -passes=amdgpu-atomic-optimizer %s \| FileCheck -check-prefix=IR %s		; RUN: opt -S -mtriple=amdgcn-- -passes=amdgpu-atomic-optimizer %s \| FileCheck -check-prefix=IR %s
; RUN: llc -global-isel -mtriple=amdgcn-- -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -global-isel -mtriple=amdgcn-- -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

declare i32 @llvm.amdgcn.struct.buffer.atomic.add.i32(i32, <4 x i32>, i32, i32, i32, i32 immarg)		declare i32 @llvm.amdgcn.struct.buffer.atomic.add.i32(i32, <4 x i32>, i32, i32, i32, i32 immarg)
declare i32 @llvm.amdgcn.struct.buffer.atomic.sub.i32(i32, <4 x i32>, i32, i32, i32, i32 immarg)		declare i32 @llvm.amdgcn.struct.buffer.atomic.sub.i32(i32, <4 x i32>, i32, i32, i32, i32 immarg)
declare i32 @llvm.amdgcn.struct.buffer.atomic.xor.i32(i32, <4 x i32>, i32, i32, i32, i32 immarg)		declare i32 @llvm.amdgcn.struct.buffer.atomic.xor.i32(i32, <4 x i32>, i32, i32, i32, i32 immarg)
declare void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32>, <4 x i32>, i32, i32, i32, i32 immarg)		declare void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32>, <4 x i32>, i32, i32, i32, i32 immarg)

declare i32 @llvm.amdgcn.struct.ptr.buffer.atomic.add.i32(i32, ptr addrspace(8), i32, i32, i32, i32 immarg)		declare i32 @llvm.amdgcn.struct.ptr.buffer.atomic.add.i32(i32, ptr addrspace(8), i32, i32, i32, i32 immarg)
declare i32 @llvm.amdgcn.struct.ptr.buffer.atomic.sub.i32(i32, ptr addrspace (8), i32, i32, i32, i32 immarg)		declare i32 @llvm.amdgcn.struct.ptr.buffer.atomic.sub.i32(i32, ptr addrspace (8), i32, i32, i32, i32 immarg)
declare i32 @llvm.amdgcn.struct.ptr.buffer.atomic.xor.i32(i32, ptr addrspace(8), i32, i32, i32, i32 immarg)		declare i32 @llvm.amdgcn.struct.ptr.buffer.atomic.xor.i32(i32, ptr addrspace(8), i32, i32, i32, i32 immarg)
declare void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32>, ptr addrspace(8), i32, i32, i32, i32 immarg)		declare void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32>, ptr addrspace(8), i32, i32, i32, i32 immarg)


define amdgpu_cs void @atomic_add(<4 x i32> inreg %arg) {		define amdgpu_cs void @atomic_add(<4 x i32> inreg %arg) {
; IR-LABEL: @atomic_add(		; IR-LABEL: define amdgpu_cs void @atomic_add(
		; IR-SAME: <4 x i32> inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]		; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = call i32 @llvm.amdgcn.struct.buffer.atomic.add.i32(i32 [[TMP7]], <4 x i32> [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.struct.buffer.atomic.add.i32(i32 [[TMP7]], <4 x i32> [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP11]]		; IR-NEXT: br label [[TMP11]]
; IR: 11:		; IR: 11:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_add:		; GCN-LABEL: atomic_add:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[4:5], exec		; GCN-NEXT: s_mov_b64 s[4:5], exec
		; GCN-NEXT: s_mov_b32 s6, s5
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s5, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s6, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc		; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc
; GCN-NEXT: s_cbranch_execz .LBB0_2		; GCN-NEXT: s_cbranch_execz .LBB0_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]		; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
; GCN-NEXT: v_mov_b32_e32 v0, 0		; GCN-NEXT: v_mov_b32_e32 v0, 0
; GCN-NEXT: v_mov_b32_e32 v1, s4		; GCN-NEXT: v_mov_b32_e32 v1, s4
; GCN-NEXT: buffer_atomic_add v1, v0, s[0:3], 0 idxen		; GCN-NEXT: buffer_atomic_add v1, v0, s[0:3], 0 idxen
; GCN-NEXT: .LBB0_2:		; GCN-NEXT: .LBB0_2:
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
.entry:		.entry:
call i32 @llvm.amdgcn.struct.buffer.atomic.add.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)		call i32 @llvm.amdgcn.struct.buffer.atomic.add.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @atomic_add_and_format(<4 x i32> inreg %arg) {		define amdgpu_cs void @atomic_add_and_format(<4 x i32> inreg %arg) {
; IR-LABEL: @atomic_add_and_format(		; IR-LABEL: define amdgpu_cs void @atomic_add_and_format(
		; IR-SAME: <4 x i32> inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]		; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = call i32 @llvm.amdgcn.struct.buffer.atomic.add.i32(i32 [[TMP7]], <4 x i32> [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.struct.buffer.atomic.add.i32(i32 [[TMP7]], <4 x i32> [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP11]]		; IR-NEXT: br label [[TMP11]]
; IR: 11:		; IR: 11:
; IR-NEXT: [[TMP12:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP10]], [[TMP9]] ]		; IR-NEXT: [[TMP12:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP10]], [[TMP9]] ]
; IR-NEXT: [[TMP13:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP12]])		; IR-NEXT: [[TMP13:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP12]])
; IR-NEXT: [[TMP14:%.*]] = add i32 [[TMP13]], [[TMP5]]		; IR-NEXT: [[TMP14:%.*]] = add i32 [[TMP13]], [[TMP5]]
; IR-NEXT: call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> [[ARG]], <4 x i32> [[ARG]], i32 [[TMP14]], i32 0, i32 0, i32 0)		; IR-NEXT: call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> [[ARG]], <4 x i32> [[ARG]], i32 [[TMP14]], i32 0, i32 0, i32 0)
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_add_and_format:		; GCN-LABEL: atomic_add_and_format:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[6:7], exec		; GCN-NEXT: s_mov_b64 s[6:7], exec
		; GCN-NEXT: s_mov_b32 s4, s7
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s7, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s4, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: ; implicit-def: $vgpr1		; GCN-NEXT: ; implicit-def: $vgpr1
; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc		; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc
; GCN-NEXT: s_cbranch_execz .LBB1_2		; GCN-NEXT: s_cbranch_execz .LBB1_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]		; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
; GCN-NEXT: v_mov_b32_e32 v1, s6		; GCN-NEXT: v_mov_b32_e32 v1, s6
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v2, 0
Show All 12 Lines
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
.entry:		.entry:
%a = call i32 @llvm.amdgcn.struct.buffer.atomic.add.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)		%a = call i32 @llvm.amdgcn.struct.buffer.atomic.add.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)
call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> %arg, <4 x i32> %arg, i32 %a, i32 0, i32 0, i32 0)		call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> %arg, <4 x i32> %arg, i32 %a, i32 0, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @atomic_sub(<4 x i32> inreg %arg) {		define amdgpu_cs void @atomic_sub(<4 x i32> inreg %arg) {
; IR-LABEL: @atomic_sub(		; IR-LABEL: define amdgpu_cs void @atomic_sub(
		; IR-SAME: <4 x i32> inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]		; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = call i32 @llvm.amdgcn.struct.buffer.atomic.sub.i32(i32 [[TMP7]], <4 x i32> [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.struct.buffer.atomic.sub.i32(i32 [[TMP7]], <4 x i32> [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP11]]		; IR-NEXT: br label [[TMP11]]
; IR: 11:		; IR: 11:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_sub:		; GCN-LABEL: atomic_sub:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[4:5], exec		; GCN-NEXT: s_mov_b64 s[4:5], exec
		; GCN-NEXT: s_mov_b32 s6, s5
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s5, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s6, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc		; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc
; GCN-NEXT: s_cbranch_execz .LBB2_2		; GCN-NEXT: s_cbranch_execz .LBB2_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]		; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
; GCN-NEXT: v_mov_b32_e32 v0, 0		; GCN-NEXT: v_mov_b32_e32 v0, 0
; GCN-NEXT: v_mov_b32_e32 v1, s4		; GCN-NEXT: v_mov_b32_e32 v1, s4
; GCN-NEXT: buffer_atomic_sub v1, v0, s[0:3], 0 idxen		; GCN-NEXT: buffer_atomic_sub v1, v0, s[0:3], 0 idxen
; GCN-NEXT: .LBB2_2:		; GCN-NEXT: .LBB2_2:
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
.entry:		.entry:
call i32 @llvm.amdgcn.struct.buffer.atomic.sub.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)		call i32 @llvm.amdgcn.struct.buffer.atomic.sub.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @atomic_sub_and_format(<4 x i32> inreg %arg) {		define amdgpu_cs void @atomic_sub_and_format(<4 x i32> inreg %arg) {
; IR-LABEL: @atomic_sub_and_format(		; IR-LABEL: define amdgpu_cs void @atomic_sub_and_format(
		; IR-SAME: <4 x i32> inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]		; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = call i32 @llvm.amdgcn.struct.buffer.atomic.sub.i32(i32 [[TMP7]], <4 x i32> [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.struct.buffer.atomic.sub.i32(i32 [[TMP7]], <4 x i32> [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP11]]		; IR-NEXT: br label [[TMP11]]
; IR: 11:		; IR: 11:
; IR-NEXT: [[TMP12:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP10]], [[TMP9]] ]		; IR-NEXT: [[TMP12:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP10]], [[TMP9]] ]
; IR-NEXT: [[TMP13:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP12]])		; IR-NEXT: [[TMP13:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP12]])
; IR-NEXT: [[TMP14:%.*]] = sub i32 [[TMP13]], [[TMP5]]		; IR-NEXT: [[TMP14:%.*]] = sub i32 [[TMP13]], [[TMP5]]
; IR-NEXT: call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> [[ARG]], <4 x i32> [[ARG]], i32 [[TMP14]], i32 0, i32 0, i32 0)		; IR-NEXT: call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> [[ARG]], <4 x i32> [[ARG]], i32 [[TMP14]], i32 0, i32 0, i32 0)
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_sub_and_format:		; GCN-LABEL: atomic_sub_and_format:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[6:7], exec		; GCN-NEXT: s_mov_b64 s[6:7], exec
		; GCN-NEXT: s_mov_b32 s4, s7
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s7, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s4, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: ; implicit-def: $vgpr1		; GCN-NEXT: ; implicit-def: $vgpr1
; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc		; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc
; GCN-NEXT: s_cbranch_execz .LBB3_2		; GCN-NEXT: s_cbranch_execz .LBB3_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]		; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
; GCN-NEXT: v_mov_b32_e32 v1, s6		; GCN-NEXT: v_mov_b32_e32 v1, s6
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v2, 0
Show All 12 Lines
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
.entry:		.entry:
%a = call i32 @llvm.amdgcn.struct.buffer.atomic.sub.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)		%a = call i32 @llvm.amdgcn.struct.buffer.atomic.sub.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)
call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> %arg, <4 x i32> %arg, i32 %a, i32 0, i32 0, i32 0)		call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> %arg, <4 x i32> %arg, i32 %a, i32 0, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @atomic_xor(<4 x i32> inreg %arg) {		define amdgpu_cs void @atomic_xor(<4 x i32> inreg %arg) {
; IR-LABEL: @atomic_xor(		; IR-LABEL: define amdgpu_cs void @atomic_xor(
		; IR-SAME: <4 x i32> inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = and i32 [[TMP7]], 1		; IR-NEXT: [[TMP8:%.*]] = and i32 [[TMP7]], 1
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.]] = call i32 @llvm.amdgcn.struct.buffer.atomic.xor.i32(i32 [[TMP8]], <4 x i32> [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP11:%.*]] = call i32 @llvm.amdgcn.struct.buffer.atomic.xor.i32(i32 [[TMP8]], <4 x i32> [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_xor:		; GCN-LABEL: atomic_xor:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[4:5], exec		; GCN-NEXT: s_mov_b64 s[4:5], exec
		; GCN-NEXT: s_mov_b32 s6, s5
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s5, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s6, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc		; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc
; GCN-NEXT: s_cbranch_execz .LBB4_2		; GCN-NEXT: s_cbranch_execz .LBB4_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]		; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
; GCN-NEXT: s_and_b32 s4, s4, 1		; GCN-NEXT: s_and_b32 s4, s4, 1
; GCN-NEXT: v_mov_b32_e32 v0, 0		; GCN-NEXT: v_mov_b32_e32 v0, 0
; GCN-NEXT: v_mov_b32_e32 v1, s4		; GCN-NEXT: v_mov_b32_e32 v1, s4
; GCN-NEXT: buffer_atomic_xor v1, v0, s[0:3], 0 idxen		; GCN-NEXT: buffer_atomic_xor v1, v0, s[0:3], 0 idxen
; GCN-NEXT: .LBB4_2:		; GCN-NEXT: .LBB4_2:
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
.entry:		.entry:
call i32 @llvm.amdgcn.struct.buffer.atomic.xor.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)		call i32 @llvm.amdgcn.struct.buffer.atomic.xor.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @atomic_xor_and_format(<4 x i32> inreg %arg) {		define amdgpu_cs void @atomic_xor_and_format(<4 x i32> inreg %arg) {
; IR-LABEL: @atomic_xor_and_format(		; IR-LABEL: define amdgpu_cs void @atomic_xor_and_format(
		; IR-SAME: <4 x i32> inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = and i32 [[TMP7]], 1		; IR-NEXT: [[TMP8:%.*]] = and i32 [[TMP7]], 1
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.]] = call i32 @llvm.amdgcn.struct.buffer.atomic.xor.i32(i32 [[TMP8]], <4 x i32> [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP11:%.*]] = call i32 @llvm.amdgcn.struct.buffer.atomic.xor.i32(i32 [[TMP8]], <4 x i32> [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: [[TMP13:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP11]], [[TMP10]] ]		; IR-NEXT: [[TMP13:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP11]], [[TMP10]] ]
; IR-NEXT: [[TMP14:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP13]])		; IR-NEXT: [[TMP14:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP13]])
; IR-NEXT: [[TMP15:%.*]] = and i32 [[TMP5]], 1		; IR-NEXT: [[TMP15:%.*]] = and i32 [[TMP5]], 1
; IR-NEXT: [[TMP16:%.*]] = xor i32 [[TMP14]], [[TMP15]]		; IR-NEXT: [[TMP16:%.*]] = xor i32 [[TMP14]], [[TMP15]]
; IR-NEXT: call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> [[ARG]], <4 x i32> [[ARG]], i32 [[TMP16]], i32 0, i32 0, i32 0)		; IR-NEXT: call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> [[ARG]], <4 x i32> [[ARG]], i32 [[TMP16]], i32 0, i32 0, i32 0)
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_xor_and_format:		; GCN-LABEL: atomic_xor_and_format:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[6:7], exec		; GCN-NEXT: s_mov_b64 s[6:7], exec
		; GCN-NEXT: s_mov_b32 s4, s7
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s7, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s4, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: ; implicit-def: $vgpr1		; GCN-NEXT: ; implicit-def: $vgpr1
; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc		; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc
; GCN-NEXT: s_cbranch_execz .LBB5_2		; GCN-NEXT: s_cbranch_execz .LBB5_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]		; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
; GCN-NEXT: s_and_b32 s6, s6, 1		; GCN-NEXT: s_and_b32 s6, s6, 1
; GCN-NEXT: v_mov_b32_e32 v1, s6		; GCN-NEXT: v_mov_b32_e32 v1, s6
Show All 14 Lines
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
.entry:		.entry:
%a = call i32 @llvm.amdgcn.struct.buffer.atomic.xor.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)		%a = call i32 @llvm.amdgcn.struct.buffer.atomic.xor.i32(i32 1, <4 x i32> %arg, i32 0, i32 0, i32 0, i32 0)
call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> %arg, <4 x i32> %arg, i32 %a, i32 0, i32 0, i32 0)		call void @llvm.amdgcn.struct.buffer.store.format.v4i32(<4 x i32> %arg, <4 x i32> %arg, i32 %a, i32 0, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @atomic_ptr_add(ptr addrspace(8) inreg %arg) {		define amdgpu_cs void @atomic_ptr_add(ptr addrspace(8) inreg %arg) {
; IR-LABEL: @atomic_ptr_add(		; IR-LABEL: define amdgpu_cs void @atomic_ptr_add(
		; IR-SAME: ptr addrspace(8) inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]		; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.add.i32(i32 [[TMP7]], ptr addrspace(8) [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.add.i32(i32 [[TMP7]], ptr addrspace(8) [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP11]]		; IR-NEXT: br label [[TMP11]]
; IR: 11:		; IR: 11:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_ptr_add:		; GCN-LABEL: atomic_ptr_add:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[4:5], exec		; GCN-NEXT: s_mov_b64 s[4:5], exec
		; GCN-NEXT: s_mov_b32 s6, s5
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s5, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s6, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc		; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc
; GCN-NEXT: s_cbranch_execz .LBB6_2		; GCN-NEXT: s_cbranch_execz .LBB6_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]		; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
; GCN-NEXT: v_mov_b32_e32 v0, 0		; GCN-NEXT: v_mov_b32_e32 v0, 0
; GCN-NEXT: v_mov_b32_e32 v1, s4		; GCN-NEXT: v_mov_b32_e32 v1, s4
; GCN-NEXT: buffer_atomic_add v1, v0, s[0:3], 0 idxen		; GCN-NEXT: buffer_atomic_add v1, v0, s[0:3], 0 idxen
; GCN-NEXT: .LBB6_2:		; GCN-NEXT: .LBB6_2:
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
.entry:		.entry:
call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.add.i32(i32 1, ptr addrspace(8) %arg, i32 0, i32 0, i32 0, i32 0)		call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.add.i32(i32 1, ptr addrspace(8) %arg, i32 0, i32 0, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @atomic_ptr_add_and_format(ptr addrspace(8) inreg %arg) {		define amdgpu_cs void @atomic_ptr_add_and_format(ptr addrspace(8) inreg %arg) {
; IR-LABEL: @atomic_ptr_add_and_format(		; IR-LABEL: define amdgpu_cs void @atomic_ptr_add_and_format(
		; IR-SAME: ptr addrspace(8) inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]		; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.add.i32(i32 [[TMP7]], ptr addrspace(8) [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.add.i32(i32 [[TMP7]], ptr addrspace(8) [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP11]]		; IR-NEXT: br label [[TMP11]]
; IR: 11:		; IR: 11:
; IR-NEXT: [[TMP12:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP10]], [[TMP9]] ]		; IR-NEXT: [[TMP12:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP10]], [[TMP9]] ]
; IR-NEXT: [[TMP13:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP12]])		; IR-NEXT: [[TMP13:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP12]])
; IR-NEXT: [[TMP14:%.*]] = add i32 [[TMP13]], [[TMP5]]		; IR-NEXT: [[TMP14:%.*]] = add i32 [[TMP13]], [[TMP5]]
; IR-NEXT: [[ARG_INT:%.*]] = ptrtoint ptr addrspace(8) [[ARG]] to i128		; IR-NEXT: [[ARG_INT:%.*]] = ptrtoint ptr addrspace(8) [[ARG]] to i128
; IR-NEXT: [[ARG_VEC:%.*]] = bitcast i128 [[ARG_INT]] to <4 x i32>		; IR-NEXT: [[ARG_VEC:%.*]] = bitcast i128 [[ARG_INT]] to <4 x i32>
; IR-NEXT: call void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32> [[ARG_VEC]], ptr addrspace(8) [[ARG]], i32 [[TMP14]], i32 0, i32 0, i32 0)		; IR-NEXT: call void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32> [[ARG_VEC]], ptr addrspace(8) [[ARG]], i32 [[TMP14]], i32 0, i32 0, i32 0)
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_ptr_add_and_format:		; GCN-LABEL: atomic_ptr_add_and_format:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[6:7], exec		; GCN-NEXT: s_mov_b64 s[6:7], exec
		; GCN-NEXT: s_mov_b32 s4, s7
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s7, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s4, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: ; implicit-def: $vgpr1		; GCN-NEXT: ; implicit-def: $vgpr1
; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc		; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc
; GCN-NEXT: s_cbranch_execz .LBB7_2		; GCN-NEXT: s_cbranch_execz .LBB7_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]		; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
; GCN-NEXT: v_mov_b32_e32 v1, s6		; GCN-NEXT: v_mov_b32_e32 v1, s6
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v2, 0
Show All 14 Lines	.entry:
%a = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.add.i32(i32 1, ptr addrspace(8) %arg, i32 0, i32 0, i32 0, i32 0)		%a = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.add.i32(i32 1, ptr addrspace(8) %arg, i32 0, i32 0, i32 0, i32 0)
%arg.int = ptrtoint ptr addrspace(8) %arg to i128		%arg.int = ptrtoint ptr addrspace(8) %arg to i128
%arg.vec = bitcast i128 %arg.int to <4 x i32>		%arg.vec = bitcast i128 %arg.int to <4 x i32>
call void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32> %arg.vec, ptr addrspace(8) %arg, i32 %a, i32 0, i32 0, i32 0)		call void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32> %arg.vec, ptr addrspace(8) %arg, i32 %a, i32 0, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @atomic_ptr_sub(ptr addrspace(8) inreg %arg) {		define amdgpu_cs void @atomic_ptr_sub(ptr addrspace(8) inreg %arg) {
; IR-LABEL: @atomic_ptr_sub(		; IR-LABEL: define amdgpu_cs void @atomic_ptr_sub(
		; IR-SAME: ptr addrspace(8) inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]		; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.sub.i32(i32 [[TMP7]], ptr addrspace(8) [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.sub.i32(i32 [[TMP7]], ptr addrspace(8) [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP11]]		; IR-NEXT: br label [[TMP11]]
; IR: 11:		; IR: 11:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_ptr_sub:		; GCN-LABEL: atomic_ptr_sub:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[4:5], exec		; GCN-NEXT: s_mov_b64 s[4:5], exec
		; GCN-NEXT: s_mov_b32 s6, s5
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s5, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s6, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc		; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc
; GCN-NEXT: s_cbranch_execz .LBB8_2		; GCN-NEXT: s_cbranch_execz .LBB8_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]		; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
; GCN-NEXT: v_mov_b32_e32 v0, 0		; GCN-NEXT: v_mov_b32_e32 v0, 0
; GCN-NEXT: v_mov_b32_e32 v1, s4		; GCN-NEXT: v_mov_b32_e32 v1, s4
; GCN-NEXT: buffer_atomic_sub v1, v0, s[0:3], 0 idxen		; GCN-NEXT: buffer_atomic_sub v1, v0, s[0:3], 0 idxen
; GCN-NEXT: .LBB8_2:		; GCN-NEXT: .LBB8_2:
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
.entry:		.entry:
call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.sub.i32(i32 1, ptr addrspace(8) %arg, i32 0, i32 0, i32 0, i32 0)		call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.sub.i32(i32 1, ptr addrspace(8) %arg, i32 0, i32 0, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @atomic_ptr_sub_and_format(ptr addrspace(8) inreg %arg) {		define amdgpu_cs void @atomic_ptr_sub_and_format(ptr addrspace(8) inreg %arg) {
; IR-LABEL: @atomic_ptr_sub_and_format(		; IR-LABEL: define amdgpu_cs void @atomic_ptr_sub_and_format(
		; IR-SAME: ptr addrspace(8) inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP8:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]		; IR-NEXT: br i1 [[TMP8]], label [[TMP9:%.]], label [[TMP11:%.]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.sub.i32(i32 [[TMP7]], ptr addrspace(8) [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.sub.i32(i32 [[TMP7]], ptr addrspace(8) [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP11]]		; IR-NEXT: br label [[TMP11]]
; IR: 11:		; IR: 11:
; IR-NEXT: [[TMP12:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP10]], [[TMP9]] ]		; IR-NEXT: [[TMP12:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP10]], [[TMP9]] ]
; IR-NEXT: [[TMP13:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP12]])		; IR-NEXT: [[TMP13:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP12]])
; IR-NEXT: [[TMP14:%.*]] = sub i32 [[TMP13]], [[TMP5]]		; IR-NEXT: [[TMP14:%.*]] = sub i32 [[TMP13]], [[TMP5]]
; IR-NEXT: [[ARG_INT:%.*]] = ptrtoint ptr addrspace(8) [[ARG]] to i128		; IR-NEXT: [[ARG_INT:%.*]] = ptrtoint ptr addrspace(8) [[ARG]] to i128
; IR-NEXT: [[ARG_VEC:%.*]] = bitcast i128 [[ARG_INT]] to <4 x i32>		; IR-NEXT: [[ARG_VEC:%.*]] = bitcast i128 [[ARG_INT]] to <4 x i32>
; IR-NEXT: call void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32> [[ARG_VEC]], ptr addrspace(8) [[ARG]], i32 [[TMP14]], i32 0, i32 0, i32 0)		; IR-NEXT: call void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32> [[ARG_VEC]], ptr addrspace(8) [[ARG]], i32 [[TMP14]], i32 0, i32 0, i32 0)
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_ptr_sub_and_format:		; GCN-LABEL: atomic_ptr_sub_and_format:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[6:7], exec		; GCN-NEXT: s_mov_b64 s[6:7], exec
		; GCN-NEXT: s_mov_b32 s4, s7
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s7, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s4, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: ; implicit-def: $vgpr1		; GCN-NEXT: ; implicit-def: $vgpr1
; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc		; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc
; GCN-NEXT: s_cbranch_execz .LBB9_2		; GCN-NEXT: s_cbranch_execz .LBB9_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]		; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
; GCN-NEXT: v_mov_b32_e32 v1, s6		; GCN-NEXT: v_mov_b32_e32 v1, s6
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v2, 0
Show All 14 Lines	.entry:
%a = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.sub.i32(i32 1, ptr addrspace(8) %arg, i32 0, i32 0, i32 0, i32 0)		%a = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.sub.i32(i32 1, ptr addrspace(8) %arg, i32 0, i32 0, i32 0, i32 0)
%arg.int = ptrtoint ptr addrspace(8) %arg to i128		%arg.int = ptrtoint ptr addrspace(8) %arg to i128
%arg.vec = bitcast i128 %arg.int to <4 x i32>		%arg.vec = bitcast i128 %arg.int to <4 x i32>
call void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32> %arg.vec, ptr addrspace(8) %arg, i32 %a, i32 0, i32 0, i32 0)		call void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32> %arg.vec, ptr addrspace(8) %arg, i32 %a, i32 0, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @atomic_ptr_xor(ptr addrspace(8) inreg %arg) {		define amdgpu_cs void @atomic_ptr_xor(ptr addrspace(8) inreg %arg) {
; IR-LABEL: @atomic_ptr_xor(		; IR-LABEL: define amdgpu_cs void @atomic_ptr_xor(
		; IR-SAME: ptr addrspace(8) inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = and i32 [[TMP7]], 1		; IR-NEXT: [[TMP8:%.*]] = and i32 [[TMP7]], 1
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.xor.i32(i32 [[TMP8]], ptr addrspace(8) [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP11:%.*]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.xor.i32(i32 [[TMP8]], ptr addrspace(8) [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_ptr_xor:		; GCN-LABEL: atomic_ptr_xor:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[4:5], exec		; GCN-NEXT: s_mov_b64 s[4:5], exec
		; GCN-NEXT: s_mov_b32 s6, s5
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s5, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s6, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc		; GCN-NEXT: s_and_saveexec_b64 s[6:7], vcc
; GCN-NEXT: s_cbranch_execz .LBB10_2		; GCN-NEXT: s_cbranch_execz .LBB10_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]		; GCN-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
; GCN-NEXT: s_and_b32 s4, s4, 1		; GCN-NEXT: s_and_b32 s4, s4, 1
; GCN-NEXT: v_mov_b32_e32 v0, 0		; GCN-NEXT: v_mov_b32_e32 v0, 0
; GCN-NEXT: v_mov_b32_e32 v1, s4		; GCN-NEXT: v_mov_b32_e32 v1, s4
; GCN-NEXT: buffer_atomic_xor v1, v0, s[0:3], 0 idxen		; GCN-NEXT: buffer_atomic_xor v1, v0, s[0:3], 0 idxen
; GCN-NEXT: .LBB10_2:		; GCN-NEXT: .LBB10_2:
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
.entry:		.entry:
call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.xor.i32(i32 1, ptr addrspace(8) %arg, i32 0, i32 0, i32 0, i32 0)		call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.xor.i32(i32 1, ptr addrspace(8) %arg, i32 0, i32 0, i32 0, i32 0)
ret void		ret void
}		}

define amdgpu_cs void @atomic_ptr_xor_and_format(ptr addrspace(8) inreg %arg) {		define amdgpu_cs void @atomic_ptr_xor_and_format(ptr addrspace(8) inreg %arg) {
; IR-LABEL: @atomic_ptr_xor_and_format(		; IR-LABEL: define amdgpu_cs void @atomic_ptr_xor_and_format(
		; IR-SAME: ptr addrspace(8) inreg [[ARG:%.*]]) {
; IR-NEXT: .entry:		; IR-NEXT: .entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.*]] = and i32 [[TMP7]], 1		; IR-NEXT: [[TMP8:%.*]] = and i32 [[TMP7]], 1
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.xor.i32(i32 [[TMP8]], ptr addrspace(8) [[ARG:%.]], i32 0, i32 0, i32 0, i32 0)		; IR-NEXT: [[TMP11:%.*]] = call i32 @llvm.amdgcn.struct.ptr.buffer.atomic.xor.i32(i32 [[TMP8]], ptr addrspace(8) [[ARG]], i32 0, i32 0, i32 0, i32 0)
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: [[TMP13:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP11]], [[TMP10]] ]		; IR-NEXT: [[TMP13:%.]] = phi i32 [ poison, [[DOTENTRY:%.]] ], [ [[TMP11]], [[TMP10]] ]
; IR-NEXT: [[TMP14:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP13]])		; IR-NEXT: [[TMP14:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP13]])
; IR-NEXT: [[TMP15:%.*]] = and i32 [[TMP5]], 1		; IR-NEXT: [[TMP15:%.*]] = and i32 [[TMP5]], 1
; IR-NEXT: [[TMP16:%.*]] = xor i32 [[TMP14]], [[TMP15]]		; IR-NEXT: [[TMP16:%.*]] = xor i32 [[TMP14]], [[TMP15]]
; IR-NEXT: [[ARG_INT:%.*]] = ptrtoint ptr addrspace(8) [[ARG]] to i128		; IR-NEXT: [[ARG_INT:%.*]] = ptrtoint ptr addrspace(8) [[ARG]] to i128
; IR-NEXT: [[ARG_VEC:%.*]] = bitcast i128 [[ARG_INT]] to <4 x i32>		; IR-NEXT: [[ARG_VEC:%.*]] = bitcast i128 [[ARG_INT]] to <4 x i32>
; IR-NEXT: call void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32> [[ARG_VEC]], ptr addrspace(8) [[ARG]], i32 [[TMP16]], i32 0, i32 0, i32 0)		; IR-NEXT: call void @llvm.amdgcn.struct.ptr.buffer.store.format.v4i32(<4 x i32> [[ARG_VEC]], ptr addrspace(8) [[ARG]], i32 [[TMP16]], i32 0, i32 0, i32 0)
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
; GCN-LABEL: atomic_ptr_xor_and_format:		; GCN-LABEL: atomic_ptr_xor_and_format:
; GCN: ; %bb.0: ; %.entry		; GCN: ; %bb.0: ; %.entry
; GCN-NEXT: s_mov_b64 s[6:7], exec		; GCN-NEXT: s_mov_b64 s[6:7], exec
		; GCN-NEXT: s_mov_b32 s4, s7
; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0		; GCN-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0
; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s7, v0		; GCN-NEXT: v_mbcnt_hi_u32_b32_e32 v0, s4, v0
; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GCN-NEXT: ; implicit-def: $vgpr1		; GCN-NEXT: ; implicit-def: $vgpr1
; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc		; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc
; GCN-NEXT: s_cbranch_execz .LBB11_2		; GCN-NEXT: s_cbranch_execz .LBB11_2
; GCN-NEXT: ; %bb.1:		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]		; GCN-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
; GCN-NEXT: s_and_b32 s6, s6, 1		; GCN-NEXT: s_and_b32 s6, s6, 1
; GCN-NEXT: v_mov_b32_e32 v1, s6		; GCN-NEXT: v_mov_b32_e32 v1, s6
Show All 22 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/global-atomic-fadd.f32-no-rtn.ll

; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
; RUN: llc -global-isel -march=amdgcn -mcpu=gfx908 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX908_GFX11 %s		; RUN: llc -global-isel -march=amdgcn -mcpu=gfx908 -verify-machineinstrs -amdgpu-atomic-optimizer-strategy=DPP -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX908_GFX11 %s
; RUN: llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s		; RUN: llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -amdgpu-atomic-optimizer-strategy=DPP -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s		; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -amdgpu-atomic-optimizer-strategy=DPP -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX908_GFX11 %s		; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -amdgpu-atomic-optimizer-strategy=DPP -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX908_GFX11 %s

define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_intrinsic(ptr addrspace(1) %ptr, float %data) {		define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_intrinsic(ptr addrspace(1) %ptr, float %data) {
; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic		; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic
; GFX908_GFX11: bb.1 (%ir-block.0):		; GFX908_GFX11: bb.1 (%ir-block.0):
; GFX908_GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX908_GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX908_GFX11-NEXT: {{ $}}		; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0		; GFX908_GFX11-NEXT: S_ENDPGM 0
		;
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic
; GFX90A_GFX940: bb.1 (%ir-block.0):		; GFX90A_GFX940: bb.1 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
Show All 10 Lines	define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_intrinsic(ptr addrspace(1) inreg %ptr, float %data) {
; GFX908_GFX11-NEXT: {{ $}}		; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0		; GFX908_GFX11-NEXT: S_ENDPGM 0
		;
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_intrinsic
; GFX90A_GFX940: bb.1 (%ir-block.0):		; GFX90A_GFX940: bb.1 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
Show All 10 Lines	define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_flat_intrinsic(ptr addrspace(1) %ptr, float %data) {
; GFX908_GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX908_GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX908_GFX11-NEXT: {{ $}}		; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0		; GFX908_GFX11-NEXT: S_ENDPGM 0
		;
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_flat_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_flat_intrinsic
; GFX90A_GFX940: bb.1 (%ir-block.0):		; GFX90A_GFX940: bb.1 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
Show All 10 Lines	define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic(ptr addrspace(1) inreg %ptr, float %data) {
; GFX908_GFX11-NEXT: {{ $}}		; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0		; GFX908_GFX11-NEXT: S_ENDPGM 0
		;
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic
; GFX90A_GFX940: bb.1 (%ir-block.0):		; GFX90A_GFX940: bb.1 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
Show All 10 Lines	define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_atomicrmw(ptr addrspace(1) %ptr, float %data) #0 {
; GFX908_GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX908_GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX908_GFX11-NEXT: {{ $}}		; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0		; GFX908_GFX11-NEXT: S_ENDPGM 0
		;
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_atomicrmw		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_atomicrmw
; GFX90A_GFX940: bb.1 (%ir-block.0):		; GFX90A_GFX940: bb.1 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: S_ENDPGM 0		; GFX90A_GFX940-NEXT: S_ENDPGM 0
%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic		%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic
ret void		ret void
}		}

define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_atomicrmw(ptr addrspace(1) inreg %ptr, float %data) #0 {		define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_atomicrmw(ptr addrspace(1) inreg %ptr, float %data) #0 {
; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_atomicrmw
; GFX908_GFX11: bb.1 (%ir-block.0):
; GFX908_GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_atomicrmw		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_atomicrmw
; GFX90A_GFX940: bb.1 (%ir-block.0):		; GFX90A_GFX940: bb.1 (%ir-block.0):
		; GFX90A_GFX940-NEXT: successors: %bb.2(0x40000000), %bb.4(0x40000000)
; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
		; GFX90A_GFX940-NEXT: [[SI_PS_LIVE:%[0-9]+]]:sreg_64_xexec = SI_PS_LIVE
		; GFX90A_GFX940-NEXT: [[SI_IF:%[0-9]+]]:sreg_64_xexec = SI_IF [[SI_PS_LIVE]], %bb.4, implicit-def $exec, implicit-def $scc, implicit $exec
		; GFX90A_GFX940-NEXT: S_BRANCH %bb.2
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: bb.2 (%ir-block.5):
		; GFX90A_GFX940-NEXT: successors: %bb.3(0x40000000), %bb.5(0x40000000)
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:sreg_64 = COPY $exec
		; GFX90A_GFX940-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY [[COPY3]].sub0
		; GFX90A_GFX940-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY [[COPY3]].sub0
		; GFX90A_GFX940-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY [[COPY3]].sub1
		; GFX90A_GFX940-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 0
		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY6]], %subreg.sub0, [[S_MOV_B32_]], %subreg.sub1
		; GFX90A_GFX940-NEXT: [[COPY7:%[0-9]+]]:sreg_32 = COPY [[REG_SEQUENCE1]].sub0
		; GFX90A_GFX940-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 0
		; GFX90A_GFX940-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY [[COPY4]]
		; GFX90A_GFX940-NEXT: [[COPY9:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_1]]
		; GFX90A_GFX940-NEXT: [[V_MBCNT_LO_U32_B32_e64_:%[0-9]+]]:vgpr_32 = V_MBCNT_LO_U32_B32_e64 [[COPY8]], [[COPY9]], implicit $exec
		; GFX90A_GFX940-NEXT: [[COPY10:%[0-9]+]]:vgpr_32 = COPY [[COPY7]]
		; GFX90A_GFX940-NEXT: [[V_MBCNT_HI_U32_B32_e64_:%[0-9]+]]:vgpr_32 = V_MBCNT_HI_U32_B32_e64 [[COPY10]], [[V_MBCNT_LO_U32_B32_e64_]], implicit $exec
		; GFX90A_GFX940-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 -2147483648
		; GFX90A_GFX940-NEXT: [[COPY11:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_2]]
		; GFX90A_GFX940-NEXT: [[V_SET_INACTIVE_B32_:%[0-9]+]]:vgpr_32 = V_SET_INACTIVE_B32 [[COPY2]], [[COPY11]], implicit-def dead $scc, implicit $exec
		; GFX90A_GFX940-NEXT: [[S_MOV_B32_3:%[0-9]+]]:sreg_32 = S_MOV_B32 2147483648
		; GFX90A_GFX940-NEXT: [[COPY12:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_3]]
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY12]], [[V_SET_INACTIVE_B32_]], 273, 15, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_SET_INACTIVE_B32_]], 0, [[V_MOV_B32_dpp]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[COPY13:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_3]]
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp1:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY13]], [[V_ADD_F32_e64_]], 274, 15, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_1:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_]], 0, [[V_MOV_B32_dpp1]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[COPY14:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_3]]
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp2:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY14]], [[V_ADD_F32_e64_1]], 276, 15, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_2:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_1]], 0, [[V_MOV_B32_dpp2]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[COPY15:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_3]]
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp3:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY15]], [[V_ADD_F32_e64_2]], 280, 15, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_3:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_2]], 0, [[V_MOV_B32_dpp3]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[COPY16:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_3]]
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp4:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY16]], [[V_ADD_F32_e64_3]], 322, 10, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_4:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_3]], 0, [[V_MOV_B32_dpp4]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[COPY17:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_3]]
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp5:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY17]], [[V_ADD_F32_e64_4]], 323, 12, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_5:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_4]], 0, [[V_MOV_B32_dpp5]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[S_MOV_B32_4:%[0-9]+]]:sreg_32 = S_MOV_B32 63
		; GFX90A_GFX940-NEXT: [[V_READLANE_B32_:%[0-9]+]]:sreg_32 = V_READLANE_B32 [[V_ADD_F32_e64_5]], [[S_MOV_B32_4]]
		; GFX90A_GFX940-NEXT: [[COPY18:%[0-9]+]]:vgpr_32 = COPY [[V_READLANE_B32_]]
		; GFX90A_GFX940-NEXT: [[STRICT_WWM:%[0-9]+]]:vgpr_32 = STRICT_WWM [[COPY18]], implicit $exec
		; GFX90A_GFX940-NEXT: [[COPY19:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_1]]
		; GFX90A_GFX940-NEXT: [[V_CMP_EQ_U32_e64_:%[0-9]+]]:sreg_64_xexec = V_CMP_EQ_U32_e64 [[V_MBCNT_HI_U32_B32_e64_]], [[COPY19]], implicit $exec
		; GFX90A_GFX940-NEXT: [[SI_IF1:%[0-9]+]]:sreg_64_xexec = SI_IF [[V_CMP_EQ_U32_e64_]], %bb.5, implicit-def $exec, implicit-def $scc, implicit $exec
		; GFX90A_GFX940-NEXT: S_BRANCH %bb.3
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: bb.3 (%ir-block.36):
		; GFX90A_GFX940-NEXT: successors: %bb.5(0x80000000)
		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[STRICT_WWM]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
		; GFX90A_GFX940-NEXT: S_BRANCH %bb.5
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: bb.4.Flow:
		; GFX90A_GFX940-NEXT: successors: %bb.6(0x80000000)
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: SI_END_CF [[SI_IF]], implicit-def $exec, implicit-def $scc, implicit $exec
		; GFX90A_GFX940-NEXT: S_BRANCH %bb.6
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: bb.5 (%ir-block.38):
		; GFX90A_GFX940-NEXT: successors: %bb.4(0x80000000)
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: SI_END_CF [[SI_IF1]], implicit-def $exec, implicit-def $scc, implicit $exec
		; GFX90A_GFX940-NEXT: S_BRANCH %bb.4
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: bb.6 (%ir-block.39):
; GFX90A_GFX940-NEXT: S_ENDPGM 0		; GFX90A_GFX940-NEXT: S_ENDPGM 0
%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic		%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic
ret void		ret void
}		}

declare float @llvm.amdgcn.global.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)		declare float @llvm.amdgcn.global.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)
declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)		declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)

attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }		attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }

llvm/test/CodeGen/AMDGPU/GlobalISel/global-atomic-fadd.f32-rtn.ll

; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
; RUN: llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s		; RUN: llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=instruction-select -amdgpu-atomic-optimizer-strategy=DPP < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s		; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select -amdgpu-atomic-optimizer-strategy=DPP < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX11 %s		; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select -amdgpu-atomic-optimizer-strategy=DPP < %s \| FileCheck -check-prefix=GFX11 %s

define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(ptr addrspace(1) %ptr, float %data) {		define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(ptr addrspace(1) %ptr, float %data) {
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic
; GFX90A_GFX940: bb.1 (%ir-block.0):		; GFX90A_GFX940: bb.1 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]		; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
		;
; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic		; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic
; GFX11: bb.1 (%ir-block.0):		; GFX11: bb.1 (%ir-block.0):
; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
Show All 12 Lines	define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_intrinsic(ptr addrspace(1) inreg %ptr, float %data) {
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]		; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
		;
; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_intrinsic		; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_intrinsic
; GFX11: bb.1 (%ir-block.0):		; GFX11: bb.1 (%ir-block.0):
; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
Show All 12 Lines	define amdgpu_ps float @global_atomic_fadd_f32_rtn_flat_intrinsic(ptr addrspace(1) %ptr, float %data) {
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]		; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
		;
; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_flat_intrinsic		; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_flat_intrinsic
; GFX11: bb.1 (%ir-block.0):		; GFX11: bb.1 (%ir-block.0):
; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
Show All 12 Lines	define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_flat_intrinsic(ptr addrspace(1) inreg %ptr, float %data) {
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]		; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
		;
; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_flat_intrinsic		; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_flat_intrinsic
; GFX11: bb.1 (%ir-block.0):		; GFX11: bb.1 (%ir-block.0):
; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
Show All 12 Lines	define amdgpu_ps float @global_atomic_fadd_f32_rtn_atomicrmw(ptr addrspace(1) %ptr, float %data) #0 {
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]		; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
		;
; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_atomicrmw		; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_atomicrmw
; GFX11: bb.1 (%ir-block.0):		; GFX11: bb.1 (%ir-block.0):
; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]		; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
; GFX11-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; GFX11-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic		%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic
ret float %ret		ret float %ret
}		}

define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_atomicrmw(ptr addrspace(1) inreg %ptr, float %data) #0 {		define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_atomicrmw(ptr addrspace(1) inreg %ptr, float %data) #0 {
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw
; GFX90A_GFX940: bb.1 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw		; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw
; GFX11: bb.1 (%ir-block.0):		; GFX11: bb.1 (%ir-block.0):
		; GFX11-NEXT: successors: %bb.2(0x40000000), %bb.4(0x40000000)
; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
		; GFX11-NEXT: [[DEF:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
		; GFX11-NEXT: [[SI_PS_LIVE:%[0-9]+]]:sreg_32_xm0_xexec = SI_PS_LIVE
		; GFX11-NEXT: [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec = SI_IF [[SI_PS_LIVE]], %bb.4, implicit-def $exec, implicit-def $scc, implicit $exec
		; GFX11-NEXT: S_BRANCH %bb.2
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: bb.2 (%ir-block.5):
		; GFX11-NEXT: successors: %bb.3(0x40000000), %bb.5(0x40000000)
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $exec_lo
		; GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 0
		; GFX11-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[COPY3]]
		; GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_]]
		; GFX11-NEXT: [[V_MBCNT_LO_U32_B32_e64_:%[0-9]+]]:vgpr_32 = V_MBCNT_LO_U32_B32_e64 [[COPY4]], [[COPY5]], implicit $exec
		; GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 -2147483648
		; GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_1]]
		; GFX11-NEXT: [[V_SET_INACTIVE_B32_:%[0-9]+]]:vgpr_32 = V_SET_INACTIVE_B32 [[COPY2]], [[COPY6]], implicit-def dead $scc, implicit $exec
		; GFX11-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 2147483648
		; GFX11-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_2]]
		; GFX11-NEXT: [[V_MOV_B32_dpp:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY7]], [[V_SET_INACTIVE_B32_]], 273, 15, 15, 0, implicit $exec
		; GFX11-NEXT: [[V_ADD_F32_e64_:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_SET_INACTIVE_B32_]], 0, [[V_MOV_B32_dpp]], 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_2]]
		; GFX11-NEXT: [[V_MOV_B32_dpp1:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY8]], [[V_ADD_F32_e64_]], 274, 15, 15, 0, implicit $exec
		; GFX11-NEXT: [[V_ADD_F32_e64_1:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_]], 0, [[V_MOV_B32_dpp1]], 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: [[COPY9:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_2]]
		; GFX11-NEXT: [[V_MOV_B32_dpp2:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY9]], [[V_ADD_F32_e64_1]], 276, 15, 15, 0, implicit $exec
		; GFX11-NEXT: [[V_ADD_F32_e64_2:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_1]], 0, [[V_MOV_B32_dpp2]], 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: [[COPY10:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_2]]
		; GFX11-NEXT: [[V_MOV_B32_dpp3:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY10]], [[V_ADD_F32_e64_2]], 280, 15, 15, 0, implicit $exec
		; GFX11-NEXT: [[V_ADD_F32_e64_3:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_2]], 0, [[V_MOV_B32_dpp3]], 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: [[S_MOV_B32_3:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
		; GFX11-NEXT: [[V_PERMLANEX16_B32_e64_:%[0-9]+]]:vgpr_32 = V_PERMLANEX16_B32_e64 0, [[V_ADD_F32_e64_3]], 0, [[S_MOV_B32_3]], 0, [[S_MOV_B32_3]], [[V_ADD_F32_e64_3]], 0, implicit $exec
		; GFX11-NEXT: [[COPY11:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_2]]
		; GFX11-NEXT: [[V_MOV_B32_dpp4:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY11]], [[V_PERMLANEX16_B32_e64_]], 228, 10, 15, 0, implicit $exec
		; GFX11-NEXT: [[V_ADD_F32_e64_4:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_3]], 0, [[V_MOV_B32_dpp4]], 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: [[COPY12:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_2]]
		; GFX11-NEXT: [[V_MOV_B32_dpp5:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[COPY12]], [[V_ADD_F32_e64_4]], 273, 15, 15, 0, implicit $exec
		; GFX11-NEXT: [[S_MOV_B32_4:%[0-9]+]]:sreg_32 = S_MOV_B32 15
		; GFX11-NEXT: [[V_READLANE_B32_:%[0-9]+]]:sreg_32 = V_READLANE_B32 [[V_ADD_F32_e64_4]], [[S_MOV_B32_4]]
		; GFX11-NEXT: [[S_MOV_B32_5:%[0-9]+]]:sreg_32 = S_MOV_B32 16
		; GFX11-NEXT: [[V_WRITELANE_B32_:%[0-9]+]]:vgpr_32 = V_WRITELANE_B32 [[V_READLANE_B32_]], [[S_MOV_B32_5]], [[V_MOV_B32_dpp5]]
		; GFX11-NEXT: [[S_MOV_B32_6:%[0-9]+]]:sreg_32 = S_MOV_B32 31
		; GFX11-NEXT: [[V_READLANE_B32_1:%[0-9]+]]:sreg_32 = V_READLANE_B32 [[V_ADD_F32_e64_4]], [[S_MOV_B32_6]]
		; GFX11-NEXT: [[COPY13:%[0-9]+]]:vgpr_32 = COPY [[V_READLANE_B32_1]]
		; GFX11-NEXT: [[STRICT_WWM:%[0-9]+]]:vgpr_32 = STRICT_WWM [[COPY13]], implicit $exec
		; GFX11-NEXT: [[COPY14:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_]]
		; GFX11-NEXT: [[V_CMP_EQ_U32_e64_:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U32_e64 [[V_MBCNT_LO_U32_B32_e64_]], [[COPY14]], implicit $exec
		; GFX11-NEXT: [[SI_IF1:%[0-9]+]]:sreg_32_xm0_xexec = SI_IF [[V_CMP_EQ_U32_e64_]], %bb.5, implicit-def $exec, implicit-def $scc, implicit $exec
		; GFX11-NEXT: S_BRANCH %bb.3
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: bb.3 (%ir-block.39):
		; GFX11-NEXT: successors: %bb.5(0x80000000)
		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[STRICT_WWM]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]		; GFX11-NEXT: S_BRANCH %bb.5
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: bb.4.Flow:
		; GFX11-NEXT: successors: %bb.6(0x80000000)
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: [[PHI:%[0-9]+]]:vgpr_32 = PHI %41, %bb.5, [[DEF]], %bb.1
		; GFX11-NEXT: SI_END_CF [[SI_IF]], implicit-def $exec, implicit-def $scc, implicit $exec
		; GFX11-NEXT: S_BRANCH %bb.6
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: bb.5 (%ir-block.42):
		; GFX11-NEXT: successors: %bb.4(0x80000000)
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: [[PHI1:%[0-9]+]]:vgpr_32 = PHI [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]], %bb.3, [[DEF]], %bb.2
		; GFX11-NEXT: SI_END_CF [[SI_IF1]], implicit-def $exec, implicit-def $scc, implicit $exec
		; GFX11-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32 = V_READFIRSTLANE_B32 [[PHI1]], implicit $exec
		; GFX11-NEXT: [[STRICT_WWM1:%[0-9]+]]:vgpr_32 = STRICT_WWM [[V_WRITELANE_B32_]], implicit $exec
		; GFX11-NEXT: [[COPY15:%[0-9]+]]:vgpr_32 = COPY [[V_READFIRSTLANE_B32_]]
		; GFX11-NEXT: [[V_ADD_F32_e64_5:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[COPY15]], 0, [[STRICT_WWM1]], 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: S_BRANCH %bb.4
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: bb.6 (%ir-block.50):
		; GFX11-NEXT: $vgpr0 = COPY [[PHI]]
; GFX11-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0		; GFX11-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic		%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic
ret float %ret		ret float %ret
}		}

declare float @llvm.amdgcn.global.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)		declare float @llvm.amdgcn.global.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)
declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)		declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)

attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }		attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }

llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll

	Show First 20 Lines • Show All 988 Lines • ▼ Show 20 Lines

	define amdgpu_kernel void @add_i64_constant(ptr addrspace(1) %out) {			define amdgpu_kernel void @add_i64_constant(ptr addrspace(1) %out) {
	;			;
	;			;
	; GFX7LESS-LABEL: add_i64_constant:			; GFX7LESS-LABEL: add_i64_constant:
	; GFX7LESS: ; %bb.0: ; %entry			; GFX7LESS: ; %bb.0: ; %entry
	; GFX7LESS-NEXT: s_mov_b64 s[4:5], exec			; GFX7LESS-NEXT: s_mov_b64 s[4:5], exec
	; GFX7LESS-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0			; GFX7LESS-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0
	; GFX7LESS-NEXT: v_mbcnt_hi_u32_b32_e32 v3, s5, v0			; GFX7LESS-NEXT: v_mbcnt_hi_u32_b32_e32 v2, s5, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v2, 0			; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX7LESS-NEXT: s_and_saveexec_b64 s[2:3], vcc			; GFX7LESS-NEXT: s_and_saveexec_b64 s[2:3], vcc
	; GFX7LESS-NEXT: s_cbranch_execz .LBB4_2			; GFX7LESS-NEXT: s_cbranch_execz .LBB4_2
	; GFX7LESS-NEXT: ; %bb.1:			; GFX7LESS-NEXT: ; %bb.1:
	; GFX7LESS-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX7LESS-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
	; GFX7LESS-NEXT: s_mul_i32 s4, s4, 5			; GFX7LESS-NEXT: s_mul_i32 s4, s4, 5
	; GFX7LESS-NEXT: v_mov_b32_e32 v1, s4			; GFX7LESS-NEXT: v_mov_b32_e32 v1, 0
				; GFX7LESS-NEXT: v_mov_b32_e32 v0, s4
	; GFX7LESS-NEXT: s_mov_b32 m0, -1			; GFX7LESS-NEXT: s_mov_b32 m0, -1
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: ds_add_rtn_u64 v[0:1], v2, v[1:2]			; GFX7LESS-NEXT: ds_add_rtn_u64 v[0:1], v1, v[0:1]
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: .LBB4_2:			; GFX7LESS-NEXT: .LBB4_2:
	; GFX7LESS-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX7LESS-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX7LESS-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX7LESS-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX7LESS-NEXT: s_mov_b32 s3, 0xf000			; GFX7LESS-NEXT: s_mov_b32 s3, 0xf000
	; GFX7LESS-NEXT: s_mov_b32 s2, -1			; GFX7LESS-NEXT: s_mov_b32 s2, -1
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: v_readfirstlane_b32 s4, v0			; GFX7LESS-NEXT: v_readfirstlane_b32 s4, v0
	; GFX7LESS-NEXT: v_readfirstlane_b32 s5, v1			; GFX7LESS-NEXT: v_readfirstlane_b32 s5, v1
	; GFX7LESS-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v3			; GFX7LESS-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v2
	; GFX7LESS-NEXT: v_mul_u32_u24_e32 v0, 5, v3			; GFX7LESS-NEXT: v_mul_u32_u24_e32 v0, 5, v2
	; GFX7LESS-NEXT: v_mov_b32_e32 v2, s5			; GFX7LESS-NEXT: v_mov_b32_e32 v2, s5
	; GFX7LESS-NEXT: v_add_i32_e32 v0, vcc, s4, v0			; GFX7LESS-NEXT: v_add_i32_e32 v0, vcc, s4, v0
	; GFX7LESS-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc			; GFX7LESS-NEXT: v_addc_u32_e32 v1, vcc, v2, v1, vcc
	; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX7LESS-NEXT: s_endpgm			; GFX7LESS-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: add_i64_constant:			; GFX8-LABEL: add_i64_constant:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_mov_b64 s[4:5], exec			; GFX8-NEXT: s_mov_b64 s[4:5], exec
	; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0			; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
	; GFX8-NEXT: v_mbcnt_hi_u32_b32 v3, s5, v0			; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s5, v0
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX8-NEXT: s_and_saveexec_b64 s[2:3], vcc			; GFX8-NEXT: s_and_saveexec_b64 s[2:3], vcc
	; GFX8-NEXT: s_cbranch_execz .LBB4_2			; GFX8-NEXT: s_cbranch_execz .LBB4_2
	; GFX8-NEXT: ; %bb.1:			; GFX8-NEXT: ; %bb.1:
	; GFX8-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX8-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
	; GFX8-NEXT: s_mul_i32 s4, s4, 5			; GFX8-NEXT: s_mul_i32 s4, s4, 5
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v0, s4
				; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: s_mov_b32 m0, -1			; GFX8-NEXT: s_mov_b32 m0, -1
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: ds_add_rtn_u64 v[0:1], v2, v[1:2]			; GFX8-NEXT: ds_add_rtn_u64 v[0:1], v1, v[0:1]
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: .LBB4_2:			; GFX8-NEXT: .LBB4_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX8-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_readfirstlane_b32 s3, v1			; GFX8-NEXT: v_readfirstlane_b32 s3, v1
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v3, 5, v[0:1]			; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v2, 5, v[0:1]
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_nop 1			; GFX8-NEXT: s_nop 1
	; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: add_i64_constant:			; GFX9-LABEL: add_i64_constant:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_mov_b64 s[4:5], exec			; GFX9-NEXT: s_mov_b64 s[4:5], exec
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
	; GFX9-NEXT: v_mbcnt_hi_u32_b32 v3, s5, v0			; GFX9-NEXT: v_mbcnt_hi_u32_b32 v2, s5, v0
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX9-NEXT: s_and_saveexec_b64 s[2:3], vcc			; GFX9-NEXT: s_and_saveexec_b64 s[2:3], vcc
	; GFX9-NEXT: s_cbranch_execz .LBB4_2			; GFX9-NEXT: s_cbranch_execz .LBB4_2
	; GFX9-NEXT: ; %bb.1:			; GFX9-NEXT: ; %bb.1:
	; GFX9-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX9-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
	; GFX9-NEXT: s_mul_i32 s4, s4, 5			; GFX9-NEXT: s_mul_i32 s4, s4, 5
	; GFX9-NEXT: v_mov_b32_e32 v1, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
				; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: ds_add_rtn_u64 v[0:1], v2, v[1:2]			; GFX9-NEXT: ds_add_rtn_u64 v[0:1], v1, v[0:1]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: .LBB4_2:			; GFX9-NEXT: .LBB4_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX9-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_readfirstlane_b32 s3, v1			; GFX9-NEXT: v_readfirstlane_b32 s3, v1
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v0, s2			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, s3			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v3, 5, v[0:1]			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v2, 5, v[0:1]
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_nop 1			; GFX9-NEXT: s_nop 1
	; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: add_i64_constant:			; GFX1064-LABEL: add_i64_constant:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_mov_b64 s[4:5], exec			; GFX1064-NEXT: s_mov_b64 s[4:5], exec
	; GFX1064-NEXT: v_mov_b32_e32 v2, 0
	; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0			; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
	; GFX1064-NEXT: v_mbcnt_hi_u32_b32 v3, s5, v0			; GFX1064-NEXT: v_mbcnt_hi_u32_b32 v2, s5, v0
	; GFX1064-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1064-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX1064-NEXT: s_and_saveexec_b64 s[2:3], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[2:3], vcc
	; GFX1064-NEXT: s_cbranch_execz .LBB4_2			; GFX1064-NEXT: s_cbranch_execz .LBB4_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX1064-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
				; GFX1064-NEXT: v_mov_b32_e32 v1, 0
	; GFX1064-NEXT: s_mul_i32 s4, s4, 5			; GFX1064-NEXT: s_mul_i32 s4, s4, 5
	; GFX1064-NEXT: v_mov_b32_e32 v1, s4			; GFX1064-NEXT: v_mov_b32_e32 v0, s4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u64 v[0:1], v2, v[1:2]			; GFX1064-NEXT: ds_add_rtn_u64 v[0:1], v1, v[0:1]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: .LBB4_2:			; GFX1064-NEXT: .LBB4_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v0			; GFX1064-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v1			; GFX1064-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1064-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v3, 5, s[2:3]			; GFX1064-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v2, 5, s[2:3]
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_mov_b32 s2, -1			; GFX1064-NEXT: s_mov_b32 s2, -1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: add_i64_constant:			; GFX1032-LABEL: add_i64_constant:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_mov_b32 s3, exec_lo			; GFX1032-NEXT: s_mov_b32 s3, exec_lo
	; GFX1032-NEXT: v_mov_b32_e32 v2, 0
	; GFX1032-NEXT: v_mbcnt_lo_u32_b32 v3, s3, 0
	; GFX1032-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1032-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v3			; GFX1032-NEXT: v_mbcnt_lo_u32_b32 v2, s3, 0
				; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v2
	; GFX1032-NEXT: s_and_saveexec_b32 s2, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s2, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz .LBB4_2			; GFX1032-NEXT: s_cbranch_execz .LBB4_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: s_bcnt1_i32_b32 s3, s3			; GFX1032-NEXT: s_bcnt1_i32_b32 s3, s3
				; GFX1032-NEXT: v_mov_b32_e32 v1, 0
	; GFX1032-NEXT: s_mul_i32 s3, s3, 5			; GFX1032-NEXT: s_mul_i32 s3, s3, 5
	; GFX1032-NEXT: v_mov_b32_e32 v1, s3			; GFX1032-NEXT: v_mov_b32_e32 v0, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u64 v[0:1], v2, v[1:2]			; GFX1032-NEXT: ds_add_rtn_u64 v[0:1], v1, v[0:1]
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: .LBB4_2:			; GFX1032-NEXT: .LBB4_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v0			; GFX1032-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v1			; GFX1032-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1032-NEXT: v_mad_u64_u32 v[0:1], s2, v3, 5, s[2:3]			; GFX1032-NEXT: v_mad_u64_u32 v[0:1], s2, v2, 5, s[2:3]
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_mov_b32 s2, -1			; GFX1032-NEXT: s_mov_b32 s2, -1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	;			;
	; GFX1164-LABEL: add_i64_constant:			; GFX1164-LABEL: add_i64_constant:
	; GFX1164: ; %bb.0: ; %entry			; GFX1164: ; %bb.0: ; %entry
	; GFX1164-NEXT: s_mov_b64 s[4:5], exec			; GFX1164-NEXT: s_mov_b64 s[4:5], exec
	; GFX1164-NEXT: v_mov_b32_e32 v2, 0
	; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
	; GFX1164-NEXT: s_mov_b64 s[2:3], exec			; GFX1164-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
	; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v3, s5, v0			; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v2, s5, v0
	; GFX1164-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1164-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v3			; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v2
	; GFX1164-NEXT: s_cbranch_execz .LBB4_2			; GFX1164-NEXT: s_cbranch_execz .LBB4_2
	; GFX1164-NEXT: ; %bb.1:			; GFX1164-NEXT: ; %bb.1:
	; GFX1164-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX1164-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
	; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)			; GFX1164-NEXT: v_mov_b32_e32 v1, 0
	; GFX1164-NEXT: s_mul_i32 s4, s4, 5			; GFX1164-NEXT: s_mul_i32 s4, s4, 5
	; GFX1164-NEXT: v_mov_b32_e32 v1, s4			; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
				; GFX1164-NEXT: v_mov_b32_e32 v0, s4
	; GFX1164-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1164-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1164-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1164-NEXT: ds_add_rtn_u64 v[0:1], v2, v[1:2]			; GFX1164-NEXT: ds_add_rtn_u64 v[0:1], v1, v[0:1]
	; GFX1164-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-NEXT: buffer_gl0_inv			; GFX1164-NEXT: buffer_gl0_inv
	; GFX1164-NEXT: .LBB4_2:			; GFX1164-NEXT: .LBB4_2:
	; GFX1164-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX1164-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX1164-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX1164-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX1164-NEXT: v_readfirstlane_b32 s2, v0			; GFX1164-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1164-NEXT: v_readfirstlane_b32 s3, v1			; GFX1164-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX1164-NEXT: v_mad_u64_u32 v[0:1], null, v3, 5, s[2:3]			; GFX1164-NEXT: v_mad_u64_u32 v[0:1], null, v2, 5, s[2:3]
	; GFX1164-NEXT: s_mov_b32 s3, 0x31016000			; GFX1164-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1164-NEXT: s_mov_b32 s2, -1			; GFX1164-NEXT: s_mov_b32 s2, -1
	; GFX1164-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-NEXT: buffer_store_b64 v[0:1], off, s[0:3], 0			; GFX1164-NEXT: buffer_store_b64 v[0:1], off, s[0:3], 0
	; GFX1164-NEXT: s_nop 0			; GFX1164-NEXT: s_nop 0
	; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-NEXT: s_endpgm			; GFX1164-NEXT: s_endpgm
	;			;
	; GFX1132-LABEL: add_i64_constant:			; GFX1132-LABEL: add_i64_constant:
	; GFX1132: ; %bb.0: ; %entry			; GFX1132: ; %bb.0: ; %entry
	; GFX1132-NEXT: s_mov_b32 s3, exec_lo			; GFX1132-NEXT: s_mov_b32 s3, exec_lo
	; GFX1132-NEXT: v_mov_b32_e32 v2, 0
	; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v3, s3, 0
	; GFX1132-NEXT: s_mov_b32 s2, exec_lo			; GFX1132-NEXT: s_mov_b32 s2, exec_lo
				; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v2, s3, 0
	; GFX1132-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1132-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v3			; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v2
	; GFX1132-NEXT: s_cbranch_execz .LBB4_2			; GFX1132-NEXT: s_cbranch_execz .LBB4_2
	; GFX1132-NEXT: ; %bb.1:			; GFX1132-NEXT: ; %bb.1:
	; GFX1132-NEXT: s_bcnt1_i32_b32 s3, s3			; GFX1132-NEXT: s_bcnt1_i32_b32 s3, s3
	; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)			; GFX1132-NEXT: v_mov_b32_e32 v1, 0
	; GFX1132-NEXT: s_mul_i32 s3, s3, 5			; GFX1132-NEXT: s_mul_i32 s3, s3, 5
	; GFX1132-NEXT: v_mov_b32_e32 v1, s3			; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
				; GFX1132-NEXT: v_mov_b32_e32 v0, s3
	; GFX1132-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1132-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1132-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1132-NEXT: ds_add_rtn_u64 v[0:1], v2, v[1:2]			; GFX1132-NEXT: ds_add_rtn_u64 v[0:1], v1, v[0:1]
	; GFX1132-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-NEXT: buffer_gl0_inv			; GFX1132-NEXT: buffer_gl0_inv
	; GFX1132-NEXT: .LBB4_2:			; GFX1132-NEXT: .LBB4_2:
	; GFX1132-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX1132-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX1132-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX1132-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX1132-NEXT: v_readfirstlane_b32 s2, v0			; GFX1132-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1132-NEXT: v_readfirstlane_b32 s3, v1			; GFX1132-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX1132-NEXT: v_mad_u64_u32 v[0:1], null, v3, 5, s[2:3]			; GFX1132-NEXT: v_mad_u64_u32 v[0:1], null, v2, 5, s[2:3]
	; GFX1132-NEXT: s_mov_b32 s3, 0x31016000			; GFX1132-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1132-NEXT: s_mov_b32 s2, -1			; GFX1132-NEXT: s_mov_b32 s2, -1
	; GFX1132-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-NEXT: buffer_store_b64 v[0:1], off, s[0:3], 0			; GFX1132-NEXT: buffer_store_b64 v[0:1], off, s[0:3], 0
	; GFX1132-NEXT: s_nop 0			; GFX1132-NEXT: s_nop 0
	; GFX1132-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1132-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1132-NEXT: s_endpgm			; GFX1132-NEXT: s_endpgm
	entry:			entry:
	%old = atomicrmw add ptr addrspace(3) @local_var64, i64 5 acq_rel			%old = atomicrmw add ptr addrspace(3) @local_var64, i64 5 acq_rel
	store i64 %old, ptr addrspace(1) %out			store i64 %old, ptr addrspace(1) %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @add_i64_uniform(ptr addrspace(1) %out, i64 %additive) {			define amdgpu_kernel void @add_i64_uniform(ptr addrspace(1) %out, i64 %additive) {
	;			;
	;			;
	; GFX7LESS-LABEL: add_i64_uniform:			; GFX7LESS-LABEL: add_i64_uniform:
	; GFX7LESS: ; %bb.0: ; %entry			; GFX7LESS: ; %bb.0: ; %entry
	; GFX7LESS-NEXT: s_mov_b64 s[6:7], exec			; GFX7LESS-NEXT: s_mov_b64 s[6:7], exec
	; GFX7LESS-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GFX7LESS-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GFX7LESS-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0			; GFX7LESS-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0
	; GFX7LESS-NEXT: v_mbcnt_hi_u32_b32_e32 v2, s7, v0			; GFX7LESS-NEXT: v_mbcnt_hi_u32_b32_e32 v2, s7, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v3, 0
	; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX7LESS-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX7LESS-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX7LESS-NEXT: s_cbranch_execz .LBB5_2			; GFX7LESS-NEXT: s_cbranch_execz .LBB5_2
	; GFX7LESS-NEXT: ; %bb.1:			; GFX7LESS-NEXT: ; %bb.1:
	; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
				; GFX7LESS-NEXT: v_mov_b32_e32 v3, 0
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: s_mul_i32 s7, s3, s6			; GFX7LESS-NEXT: s_mul_i32 s7, s3, s6
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6			; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
	; GFX7LESS-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX7LESS-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX7LESS-NEXT: s_mul_i32 s6, s2, s6			; GFX7LESS-NEXT: s_mul_i32 s6, s2, s6
	; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s7, v0			; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s7, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6			; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
	; GFX7LESS-NEXT: s_mov_b32 m0, -1			; GFX7LESS-NEXT: s_mov_b32 m0, -1
	Show All 20 Lines
	; GFX7LESS-NEXT: s_endpgm			; GFX7LESS-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: add_i64_uniform:			; GFX8-LABEL: add_i64_uniform:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX8-NEXT: s_mov_b64 s[6:7], exec			; GFX8-NEXT: s_mov_b64 s[6:7], exec
	; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0			; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX8-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX8-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX8-NEXT: s_cbranch_execz .LBB5_2			; GFX8-NEXT: s_cbranch_execz .LBB5_2
	; GFX8-NEXT: ; %bb.1:			; GFX8-NEXT: ; %bb.1:
	; GFX8-NEXT: s_bcnt1_i32_b64 s8, s[6:7]			; GFX8-NEXT: s_bcnt1_i32_b64 s8, s[6:7]
	; GFX8-NEXT: v_mov_b32_e32 v0, s8			; GFX8-NEXT: v_mov_b32_e32 v0, s8
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s2, v0, 0			; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s2, v0, 0
	; GFX8-NEXT: s_mul_i32 s6, s3, s8			; GFX8-NEXT: s_mul_i32 s6, s3, s8
	; GFX8-NEXT: s_mov_b32 m0, -1			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: v_add_u32_e32 v1, vcc, s6, v1			; GFX8-NEXT: v_add_u32_e32 v1, vcc, s6, v1
				; GFX8-NEXT: s_mov_b32 m0, -1
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]			; GFX8-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: .LBB5_2:			; GFX8-NEXT: .LBB5_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_readfirstlane_b32 s4, v0			; GFX8-NEXT: v_readfirstlane_b32 s4, v0
	; GFX8-NEXT: v_readfirstlane_b32 s5, v1			; GFX8-NEXT: v_readfirstlane_b32 s5, v1
	Show All 10 Lines
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: add_i64_uniform:			; GFX9-LABEL: add_i64_uniform:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[6:7], exec			; GFX9-NEXT: s_mov_b64 s[6:7], exec
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX9-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0			; GFX9-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0
	; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX9-NEXT: s_cbranch_execz .LBB5_2			; GFX9-NEXT: s_cbranch_execz .LBB5_2
	; GFX9-NEXT: ; %bb.1:			; GFX9-NEXT: ; %bb.1:
	; GFX9-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX9-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mul_i32 s7, s3, s6			; GFX9-NEXT: s_mul_i32 s7, s3, s6
	; GFX9-NEXT: s_mul_hi_u32 s8, s2, s6			; GFX9-NEXT: s_mul_hi_u32 s8, s2, s6
	; GFX9-NEXT: s_add_i32 s8, s8, s7			; GFX9-NEXT: s_add_i32 s8, s8, s7
	; GFX9-NEXT: s_mul_i32 s6, s2, s6			; GFX9-NEXT: s_mul_i32 s6, s2, s6
	; GFX9-NEXT: v_mov_b32_e32 v0, s6			; GFX9-NEXT: v_mov_b32_e32 v0, s6
	; GFX9-NEXT: v_mov_b32_e32 v1, s8			; GFX9-NEXT: v_mov_b32_e32 v1, s8
				; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]			; GFX9-NEXT: ds_add_rtn_u64 v[0:1], v3, v[0:1]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: .LBB5_2:			; GFX9-NEXT: .LBB5_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_readfirstlane_b32 s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s4, v0
	; GFX9-NEXT: v_readfirstlane_b32 s5, v1			; GFX9-NEXT: v_readfirstlane_b32 s5, v1
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s5			; GFX9-NEXT: v_mov_b32_e32 v1, s5
	; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s2, v2, v[0:1]			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[4:5], s2, v2, v[0:1]
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: v_mad_u64_u32 v[1:2], s[2:3], s3, v2, v[1:2]			; GFX9-NEXT: v_mad_u64_u32 v[1:2], s[2:3], s3, v2, v[1:2]
	; GFX9-NEXT: s_mov_b32 s4, s0			; GFX9-NEXT: s_mov_b32 s4, s0
	; GFX9-NEXT: s_mov_b32 s5, s1			; GFX9-NEXT: s_mov_b32 s5, s1
	; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: add_i64_uniform:			; GFX1064-LABEL: add_i64_uniform:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[6:7], exec			; GFX1064-NEXT: s_mov_b64 s[6:7], exec
	; GFX1064-NEXT: v_mov_b32_e32 v3, 0
	; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX1064-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0			; GFX1064-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0
	; GFX1064-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1064-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz .LBB5_2			; GFX1064-NEXT: s_cbranch_execz .LBB5_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX1064-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
				; GFX1064-NEXT: v_mov_b32_e32 v3, 0
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: s_mul_i32 s7, s3, s6			; GFX1064-NEXT: s_mul_i32 s7, s3, s6
	; GFX1064-NEXT: s_mul_hi_u32 s8, s2, s6			; GFX1064-NEXT: s_mul_hi_u32 s8, s2, s6
	; GFX1064-NEXT: s_mul_i32 s6, s2, s6			; GFX1064-NEXT: s_mul_i32 s6, s2, s6
	; GFX1064-NEXT: s_add_i32 s8, s8, s7			; GFX1064-NEXT: s_add_i32 s8, s8, s7
	; GFX1064-NEXT: v_mov_b32_e32 v0, s6			; GFX1064-NEXT: v_mov_b32_e32 v0, s6
	; GFX1064-NEXT: v_mov_b32_e32 v1, s8			; GFX1064-NEXT: v_mov_b32_e32 v1, s8
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	Show All 13 Lines
	; GFX1064-NEXT: s_mov_b32 s2, -1			; GFX1064-NEXT: s_mov_b32 s2, -1
	; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: add_i64_uniform:			; GFX1032-LABEL: add_i64_uniform:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s5, exec_lo			; GFX1032-NEXT: s_mov_b32 s5, exec_lo
	; GFX1032-NEXT: v_mov_b32_e32 v3, 0
	; GFX1032-NEXT: v_mbcnt_lo_u32_b32 v2, s5, 0
	; GFX1032-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1032-NEXT: ; implicit-def: $vgpr0_vgpr1
				; GFX1032-NEXT: v_mbcnt_lo_u32_b32 v2, s5, 0
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v2			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v2
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz .LBB5_2			; GFX1032-NEXT: s_cbranch_execz .LBB5_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: s_bcnt1_i32_b32 s5, s5			; GFX1032-NEXT: s_bcnt1_i32_b32 s5, s5
				; GFX1032-NEXT: v_mov_b32_e32 v3, 0
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: s_mul_i32 s6, s3, s5			; GFX1032-NEXT: s_mul_i32 s6, s3, s5
	; GFX1032-NEXT: s_mul_hi_u32 s7, s2, s5			; GFX1032-NEXT: s_mul_hi_u32 s7, s2, s5
	; GFX1032-NEXT: s_mul_i32 s5, s2, s5			; GFX1032-NEXT: s_mul_i32 s5, s2, s5
	; GFX1032-NEXT: s_add_i32 s7, s7, s6			; GFX1032-NEXT: s_add_i32 s7, s7, s6
	; GFX1032-NEXT: v_mov_b32_e32 v0, s5			; GFX1032-NEXT: v_mov_b32_e32 v0, s5
	; GFX1032-NEXT: v_mov_b32_e32 v1, s7			; GFX1032-NEXT: v_mov_b32_e32 v1, s7
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	Show All 13 Lines
	; GFX1032-NEXT: s_mov_b32 s2, -1			; GFX1032-NEXT: s_mov_b32 s2, -1
	; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	;			;
	; GFX1164-LABEL: add_i64_uniform:			; GFX1164-LABEL: add_i64_uniform:
	; GFX1164: ; %bb.0: ; %entry			; GFX1164: ; %bb.0: ; %entry
	; GFX1164-NEXT: s_load_b128 s[0:3], s[0:1], 0x24			; GFX1164-NEXT: s_load_b128 s[0:3], s[0:1], 0x24
	; GFX1164-NEXT: s_mov_b64 s[6:7], exec			; GFX1164-NEXT: s_mov_b64 s[6:7], exec
	; GFX1164-NEXT: v_mov_b32_e32 v3, 0
	; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX1164-NEXT: s_mov_b64 s[4:5], exec			; GFX1164-NEXT: s_mov_b64 s[4:5], exec
				; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0			; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0
	; GFX1164-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1164-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v2			; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v2
	; GFX1164-NEXT: s_cbranch_execz .LBB5_2			; GFX1164-NEXT: s_cbranch_execz .LBB5_2
	; GFX1164-NEXT: ; %bb.1:			; GFX1164-NEXT: ; %bb.1:
	; GFX1164-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX1164-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
				; GFX1164-NEXT: v_mov_b32_e32 v3, 0
	; GFX1164-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-NEXT: s_mul_i32 s7, s3, s6			; GFX1164-NEXT: s_mul_i32 s7, s3, s6
	; GFX1164-NEXT: s_mul_hi_u32 s8, s2, s6			; GFX1164-NEXT: s_mul_hi_u32 s8, s2, s6
	; GFX1164-NEXT: s_mul_i32 s6, s2, s6			; GFX1164-NEXT: s_mul_i32 s6, s2, s6
	; GFX1164-NEXT: s_add_i32 s8, s8, s7			; GFX1164-NEXT: s_add_i32 s8, s8, s7
	; GFX1164-NEXT: v_mov_b32_e32 v0, s6			; GFX1164-NEXT: v_mov_b32_e32 v0, s6
	; GFX1164-NEXT: v_mov_b32_e32 v1, s8			; GFX1164-NEXT: v_mov_b32_e32 v1, s8
	; GFX1164-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	Show All 17 Lines
	; GFX1164-NEXT: s_nop 0			; GFX1164-NEXT: s_nop 0
	; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-NEXT: s_endpgm			; GFX1164-NEXT: s_endpgm
	;			;
	; GFX1132-LABEL: add_i64_uniform:			; GFX1132-LABEL: add_i64_uniform:
	; GFX1132: ; %bb.0: ; %entry			; GFX1132: ; %bb.0: ; %entry
	; GFX1132-NEXT: s_load_b128 s[0:3], s[0:1], 0x24			; GFX1132-NEXT: s_load_b128 s[0:3], s[0:1], 0x24
	; GFX1132-NEXT: s_mov_b32 s5, exec_lo			; GFX1132-NEXT: s_mov_b32 s5, exec_lo
	; GFX1132-NEXT: v_mov_b32_e32 v3, 0
	; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v2, s5, 0
	; GFX1132-NEXT: s_mov_b32 s4, exec_lo			; GFX1132-NEXT: s_mov_b32 s4, exec_lo
				; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v2, s5, 0
	; GFX1132-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1132-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v2			; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v2
	; GFX1132-NEXT: s_cbranch_execz .LBB5_2			; GFX1132-NEXT: s_cbranch_execz .LBB5_2
	; GFX1132-NEXT: ; %bb.1:			; GFX1132-NEXT: ; %bb.1:
	; GFX1132-NEXT: s_bcnt1_i32_b32 s5, s5			; GFX1132-NEXT: s_bcnt1_i32_b32 s5, s5
				; GFX1132-NEXT: v_mov_b32_e32 v3, 0
	; GFX1132-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-NEXT: s_mul_i32 s6, s3, s5			; GFX1132-NEXT: s_mul_i32 s6, s3, s5
	; GFX1132-NEXT: s_mul_hi_u32 s7, s2, s5			; GFX1132-NEXT: s_mul_hi_u32 s7, s2, s5
	; GFX1132-NEXT: s_mul_i32 s5, s2, s5			; GFX1132-NEXT: s_mul_i32 s5, s2, s5
	; GFX1132-NEXT: s_add_i32 s7, s7, s6			; GFX1132-NEXT: s_add_i32 s7, s7, s6
	; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1)			; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GFX1132-NEXT: v_dual_mov_b32 v0, s5 :: v_dual_mov_b32 v1, s7			; GFX1132-NEXT: v_dual_mov_b32 v0, s5 :: v_dual_mov_b32 v1, s7
	; GFX1132-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	▲ Show 20 Lines • Show All 1,087 Lines • ▼ Show 20 Lines

	define amdgpu_kernel void @sub_i64_constant(ptr addrspace(1) %out) {			define amdgpu_kernel void @sub_i64_constant(ptr addrspace(1) %out) {
	;			;
	;			;
	; GFX7LESS-LABEL: sub_i64_constant:			; GFX7LESS-LABEL: sub_i64_constant:
	; GFX7LESS: ; %bb.0: ; %entry			; GFX7LESS: ; %bb.0: ; %entry
	; GFX7LESS-NEXT: s_mov_b64 s[4:5], exec			; GFX7LESS-NEXT: s_mov_b64 s[4:5], exec
	; GFX7LESS-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0			; GFX7LESS-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s4, 0
	; GFX7LESS-NEXT: v_mbcnt_hi_u32_b32_e32 v3, s5, v0			; GFX7LESS-NEXT: v_mbcnt_hi_u32_b32_e32 v2, s5, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v2, 0			; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX7LESS-NEXT: s_and_saveexec_b64 s[2:3], vcc			; GFX7LESS-NEXT: s_and_saveexec_b64 s[2:3], vcc
	; GFX7LESS-NEXT: s_cbranch_execz .LBB11_2			; GFX7LESS-NEXT: s_cbranch_execz .LBB11_2
	; GFX7LESS-NEXT: ; %bb.1:			; GFX7LESS-NEXT: ; %bb.1:
	; GFX7LESS-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX7LESS-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
	; GFX7LESS-NEXT: s_mul_i32 s4, s4, 5			; GFX7LESS-NEXT: s_mul_i32 s4, s4, 5
	; GFX7LESS-NEXT: v_mov_b32_e32 v1, s4			; GFX7LESS-NEXT: v_mov_b32_e32 v1, 0
				; GFX7LESS-NEXT: v_mov_b32_e32 v0, s4
	; GFX7LESS-NEXT: s_mov_b32 m0, -1			; GFX7LESS-NEXT: s_mov_b32 m0, -1
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: ds_sub_rtn_u64 v[0:1], v2, v[1:2]			; GFX7LESS-NEXT: ds_sub_rtn_u64 v[0:1], v1, v[0:1]
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: .LBB11_2:			; GFX7LESS-NEXT: .LBB11_2:
	; GFX7LESS-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX7LESS-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX7LESS-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX7LESS-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX7LESS-NEXT: s_mov_b32 s3, 0xf000			; GFX7LESS-NEXT: s_mov_b32 s3, 0xf000
	; GFX7LESS-NEXT: s_mov_b32 s2, -1			; GFX7LESS-NEXT: s_mov_b32 s2, -1
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: v_readfirstlane_b32 s4, v0			; GFX7LESS-NEXT: v_readfirstlane_b32 s4, v0
	; GFX7LESS-NEXT: v_readfirstlane_b32 s5, v1			; GFX7LESS-NEXT: v_readfirstlane_b32 s5, v1
	; GFX7LESS-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v3			; GFX7LESS-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v2
	; GFX7LESS-NEXT: v_mul_u32_u24_e32 v0, 5, v3			; GFX7LESS-NEXT: v_mul_u32_u24_e32 v0, 5, v2
	; GFX7LESS-NEXT: v_mov_b32_e32 v2, s5			; GFX7LESS-NEXT: v_mov_b32_e32 v2, s5
	; GFX7LESS-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX7LESS-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX7LESS-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GFX7LESS-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX7LESS-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX7LESS-NEXT: s_endpgm			; GFX7LESS-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: sub_i64_constant:			; GFX8-LABEL: sub_i64_constant:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_mov_b64 s[4:5], exec			; GFX8-NEXT: s_mov_b64 s[4:5], exec
	; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0			; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
	; GFX8-NEXT: v_mbcnt_hi_u32_b32 v3, s5, v0			; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s5, v0
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX8-NEXT: s_and_saveexec_b64 s[2:3], vcc			; GFX8-NEXT: s_and_saveexec_b64 s[2:3], vcc
	; GFX8-NEXT: s_cbranch_execz .LBB11_2			; GFX8-NEXT: s_cbranch_execz .LBB11_2
	; GFX8-NEXT: ; %bb.1:			; GFX8-NEXT: ; %bb.1:
	; GFX8-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX8-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
	; GFX8-NEXT: s_mul_i32 s4, s4, 5			; GFX8-NEXT: s_mul_i32 s4, s4, 5
	; GFX8-NEXT: v_mov_b32_e32 v1, s4			; GFX8-NEXT: v_mov_b32_e32 v0, s4
				; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: s_mov_b32 m0, -1			; GFX8-NEXT: s_mov_b32 m0, -1
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: ds_sub_rtn_u64 v[0:1], v2, v[1:2]			; GFX8-NEXT: ds_sub_rtn_u64 v[0:1], v1, v[0:1]
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: .LBB11_2:			; GFX8-NEXT: .LBB11_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX8-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_readfirstlane_b32 s4, v0			; GFX8-NEXT: v_readfirstlane_b32 s4, v0
	; GFX8-NEXT: v_readfirstlane_b32 s5, v1			; GFX8-NEXT: v_readfirstlane_b32 s5, v1
	; GFX8-NEXT: v_mul_u32_u24_e32 v0, 5, v3			; GFX8-NEXT: v_mul_u32_u24_e32 v0, 5, v2
	; GFX8-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v3			; GFX8-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v2
	; GFX8-NEXT: v_mov_b32_e32 v2, s5			; GFX8-NEXT: v_mov_b32_e32 v2, s5
	; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s4, v0			; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s4, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GFX8-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sub_i64_constant:			; GFX9-LABEL: sub_i64_constant:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_mov_b64 s[4:5], exec			; GFX9-NEXT: s_mov_b64 s[4:5], exec
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
	; GFX9-NEXT: v_mbcnt_hi_u32_b32 v3, s5, v0			; GFX9-NEXT: v_mbcnt_hi_u32_b32 v2, s5, v0
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX9-NEXT: s_and_saveexec_b64 s[2:3], vcc			; GFX9-NEXT: s_and_saveexec_b64 s[2:3], vcc
	; GFX9-NEXT: s_cbranch_execz .LBB11_2			; GFX9-NEXT: s_cbranch_execz .LBB11_2
	; GFX9-NEXT: ; %bb.1:			; GFX9-NEXT: ; %bb.1:
	; GFX9-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX9-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
	; GFX9-NEXT: s_mul_i32 s4, s4, 5			; GFX9-NEXT: s_mul_i32 s4, s4, 5
	; GFX9-NEXT: v_mov_b32_e32 v1, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
				; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: ds_sub_rtn_u64 v[0:1], v2, v[1:2]			; GFX9-NEXT: ds_sub_rtn_u64 v[0:1], v1, v[0:1]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: .LBB11_2:			; GFX9-NEXT: .LBB11_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX9-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_readfirstlane_b32 s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s4, v0
	; GFX9-NEXT: v_readfirstlane_b32 s5, v1			; GFX9-NEXT: v_readfirstlane_b32 s5, v1
	; GFX9-NEXT: v_mul_u32_u24_e32 v0, 5, v3			; GFX9-NEXT: v_mul_u32_u24_e32 v0, 5, v2
	; GFX9-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v3			; GFX9-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v2
	; GFX9-NEXT: v_mov_b32_e32 v2, s5			; GFX9-NEXT: v_mov_b32_e32 v2, s5
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s4, v0			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s4, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v1, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v1, vcc
	; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: sub_i64_constant:			; GFX1064-LABEL: sub_i64_constant:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_mov_b64 s[4:5], exec			; GFX1064-NEXT: s_mov_b64 s[4:5], exec
	; GFX1064-NEXT: v_mov_b32_e32 v2, 0
	; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0			; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
	; GFX1064-NEXT: v_mbcnt_hi_u32_b32 v3, s5, v0			; GFX1064-NEXT: v_mbcnt_hi_u32_b32 v2, s5, v0
	; GFX1064-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1064-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX1064-NEXT: s_and_saveexec_b64 s[2:3], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[2:3], vcc
	; GFX1064-NEXT: s_cbranch_execz .LBB11_2			; GFX1064-NEXT: s_cbranch_execz .LBB11_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX1064-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
				; GFX1064-NEXT: v_mov_b32_e32 v1, 0
	; GFX1064-NEXT: s_mul_i32 s4, s4, 5			; GFX1064-NEXT: s_mul_i32 s4, s4, 5
	; GFX1064-NEXT: v_mov_b32_e32 v1, s4			; GFX1064-NEXT: v_mov_b32_e32 v0, s4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_sub_rtn_u64 v[0:1], v2, v[1:2]			; GFX1064-NEXT: ds_sub_rtn_u64 v[0:1], v1, v[0:1]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: .LBB11_2:			; GFX1064-NEXT: .LBB11_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v0			; GFX1064-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1064-NEXT: v_mul_u32_u24_e32 v0, 5, v3			; GFX1064-NEXT: v_mul_u32_u24_e32 v0, 5, v2
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v1			; GFX1064-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1064-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v3			; GFX1064-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v2
	; GFX1064-NEXT: v_sub_co_u32 v0, vcc, s2, v0			; GFX1064-NEXT: v_sub_co_u32 v0, vcc, s2, v0
	; GFX1064-NEXT: v_sub_co_ci_u32_e32 v1, vcc, s3, v1, vcc			; GFX1064-NEXT: v_sub_co_ci_u32_e32 v1, vcc, s3, v1, vcc
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_mov_b32 s2, -1			; GFX1064-NEXT: s_mov_b32 s2, -1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: sub_i64_constant:			; GFX1032-LABEL: sub_i64_constant:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_mov_b32 s3, exec_lo			; GFX1032-NEXT: s_mov_b32 s3, exec_lo
	; GFX1032-NEXT: v_mov_b32_e32 v2, 0
	; GFX1032-NEXT: v_mbcnt_lo_u32_b32 v3, s3, 0
	; GFX1032-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1032-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v3			; GFX1032-NEXT: v_mbcnt_lo_u32_b32 v2, s3, 0
				; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v2
	; GFX1032-NEXT: s_and_saveexec_b32 s2, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s2, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz .LBB11_2			; GFX1032-NEXT: s_cbranch_execz .LBB11_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: s_bcnt1_i32_b32 s3, s3			; GFX1032-NEXT: s_bcnt1_i32_b32 s3, s3
				; GFX1032-NEXT: v_mov_b32_e32 v1, 0
	; GFX1032-NEXT: s_mul_i32 s3, s3, 5			; GFX1032-NEXT: s_mul_i32 s3, s3, 5
	; GFX1032-NEXT: v_mov_b32_e32 v1, s3			; GFX1032-NEXT: v_mov_b32_e32 v0, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_sub_rtn_u64 v[0:1], v2, v[1:2]			; GFX1032-NEXT: ds_sub_rtn_u64 v[0:1], v1, v[0:1]
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: .LBB11_2:			; GFX1032-NEXT: .LBB11_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v0			; GFX1032-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1032-NEXT: v_mul_u32_u24_e32 v0, 5, v3			; GFX1032-NEXT: v_mul_u32_u24_e32 v0, 5, v2
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v1			; GFX1032-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1032-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v3			; GFX1032-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v2
	; GFX1032-NEXT: v_sub_co_u32 v0, vcc_lo, s2, v0			; GFX1032-NEXT: v_sub_co_u32 v0, vcc_lo, s2, v0
	; GFX1032-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, s3, v1, vcc_lo			; GFX1032-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, s3, v1, vcc_lo
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_mov_b32 s2, -1			; GFX1032-NEXT: s_mov_b32 s2, -1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	;			;
	; GFX1164-LABEL: sub_i64_constant:			; GFX1164-LABEL: sub_i64_constant:
	; GFX1164: ; %bb.0: ; %entry			; GFX1164: ; %bb.0: ; %entry
	; GFX1164-NEXT: s_mov_b64 s[4:5], exec			; GFX1164-NEXT: s_mov_b64 s[4:5], exec
	; GFX1164-NEXT: v_mov_b32_e32 v2, 0
	; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
	; GFX1164-NEXT: s_mov_b64 s[2:3], exec			; GFX1164-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
	; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v3, s5, v0			; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v2, s5, v0
	; GFX1164-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1164-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v3			; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v2
	; GFX1164-NEXT: s_cbranch_execz .LBB11_2			; GFX1164-NEXT: s_cbranch_execz .LBB11_2
	; GFX1164-NEXT: ; %bb.1:			; GFX1164-NEXT: ; %bb.1:
	; GFX1164-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX1164-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
	; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)			; GFX1164-NEXT: v_mov_b32_e32 v1, 0
	; GFX1164-NEXT: s_mul_i32 s4, s4, 5			; GFX1164-NEXT: s_mul_i32 s4, s4, 5
	; GFX1164-NEXT: v_mov_b32_e32 v1, s4			; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
				; GFX1164-NEXT: v_mov_b32_e32 v0, s4
	; GFX1164-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1164-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1164-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1164-NEXT: ds_sub_rtn_u64 v[0:1], v2, v[1:2]			; GFX1164-NEXT: ds_sub_rtn_u64 v[0:1], v1, v[0:1]
	; GFX1164-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-NEXT: buffer_gl0_inv			; GFX1164-NEXT: buffer_gl0_inv
	; GFX1164-NEXT: .LBB11_2:			; GFX1164-NEXT: .LBB11_2:
	; GFX1164-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX1164-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX1164-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX1164-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX1164-NEXT: v_readfirstlane_b32 s2, v0			; GFX1164-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1164-NEXT: v_mul_u32_u24_e32 v0, 5, v3			; GFX1164-NEXT: v_mul_u32_u24_e32 v0, 5, v2
	; GFX1164-NEXT: v_readfirstlane_b32 s3, v1			; GFX1164-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1164-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v3			; GFX1164-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v2
	; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)			; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX1164-NEXT: v_sub_co_u32 v0, vcc, s2, v0			; GFX1164-NEXT: v_sub_co_u32 v0, vcc, s2, v0
	; GFX1164-NEXT: v_sub_co_ci_u32_e32 v1, vcc, s3, v1, vcc			; GFX1164-NEXT: v_sub_co_ci_u32_e32 v1, vcc, s3, v1, vcc
	; GFX1164-NEXT: s_mov_b32 s3, 0x31016000			; GFX1164-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1164-NEXT: s_mov_b32 s2, -1			; GFX1164-NEXT: s_mov_b32 s2, -1
	; GFX1164-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-NEXT: buffer_store_b64 v[0:1], off, s[0:3], 0			; GFX1164-NEXT: buffer_store_b64 v[0:1], off, s[0:3], 0
	; GFX1164-NEXT: s_nop 0			; GFX1164-NEXT: s_nop 0
	; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-NEXT: s_endpgm			; GFX1164-NEXT: s_endpgm
	;			;
	; GFX1132-LABEL: sub_i64_constant:			; GFX1132-LABEL: sub_i64_constant:
	; GFX1132: ; %bb.0: ; %entry			; GFX1132: ; %bb.0: ; %entry
	; GFX1132-NEXT: s_mov_b32 s3, exec_lo			; GFX1132-NEXT: s_mov_b32 s3, exec_lo
	; GFX1132-NEXT: v_mov_b32_e32 v2, 0
	; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v3, s3, 0
	; GFX1132-NEXT: s_mov_b32 s2, exec_lo			; GFX1132-NEXT: s_mov_b32 s2, exec_lo
				; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v2, s3, 0
	; GFX1132-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1132-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v3			; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v2
	; GFX1132-NEXT: s_cbranch_execz .LBB11_2			; GFX1132-NEXT: s_cbranch_execz .LBB11_2
	; GFX1132-NEXT: ; %bb.1:			; GFX1132-NEXT: ; %bb.1:
	; GFX1132-NEXT: s_bcnt1_i32_b32 s3, s3			; GFX1132-NEXT: s_bcnt1_i32_b32 s3, s3
	; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)			; GFX1132-NEXT: v_mov_b32_e32 v1, 0
	; GFX1132-NEXT: s_mul_i32 s3, s3, 5			; GFX1132-NEXT: s_mul_i32 s3, s3, 5
	; GFX1132-NEXT: v_mov_b32_e32 v1, s3			; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
				; GFX1132-NEXT: v_mov_b32_e32 v0, s3
	; GFX1132-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1132-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1132-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1132-NEXT: ds_sub_rtn_u64 v[0:1], v2, v[1:2]			; GFX1132-NEXT: ds_sub_rtn_u64 v[0:1], v1, v[0:1]
	; GFX1132-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-NEXT: buffer_gl0_inv			; GFX1132-NEXT: buffer_gl0_inv
	; GFX1132-NEXT: .LBB11_2:			; GFX1132-NEXT: .LBB11_2:
	; GFX1132-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX1132-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX1132-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX1132-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX1132-NEXT: v_readfirstlane_b32 s2, v0			; GFX1132-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1132-NEXT: v_mul_u32_u24_e32 v0, 5, v3			; GFX1132-NEXT: v_mul_u32_u24_e32 v0, 5, v2
	; GFX1132-NEXT: v_readfirstlane_b32 s3, v1			; GFX1132-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1132-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v3			; GFX1132-NEXT: v_mul_hi_u32_u24_e32 v1, 5, v2
	; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)			; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)
	; GFX1132-NEXT: v_sub_co_u32 v0, vcc_lo, s2, v0			; GFX1132-NEXT: v_sub_co_u32 v0, vcc_lo, s2, v0
	; GFX1132-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, s3, v1, vcc_lo			; GFX1132-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, s3, v1, vcc_lo
	; GFX1132-NEXT: s_mov_b32 s3, 0x31016000			; GFX1132-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1132-NEXT: s_mov_b32 s2, -1			; GFX1132-NEXT: s_mov_b32 s2, -1
	; GFX1132-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-NEXT: buffer_store_b64 v[0:1], off, s[0:3], 0			; GFX1132-NEXT: buffer_store_b64 v[0:1], off, s[0:3], 0
	; GFX1132-NEXT: s_nop 0			; GFX1132-NEXT: s_nop 0
	Show All 9 Lines
	;			;
	;			;
	; GFX7LESS-LABEL: sub_i64_uniform:			; GFX7LESS-LABEL: sub_i64_uniform:
	; GFX7LESS: ; %bb.0: ; %entry			; GFX7LESS: ; %bb.0: ; %entry
	; GFX7LESS-NEXT: s_mov_b64 s[6:7], exec			; GFX7LESS-NEXT: s_mov_b64 s[6:7], exec
	; GFX7LESS-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GFX7LESS-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GFX7LESS-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0			; GFX7LESS-NEXT: v_mbcnt_lo_u32_b32_e64 v0, s6, 0
	; GFX7LESS-NEXT: v_mbcnt_hi_u32_b32_e32 v2, s7, v0			; GFX7LESS-NEXT: v_mbcnt_hi_u32_b32_e32 v2, s7, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v3, 0
	; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX7LESS-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX7LESS-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX7LESS-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX7LESS-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX7LESS-NEXT: s_cbranch_execz .LBB12_2			; GFX7LESS-NEXT: s_cbranch_execz .LBB12_2
	; GFX7LESS-NEXT: ; %bb.1:			; GFX7LESS-NEXT: ; %bb.1:
	; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX7LESS-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
				; GFX7LESS-NEXT: v_mov_b32_e32 v3, 0
	; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)			; GFX7LESS-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7LESS-NEXT: s_mul_i32 s7, s3, s6			; GFX7LESS-NEXT: s_mul_i32 s7, s3, s6
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6			; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
	; GFX7LESS-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX7LESS-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX7LESS-NEXT: s_mul_i32 s6, s2, s6			; GFX7LESS-NEXT: s_mul_i32 s6, s2, s6
	; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s7, v0			; GFX7LESS-NEXT: v_add_i32_e32 v1, vcc, s7, v0
	; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6			; GFX7LESS-NEXT: v_mov_b32_e32 v0, s6
	; GFX7LESS-NEXT: s_mov_b32 m0, -1			; GFX7LESS-NEXT: s_mov_b32 m0, -1
	Show All 20 Lines
	; GFX7LESS-NEXT: s_endpgm			; GFX7LESS-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: sub_i64_uniform:			; GFX8-LABEL: sub_i64_uniform:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX8-NEXT: s_mov_b64 s[6:7], exec			; GFX8-NEXT: s_mov_b64 s[6:7], exec
	; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0			; GFX8-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0
	; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX8-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX8-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX8-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX8-NEXT: s_cbranch_execz .LBB12_2			; GFX8-NEXT: s_cbranch_execz .LBB12_2
	; GFX8-NEXT: ; %bb.1:			; GFX8-NEXT: ; %bb.1:
	; GFX8-NEXT: s_bcnt1_i32_b64 s8, s[6:7]			; GFX8-NEXT: s_bcnt1_i32_b64 s8, s[6:7]
	; GFX8-NEXT: v_mov_b32_e32 v0, s8			; GFX8-NEXT: v_mov_b32_e32 v0, s8
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s2, v0, 0			; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[6:7], s2, v0, 0
	; GFX8-NEXT: s_mul_i32 s6, s3, s8			; GFX8-NEXT: s_mul_i32 s6, s3, s8
	; GFX8-NEXT: s_mov_b32 m0, -1			; GFX8-NEXT: v_mov_b32_e32 v3, 0
	; GFX8-NEXT: v_add_u32_e32 v1, vcc, s6, v1			; GFX8-NEXT: v_add_u32_e32 v1, vcc, s6, v1
				; GFX8-NEXT: s_mov_b32 m0, -1
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]			; GFX8-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: .LBB12_2:			; GFX8-NEXT: .LBB12_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s4, s0			; GFX8-NEXT: s_mov_b32 s4, s0
	; GFX8-NEXT: s_mov_b32 s5, s1			; GFX8-NEXT: s_mov_b32 s5, s1
	Show All 11 Lines
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sub_i64_uniform:			; GFX9-LABEL: sub_i64_uniform:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[6:7], exec			; GFX9-NEXT: s_mov_b64 s[6:7], exec
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX9-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0			; GFX9-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0
	; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX9-NEXT: s_cbranch_execz .LBB12_2			; GFX9-NEXT: s_cbranch_execz .LBB12_2
	; GFX9-NEXT: ; %bb.1:			; GFX9-NEXT: ; %bb.1:
	; GFX9-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX9-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mul_i32 s7, s3, s6			; GFX9-NEXT: s_mul_i32 s7, s3, s6
	; GFX9-NEXT: s_mul_hi_u32 s8, s2, s6			; GFX9-NEXT: s_mul_hi_u32 s8, s2, s6
	; GFX9-NEXT: s_add_i32 s8, s8, s7			; GFX9-NEXT: s_add_i32 s8, s8, s7
	; GFX9-NEXT: s_mul_i32 s6, s2, s6			; GFX9-NEXT: s_mul_i32 s6, s2, s6
	; GFX9-NEXT: v_mov_b32_e32 v0, s6			; GFX9-NEXT: v_mov_b32_e32 v0, s6
	; GFX9-NEXT: v_mov_b32_e32 v1, s8			; GFX9-NEXT: v_mov_b32_e32 v1, s8
				; GFX9-NEXT: v_mov_b32_e32 v3, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]			; GFX9-NEXT: ds_sub_rtn_u64 v[0:1], v3, v[0:1]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: .LBB12_2:			; GFX9-NEXT: .LBB12_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], s2, v2, 0			; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], s2, v2, 0
	; GFX9-NEXT: s_mov_b32 s4, s0			; GFX9-NEXT: s_mov_b32 s4, s0
	Show All 9 Lines
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v1, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v1, vcc
	; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: sub_i64_uniform:			; GFX1064-LABEL: sub_i64_uniform:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[6:7], exec			; GFX1064-NEXT: s_mov_b64 s[6:7], exec
	; GFX1064-NEXT: v_mov_b32_e32 v3, 0
	; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0			; GFX1064-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX1064-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0			; GFX1064-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0
	; GFX1064-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1064-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz .LBB12_2			; GFX1064-NEXT: s_cbranch_execz .LBB12_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX1064-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
				; GFX1064-NEXT: v_mov_b32_e32 v3, 0
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: s_mul_i32 s7, s3, s6			; GFX1064-NEXT: s_mul_i32 s7, s3, s6
	; GFX1064-NEXT: s_mul_hi_u32 s8, s2, s6			; GFX1064-NEXT: s_mul_hi_u32 s8, s2, s6
	; GFX1064-NEXT: s_mul_i32 s6, s2, s6			; GFX1064-NEXT: s_mul_i32 s6, s2, s6
	; GFX1064-NEXT: s_add_i32 s8, s8, s7			; GFX1064-NEXT: s_add_i32 s8, s8, s7
	; GFX1064-NEXT: v_mov_b32_e32 v0, s6			; GFX1064-NEXT: v_mov_b32_e32 v0, s6
	; GFX1064-NEXT: v_mov_b32_e32 v1, s8			; GFX1064-NEXT: v_mov_b32_e32 v1, s8
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	Show All 16 Lines
	; GFX1064-NEXT: v_sub_co_ci_u32_e32 v1, vcc, s4, v1, vcc			; GFX1064-NEXT: v_sub_co_ci_u32_e32 v1, vcc, s4, v1, vcc
	; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: sub_i64_uniform:			; GFX1032-LABEL: sub_i64_uniform:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s5, exec_lo			; GFX1032-NEXT: s_mov_b32 s5, exec_lo
	; GFX1032-NEXT: v_mov_b32_e32 v3, 0
	; GFX1032-NEXT: v_mbcnt_lo_u32_b32 v2, s5, 0
	; GFX1032-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1032-NEXT: ; implicit-def: $vgpr0_vgpr1
				; GFX1032-NEXT: v_mbcnt_lo_u32_b32 v2, s5, 0
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v2			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v2
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz .LBB12_2			; GFX1032-NEXT: s_cbranch_execz .LBB12_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: s_bcnt1_i32_b32 s5, s5			; GFX1032-NEXT: s_bcnt1_i32_b32 s5, s5
				; GFX1032-NEXT: v_mov_b32_e32 v3, 0
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: s_mul_i32 s6, s3, s5			; GFX1032-NEXT: s_mul_i32 s6, s3, s5
	; GFX1032-NEXT: s_mul_hi_u32 s7, s2, s5			; GFX1032-NEXT: s_mul_hi_u32 s7, s2, s5
	; GFX1032-NEXT: s_mul_i32 s5, s2, s5			; GFX1032-NEXT: s_mul_i32 s5, s2, s5
	; GFX1032-NEXT: s_add_i32 s7, s7, s6			; GFX1032-NEXT: s_add_i32 s7, s7, s6
	; GFX1032-NEXT: v_mov_b32_e32 v0, s5			; GFX1032-NEXT: v_mov_b32_e32 v0, s5
	; GFX1032-NEXT: v_mov_b32_e32 v1, s7			; GFX1032-NEXT: v_mov_b32_e32 v1, s7
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	Show All 16 Lines
	; GFX1032-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, s4, v1, vcc_lo			; GFX1032-NEXT: v_sub_co_ci_u32_e32 v1, vcc_lo, s4, v1, vcc_lo
	; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	;			;
	; GFX1164-LABEL: sub_i64_uniform:			; GFX1164-LABEL: sub_i64_uniform:
	; GFX1164: ; %bb.0: ; %entry			; GFX1164: ; %bb.0: ; %entry
	; GFX1164-NEXT: s_load_b128 s[0:3], s[0:1], 0x24			; GFX1164-NEXT: s_load_b128 s[0:3], s[0:1], 0x24
	; GFX1164-NEXT: s_mov_b64 s[6:7], exec			; GFX1164-NEXT: s_mov_b64 s[6:7], exec
	; GFX1164-NEXT: v_mov_b32_e32 v3, 0
	; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX1164-NEXT: s_mov_b64 s[4:5], exec			; GFX1164-NEXT: s_mov_b64 s[4:5], exec
				; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, s6, 0
	; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0			; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v2, s7, v0
	; GFX1164-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1164-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v2			; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v2
	; GFX1164-NEXT: s_cbranch_execz .LBB12_2			; GFX1164-NEXT: s_cbranch_execz .LBB12_2
	; GFX1164-NEXT: ; %bb.1:			; GFX1164-NEXT: ; %bb.1:
	; GFX1164-NEXT: s_bcnt1_i32_b64 s6, s[6:7]			; GFX1164-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
				; GFX1164-NEXT: v_mov_b32_e32 v3, 0
	; GFX1164-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-NEXT: s_mul_i32 s7, s3, s6			; GFX1164-NEXT: s_mul_i32 s7, s3, s6
	; GFX1164-NEXT: s_mul_hi_u32 s8, s2, s6			; GFX1164-NEXT: s_mul_hi_u32 s8, s2, s6
	; GFX1164-NEXT: s_mul_i32 s6, s2, s6			; GFX1164-NEXT: s_mul_i32 s6, s2, s6
	; GFX1164-NEXT: s_add_i32 s8, s8, s7			; GFX1164-NEXT: s_add_i32 s8, s8, s7
	; GFX1164-NEXT: v_mov_b32_e32 v0, s6			; GFX1164-NEXT: v_mov_b32_e32 v0, s6
	; GFX1164-NEXT: v_mov_b32_e32 v1, s8			; GFX1164-NEXT: v_mov_b32_e32 v1, s8
	; GFX1164-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	Show All 19 Lines
	; GFX1164-NEXT: s_nop 0			; GFX1164-NEXT: s_nop 0
	; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-NEXT: s_endpgm			; GFX1164-NEXT: s_endpgm
	;			;
	; GFX1132-LABEL: sub_i64_uniform:			; GFX1132-LABEL: sub_i64_uniform:
	; GFX1132: ; %bb.0: ; %entry			; GFX1132: ; %bb.0: ; %entry
	; GFX1132-NEXT: s_load_b128 s[0:3], s[0:1], 0x24			; GFX1132-NEXT: s_load_b128 s[0:3], s[0:1], 0x24
	; GFX1132-NEXT: s_mov_b32 s5, exec_lo			; GFX1132-NEXT: s_mov_b32 s5, exec_lo
	; GFX1132-NEXT: v_mov_b32_e32 v3, 0
	; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v2, s5, 0
	; GFX1132-NEXT: s_mov_b32 s4, exec_lo			; GFX1132-NEXT: s_mov_b32 s4, exec_lo
				; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v2, s5, 0
	; GFX1132-NEXT: ; implicit-def: $vgpr0_vgpr1			; GFX1132-NEXT: ; implicit-def: $vgpr0_vgpr1
	; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)			; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v2			; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v2
	; GFX1132-NEXT: s_cbranch_execz .LBB12_2			; GFX1132-NEXT: s_cbranch_execz .LBB12_2
	; GFX1132-NEXT: ; %bb.1:			; GFX1132-NEXT: ; %bb.1:
	; GFX1132-NEXT: s_bcnt1_i32_b32 s5, s5			; GFX1132-NEXT: s_bcnt1_i32_b32 s5, s5
				; GFX1132-NEXT: v_mov_b32_e32 v3, 0
	; GFX1132-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-NEXT: s_mul_i32 s6, s3, s5			; GFX1132-NEXT: s_mul_i32 s6, s3, s5
	; GFX1132-NEXT: s_mul_hi_u32 s7, s2, s5			; GFX1132-NEXT: s_mul_hi_u32 s7, s2, s5
	; GFX1132-NEXT: s_mul_i32 s5, s2, s5			; GFX1132-NEXT: s_mul_i32 s5, s2, s5
	; GFX1132-NEXT: s_add_i32 s7, s7, s6			; GFX1132-NEXT: s_add_i32 s7, s7, s6
	; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1)			; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GFX1132-NEXT: v_dual_mov_b32 v0, s5 :: v_dual_mov_b32 v1, s7			; GFX1132-NEXT: v_dual_mov_b32 v0, s5 :: v_dual_mov_b32 v1, s7
	; GFX1132-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	▲ Show 20 Lines • Show All 3,186 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/atomics-hw-remarks-gfx90a.ll

	Show All 15 Lines
	; GFX90A-HW: s_endpgm			; GFX90A-HW: s_endpgm
	define amdgpu_kernel void @atomic_add_unsafe_hw(ptr addrspace(3) %ptr) #0 {			define amdgpu_kernel void @atomic_add_unsafe_hw(ptr addrspace(3) %ptr) #0 {
	main_body:			main_body:
	%ret = atomicrmw fadd ptr addrspace(3) %ptr, double 4.0 seq_cst			%ret = atomicrmw fadd ptr addrspace(3) %ptr, double 4.0 seq_cst
	ret void			ret void
	}			}

	; GFX90A-HW-LABEL: atomic_add_unsafe_hw_agent:			; GFX90A-HW-LABEL: atomic_add_unsafe_hw_agent:
	; GFX90A-HW: global_atomic_add_f32 v0, v1, s[2:3]			; GFX90A-HW: global_atomic_add_f32 v0, v1, s[4:5]
	; GFX90A-HW: s_endpgm			; GFX90A-HW: s_endpgm
	define amdgpu_kernel void @atomic_add_unsafe_hw_agent(ptr addrspace(1) %ptr, float %val) #0 {			define amdgpu_kernel void @atomic_add_unsafe_hw_agent(ptr addrspace(1) %ptr, float %val) #0 {
	main_body:			main_body:
	%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic, align 4			%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic, align 4
	ret void			ret void
	}			}

	; GFX90A-HW-LABEL: atomic_add_unsafe_hw_wg:			; GFX90A-HW-LABEL: atomic_add_unsafe_hw_wg:
	; GFX90A-HW: global_atomic_add_f32 v0, v1, s[2:3]			; GFX90A-HW: global_atomic_add_f32 v0, v1, s[4:5]
	; GFX90A-HW: s_endpgm			; GFX90A-HW: s_endpgm
	define amdgpu_kernel void @atomic_add_unsafe_hw_wg(ptr addrspace(1) %ptr, float %val) #0 {			define amdgpu_kernel void @atomic_add_unsafe_hw_wg(ptr addrspace(1) %ptr, float %val) #0 {
	main_body:			main_body:
	%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("workgroup") monotonic, align 4			%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("workgroup") monotonic, align 4
	ret void			ret void
	}			}

	; GFX90A-HW-LABEL: atomic_add_unsafe_hw_wavefront:			; GFX90A-HW-LABEL: atomic_add_unsafe_hw_wavefront:
	; GFX90A-HW: global_atomic_add_f32 v0, v1, s[2:3]			; GFX90A-HW: global_atomic_add_f32 v0, v1, s[4:5]
	; GFX90A-HW: s_endpgm			; GFX90A-HW: s_endpgm
	define amdgpu_kernel void @atomic_add_unsafe_hw_wavefront(ptr addrspace(1) %ptr, float %val) #0 {			define amdgpu_kernel void @atomic_add_unsafe_hw_wavefront(ptr addrspace(1) %ptr, float %val) #0 {
	main_body:			main_body:
	%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("wavefront") monotonic, align 4			%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("wavefront") monotonic, align 4
	ret void			ret void
	}			}

	; GFX90A-HW-LABEL: atomic_add_unsafe_hw_single_thread:			; GFX90A-HW-LABEL: atomic_add_unsafe_hw_single_thread:
	; GFX90A-HW: global_atomic_add_f32 v0, v1, s[2:3]			; GFX90A-HW: global_atomic_add_f32 v0, v1, s[4:5]
	; GFX90A-HW: s_endpgm			; GFX90A-HW: s_endpgm
	define amdgpu_kernel void @atomic_add_unsafe_hw_single_thread(ptr addrspace(1) %ptr, float %val) #0 {			define amdgpu_kernel void @atomic_add_unsafe_hw_single_thread(ptr addrspace(1) %ptr, float %val) #0 {
	main_body:			main_body:
	%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("singlethread") monotonic, align 4			%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("singlethread") monotonic, align 4
	ret void			ret void
	}			}

	; GFX90A-HW-LABEL: atomic_add_unsafe_hw_aoa:			; GFX90A-HW-LABEL: atomic_add_unsafe_hw_aoa:
	; GFX90A-HW: global_atomic_add_f32 v0, v1, s[2:3]			; GFX90A-HW: global_atomic_add_f32 v0, v1, s[4:5]
	; GFX90A-HW: s_endpgm			; GFX90A-HW: s_endpgm
	define amdgpu_kernel void @atomic_add_unsafe_hw_aoa(ptr addrspace(1) %ptr, float %val) #0 {			define amdgpu_kernel void @atomic_add_unsafe_hw_aoa(ptr addrspace(1) %ptr, float %val) #0 {
	main_body:			main_body:
	%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent-one-as") monotonic, align 4			%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent-one-as") monotonic, align 4
	ret void			ret void
	}			}

	; GFX90A-HW-LABEL: atomic_add_unsafe_hw_wgoa:			; GFX90A-HW-LABEL: atomic_add_unsafe_hw_wgoa:
	; GFX90A-HW: global_atomic_add_f32 v0, v1, s[2:3]			; GFX90A-HW: global_atomic_add_f32 v0, v1, s[4:5]
	; GFX90A-HW: s_endpgm			; GFX90A-HW: s_endpgm
	define amdgpu_kernel void @atomic_add_unsafe_hw_wgoa(ptr addrspace(1) %ptr, float %val) #0 {			define amdgpu_kernel void @atomic_add_unsafe_hw_wgoa(ptr addrspace(1) %ptr, float %val) #0 {
	main_body:			main_body:
	%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("workgroup-one-as") monotonic, align 4			%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("workgroup-one-as") monotonic, align 4
	ret void			ret void
	}			}

	; GFX90A-HW-LABEL: atomic_add_unsafe_hw_wfoa:			; GFX90A-HW-LABEL: atomic_add_unsafe_hw_wfoa:
	; GFX90A-HW: global_atomic_add_f32 v0, v1, s[2:3]			; GFX90A-HW: global_atomic_add_f32 v0, v1, s[4:5]
	; GFX90A-HW: s_endpgm			; GFX90A-HW: s_endpgm
	define amdgpu_kernel void @atomic_add_unsafe_hw_wfoa(ptr addrspace(1) %ptr, float %val) #0 {			define amdgpu_kernel void @atomic_add_unsafe_hw_wfoa(ptr addrspace(1) %ptr, float %val) #0 {
	main_body:			main_body:
	%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("wavefront-one-as") monotonic, align 4			%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("wavefront-one-as") monotonic, align 4
	ret void			ret void
	}			}

	; GFX90A-HW-LABEL: atomic_add_unsafe_hw_stoa:			; GFX90A-HW-LABEL: atomic_add_unsafe_hw_stoa:
	; GFX90A-HW: global_atomic_add_f32 v0, v1, s[2:3]			; GFX90A-HW: global_atomic_add_f32 v0, v1, s[4:5]
	; GFX90A-HW: s_endpgm			; GFX90A-HW: s_endpgm
	define amdgpu_kernel void @atomic_add_unsafe_hw_stoa(ptr addrspace(1) %ptr, float %val) #0 {			define amdgpu_kernel void @atomic_add_unsafe_hw_stoa(ptr addrspace(1) %ptr, float %val) #0 {
	main_body:			main_body:
	%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("singlethread-one-as") monotonic, align 4			%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("singlethread-one-as") monotonic, align 4
	ret void			ret void
	}			}

	attributes #0 = { "denormal-fp-math"="preserve-sign,preserve-sign" "amdgpu-unsafe-fp-atomics"="true" }			attributes #0 = { "denormal-fp-math"="preserve-sign,preserve-sign" "amdgpu-unsafe-fp-atomics"="true" }

llvm/test/CodeGen/AMDGPU/global-atomic-fadd.f32-no-rtn.ll

; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
; RUN: llc -march=amdgcn -mcpu=gfx908 -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX908_GFX11 %s		; RUN: llc -march=amdgcn -mcpu=gfx908 -verify-machineinstrs -stop-after=amdgpu-isel -amdgpu-atomic-optimizer-strategy=DPP < %s \| FileCheck -check-prefix=GFX908_GFX11 %s
; RUN: llc -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s		; RUN: llc -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=amdgpu-isel -amdgpu-atomic-optimizer-strategy=DPP < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
; RUN: llc -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s		; RUN: llc -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=amdgpu-isel -amdgpu-atomic-optimizer-strategy=DPP < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
; RUN: llc -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX908_GFX11 %s		; RUN: llc -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=amdgpu-isel -amdgpu-atomic-optimizer-strategy=DPP < %s \| FileCheck -check-prefix=GFX908_GFX11 %s

define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_intrinsic(ptr addrspace(1) %ptr, float %data) {		define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_intrinsic(ptr addrspace(1) %ptr, float %data) {
; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic		; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic
; GFX908_GFX11: bb.0 (%ir-block.0):		; GFX908_GFX11: bb.0 (%ir-block.0):
; GFX908_GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX908_GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX908_GFX11-NEXT: {{ $}}		; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]		; GFX908_GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0		; GFX908_GFX11-NEXT: S_ENDPGM 0
		;
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic
; GFX90A_GFX940: bb.0 (%ir-block.0):		; GFX90A_GFX940: bb.0 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
Show All 11 Lines	define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_intrinsic(ptr addrspace(1) inreg %ptr, float %data) {
; GFX908_GFX11-NEXT: {{ $}}		; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1		; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0		; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0		; GFX908_GFX11-NEXT: S_ENDPGM 0
		;
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_intrinsic
; GFX90A_GFX940: bb.0 (%ir-block.0):		; GFX90A_GFX940: bb.0 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
Show All 11 Lines	define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_flat_intrinsic(ptr addrspace(1) %ptr, float %data) {
; GFX908_GFX11-NEXT: {{ $}}		; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]		; GFX908_GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0		; GFX908_GFX11-NEXT: S_ENDPGM 0
		;
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_flat_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_flat_intrinsic
; GFX90A_GFX940: bb.0 (%ir-block.0):		; GFX90A_GFX940: bb.0 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
Show All 11 Lines	define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic(ptr addrspace(1) inreg %ptr, float %data) {
; GFX908_GFX11-NEXT: {{ $}}		; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1		; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0		; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0		; GFX908_GFX11-NEXT: S_ENDPGM 0
		;
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic
; GFX90A_GFX940: bb.0 (%ir-block.0):		; GFX90A_GFX940: bb.0 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
Show All 11 Lines	define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_atomicrmw(ptr addrspace(1) %ptr, float %data) #0 {
; GFX908_GFX11-NEXT: {{ $}}		; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]		; GFX908_GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0		; GFX908_GFX11-NEXT: S_ENDPGM 0
		;
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_atomicrmw		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_atomicrmw
; GFX90A_GFX940: bb.0 (%ir-block.0):		; GFX90A_GFX940: bb.0 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]		; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]
; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: S_ENDPGM 0		; GFX90A_GFX940-NEXT: S_ENDPGM 0
%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic		%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic
ret void		ret void
}		}

define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_atomicrmw(ptr addrspace(1) inreg %ptr, float %data) #0 {		define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_atomicrmw(ptr addrspace(1) inreg %ptr, float %data) #0 {
; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_atomicrmw
; GFX908_GFX11: bb.0 (%ir-block.0):
; GFX908_GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX908_GFX11-NEXT: {{ $}}
; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX908_GFX11-NEXT: S_ENDPGM 0
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_atomicrmw		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_atomicrmw
; GFX90A_GFX940: bb.0 (%ir-block.0):		; GFX90A_GFX940: bb.0 (%ir-block.0):
		; GFX90A_GFX940-NEXT: successors: %bb.1(0x40000000), %bb.3(0x40000000)
; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:sreg_64 = COPY [[REG_SEQUENCE]]
; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[SI_PS_LIVE:%[0-9]+]]:sreg_64 = SI_PS_LIVE
		; GFX90A_GFX940-NEXT: [[SI_IF:%[0-9]+]]:sreg_64 = SI_IF killed [[SI_PS_LIVE]], %bb.3, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
		; GFX90A_GFX940-NEXT: S_BRANCH %bb.1
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: bb.1 (%ir-block.5):
		; GFX90A_GFX940-NEXT: successors: %bb.2(0x40000000), %bb.4(0x40000000)
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: [[COPY4:%[0-9]+]]:sreg_64 = COPY $exec
		; GFX90A_GFX940-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY [[COPY4]].sub1
		; GFX90A_GFX940-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY [[COPY4]].sub0
		; GFX90A_GFX940-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 0
		; GFX90A_GFX940-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_]]
		; GFX90A_GFX940-NEXT: [[V_MBCNT_LO_U32_B32_e64_:%[0-9]+]]:vgpr_32 = V_MBCNT_LO_U32_B32_e64 killed [[COPY6]], [[COPY7]], implicit $exec
		; GFX90A_GFX940-NEXT: [[V_MBCNT_HI_U32_B32_e64_:%[0-9]+]]:vgpr_32 = V_MBCNT_HI_U32_B32_e64 killed [[COPY5]], killed [[V_MBCNT_LO_U32_B32_e64_]], implicit $exec
		; GFX90A_GFX940-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 -2147483648
		; GFX90A_GFX940-NEXT: [[V_SET_INACTIVE_B32_:%[0-9]+]]:vgpr_32 = V_SET_INACTIVE_B32 [[COPY]], killed [[S_MOV_B32_1]], implicit-def dead $scc, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 -2147483648, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], [[V_SET_INACTIVE_B32_]], 273, 15, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_SET_INACTIVE_B32_]], 0, killed [[V_MOV_B32_dpp]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp1:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], [[V_ADD_F32_e64_]], 274, 15, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_1:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_]], 0, killed [[V_MOV_B32_dpp1]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp2:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], [[V_ADD_F32_e64_1]], 276, 15, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_2:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_1]], 0, killed [[V_MOV_B32_dpp2]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp3:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], [[V_ADD_F32_e64_2]], 280, 15, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_3:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_2]], 0, killed [[V_MOV_B32_dpp3]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp4:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], [[V_ADD_F32_e64_3]], 322, 10, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_4:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_3]], 0, killed [[V_MOV_B32_dpp4]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_dpp5:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], [[V_ADD_F32_e64_4]], 323, 12, 15, 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[V_ADD_F32_e64_5:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_4]], 0, killed [[V_MOV_B32_dpp5]], 0, 0, implicit $mode, implicit $exec
		; GFX90A_GFX940-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 63
		; GFX90A_GFX940-NEXT: [[V_READLANE_B32_:%[0-9]+]]:sreg_32 = V_READLANE_B32 killed [[V_ADD_F32_e64_5]], killed [[S_MOV_B32_2]]
		; GFX90A_GFX940-NEXT: early-clobber %1:sgpr_32 = STRICT_WWM killed [[V_READLANE_B32_]], implicit $exec
		; GFX90A_GFX940-NEXT: [[V_CMP_EQ_U32_e64_:%[0-9]+]]:sreg_64 = V_CMP_EQ_U32_e64 killed [[V_MBCNT_HI_U32_B32_e64_]], [[S_MOV_B32_]], implicit $exec
		; GFX90A_GFX940-NEXT: [[SI_IF1:%[0-9]+]]:sreg_64 = SI_IF killed [[V_CMP_EQ_U32_e64_]], %bb.4, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
		; GFX90A_GFX940-NEXT: S_BRANCH %bb.2
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: bb.2 (%ir-block.36):
		; GFX90A_GFX940-NEXT: successors: %bb.4(0x80000000)
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
		; GFX90A_GFX940-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY %1
		; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR killed [[V_MOV_B32_e32_1]], [[COPY8]], [[COPY3]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
		; GFX90A_GFX940-NEXT: S_BRANCH %bb.4
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: bb.3.Flow:
		; GFX90A_GFX940-NEXT: successors: %bb.5(0x80000000)
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: SI_END_CF [[SI_IF]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
		; GFX90A_GFX940-NEXT: S_BRANCH %bb.5
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: bb.4 (%ir-block.38):
		; GFX90A_GFX940-NEXT: successors: %bb.3(0x80000000)
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: SI_END_CF [[SI_IF1]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
		; GFX90A_GFX940-NEXT: S_BRANCH %bb.3
		; GFX90A_GFX940-NEXT: {{ $}}
		; GFX90A_GFX940-NEXT: bb.5 (%ir-block.39):
; GFX90A_GFX940-NEXT: S_ENDPGM 0		; GFX90A_GFX940-NEXT: S_ENDPGM 0
%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic		%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic
ret void		ret void
}		}

attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }		attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }

declare float @llvm.amdgcn.global.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)		declare float @llvm.amdgcn.global.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)
declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)		declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)

llvm/test/CodeGen/AMDGPU/global-atomic-fadd.f32-rtn.ll

; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
; RUN: llc -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s		; RUN: llc -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=amdgpu-isel -amdgpu-atomic-optimizer-strategy=DPP < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
; RUN: llc -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s		; RUN: llc -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=amdgpu-isel -amdgpu-atomic-optimizer-strategy=DPP < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
; RUN: llc -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX11 %s		; RUN: llc -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=amdgpu-isel -amdgpu-atomic-optimizer-strategy=DPP < %s \| FileCheck -check-prefix=GFX11 %s

define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(ptr addrspace(1) %ptr, float %data) {		define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(ptr addrspace(1) %ptr, float %data) {
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic
; GFX90A_GFX940: bb.0 (%ir-block.0):		; GFX90A_GFX940: bb.0 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]		; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]		; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
		;
; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic		; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic
; GFX11: bb.0 (%ir-block.0):		; GFX11: bb.0 (%ir-block.0):
; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
Show All 13 Lines	define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_intrinsic(ptr addrspace(1) inreg %ptr, float %data) {
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]		; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
		;
; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_intrinsic		; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_intrinsic
; GFX11: bb.0 (%ir-block.0):		; GFX11: bb.0 (%ir-block.0):
; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0		; GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
Show All 13 Lines	define amdgpu_ps float @global_atomic_fadd_f32_rtn_flat_intrinsic(ptr addrspace(1) %ptr, float %data) {
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]		; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]		; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
		;
; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_flat_intrinsic		; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_flat_intrinsic
; GFX11: bb.0 (%ir-block.0):		; GFX11: bb.0 (%ir-block.0):
; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
Show All 13 Lines	define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_flat_intrinsic(ptr addrspace(1) inreg %ptr, float %data) {
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]		; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
		;
; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_flat_intrinsic		; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_flat_intrinsic
; GFX11: bb.0 (%ir-block.0):		; GFX11: bb.0 (%ir-block.0):
; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0		; GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
Show All 13 Lines	define amdgpu_ps float @global_atomic_fadd_f32_rtn_atomicrmw(ptr addrspace(1) %ptr, float %data) #0 {
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]		; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]		; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
		;
; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_atomicrmw		; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_atomicrmw
; GFX11: bb.0 (%ir-block.0):		; GFX11: bb.0 (%ir-block.0):
; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2		; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]		; GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]		; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
; GFX11-NEXT: SI_RETURN_TO_EPILOG $vgpr0		; GFX11-NEXT: SI_RETURN_TO_EPILOG $vgpr0
%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic		%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic
ret float %ret		ret float %ret
}		}

define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_atomicrmw(ptr addrspace(1) inreg %ptr, float %data) #0 {		define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_atomicrmw(ptr addrspace(1) inreg %ptr, float %data) #0 {
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw
; GFX90A_GFX940: bb.0 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw		; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw
; GFX11: bb.0 (%ir-block.0):		; GFX11: bb.0 (%ir-block.0):
		; GFX11-NEXT: successors: %bb.1(0x40000000), %bb.3(0x40000000)
; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0		; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
; GFX11-NEXT: {{ $}}		; GFX11-NEXT: {{ $}}
; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1		; GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
; GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0		; GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec		; GFX11-NEXT: [[COPY3:%[0-9]+]]:sreg_64 = COPY [[REG_SEQUENCE]]
; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)		; GFX11-NEXT: [[SI_PS_LIVE:%[0-9]+]]:sreg_32 = SI_PS_LIVE
; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]		; GFX11-NEXT: [[DEF:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
		; GFX11-NEXT: [[SI_IF:%[0-9]+]]:sreg_32 = SI_IF killed [[SI_PS_LIVE]], %bb.3, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
		; GFX11-NEXT: S_BRANCH %bb.1
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: bb.1 (%ir-block.5):
		; GFX11-NEXT: successors: %bb.2(0x40000000), %bb.4(0x40000000)
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $exec_lo
		; GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 0
		; GFX11-NEXT: [[V_MBCNT_LO_U32_B32_e64_:%[0-9]+]]:vgpr_32 = V_MBCNT_LO_U32_B32_e64 [[COPY4]], [[S_MOV_B32_]], implicit $exec
		; GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 -2147483648
		; GFX11-NEXT: [[V_SET_INACTIVE_B32_:%[0-9]+]]:vgpr_32 = V_SET_INACTIVE_B32 [[COPY]], killed [[S_MOV_B32_1]], implicit-def dead $scc, implicit $exec
		; GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 -2147483648, implicit $exec
		; GFX11-NEXT: [[V_MOV_B32_dpp:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], [[V_SET_INACTIVE_B32_]], 273, 15, 15, 0, implicit $exec
		; GFX11-NEXT: [[V_ADD_F32_e64_:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_SET_INACTIVE_B32_]], 0, killed [[V_MOV_B32_dpp]], 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: [[V_MOV_B32_dpp1:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], [[V_ADD_F32_e64_]], 274, 15, 15, 0, implicit $exec
		; GFX11-NEXT: [[V_ADD_F32_e64_1:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_]], 0, killed [[V_MOV_B32_dpp1]], 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: [[V_MOV_B32_dpp2:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], [[V_ADD_F32_e64_1]], 276, 15, 15, 0, implicit $exec
		; GFX11-NEXT: [[V_ADD_F32_e64_2:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_1]], 0, killed [[V_MOV_B32_dpp2]], 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: [[V_MOV_B32_dpp3:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], [[V_ADD_F32_e64_2]], 280, 15, 15, 0, implicit $exec
		; GFX11-NEXT: [[V_ADD_F32_e64_3:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_2]], 0, killed [[V_MOV_B32_dpp3]], 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
		; GFX11-NEXT: [[V_PERMLANEX16_B32_e64_:%[0-9]+]]:vgpr_32 = V_PERMLANEX16_B32_e64 0, [[V_ADD_F32_e64_3]], 0, [[S_MOV_B32_2]], 0, [[S_MOV_B32_2]], [[V_ADD_F32_e64_3]], 0, implicit $exec
		; GFX11-NEXT: [[V_MOV_B32_dpp4:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], killed [[V_PERMLANEX16_B32_e64_]], 228, 10, 15, 0, implicit $exec
		; GFX11-NEXT: [[V_ADD_F32_e64_4:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, [[V_ADD_F32_e64_3]], 0, killed [[V_MOV_B32_dpp4]], 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: [[V_MOV_B32_dpp5:%[0-9]+]]:vgpr_32 = V_MOV_B32_dpp [[V_MOV_B32_e32_]], [[V_ADD_F32_e64_4]], 273, 15, 15, 0, implicit $exec
		; GFX11-NEXT: [[S_MOV_B32_3:%[0-9]+]]:sreg_32 = S_MOV_B32 15
		; GFX11-NEXT: [[V_READLANE_B32_:%[0-9]+]]:sreg_32 = V_READLANE_B32 [[V_ADD_F32_e64_4]], killed [[S_MOV_B32_3]]
		; GFX11-NEXT: [[S_MOV_B32_4:%[0-9]+]]:sreg_32 = S_MOV_B32 16
		; GFX11-NEXT: [[V_WRITELANE_B32_:%[0-9]+]]:vgpr_32 = V_WRITELANE_B32 killed [[V_READLANE_B32_]], killed [[S_MOV_B32_4]], [[V_MOV_B32_dpp5]]
		; GFX11-NEXT: [[S_MOV_B32_5:%[0-9]+]]:sreg_32 = S_MOV_B32 31
		; GFX11-NEXT: [[V_READLANE_B32_1:%[0-9]+]]:sreg_32 = V_READLANE_B32 [[V_ADD_F32_e64_4]], killed [[S_MOV_B32_5]]
		; GFX11-NEXT: early-clobber %2:sgpr_32 = STRICT_WWM killed [[V_READLANE_B32_1]], implicit $exec
		; GFX11-NEXT: [[V_CMP_EQ_U32_e64_:%[0-9]+]]:sreg_32 = V_CMP_EQ_U32_e64 killed [[V_MBCNT_LO_U32_B32_e64_]], [[S_MOV_B32_]], implicit $exec
		; GFX11-NEXT: [[DEF1:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
		; GFX11-NEXT: [[SI_IF1:%[0-9]+]]:sreg_32 = SI_IF killed [[V_CMP_EQ_U32_e64_]], %bb.4, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
		; GFX11-NEXT: S_BRANCH %bb.2
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: bb.2 (%ir-block.39):
		; GFX11-NEXT: successors: %bb.4(0x80000000)
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
		; GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY %2
		; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_1]], [[COPY5]], [[COPY3]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
		; GFX11-NEXT: S_BRANCH %bb.4
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: bb.3.Flow:
		; GFX11-NEXT: successors: %bb.5(0x80000000)
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: [[PHI:%[0-9]+]]:vgpr_32 = PHI [[DEF]], %bb.0, %7, %bb.4
		; GFX11-NEXT: SI_END_CF [[SI_IF]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
		; GFX11-NEXT: S_BRANCH %bb.5
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: bb.4 (%ir-block.42):
		; GFX11-NEXT: successors: %bb.3(0x80000000)
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: [[PHI1:%[0-9]+]]:vgpr_32 = PHI [[DEF1]], %bb.1, [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]], %bb.2
		; GFX11-NEXT: SI_END_CF [[SI_IF1]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
		; GFX11-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32 = V_READFIRSTLANE_B32 [[PHI1]], implicit $exec
		; GFX11-NEXT: early-clobber %44:vgpr_32 = STRICT_WWM [[V_WRITELANE_B32_]], implicit $exec
		; GFX11-NEXT: [[V_ADD_F32_e64_5:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e64 0, killed [[V_READFIRSTLANE_B32_]], 0, killed %44, 0, 0, implicit $mode, implicit $exec
		; GFX11-NEXT: S_BRANCH %bb.3
		; GFX11-NEXT: {{ $}}
		; GFX11-NEXT: bb.5 (%ir-block.50):
		; GFX11-NEXT: $vgpr0 = COPY [[PHI]]
; GFX11-NEXT: SI_RETURN_TO_EPILOG $vgpr0		; GFX11-NEXT: SI_RETURN_TO_EPILOG $vgpr0
%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic		%ret = atomicrmw fadd ptr addrspace(1) %ptr, float %data syncscope("wavefront") monotonic
ret float %ret		ret float %ret
}		}

declare float @llvm.amdgcn.global.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)		declare float @llvm.amdgcn.global.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)
declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)		declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)

attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }		attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }

llvm/test/CodeGen/AMDGPU/global-atomic-scan.ll

; NOTE: Assertions have been autogenerated by utils/update_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
; RUN: opt -S -mtriple=amdgcn-- -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR %s		; RUN: opt -S -mtriple=amdgcn-- -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR %s

define amdgpu_kernel void @atomic_add_i32_offset(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_add_i32_offset(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_add_i32_offset(		; IR-LABEL: @atomic_add_i32_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%gep = getelementptr i32, ptr addrspace(1) %out, i64 4		%gep = getelementptr i32, ptr addrspace(1) %out, i64 4
%val = atomicrmw volatile add ptr addrspace(1) %gep, i32 %in seq_cst		%val = atomicrmw volatile add ptr addrspace(1) %gep, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_add_i32_max_neg_offset(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_add_i32_max_neg_offset(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_add_i32_max_neg_offset(		; IR-LABEL: @atomic_add_i32_max_neg_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 -1024		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 -1024
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%gep = getelementptr i32, ptr addrspace(1) %out, i64 -1024		%gep = getelementptr i32, ptr addrspace(1) %out, i64 -1024
%val = atomicrmw volatile add ptr addrspace(1) %gep, i32 %in seq_cst		%val = atomicrmw volatile add ptr addrspace(1) %gep, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_add_i32_soffset(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_add_i32_soffset(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_add_i32_soffset(		; IR-LABEL: @atomic_add_i32_soffset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 9000		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 9000
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%gep = getelementptr i32, ptr addrspace(1) %out, i64 9000		%gep = getelementptr i32, ptr addrspace(1) %out, i64 9000
%val = atomicrmw volatile add ptr addrspace(1) %gep, i32 %in seq_cst		%val = atomicrmw volatile add ptr addrspace(1) %gep, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_add_i32_huge_offset(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_add_i32_huge_offset(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_add_i32_huge_offset(		; IR-LABEL: @atomic_add_i32_huge_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 47224239175595		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 47224239175595
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%gep = getelementptr i32, ptr addrspace(1) %out, i64 47224239175595		%gep = getelementptr i32, ptr addrspace(1) %out, i64 47224239175595

%val = atomicrmw volatile add ptr addrspace(1) %gep, i32 %in seq_cst		%val = atomicrmw volatile add ptr addrspace(1) %gep, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_add_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_add_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_add_i32_ret_offset(		; IR-LABEL: @atomic_add_i32_ret_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4
Show All 14 Lines
}		}

define amdgpu_kernel void @atomic_add_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_add_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_add_i32_addr64_offset(		; IR-LABEL: @atomic_add_i32_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4
Show All 9 Lines
}		}

define amdgpu_kernel void @atomic_add_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_add_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_add_i32_ret_addr64_offset(		; IR-LABEL: @atomic_add_i32_ret_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4
Show All 13 Lines	entry:
store i32 %val, ptr addrspace(1) %out2		store i32 %val, ptr addrspace(1) %out2
ret void		ret void
}		}

define amdgpu_kernel void @atomic_add_i32(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_add_i32(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_add_i32(		; IR-LABEL: @atomic_add_i32(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.]] = atomicrmw volatile add ptr addrspace(1) [[OUT:%.]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.]] = atomicrmw volatile add ptr addrspace(1) [[OUT:%.]], i32 [[TMP8]] seq_cst, align 4
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%val = atomicrmw volatile add ptr addrspace(1) %out, i32 %in seq_cst		%val = atomicrmw volatile add ptr addrspace(1) %out, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_add_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_add_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_add_i32_ret(		; IR-LABEL: @atomic_add_i32_ret(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.]] = atomicrmw volatile add ptr addrspace(1) [[OUT:%.]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.]] = atomicrmw volatile add ptr addrspace(1) [[OUT:%.]], i32 [[TMP8]] seq_cst, align 4
Show All 12 Lines	entry:
ret void		ret void
}		}

define amdgpu_kernel void @atomic_add_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_add_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_add_i32_addr64(		; IR-LABEL: @atomic_add_i32_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[PTR]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[PTR]], i32 [[TMP8]] seq_cst, align 4
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index		%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index
%val = atomicrmw volatile add ptr addrspace(1) %ptr, i32 %in seq_cst		%val = atomicrmw volatile add ptr addrspace(1) %ptr, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_add_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_add_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_add_i32_ret_addr64(		; IR-LABEL: @atomic_add_i32_ret_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[PTR]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile add ptr addrspace(1) [[PTR]], i32 [[TMP8]] seq_cst, align 4
Show All 13 Lines	entry:
ret void		ret void
}		}

define amdgpu_kernel void @atomic_and_i32_offset(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_and_i32_offset(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_and_i32_offset(		; IR-LABEL: @atomic_and_i32_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[GEP]], i32 [[IN:%.]] seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[GEP]], i32 [[IN:%.]] seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%gep = getelementptr i32, ptr addrspace(1) %out, i64 4		%gep = getelementptr i32, ptr addrspace(1) %out, i64 4
%val = atomicrmw volatile and ptr addrspace(1) %gep, i32 %in seq_cst		%val = atomicrmw volatile and ptr addrspace(1) %gep, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_and_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_and_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_and_i32_ret_offset(		; IR-LABEL: @atomic_and_i32_ret_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[GEP]], i32 [[IN:%.]] seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[GEP]], i32 [[IN:%.]] seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 11 Lines
}		}

define amdgpu_kernel void @atomic_and_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_and_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_and_i32_addr64_offset(		; IR-LABEL: @atomic_and_i32_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[GEP]], i32 [[IN:%.]] seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[GEP]], i32 [[IN:%.]] seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index		%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index
%gep = getelementptr i32, ptr addrspace(1) %ptr, i64 4		%gep = getelementptr i32, ptr addrspace(1) %ptr, i64 4
%val = atomicrmw volatile and ptr addrspace(1) %gep, i32 %in seq_cst		%val = atomicrmw volatile and ptr addrspace(1) %gep, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_and_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_and_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_and_i32_ret_addr64_offset(		; IR-LABEL: @atomic_and_i32_ret_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[GEP]], i32 [[IN:%.]] seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[GEP]], i32 [[IN:%.]] seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 10 Lines	entry:
store i32 %val, ptr addrspace(1) %out2		store i32 %val, ptr addrspace(1) %out2
ret void		ret void
}		}

define amdgpu_kernel void @atomic_and_i32(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_and_i32(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_and_i32(		; IR-LABEL: @atomic_and_i32(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%val = atomicrmw volatile and ptr addrspace(1) %out, i32 %in seq_cst		%val = atomicrmw volatile and ptr addrspace(1) %out, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_and_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_and_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_and_i32_ret(		; IR-LABEL: @atomic_and_i32_ret(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 9 Lines	entry:
ret void		ret void
}		}

define amdgpu_kernel void @atomic_and_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_and_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_and_i32_addr64(		; IR-LABEL: @atomic_and_i32_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[PTR]], i32 [[IN:%.]] seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[PTR]], i32 [[IN:%.]] seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index		%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index
%val = atomicrmw volatile and ptr addrspace(1) %ptr, i32 %in seq_cst		%val = atomicrmw volatile and ptr addrspace(1) %ptr, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_and_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_and_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_and_i32_ret_addr64(		; IR-LABEL: @atomic_and_i32_ret_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[PTR]], i32 [[IN:%.]] seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile and ptr addrspace(1) [[PTR]], i32 [[IN:%.]] seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 10 Lines	entry:
ret void		ret void
}		}

define amdgpu_kernel void @atomic_sub_i32_offset(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_sub_i32_offset(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_sub_i32_offset(		; IR-LABEL: @atomic_sub_i32_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%gep = getelementptr i32, ptr addrspace(1) %out, i64 4		%gep = getelementptr i32, ptr addrspace(1) %out, i64 4
%val = atomicrmw volatile sub ptr addrspace(1) %gep, i32 %in seq_cst		%val = atomicrmw volatile sub ptr addrspace(1) %gep, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_sub_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_sub_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_sub_i32_ret_offset(		; IR-LABEL: @atomic_sub_i32_ret_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4
Show All 14 Lines
}		}

define amdgpu_kernel void @atomic_sub_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_sub_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_sub_i32_addr64_offset(		; IR-LABEL: @atomic_sub_i32_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4
Show All 9 Lines
}		}

define amdgpu_kernel void @atomic_sub_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_sub_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_sub_i32_ret_addr64_offset(		; IR-LABEL: @atomic_sub_i32_ret_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[GEP]], i32 [[TMP8]] seq_cst, align 4
Show All 13 Lines	entry:
store i32 %val, ptr addrspace(1) %out2		store i32 %val, ptr addrspace(1) %out2
ret void		ret void
}		}

define amdgpu_kernel void @atomic_sub_i32(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_sub_i32(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_sub_i32(		; IR-LABEL: @atomic_sub_i32(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.]] = atomicrmw volatile sub ptr addrspace(1) [[OUT:%.]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.]] = atomicrmw volatile sub ptr addrspace(1) [[OUT:%.]], i32 [[TMP8]] seq_cst, align 4
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%val = atomicrmw volatile sub ptr addrspace(1) %out, i32 %in seq_cst		%val = atomicrmw volatile sub ptr addrspace(1) %out, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_sub_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_sub_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_sub_i32_ret(		; IR-LABEL: @atomic_sub_i32_ret(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.]] = atomicrmw volatile sub ptr addrspace(1) [[OUT:%.]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.]] = atomicrmw volatile sub ptr addrspace(1) [[OUT:%.]], i32 [[TMP8]] seq_cst, align 4
Show All 12 Lines	entry:
ret void		ret void
}		}

define amdgpu_kernel void @atomic_sub_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_sub_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_sub_i32_addr64(		; IR-LABEL: @atomic_sub_i32_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[PTR]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[PTR]], i32 [[TMP8]] seq_cst, align 4
; IR-NEXT: br label [[TMP12]]		; IR-NEXT: br label [[TMP12]]
; IR: 12:		; IR: 12:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index		%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index
%val = atomicrmw volatile sub ptr addrspace(1) %ptr, i32 %in seq_cst		%val = atomicrmw volatile sub ptr addrspace(1) %ptr, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_sub_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_sub_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_sub_i32_ret_addr64(		; IR-LABEL: @atomic_sub_i32_ret_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])		; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP0]])
; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32		; IR-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32
; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]		; IR-NEXT: [[TMP8:%.]] = mul i32 [[IN:%.]], [[TMP7]]
; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP9:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]		; IR-NEXT: br i1 [[TMP9]], label [[TMP10:%.]], label [[TMP12:%.]]
; IR: 10:		; IR: 10:
; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[PTR]], i32 [[TMP8]] seq_cst, align 4		; IR-NEXT: [[TMP11:%.*]] = atomicrmw volatile sub ptr addrspace(1) [[PTR]], i32 [[TMP8]] seq_cst, align 4
Show All 13 Lines	entry:
ret void		ret void
}		}

define amdgpu_kernel void @atomic_max_i32_offset(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_max_i32_offset(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_max_i32_offset(		; IR-LABEL: @atomic_max_i32_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[GEP]], i32 [[IN:%.]] seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[GEP]], i32 [[IN:%.]] seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%gep = getelementptr i32, ptr addrspace(1) %out, i64 4		%gep = getelementptr i32, ptr addrspace(1) %out, i64 4
%val = atomicrmw volatile max ptr addrspace(1) %gep, i32 %in seq_cst		%val = atomicrmw volatile max ptr addrspace(1) %gep, i32 %in seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_max_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_max_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_max_i32_ret_offset(		; IR-LABEL: @atomic_max_i32_ret_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 12 Lines
}		}

define amdgpu_kernel void @atomic_max_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_max_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_max_i32_addr64_offset(		; IR-LABEL: @atomic_max_i32_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index		%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index
%gep = getelementptr i32, ptr addrspace(1) %ptr, i64 4		%gep = getelementptr i32, ptr addrspace(1) %ptr, i64 4
%val = atomicrmw volatile max ptr addrspace(1) %gep, i32 %in syncscope("workgroup") seq_cst		%val = atomicrmw volatile max ptr addrspace(1) %gep, i32 %in syncscope("workgroup") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_max_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_max_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_max_i32_ret_addr64_offset(		; IR-LABEL: @atomic_max_i32_ret_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 11 Lines	entry:
store i32 %val, ptr addrspace(1) %out2		store i32 %val, ptr addrspace(1) %out2
ret void		ret void
}		}

define amdgpu_kernel void @atomic_max_i32(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_max_i32(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_max_i32(		; IR-LABEL: @atomic_max_i32(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%val = atomicrmw volatile max ptr addrspace(1) %out, i32 %in syncscope("workgroup") seq_cst		%val = atomicrmw volatile max ptr addrspace(1) %out, i32 %in syncscope("workgroup") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_max_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_max_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_max_i32_ret(		; IR-LABEL: @atomic_max_i32_ret(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 10 Lines	entry:
ret void		ret void
}		}

define amdgpu_kernel void @atomic_max_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_max_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_max_i32_addr64(		; IR-LABEL: @atomic_max_i32_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index		%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index
%val = atomicrmw volatile max ptr addrspace(1) %ptr, i32 %in syncscope("workgroup") seq_cst		%val = atomicrmw volatile max ptr addrspace(1) %ptr, i32 %in syncscope("workgroup") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_max_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_max_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_max_i32_ret_addr64(		; IR-LABEL: @atomic_max_i32_ret_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile max ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 11 Lines	entry:
ret void		ret void
}		}

define amdgpu_kernel void @atomic_umax_i32_offset(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_umax_i32_offset(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_umax_i32_offset(		; IR-LABEL: @atomic_umax_i32_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%gep = getelementptr i32, ptr addrspace(1) %out, i64 4		%gep = getelementptr i32, ptr addrspace(1) %out, i64 4
%val = atomicrmw volatile umax ptr addrspace(1) %gep, i32 %in syncscope("workgroup") seq_cst		%val = atomicrmw volatile umax ptr addrspace(1) %gep, i32 %in syncscope("workgroup") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_umax_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_umax_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_umax_i32_ret_offset(		; IR-LABEL: @atomic_umax_i32_ret_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 12 Lines
}		}

define amdgpu_kernel void @atomic_umax_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_umax_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_umax_i32_addr64_offset(		; IR-LABEL: @atomic_umax_i32_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index		%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index
%gep = getelementptr i32, ptr addrspace(1) %ptr, i64 4		%gep = getelementptr i32, ptr addrspace(1) %ptr, i64 4
%val = atomicrmw volatile umax ptr addrspace(1) %gep, i32 %in syncscope("workgroup") seq_cst		%val = atomicrmw volatile umax ptr addrspace(1) %gep, i32 %in syncscope("workgroup") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_umax_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_umax_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_umax_i32_ret_addr64_offset(		; IR-LABEL: @atomic_umax_i32_ret_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 11 Lines	entry:
store i32 %val, ptr addrspace(1) %out2		store i32 %val, ptr addrspace(1) %out2
ret void		ret void
}		}

define amdgpu_kernel void @atomic_umax_i32(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_umax_i32(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_umax_i32(		; IR-LABEL: @atomic_umax_i32(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%val = atomicrmw volatile umax ptr addrspace(1) %out, i32 %in syncscope("workgroup") seq_cst		%val = atomicrmw volatile umax ptr addrspace(1) %out, i32 %in syncscope("workgroup") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_umax_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_umax_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_umax_i32_ret(		; IR-LABEL: @atomic_umax_i32_ret(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 10 Lines	entry:
ret void		ret void
}		}

define amdgpu_kernel void @atomic_umax_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_umax_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_umax_i32_addr64(		; IR-LABEL: @atomic_umax_i32_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index		%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index
%val = atomicrmw volatile umax ptr addrspace(1) %ptr, i32 %in syncscope("workgroup") seq_cst		%val = atomicrmw volatile umax ptr addrspace(1) %ptr, i32 %in syncscope("workgroup") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_umax_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_umax_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_umax_i32_ret_addr64(		; IR-LABEL: @atomic_umax_i32_ret_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile umax ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 11 Lines	entry:
ret void		ret void
}		}

define amdgpu_kernel void @atomic_min_i32_offset(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_min_i32_offset(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_min_i32_offset(		; IR-LABEL: @atomic_min_i32_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%gep = getelementptr i32, ptr addrspace(1) %out, i64 4		%gep = getelementptr i32, ptr addrspace(1) %out, i64 4
%val = atomicrmw volatile min ptr addrspace(1) %gep, i32 %in syncscope("workgroup") seq_cst		%val = atomicrmw volatile min ptr addrspace(1) %gep, i32 %in syncscope("workgroup") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_min_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_min_i32_ret_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_min_i32_ret_offset(		; IR-LABEL: @atomic_min_i32_ret_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4		; IR-NEXT: [[GEP:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 12 Lines
}		}

define amdgpu_kernel void @atomic_min_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_min_i32_addr64_offset(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_min_i32_addr64_offset(		; IR-LABEL: @atomic_min_i32_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index		%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index
%gep = getelementptr i32, ptr addrspace(1) %ptr, i64 4		%gep = getelementptr i32, ptr addrspace(1) %ptr, i64 4
%val = atomicrmw volatile min ptr addrspace(1) %gep, i32 %in syncscope("workgroup") seq_cst		%val = atomicrmw volatile min ptr addrspace(1) %gep, i32 %in syncscope("workgroup") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_min_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_min_i32_ret_addr64_offset(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_min_i32_ret_addr64_offset(		; IR-LABEL: @atomic_min_i32_ret_addr64_offset(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4		; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[PTR]], i64 4
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[GEP]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 11 Lines	entry:
store i32 %val, ptr addrspace(1) %out2		store i32 %val, ptr addrspace(1) %out2
ret void		ret void
}		}

define amdgpu_kernel void @atomic_min_i32(ptr addrspace(1) %out, i32 %in) {		define amdgpu_kernel void @atomic_min_i32(ptr addrspace(1) %out, i32 %in) {
; IR-LABEL: @atomic_min_i32(		; IR-LABEL: @atomic_min_i32(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%val = atomicrmw volatile min ptr addrspace(1) %out, i32 %in syncscope("workgroup") seq_cst		%val = atomicrmw volatile min ptr addrspace(1) %out, i32 %in syncscope("workgroup") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_min_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {		define amdgpu_kernel void @atomic_min_i32_ret(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in) {
; IR-LABEL: @atomic_min_i32_ret(		; IR-LABEL: @atomic_min_i32_ret(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[OUT:%.]], i32 [[IN:%.*]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 10 Lines	entry:
ret void		ret void
}		}

define amdgpu_kernel void @atomic_min_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_min_i32_addr64(ptr addrspace(1) %out, i32 %in, i64 %index) {
; IR-LABEL: @atomic_min_i32_addr64(		; IR-LABEL: @atomic_min_i32_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: ret void		; IR-NEXT: ret void
;		;
entry:		entry:
%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index		%ptr = getelementptr i32, ptr addrspace(1) %out, i64 %index
%val = atomicrmw volatile min ptr addrspace(1) %ptr, i32 %in syncscope("workgroup") seq_cst		%val = atomicrmw volatile min ptr addrspace(1) %ptr, i32 %in syncscope("workgroup") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @atomic_min_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {		define amdgpu_kernel void @atomic_min_i32_ret_addr64(ptr addrspace(1) %out, ptr addrspace(1) %out2, i32 %in, i64 %index) {
; IR-LABEL: @atomic_min_i32_ret_addr64(		; IR-LABEL: @atomic_min_i32_ret_addr64(
; IR-NEXT: entry:		; IR-NEXT: entry:
; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]		; IR-NEXT: [[PTR:%.]] = getelementptr i32, ptr addrspace(1) [[OUT:%.]], i64 [[INDEX:%.*]]
; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)		; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>		; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0		; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1		; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)		; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])		; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0		; IR-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP5]], 0
; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]		; IR-NEXT: br i1 [[TMP6]], label [[TMP7:%.]], label [[TMP9:%.]]
; IR: 7:		; IR: 7:
; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4		; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile min ptr addrspace(1) [[PTR]], i32 [[IN:%.]] syncscope("workgroup") seq_cst, align 4
; IR-NEXT: br label [[TMP9]]		; IR-NEXT: br label [[TMP9]]
; IR: 9:		; IR: 9:
; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]		; IR-NEXT: [[TMP10:%.]] = phi i32 [ poison, [[ENTRY:%.]] ], [ [[TMP8]], [[TMP7]] ]
Show All 13 Lines

llvm/test/CodeGen/AMDGPU/global-atomics-fp-wrong-subtarget.ll

	; RUN: llc -march=amdgcn -mcpu=gfx803 < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=gfx803 < %s \| FileCheck -enable-var-scope -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -mcpu=gfx803 -filetype=obj < %s \| llvm-objdump --triple=amdgcn--amdhsa --mcpu=gfx803 -d - \| FileCheck -check-prefix=DISASSEMBLY-VI %s			; RUN: llc -march=amdgcn -mcpu=gfx803 -filetype=obj < %s \| llvm-objdump --triple=amdgcn--amdhsa --mcpu=gfx803 -d - \| FileCheck -check-prefix=DISASSEMBLY-VI %s

	; Make sure we can encode and don't fail on functions which have			; Make sure we can encode and don't fail on functions which have
	; instructions not actually supported by the subtarget.			; instructions not actually supported by the subtarget.
	; FIXME: This will still fail for gfx6/7 and gfx10 subtargets.			; FIXME: This will still fail for gfx6/7 and gfx10 subtargets.

	; DISASSEMBLY-VI: .long 0xdd348000 // {{[0-9]+}}: DD348000			; DISASSEMBLY-VI: .long 0xdd348000 // {{[0-9A-Z]+}}: DD348000
	; DISASSEMBLY-VI-NEXT: v_cndmask_b32_e32 v0, v0, v0, vcc // {{[0-9]+}}: 00000100			; DISASSEMBLY-VI-NEXT: v_cndmask_b32_e32 v0, v0, v0, vcc // {{[0-9A-Z]+}}: 00000100

	define amdgpu_kernel void @global_atomic_fadd_noret_f32_wrong_subtarget(ptr addrspace(1) %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_noret_f32_wrong_subtarget(ptr addrspace(1) %ptr) #0 {
	; GCN-LABEL: global_atomic_fadd_noret_f32_wrong_subtarget:			; GCN-LABEL: global_atomic_fadd_noret_f32_wrong_subtarget:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
				; GCN-NEXT: s_mov_b64 s[2:3], exec
				; GCN-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
				; GCN-NEXT: v_mbcnt_hi_u32_b32 v0, s3, v0
				; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
				; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc
				; GCN-NEXT: s_cbranch_execz .LBB0_2
				; GCN-NEXT: ; %bb.1:
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GCN-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
				; GCN-NEXT: v_cvt_f32_ubyte0_e32 v1, s2
	; GCN-NEXT: v_mov_b32_e32 v0, 0			; GCN-NEXT: v_mov_b32_e32 v0, 0
	; GCN-NEXT: v_mov_b32_e32 v1, 4.0			; GCN-NEXT: v_mul_f32_e32 v1, 4.0, v1
	; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GCN-NEXT: global_atomic_add_f32 v0, v1, s[0:1]			; GCN-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_wbinvl1_vol			; GCN-NEXT: buffer_wbinvl1_vol
				; GCN-NEXT: .LBB0_2:
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst
	ret void			ret void
	}			}

	attributes #0 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "target-features"="+atomic-fadd-no-rtn-insts" "amdgpu-unsafe-fp-atomics"="true" }			attributes #0 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "target-features"="+atomic-fadd-no-rtn-insts" "amdgpu-unsafe-fp-atomics"="true" }

llvm/test/CodeGen/AMDGPU/global-atomics-fp.ll

Show First 20 Lines • Show All 197 Lines • ▼ Show 20 Lines
; GFX908-NEXT: s_cbranch_execnz .LBB1_1		; GFX908-NEXT: s_cbranch_execnz .LBB1_1
; GFX908-NEXT: ; %bb.2: ; %atomicrmw.end		; GFX908-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX908-NEXT: s_or_b64 exec, exec, s[2:3]		; GFX908-NEXT: s_or_b64 exec, exec, s[2:3]
; GFX908-NEXT: global_store_dword v[0:1], v1, off		; GFX908-NEXT: global_store_dword v[0:1], v1, off
; GFX908-NEXT: s_endpgm		; GFX908-NEXT: s_endpgm
;		;
; GFX90A-LABEL: global_atomic_fadd_ret_f32_ieee:		; GFX90A-LABEL: global_atomic_fadd_ret_f32_ieee:
; GFX90A: ; %bb.0:		; GFX90A: ; %bb.0:
		; GFX90A-NEXT: s_mov_b64 s[4:5], exec
		; GFX90A-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
		; GFX90A-NEXT: v_mbcnt_hi_u32_b32 v0, s5, v0
		; GFX90A-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
		; GFX90A-NEXT: ; implicit-def: $vgpr1
		; GFX90A-NEXT: s_and_saveexec_b64 s[2:3], vcc
		; GFX90A-NEXT: s_cbranch_execz .LBB1_2
		; GFX90A-NEXT: ; %bb.1:
; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX90A-NEXT: v_mov_b32_e32 v0, 0		; GFX90A-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
; GFX90A-NEXT: v_mov_b32_e32 v1, 4.0		; GFX90A-NEXT: v_cvt_f32_ubyte0_e32 v2, s4
		; GFX90A-NEXT: v_mov_b32_e32 v1, 0
		; GFX90A-NEXT: v_mul_f32_e32 v2, 4.0, v2
; GFX90A-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX90A-NEXT: global_atomic_add_f32 v0, v0, v1, s[0:1] glc		; GFX90A-NEXT: global_atomic_add_f32 v1, v1, v2, s[0:1] glc
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: buffer_wbinvl1_vol		; GFX90A-NEXT: buffer_wbinvl1_vol
		; GFX90A-NEXT: .LBB1_2:
		; GFX90A-NEXT: s_or_b64 exec, exec, s[2:3]
		; GFX90A-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
		; GFX90A-NEXT: v_readfirstlane_b32 s0, v1
		; GFX90A-NEXT: v_mul_f32_e32 v0, 4.0, v0
		; GFX90A-NEXT: v_add_f32_e32 v0, s0, v0
; GFX90A-NEXT: global_store_dword v[0:1], v0, off		; GFX90A-NEXT: global_store_dword v[0:1], v0, off
; GFX90A-NEXT: s_endpgm		; GFX90A-NEXT: s_endpgm
;		;
; GFX10-LABEL: global_atomic_fadd_ret_f32_ieee:		; GFX10-LABEL: global_atomic_fadd_ret_f32_ieee:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX10-NEXT: v_mov_b32_e32 v0, 0		; GFX10-NEXT: v_mov_b32_e32 v0, 0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
Show All 17 Lines
; GFX10-NEXT: s_cbranch_execnz .LBB1_1		; GFX10-NEXT: s_cbranch_execnz .LBB1_1
; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end		; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2		; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
; GFX10-NEXT: global_store_dword v[0:1], v1, off		; GFX10-NEXT: global_store_dword v[0:1], v1, off
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
;		;
; GFX11-LABEL: global_atomic_fadd_ret_f32_ieee:		; GFX11-LABEL: global_atomic_fadd_ret_f32_ieee:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
		; GFX11-NEXT: s_mov_b32 s3, exec_lo
		; GFX11-NEXT: s_mov_b32 s2, exec_lo
		; GFX11-NEXT: v_mbcnt_lo_u32_b32 v0, s3, 0
		; GFX11-NEXT: ; implicit-def: $vgpr1
		; GFX11-NEXT: v_cmpx_eq_u32_e32 0, v0
		; GFX11-NEXT: s_cbranch_execz .LBB1_2
		; GFX11-NEXT: ; %bb.1:
; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24		; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0		; GFX11-NEXT: s_bcnt1_i32_b32 s3, s3
		; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v1, s3
		; GFX11-NEXT: v_dual_mov_b32 v2, 0 :: v_dual_mul_f32 v1, 4.0, v1
; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_atomic_add_f32 v0, v0, v1, s[0:1] glc		; GFX11-NEXT: global_atomic_add_f32 v1, v2, v1, s[0:1] glc
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: buffer_gl0_inv		; GFX11-NEXT: buffer_gl0_inv
; GFX11-NEXT: buffer_gl1_inv		; GFX11-NEXT: buffer_gl1_inv
		; GFX11-NEXT: .LBB1_2:
		; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
		; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
		; GFX11-NEXT: v_readfirstlane_b32 s0, v1
		; GFX11-NEXT: v_mul_f32_e32 v0, 4.0, v0
		; GFX11-NEXT: v_add_f32_e32 v0, s0, v0
; GFX11-NEXT: global_store_b32 v[0:1], v0, off		; GFX11-NEXT: global_store_b32 v[0:1], v0, off
; GFX11-NEXT: s_nop 0		; GFX11-NEXT: s_nop 0
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst		%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst
store float %result, ptr addrspace(1) undef		store float %result, ptr addrspace(1) undef
ret void		ret void
}		}
Show All 20 Lines
; GFX900-NEXT: v_mov_b32_e32 v1, v0		; GFX900-NEXT: v_mov_b32_e32 v1, v0
; GFX900-NEXT: s_andn2_b64 exec, exec, s[2:3]		; GFX900-NEXT: s_andn2_b64 exec, exec, s[2:3]
; GFX900-NEXT: s_cbranch_execnz .LBB2_1		; GFX900-NEXT: s_cbranch_execnz .LBB2_1
; GFX900-NEXT: ; %bb.2: ; %atomicrmw.end		; GFX900-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX900-NEXT: s_endpgm		; GFX900-NEXT: s_endpgm
;		;
; GFX908-LABEL: global_atomic_fadd_noret_f32:		; GFX908-LABEL: global_atomic_fadd_noret_f32:
; GFX908: ; %bb.0:		; GFX908: ; %bb.0:
		; GFX908-NEXT: s_mov_b64 s[2:3], exec
		; GFX908-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
		; GFX908-NEXT: v_mbcnt_hi_u32_b32 v0, s3, v0
		; GFX908-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
		; GFX908-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GFX908-NEXT: s_cbranch_execz .LBB2_2
		; GFX908-NEXT: ; %bb.1:
; GFX908-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX908-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX908-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
		; GFX908-NEXT: v_cvt_f32_ubyte0_e32 v1, s2
; GFX908-NEXT: v_mov_b32_e32 v0, 0		; GFX908-NEXT: v_mov_b32_e32 v0, 0
; GFX908-NEXT: v_mov_b32_e32 v1, 4.0		; GFX908-NEXT: v_mul_f32_e32 v1, 4.0, v1
; GFX908-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX908-NEXT: global_atomic_add_f32 v0, v1, s[0:1]		; GFX908-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: buffer_wbinvl1_vol		; GFX908-NEXT: buffer_wbinvl1_vol
		; GFX908-NEXT: .LBB2_2:
; GFX908-NEXT: s_endpgm		; GFX908-NEXT: s_endpgm
;		;
; GFX90A-LABEL: global_atomic_fadd_noret_f32:		; GFX90A-LABEL: global_atomic_fadd_noret_f32:
; GFX90A: ; %bb.0:		; GFX90A: ; %bb.0:
		; GFX90A-NEXT: s_mov_b64 s[2:3], exec
		; GFX90A-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
		; GFX90A-NEXT: v_mbcnt_hi_u32_b32 v0, s3, v0
		; GFX90A-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
		; GFX90A-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GFX90A-NEXT: s_cbranch_execz .LBB2_2
		; GFX90A-NEXT: ; %bb.1:
; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX90A-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
		; GFX90A-NEXT: v_cvt_f32_ubyte0_e32 v1, s2
; GFX90A-NEXT: v_mov_b32_e32 v0, 0		; GFX90A-NEXT: v_mov_b32_e32 v0, 0
; GFX90A-NEXT: v_mov_b32_e32 v1, 4.0		; GFX90A-NEXT: v_mul_f32_e32 v1, 4.0, v1
; GFX90A-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX90A-NEXT: global_atomic_add_f32 v0, v1, s[0:1]		; GFX90A-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: buffer_wbinvl1_vol		; GFX90A-NEXT: buffer_wbinvl1_vol
		; GFX90A-NEXT: .LBB2_2:
; GFX90A-NEXT: s_endpgm		; GFX90A-NEXT: s_endpgm
;		;
; GFX10-LABEL: global_atomic_fadd_noret_f32:		; GFX10-LABEL: global_atomic_fadd_noret_f32:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX10-NEXT: v_mov_b32_e32 v2, 0		; GFX10-NEXT: v_mov_b32_e32 v2, 0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-NEXT: s_load_dword s2, s[0:1], 0x0
Show All 14 Lines
; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2		; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2		; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
; GFX10-NEXT: s_cbranch_execnz .LBB2_1		; GFX10-NEXT: s_cbranch_execnz .LBB2_1
; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end		; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
;		;
; GFX11-LABEL: global_atomic_fadd_noret_f32:		; GFX11-LABEL: global_atomic_fadd_noret_f32:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
		; GFX11-NEXT: s_mov_b32 s2, exec_lo
		; GFX11-NEXT: s_mov_b32 s3, exec_lo
		; GFX11-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
		; GFX11-NEXT: v_cmpx_eq_u32_e32 0, v0
		; GFX11-NEXT: s_cbranch_execz .LBB2_2
		; GFX11-NEXT: ; %bb.1:
; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24		; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0		; GFX11-NEXT: s_bcnt1_i32_b32 s2, s2
		; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v0, s2
		; GFX11-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_mul_f32 v0, 4.0, v0
; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]		; GFX11-NEXT: global_atomic_add_f32 v1, v0, s[0:1]
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: buffer_gl0_inv		; GFX11-NEXT: buffer_gl0_inv
; GFX11-NEXT: buffer_gl1_inv		; GFX11-NEXT: buffer_gl1_inv
		; GFX11-NEXT: .LBB2_2:
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst		%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @global_atomic_fadd_noret_f32_ieee(ptr addrspace(1) %ptr) #2 {		define amdgpu_kernel void @global_atomic_fadd_noret_f32_ieee(ptr addrspace(1) %ptr) #2 {
; GFX900-LABEL: global_atomic_fadd_noret_f32_ieee:		; GFX900-LABEL: global_atomic_fadd_noret_f32_ieee:
; GFX900: ; %bb.0:		; GFX900: ; %bb.0:
Show All 16 Lines
; GFX900-NEXT: v_mov_b32_e32 v1, v0		; GFX900-NEXT: v_mov_b32_e32 v1, v0
; GFX900-NEXT: s_andn2_b64 exec, exec, s[2:3]		; GFX900-NEXT: s_andn2_b64 exec, exec, s[2:3]
; GFX900-NEXT: s_cbranch_execnz .LBB3_1		; GFX900-NEXT: s_cbranch_execnz .LBB3_1
; GFX900-NEXT: ; %bb.2: ; %atomicrmw.end		; GFX900-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX900-NEXT: s_endpgm		; GFX900-NEXT: s_endpgm
;		;
; GFX908-LABEL: global_atomic_fadd_noret_f32_ieee:		; GFX908-LABEL: global_atomic_fadd_noret_f32_ieee:
; GFX908: ; %bb.0:		; GFX908: ; %bb.0:
		; GFX908-NEXT: s_mov_b64 s[2:3], exec
		; GFX908-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
		; GFX908-NEXT: v_mbcnt_hi_u32_b32 v0, s3, v0
		; GFX908-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
		; GFX908-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GFX908-NEXT: s_cbranch_execz .LBB3_2
		; GFX908-NEXT: ; %bb.1:
; GFX908-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX908-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX908-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
		; GFX908-NEXT: v_cvt_f32_ubyte0_e32 v1, s2
; GFX908-NEXT: v_mov_b32_e32 v0, 0		; GFX908-NEXT: v_mov_b32_e32 v0, 0
; GFX908-NEXT: v_mov_b32_e32 v1, 4.0		; GFX908-NEXT: v_mul_f32_e32 v1, 4.0, v1
; GFX908-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX908-NEXT: global_atomic_add_f32 v0, v1, s[0:1]		; GFX908-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: buffer_wbinvl1_vol		; GFX908-NEXT: buffer_wbinvl1_vol
		; GFX908-NEXT: .LBB3_2:
; GFX908-NEXT: s_endpgm		; GFX908-NEXT: s_endpgm
;		;
; GFX90A-LABEL: global_atomic_fadd_noret_f32_ieee:		; GFX90A-LABEL: global_atomic_fadd_noret_f32_ieee:
; GFX90A: ; %bb.0:		; GFX90A: ; %bb.0:
		; GFX90A-NEXT: s_mov_b64 s[2:3], exec
		; GFX90A-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
		; GFX90A-NEXT: v_mbcnt_hi_u32_b32 v0, s3, v0
		; GFX90A-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
		; GFX90A-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GFX90A-NEXT: s_cbranch_execz .LBB3_2
		; GFX90A-NEXT: ; %bb.1:
; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX90A-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
		; GFX90A-NEXT: v_cvt_f32_ubyte0_e32 v1, s2
; GFX90A-NEXT: v_mov_b32_e32 v0, 0		; GFX90A-NEXT: v_mov_b32_e32 v0, 0
; GFX90A-NEXT: v_mov_b32_e32 v1, 4.0		; GFX90A-NEXT: v_mul_f32_e32 v1, 4.0, v1
; GFX90A-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX90A-NEXT: global_atomic_add_f32 v0, v1, s[0:1]		; GFX90A-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: buffer_wbinvl1_vol		; GFX90A-NEXT: buffer_wbinvl1_vol
		; GFX90A-NEXT: .LBB3_2:
; GFX90A-NEXT: s_endpgm		; GFX90A-NEXT: s_endpgm
;		;
; GFX10-LABEL: global_atomic_fadd_noret_f32_ieee:		; GFX10-LABEL: global_atomic_fadd_noret_f32_ieee:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX10-NEXT: v_mov_b32_e32 v2, 0		; GFX10-NEXT: v_mov_b32_e32 v2, 0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-NEXT: s_load_dword s2, s[0:1], 0x0
Show All 14 Lines
; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2		; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2		; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
; GFX10-NEXT: s_cbranch_execnz .LBB3_1		; GFX10-NEXT: s_cbranch_execnz .LBB3_1
; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end		; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
;		;
; GFX11-LABEL: global_atomic_fadd_noret_f32_ieee:		; GFX11-LABEL: global_atomic_fadd_noret_f32_ieee:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
		; GFX11-NEXT: s_mov_b32 s2, exec_lo
		; GFX11-NEXT: s_mov_b32 s3, exec_lo
		; GFX11-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
		; GFX11-NEXT: v_cmpx_eq_u32_e32 0, v0
		; GFX11-NEXT: s_cbranch_execz .LBB3_2
		; GFX11-NEXT: ; %bb.1:
; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24		; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0		; GFX11-NEXT: s_bcnt1_i32_b32 s2, s2
		; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v0, s2
		; GFX11-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_mul_f32 v0, 4.0, v0
; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]		; GFX11-NEXT: global_atomic_add_f32 v1, v0, s[0:1]
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: buffer_gl0_inv		; GFX11-NEXT: buffer_gl0_inv
; GFX11-NEXT: buffer_gl1_inv		; GFX11-NEXT: buffer_gl1_inv
		; GFX11-NEXT: .LBB3_2:
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst		%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @global_atomic_fadd_ret_f32_agent(ptr addrspace(1) %ptr) #0 {		define amdgpu_kernel void @global_atomic_fadd_ret_f32_agent(ptr addrspace(1) %ptr) #0 {
; GFX900-LABEL: global_atomic_fadd_ret_f32_agent:		; GFX900-LABEL: global_atomic_fadd_ret_f32_agent:
; GFX900: ; %bb.0:		; GFX900: ; %bb.0:
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
; GFX908-NEXT: s_cbranch_execnz .LBB4_1		; GFX908-NEXT: s_cbranch_execnz .LBB4_1
; GFX908-NEXT: ; %bb.2: ; %atomicrmw.end		; GFX908-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX908-NEXT: s_or_b64 exec, exec, s[2:3]		; GFX908-NEXT: s_or_b64 exec, exec, s[2:3]
; GFX908-NEXT: global_store_dword v[0:1], v1, off		; GFX908-NEXT: global_store_dword v[0:1], v1, off
; GFX908-NEXT: s_endpgm		; GFX908-NEXT: s_endpgm
;		;
; GFX90A-LABEL: global_atomic_fadd_ret_f32_agent:		; GFX90A-LABEL: global_atomic_fadd_ret_f32_agent:
; GFX90A: ; %bb.0:		; GFX90A: ; %bb.0:
		; GFX90A-NEXT: s_mov_b64 s[4:5], exec
		; GFX90A-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
		; GFX90A-NEXT: v_mbcnt_hi_u32_b32 v0, s5, v0
		; GFX90A-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
		; GFX90A-NEXT: ; implicit-def: $vgpr1
		; GFX90A-NEXT: s_and_saveexec_b64 s[2:3], vcc
		; GFX90A-NEXT: s_cbranch_execz .LBB4_2
		; GFX90A-NEXT: ; %bb.1:
; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX90A-NEXT: v_mov_b32_e32 v0, 0		; GFX90A-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
; GFX90A-NEXT: v_mov_b32_e32 v1, 4.0		; GFX90A-NEXT: v_cvt_f32_ubyte0_e32 v2, s4
		; GFX90A-NEXT: v_mov_b32_e32 v1, 0
		; GFX90A-NEXT: v_mul_f32_e32 v2, 4.0, v2
; GFX90A-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX90A-NEXT: global_atomic_add_f32 v0, v0, v1, s[0:1] glc		; GFX90A-NEXT: global_atomic_add_f32 v1, v1, v2, s[0:1] glc
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: buffer_wbinvl1_vol		; GFX90A-NEXT: buffer_wbinvl1_vol
		; GFX90A-NEXT: .LBB4_2:
		; GFX90A-NEXT: s_or_b64 exec, exec, s[2:3]
		; GFX90A-NEXT: v_readfirstlane_b32 s0, v1
		; GFX90A-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
		; GFX90A-NEXT: v_mad_f32 v0, v0, 4.0, s0
; GFX90A-NEXT: global_store_dword v[0:1], v0, off		; GFX90A-NEXT: global_store_dword v[0:1], v0, off
; GFX90A-NEXT: s_endpgm		; GFX90A-NEXT: s_endpgm
;		;
; GFX10-LABEL: global_atomic_fadd_ret_f32_agent:		; GFX10-LABEL: global_atomic_fadd_ret_f32_agent:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX10-NEXT: v_mov_b32_e32 v0, 0		; GFX10-NEXT: v_mov_b32_e32 v0, 0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
Show All 17 Lines
; GFX10-NEXT: s_cbranch_execnz .LBB4_1		; GFX10-NEXT: s_cbranch_execnz .LBB4_1
; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end		; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2		; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
; GFX10-NEXT: global_store_dword v[0:1], v1, off		; GFX10-NEXT: global_store_dword v[0:1], v1, off
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
;		;
; GFX11-LABEL: global_atomic_fadd_ret_f32_agent:		; GFX11-LABEL: global_atomic_fadd_ret_f32_agent:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
		; GFX11-NEXT: s_mov_b32 s3, exec_lo
		; GFX11-NEXT: s_mov_b32 s2, exec_lo
		; GFX11-NEXT: v_mbcnt_lo_u32_b32 v0, s3, 0
		; GFX11-NEXT: ; implicit-def: $vgpr1
		; GFX11-NEXT: v_cmpx_eq_u32_e32 0, v0
		; GFX11-NEXT: s_cbranch_execz .LBB4_2
		; GFX11-NEXT: ; %bb.1:
; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24		; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0		; GFX11-NEXT: s_bcnt1_i32_b32 s3, s3
		; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v1, s3
		; GFX11-NEXT: v_dual_mov_b32 v2, 0 :: v_dual_mul_f32 v1, 4.0, v1
; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX11-NEXT: s_waitcnt_vscnt null, 0x0		; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
; GFX11-NEXT: global_atomic_add_f32 v0, v0, v1, s[0:1] glc		; GFX11-NEXT: global_atomic_add_f32 v1, v2, v1, s[0:1] glc
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: buffer_gl0_inv		; GFX11-NEXT: buffer_gl0_inv
; GFX11-NEXT: buffer_gl1_inv		; GFX11-NEXT: buffer_gl1_inv
		; GFX11-NEXT: .LBB4_2:
		; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
		; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
		; GFX11-NEXT: v_readfirstlane_b32 s0, v1
		; GFX11-NEXT: v_mul_f32_e32 v0, 4.0, v0
		; GFX11-NEXT: v_add_f32_e32 v0, s0, v0
; GFX11-NEXT: global_store_b32 v[0:1], v0, off		; GFX11-NEXT: global_store_b32 v[0:1], v0, off
; GFX11-NEXT: s_nop 0		; GFX11-NEXT: s_nop 0
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst		%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst
store float %result, ptr addrspace(1) undef		store float %result, ptr addrspace(1) undef
ret void		ret void
}		}
▲ Show 20 Lines • Show All 196 Lines • ▼ Show 20 Lines	; GFX11-NEXT: s_endpgm
%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst		%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst
store float %result, ptr addrspace(1) undef		store float %result, ptr addrspace(1) undef
ret void		ret void
}		}

define amdgpu_kernel void @global_atomic_fadd_noret_f32_wrong_subtarget(ptr addrspace(1) %ptr) #1 {		define amdgpu_kernel void @global_atomic_fadd_noret_f32_wrong_subtarget(ptr addrspace(1) %ptr) #1 {
; GCN-LABEL: global_atomic_fadd_noret_f32_wrong_subtarget:		; GCN-LABEL: global_atomic_fadd_noret_f32_wrong_subtarget:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
		; GCN-NEXT: s_mov_b64 s[2:3], exec
		; GCN-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
		; GCN-NEXT: v_mbcnt_hi_u32_b32 v0, s3, v0
		; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
		; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GCN-NEXT: s_cbranch_execz .LBB7_2
		; GCN-NEXT: ; %bb.1:
; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GCN-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
		; GCN-NEXT: v_cvt_f32_ubyte0_e32 v1, s2
; GCN-NEXT: v_mov_b32_e32 v0, 0		; GCN-NEXT: v_mov_b32_e32 v0, 0
; GCN-NEXT: v_mov_b32_e32 v1, 4.0		; GCN-NEXT: v_mul_f32_e32 v1, 4.0, v1
; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GCN-NEXT: global_atomic_add_f32 v0, v1, s[0:1]		; GCN-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
; GCN-NEXT: s_waitcnt vmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: buffer_wbinvl1_vol		; GCN-NEXT: buffer_wbinvl1_vol
		; GCN-NEXT: .LBB7_2:
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GFX11-LABEL: global_atomic_fadd_noret_f32_wrong_subtarget:		; GFX11-LABEL: global_atomic_fadd_noret_f32_wrong_subtarget:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
		; GFX11-NEXT: s_mov_b64 s[2:3], exec
		; GFX11-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
		; GFX11-NEXT: v_mbcnt_hi_u32_b32 v0, s3, v0
		; GFX11-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
		; GFX11-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GFX11-NEXT: s_cbranch_execz .LBB7_2
		; GFX11-NEXT: ; %bb.1:
; GFX11-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX11-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX11-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
		; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v1, s2
; GFX11-NEXT: v_mov_b32_e32 v0, 0		; GFX11-NEXT: v_mov_b32_e32 v0, 0
; GFX11-NEXT: v_mov_b32_e32 v1, 4.0		; GFX11-NEXT: v_mul_f32_e32 v1, 4.0, v1
; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]		; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
; GFX11-NEXT: s_waitcnt vmcnt(0)		; GFX11-NEXT: s_waitcnt vmcnt(0)
; GFX11-NEXT: buffer_wbinvl1_vol		; GFX11-NEXT: buffer_wbinvl1_vol
		; GFX11-NEXT: .LBB7_2:
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst		%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @global_atomic_fadd_noret_f32_safe(ptr addrspace(1) %ptr) {		define amdgpu_kernel void @global_atomic_fadd_noret_f32_safe(ptr addrspace(1) %ptr) {
; GFX900-LABEL: global_atomic_fadd_noret_f32_safe:		; GFX900-LABEL: global_atomic_fadd_noret_f32_safe:
; GFX900: ; %bb.0:		; GFX900: ; %bb.0:
▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
; GFX900-NEXT: v_mov_b32_e32 v1, v0		; GFX900-NEXT: v_mov_b32_e32 v1, v0
; GFX900-NEXT: s_andn2_b64 exec, exec, s[2:3]		; GFX900-NEXT: s_andn2_b64 exec, exec, s[2:3]
; GFX900-NEXT: s_cbranch_execnz .LBB9_1		; GFX900-NEXT: s_cbranch_execnz .LBB9_1
; GFX900-NEXT: ; %bb.2: ; %atomicrmw.end		; GFX900-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX900-NEXT: s_endpgm		; GFX900-NEXT: s_endpgm
;		;
; GFX908-LABEL: infer_as_before_atomic:		; GFX908-LABEL: infer_as_before_atomic:
; GFX908: ; %bb.0:		; GFX908: ; %bb.0:
		; GFX908-NEXT: s_mov_b64 s[2:3], exec
		; GFX908-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
		; GFX908-NEXT: v_mbcnt_hi_u32_b32 v0, s3, v0
		; GFX908-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
		; GFX908-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GFX908-NEXT: s_cbranch_execz .LBB9_2
		; GFX908-NEXT: ; %bb.1:
; GFX908-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX908-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX908-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
; GFX908-NEXT: v_mov_b32_e32 v0, 0		; GFX908-NEXT: v_mov_b32_e32 v0, 0
; GFX908-NEXT: v_mov_b32_e32 v1, 1.0		; GFX908-NEXT: v_cvt_f32_ubyte0_e32 v1, s2
; GFX908-NEXT: s_waitcnt lgkmcnt(0)		; GFX908-NEXT: s_waitcnt lgkmcnt(0)
; GFX908-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x0		; GFX908-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x0
; GFX908-NEXT: s_waitcnt lgkmcnt(0)		; GFX908-NEXT: s_waitcnt lgkmcnt(0)
; GFX908-NEXT: global_atomic_add_f32 v0, v1, s[0:1]		; GFX908-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
		; GFX908-NEXT: .LBB9_2:
; GFX908-NEXT: s_endpgm		; GFX908-NEXT: s_endpgm
;		;
; GFX90A-LABEL: infer_as_before_atomic:		; GFX90A-LABEL: infer_as_before_atomic:
; GFX90A: ; %bb.0:		; GFX90A: ; %bb.0:
		; GFX90A-NEXT: s_mov_b64 s[2:3], exec
		; GFX90A-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
		; GFX90A-NEXT: v_mbcnt_hi_u32_b32 v0, s3, v0
		; GFX90A-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
		; GFX90A-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GFX90A-NEXT: s_cbranch_execz .LBB9_2
		; GFX90A-NEXT: ; %bb.1:
; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX90A-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
; GFX90A-NEXT: v_mov_b32_e32 v0, 0		; GFX90A-NEXT: v_mov_b32_e32 v0, 0
; GFX90A-NEXT: v_mov_b32_e32 v1, 1.0		; GFX90A-NEXT: v_cvt_f32_ubyte0_e32 v1, s2
; GFX90A-NEXT: s_waitcnt lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt lgkmcnt(0)
; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x0		; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x0
; GFX90A-NEXT: s_waitcnt lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt lgkmcnt(0)
; GFX90A-NEXT: global_atomic_add_f32 v0, v1, s[0:1]		; GFX90A-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
		; GFX90A-NEXT: .LBB9_2:
; GFX90A-NEXT: s_endpgm		; GFX90A-NEXT: s_endpgm
;		;
; GFX10-LABEL: infer_as_before_atomic:		; GFX10-LABEL: infer_as_before_atomic:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX10-NEXT: v_mov_b32_e32 v2, 0		; GFX10-NEXT: v_mov_b32_e32 v2, 0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x0		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x0
Show All 12 Lines
; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2		; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2		; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
; GFX10-NEXT: s_cbranch_execnz .LBB9_1		; GFX10-NEXT: s_cbranch_execnz .LBB9_1
; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end		; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
;		;
; GFX11-LABEL: infer_as_before_atomic:		; GFX11-LABEL: infer_as_before_atomic:
; GFX11: ; %bb.0:		; GFX11: ; %bb.0:
		; GFX11-NEXT: s_mov_b32 s2, exec_lo
		; GFX11-NEXT: s_mov_b32 s3, exec_lo
		; GFX11-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
		; GFX11-NEXT: v_cmpx_eq_u32_e32 0, v0
		; GFX11-NEXT: s_cbranch_execz .LBB9_2
		; GFX11-NEXT: ; %bb.1:
; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24		; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 1.0		; GFX11-NEXT: s_bcnt1_i32_b32 s2, s2
		; GFX11-NEXT: v_mov_b32_e32 v0, 0
		; GFX11-NEXT: v_cvt_f32_ubyte0_e32 v1, s2
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0		; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0
; GFX11-NEXT: s_waitcnt lgkmcnt(0)		; GFX11-NEXT: s_waitcnt lgkmcnt(0)
; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]		; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
		; GFX11-NEXT: .LBB9_2:
; GFX11-NEXT: s_nop 0		; GFX11-NEXT: s_nop 0
; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)		; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
; GFX11-NEXT: s_endpgm		; GFX11-NEXT: s_endpgm
%load = load ptr, ptr addrspace(4) %arg		%load = load ptr, ptr addrspace(4) %arg
%v = atomicrmw fadd ptr %load, float 1.0 syncscope("agent-one-as") monotonic, align 4		%v = atomicrmw fadd ptr %load, float 1.0 syncscope("agent-one-as") monotonic, align 4
ret void		ret void
}		}

attributes #0 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "amdgpu-unsafe-fp-atomics"="true" }		attributes #0 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "amdgpu-unsafe-fp-atomics"="true" }
attributes #1 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "target-cpu"="gfx803" "target-features"="+atomic-fadd-no-rtn-insts" "amdgpu-unsafe-fp-atomics"="true" }		attributes #1 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "target-cpu"="gfx803" "target-features"="+atomic-fadd-no-rtn-insts" "amdgpu-unsafe-fp-atomics"="true" }
attributes #2 = { "amdgpu-unsafe-fp-atomics"="true" }		attributes #2 = { "amdgpu-unsafe-fp-atomics"="true" }

llvm/test/CodeGen/AMDGPU/global_atomic_optimizer_fp_rtn.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt -S -mtriple=amdgcn-- -mcpu=gfx906 -amdgpu-atomic-optimizer-strategy=Iterative -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR-ITERATIVE %s			; RUN: opt -S -mtriple=amdgcn-- -mcpu=gfx906 -amdgpu-atomic-optimizer-strategy=Iterative -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR-ITERATIVE %s
	; RUN: opt -S -mtriple=amdgcn-- -mcpu=gfx906 -amdgpu-atomic-optimizer-strategy=DPP -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR-DPP %s			; RUN: opt -S -mtriple=amdgcn-- -mcpu=gfx906 -amdgpu-atomic-optimizer-strategy=DPP -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR-DPP %s

	define amdgpu_ps float @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float inreg %val) #0 {			define amdgpu_ps float @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float inreg %val) #0 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live()
	; IR-ITERATIVE-NEXT: ret float [[RESULT]]			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP24:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0)
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]])
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]])
				; IR-ITERATIVE-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = uitofp i32 [[TMP10]] to float
				; IR-ITERATIVE-NEXT: [[TMP12:%.]] = fmul float [[VAL:%.]], [[TMP11]]
				; IR-ITERATIVE-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-ITERATIVE: 14:
				; IR-ITERATIVE-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("agent") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP16]]
				; IR-ITERATIVE: 16:
				; IR-ITERATIVE-NEXT: [[TMP17:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP15]], [[TMP14]] ]
				; IR-ITERATIVE-NEXT: [[TMP18:%.*]] = bitcast float [[TMP17]] to i32
				; IR-ITERATIVE-NEXT: [[TMP19:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP18]])
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = bitcast i32 [[TMP19]] to float
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = uitofp i32 [[TMP8]] to float
				; IR-ITERATIVE-NEXT: [[TMP22:%.*]] = fmul float [[VAL]], [[TMP21]]
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = fadd float [[TMP20]], [[TMP22]]
				; IR-ITERATIVE-NEXT: br label [[TMP24]]
				; IR-ITERATIVE: 24:
				; IR-ITERATIVE-NEXT: [[TMP25:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP23]], [[TMP16]] ]
				; IR-ITERATIVE-NEXT: ret float [[TMP25]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live()
	; IR-DPP-NEXT: ret float [[RESULT]]			; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP24:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0)
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]])
				; IR-DPP-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]])
				; IR-DPP-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-DPP-NEXT: [[TMP11:%.*]] = uitofp i32 [[TMP10]] to float
				; IR-DPP-NEXT: [[TMP12:%.]] = fmul float [[VAL:%.]], [[TMP11]]
				; IR-DPP-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-DPP: 14:
				; IR-DPP-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("agent") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP16]]
				; IR-DPP: 16:
				; IR-DPP-NEXT: [[TMP17:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP15]], [[TMP14]] ]
				; IR-DPP-NEXT: [[TMP18:%.*]] = bitcast float [[TMP17]] to i32
				; IR-DPP-NEXT: [[TMP19:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP18]])
				; IR-DPP-NEXT: [[TMP20:%.*]] = bitcast i32 [[TMP19]] to float
				; IR-DPP-NEXT: [[TMP21:%.*]] = uitofp i32 [[TMP8]] to float
				; IR-DPP-NEXT: [[TMP22:%.*]] = fmul float [[VAL]], [[TMP21]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = fadd float [[TMP20]], [[TMP22]]
				; IR-DPP-NEXT: br label [[TMP24]]
				; IR-DPP: 24:
				; IR-DPP-NEXT: [[TMP25:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP23]], [[TMP16]] ]
				; IR-DPP-NEXT: ret float [[TMP25]]
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic, align 4			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic, align 4
	ret float %result			ret float %result
	}			}

	define amdgpu_ps float @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float %val) #0 {			define amdgpu_ps float @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float %val) #0 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live()
	; IR-ITERATIVE-NEXT: ret float [[RESULT]]			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP18:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0)
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]])
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: br label [[COMPUTELOOP:%.*]]
				; IR-ITERATIVE: 10:
				; IR-ITERATIVE-NEXT: [[TMP11:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP29:%.*]] syncscope("agent") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP12:%.*]]
				; IR-ITERATIVE: 12:
				; IR-ITERATIVE-NEXT: [[TMP13:%.]] = phi float [ poison, [[COMPUTEEND:%.]] ], [ [[TMP11]], [[TMP10:%.*]] ]
				; IR-ITERATIVE-NEXT: [[TMP14:%.*]] = bitcast float [[TMP13]] to i32
				; IR-ITERATIVE-NEXT: [[TMP15:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP14]])
				; IR-ITERATIVE-NEXT: [[TMP16:%.*]] = bitcast i32 [[TMP15]] to float
				; IR-ITERATIVE-NEXT: [[TMP17:%.]] = fadd float [[TMP16]], [[TMP28:%.]]
				; IR-ITERATIVE-NEXT: br label [[TMP18]]
				; IR-ITERATIVE: 18:
				; IR-ITERATIVE-NEXT: [[TMP19:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP17]], [[TMP12]] ]
				; IR-ITERATIVE-NEXT: ret float [[TMP19]]
				; IR-ITERATIVE: ComputeLoop:
				; IR-ITERATIVE-NEXT: [[ACCUMULATOR:%.*]] = phi float [ -0.000000e+00, [[TMP2]] ], [ [[TMP29]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[OLDVALUEPHI:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP28]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[ACTIVEBITS:%.]] = phi i64 [ [[TMP9]], [[TMP2]] ], [ [[TMP32:%.]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = call i64 @llvm.cttz.i64(i64 [[ACTIVEBITS]], i1 true)
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = trunc i64 [[TMP20]] to i32
				; IR-ITERATIVE-NEXT: [[TMP22:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP22]], i32 [[TMP21]])
				; IR-ITERATIVE-NEXT: [[TMP24:%.*]] = bitcast i32 [[TMP23]] to float
				; IR-ITERATIVE-NEXT: [[TMP25:%.*]] = bitcast float [[ACCUMULATOR]] to i32
				; IR-ITERATIVE-NEXT: [[TMP26:%.*]] = bitcast float [[OLDVALUEPHI]] to i32
				; IR-ITERATIVE-NEXT: [[TMP27:%.*]] = call i32 @llvm.amdgcn.writelane(i32 [[TMP25]], i32 [[TMP21]], i32 [[TMP26]])
				; IR-ITERATIVE-NEXT: [[TMP28]] = bitcast i32 [[TMP27]] to float
				; IR-ITERATIVE-NEXT: [[TMP29]] = fadd float [[ACCUMULATOR]], [[TMP24]]
				; IR-ITERATIVE-NEXT: [[TMP30:%.*]] = shl i64 1, [[TMP20]]
				; IR-ITERATIVE-NEXT: [[TMP31:%.*]] = xor i64 [[TMP30]], -1
				; IR-ITERATIVE-NEXT: [[TMP32]] = and i64 [[ACTIVEBITS]], [[TMP31]]
				; IR-ITERATIVE-NEXT: [[TMP33:%.*]] = icmp eq i64 [[TMP32]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP33]], label [[COMPUTEEND]], label [[COMPUTELOOP]]
				; IR-ITERATIVE: ComputeEnd:
				; IR-ITERATIVE-NEXT: [[TMP34:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP34]], label [[TMP10]], label [[TMP12]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live()
	; IR-DPP-NEXT: ret float [[RESULT]]			; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP40:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0)
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]])
				; IR-DPP-NEXT: [[TMP9:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-DPP-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.set.inactive.i32(i32 [[TMP9]], i32 -2147483648)
				; IR-DPP-NEXT: [[TMP11:%.*]] = bitcast i32 [[TMP10]] to float
				; IR-DPP-NEXT: [[TMP12:%.*]] = bitcast i32 [[TMP9]] to float
				; IR-DPP-NEXT: [[TMP13:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP11]], i32 273, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP14:%.*]] = fadd float [[TMP11]], [[TMP13]]
				; IR-DPP-NEXT: [[TMP15:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP14]], i32 274, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP16:%.*]] = fadd float [[TMP14]], [[TMP15]]
				; IR-DPP-NEXT: [[TMP17:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP16]], i32 276, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP18:%.*]] = fadd float [[TMP16]], [[TMP17]]
				; IR-DPP-NEXT: [[TMP19:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP18]], i32 280, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP20:%.*]] = fadd float [[TMP18]], [[TMP19]]
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP20]], i32 322, i32 10, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP22:%.*]] = fadd float [[TMP20]], [[TMP21]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP22]], i32 323, i32 12, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP24:%.*]] = fadd float [[TMP22]], [[TMP23]]
				; IR-DPP-NEXT: [[TMP25:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP24]], i32 312, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP26:%.*]] = bitcast float [[TMP24]] to i32
				; IR-DPP-NEXT: [[TMP27:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP26]], i32 63)
				; IR-DPP-NEXT: [[TMP28:%.*]] = bitcast i32 [[TMP27]] to float
				; IR-DPP-NEXT: [[TMP29:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP28]])
				; IR-DPP-NEXT: [[TMP30:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP30]], label [[TMP31:%.]], label [[TMP33:%.]]
				; IR-DPP: 31:
				; IR-DPP-NEXT: [[TMP32:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP29]] syncscope("agent") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP33]]
				; IR-DPP: 33:
				; IR-DPP-NEXT: [[TMP34:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP32]], [[TMP31]] ]
				; IR-DPP-NEXT: [[TMP35:%.*]] = bitcast float [[TMP34]] to i32
				; IR-DPP-NEXT: [[TMP36:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP35]])
				; IR-DPP-NEXT: [[TMP37:%.*]] = bitcast i32 [[TMP36]] to float
				; IR-DPP-NEXT: [[TMP38:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP25]])
				; IR-DPP-NEXT: [[TMP39:%.*]] = fadd float [[TMP37]], [[TMP38]]
				; IR-DPP-NEXT: br label [[TMP40]]
				; IR-DPP: 40:
				; IR-DPP-NEXT: [[TMP41:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP39]], [[TMP33]] ]
				; IR-DPP-NEXT: ret float [[TMP41]]
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic, align 4			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic, align 4
	ret float %result			ret float %result
	}			}

	define amdgpu_ps float @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(ptr addrspace(1) inreg %ptr, float inreg %val) #1 {			define amdgpu_ps float @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(ptr addrspace(1) inreg %ptr, float inreg %val) #1 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("one-as") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7:[0-9]+]]
	; IR-ITERATIVE-NEXT: ret float [[RESULT]]			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP24:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-ITERATIVE: 14:
				; IR-ITERATIVE-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("one-as") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP16]]
				; IR-ITERATIVE: 16:
				; IR-ITERATIVE-NEXT: [[TMP17:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP15]], [[TMP14]] ]
				; IR-ITERATIVE-NEXT: [[TMP18:%.*]] = bitcast float [[TMP17]] to i32
				; IR-ITERATIVE-NEXT: [[TMP19:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP18]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = bitcast i32 [[TMP19]] to float
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP8]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP20]], float [[TMP22]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[TMP24]]
				; IR-ITERATIVE: 24:
				; IR-ITERATIVE-NEXT: [[TMP25:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP23]], [[TMP16]] ]
				; IR-ITERATIVE-NEXT: ret float [[TMP25]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("one-as") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8:[0-9]+]]
	; IR-DPP-NEXT: ret float [[RESULT]]			; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP24:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-DPP-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-DPP: 14:
				; IR-DPP-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("one-as") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP16]]
				; IR-DPP: 16:
				; IR-DPP-NEXT: [[TMP17:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP15]], [[TMP14]] ]
				; IR-DPP-NEXT: [[TMP18:%.*]] = bitcast float [[TMP17]] to i32
				; IR-DPP-NEXT: [[TMP19:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP18]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP20:%.*]] = bitcast i32 [[TMP19]] to float
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP8]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP20]], float [[TMP22]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: br label [[TMP24]]
				; IR-DPP: 24:
				; IR-DPP-NEXT: [[TMP25:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP23]], [[TMP16]] ]
				; IR-DPP-NEXT: ret float [[TMP25]]
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("one-as") monotonic			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("one-as") monotonic
	ret float %result			ret float %result
	}			}

	define amdgpu_ps float @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(ptr addrspace(1) inreg %ptr, float %val) #1 {			define amdgpu_ps float @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(ptr addrspace(1) inreg %ptr, float %val) #1 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("one-as") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7]]
	; IR-ITERATIVE-NEXT: ret float [[RESULT]]			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP18:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[COMPUTELOOP:%.*]]
				; IR-ITERATIVE: 10:
				; IR-ITERATIVE-NEXT: [[TMP11:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP29:%.*]] syncscope("one-as") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP12:%.*]]
				; IR-ITERATIVE: 12:
				; IR-ITERATIVE-NEXT: [[TMP13:%.]] = phi float [ poison, [[COMPUTEEND:%.]] ], [ [[TMP11]], [[TMP10:%.*]] ]
				; IR-ITERATIVE-NEXT: [[TMP14:%.*]] = bitcast float [[TMP13]] to i32
				; IR-ITERATIVE-NEXT: [[TMP15:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP14]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP16:%.*]] = bitcast i32 [[TMP15]] to float
				; IR-ITERATIVE-NEXT: [[TMP17:%.]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP16]], float [[TMP28:%.]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[TMP18]]
				; IR-ITERATIVE: 18:
				; IR-ITERATIVE-NEXT: [[TMP19:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP17]], [[TMP12]] ]
				; IR-ITERATIVE-NEXT: ret float [[TMP19]]
				; IR-ITERATIVE: ComputeLoop:
				; IR-ITERATIVE-NEXT: [[ACCUMULATOR:%.*]] = phi float [ -0.000000e+00, [[TMP2]] ], [ [[TMP29]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[OLDVALUEPHI:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP28]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[ACTIVEBITS:%.]] = phi i64 [ [[TMP9]], [[TMP2]] ], [ [[TMP32:%.]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = call i64 @llvm.cttz.i64(i64 [[ACTIVEBITS]], i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = trunc i64 [[TMP20]] to i32
				; IR-ITERATIVE-NEXT: [[TMP22:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP22]], i32 [[TMP21]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP24:%.*]] = bitcast i32 [[TMP23]] to float
				; IR-ITERATIVE-NEXT: [[TMP25:%.*]] = bitcast float [[ACCUMULATOR]] to i32
				; IR-ITERATIVE-NEXT: [[TMP26:%.*]] = bitcast float [[OLDVALUEPHI]] to i32
				; IR-ITERATIVE-NEXT: [[TMP27:%.*]] = call i32 @llvm.amdgcn.writelane(i32 [[TMP25]], i32 [[TMP21]], i32 [[TMP26]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP28]] = bitcast i32 [[TMP27]] to float
				; IR-ITERATIVE-NEXT: [[TMP29]] = call float @llvm.experimental.constrained.fadd.f32(float [[ACCUMULATOR]], float [[TMP24]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP30:%.*]] = shl i64 1, [[TMP20]]
				; IR-ITERATIVE-NEXT: [[TMP31:%.*]] = xor i64 [[TMP30]], -1
				; IR-ITERATIVE-NEXT: [[TMP32]] = and i64 [[ACTIVEBITS]], [[TMP31]]
				; IR-ITERATIVE-NEXT: [[TMP33:%.*]] = icmp eq i64 [[TMP32]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP33]], label [[COMPUTEEND]], label [[COMPUTELOOP]]
				; IR-ITERATIVE: ComputeEnd:
				; IR-ITERATIVE-NEXT: [[TMP34:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP34]], label [[TMP10]], label [[TMP12]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("one-as") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8]]
	; IR-DPP-NEXT: ret float [[RESULT]]			; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP40:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-DPP-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.set.inactive.i32(i32 [[TMP9]], i32 -2147483648) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP11:%.*]] = bitcast i32 [[TMP10]] to float
				; IR-DPP-NEXT: [[TMP12:%.*]] = bitcast i32 [[TMP9]] to float
				; IR-DPP-NEXT: [[TMP13:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP11]], i32 273, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP14:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP11]], float [[TMP13]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP15:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP14]], i32 274, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP16:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP14]], float [[TMP15]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP17:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP16]], i32 276, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP18:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP16]], float [[TMP17]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP19:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP18]], i32 280, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP20:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP18]], float [[TMP19]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP20]], i32 322, i32 10, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP20]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP22]], i32 323, i32 12, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP24:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP22]], float [[TMP23]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP25:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP24]], i32 312, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP26:%.*]] = bitcast float [[TMP24]] to i32
				; IR-DPP-NEXT: [[TMP27:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP26]], i32 63) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP28:%.*]] = bitcast i32 [[TMP27]] to float
				; IR-DPP-NEXT: [[TMP29:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP28]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP30:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP30]], label [[TMP31:%.]], label [[TMP33:%.]]
				; IR-DPP: 31:
				; IR-DPP-NEXT: [[TMP32:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP29]] syncscope("one-as") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP33]]
				; IR-DPP: 33:
				; IR-DPP-NEXT: [[TMP34:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP32]], [[TMP31]] ]
				; IR-DPP-NEXT: [[TMP35:%.*]] = bitcast float [[TMP34]] to i32
				; IR-DPP-NEXT: [[TMP36:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP35]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP37:%.*]] = bitcast i32 [[TMP36]] to float
				; IR-DPP-NEXT: [[TMP38:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP25]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP39:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP37]], float [[TMP38]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: br label [[TMP40]]
				; IR-DPP: 40:
				; IR-DPP-NEXT: [[TMP41:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP39]], [[TMP33]] ]
				; IR-DPP-NEXT: ret float [[TMP41]]
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("one-as") monotonic			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("one-as") monotonic
	ret float %result			ret float %result
	}			}

	define amdgpu_ps float @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(ptr addrspace(1) inreg %ptr, float inreg %val) #2 {			define amdgpu_ps float @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(ptr addrspace(1) inreg %ptr, float inreg %val) #2 {
	; IR-ITERATIVE-LABEL: @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(			; IR-ITERATIVE-LABEL: @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7]]
	; IR-ITERATIVE-NEXT: ret float [[RESULT]]			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP24:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-ITERATIVE: 14:
				; IR-ITERATIVE-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("agent") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP16]]
				; IR-ITERATIVE: 16:
				; IR-ITERATIVE-NEXT: [[TMP17:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP15]], [[TMP14]] ]
				; IR-ITERATIVE-NEXT: [[TMP18:%.*]] = bitcast float [[TMP17]] to i32
				; IR-ITERATIVE-NEXT: [[TMP19:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP18]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = bitcast i32 [[TMP19]] to float
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP8]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP20]], float [[TMP22]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[TMP24]]
				; IR-ITERATIVE: 24:
				; IR-ITERATIVE-NEXT: [[TMP25:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP23]], [[TMP16]] ]
				; IR-ITERATIVE-NEXT: ret float [[TMP25]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(			; IR-DPP-LABEL: @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8]]
	; IR-DPP-NEXT: ret float [[RESULT]]			; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP24:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-DPP-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-DPP: 14:
				; IR-DPP-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("agent") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP16]]
				; IR-DPP: 16:
				; IR-DPP-NEXT: [[TMP17:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP15]], [[TMP14]] ]
				; IR-DPP-NEXT: [[TMP18:%.*]] = bitcast float [[TMP17]] to i32
				; IR-DPP-NEXT: [[TMP19:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP18]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP20:%.*]] = bitcast i32 [[TMP19]] to float
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP8]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP20]], float [[TMP22]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: br label [[TMP24]]
				; IR-DPP: 24:
				; IR-DPP-NEXT: [[TMP25:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP23]], [[TMP16]] ]
				; IR-DPP-NEXT: ret float [[TMP25]]
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic
	ret float %result			ret float %result
	}			}


	define amdgpu_ps float @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(ptr addrspace(1) inreg %ptr, float %val) #2 {			define amdgpu_ps float @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(ptr addrspace(1) inreg %ptr, float %val) #2 {
	; IR-ITERATIVE-LABEL: @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(			; IR-ITERATIVE-LABEL: @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fsub ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7]]
	; IR-ITERATIVE-NEXT: ret float [[RESULT]]			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP18:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[COMPUTELOOP:%.*]]
				; IR-ITERATIVE: 10:
				; IR-ITERATIVE-NEXT: [[TMP11:%.]] = atomicrmw fsub ptr addrspace(1) [[PTR:%.]], float [[TMP29:%.*]] syncscope("agent") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP12:%.*]]
				; IR-ITERATIVE: 12:
				; IR-ITERATIVE-NEXT: [[TMP13:%.]] = phi float [ poison, [[COMPUTEEND:%.]] ], [ [[TMP11]], [[TMP10:%.*]] ]
				; IR-ITERATIVE-NEXT: [[TMP14:%.*]] = bitcast float [[TMP13]] to i32
				; IR-ITERATIVE-NEXT: [[TMP15:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP14]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP16:%.*]] = bitcast i32 [[TMP15]] to float
				; IR-ITERATIVE-NEXT: [[TMP17:%.]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP16]], float [[TMP28:%.]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[TMP18]]
				; IR-ITERATIVE: 18:
				; IR-ITERATIVE-NEXT: [[TMP19:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP17]], [[TMP12]] ]
				; IR-ITERATIVE-NEXT: ret float [[TMP19]]
				; IR-ITERATIVE: ComputeLoop:
				; IR-ITERATIVE-NEXT: [[ACCUMULATOR:%.*]] = phi float [ 0.000000e+00, [[TMP2]] ], [ [[TMP29]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[OLDVALUEPHI:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP28]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[ACTIVEBITS:%.]] = phi i64 [ [[TMP9]], [[TMP2]] ], [ [[TMP32:%.]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = call i64 @llvm.cttz.i64(i64 [[ACTIVEBITS]], i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = trunc i64 [[TMP20]] to i32
				; IR-ITERATIVE-NEXT: [[TMP22:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP22]], i32 [[TMP21]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP24:%.*]] = bitcast i32 [[TMP23]] to float
				; IR-ITERATIVE-NEXT: [[TMP25:%.*]] = bitcast float [[ACCUMULATOR]] to i32
				; IR-ITERATIVE-NEXT: [[TMP26:%.*]] = bitcast float [[OLDVALUEPHI]] to i32
				; IR-ITERATIVE-NEXT: [[TMP27:%.*]] = call i32 @llvm.amdgcn.writelane(i32 [[TMP25]], i32 [[TMP21]], i32 [[TMP26]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP28]] = bitcast i32 [[TMP27]] to float
				; IR-ITERATIVE-NEXT: [[TMP29]] = call float @llvm.experimental.constrained.fsub.f32(float [[ACCUMULATOR]], float [[TMP24]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP30:%.*]] = shl i64 1, [[TMP20]]
				; IR-ITERATIVE-NEXT: [[TMP31:%.*]] = xor i64 [[TMP30]], -1
				; IR-ITERATIVE-NEXT: [[TMP32]] = and i64 [[ACTIVEBITS]], [[TMP31]]
				; IR-ITERATIVE-NEXT: [[TMP33:%.*]] = icmp eq i64 [[TMP32]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP33]], label [[COMPUTEEND]], label [[COMPUTELOOP]]
				; IR-ITERATIVE: ComputeEnd:
				; IR-ITERATIVE-NEXT: [[TMP34:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP34]], label [[TMP10]], label [[TMP12]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(			; IR-DPP-LABEL: @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fsub ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8]]
	; IR-DPP-NEXT: ret float [[RESULT]]			; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP40:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-DPP-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.set.inactive.i32(i32 [[TMP9]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP11:%.*]] = bitcast i32 [[TMP10]] to float
				; IR-DPP-NEXT: [[TMP12:%.*]] = bitcast i32 [[TMP9]] to float
				; IR-DPP-NEXT: [[TMP13:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP11]], i32 273, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP14:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP11]], float [[TMP13]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP15:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP14]], i32 274, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP16:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP14]], float [[TMP15]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP17:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP16]], i32 276, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP18:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP16]], float [[TMP17]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP19:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP18]], i32 280, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP20:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP18]], float [[TMP19]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP20]], i32 322, i32 10, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP20]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP22]], i32 323, i32 12, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP24:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP22]], float [[TMP23]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP25:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP24]], i32 312, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP26:%.*]] = bitcast float [[TMP24]] to i32
				; IR-DPP-NEXT: [[TMP27:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP26]], i32 63) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP28:%.*]] = bitcast i32 [[TMP27]] to float
				; IR-DPP-NEXT: [[TMP29:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP28]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP30:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP30]], label [[TMP31:%.]], label [[TMP33:%.]]
				; IR-DPP: 31:
				; IR-DPP-NEXT: [[TMP32:%.]] = atomicrmw fsub ptr addrspace(1) [[PTR:%.]], float [[TMP29]] syncscope("agent") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP33]]
				; IR-DPP: 33:
				; IR-DPP-NEXT: [[TMP34:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP32]], [[TMP31]] ]
				; IR-DPP-NEXT: [[TMP35:%.*]] = bitcast float [[TMP34]] to i32
				; IR-DPP-NEXT: [[TMP36:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP35]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP37:%.*]] = bitcast i32 [[TMP36]] to float
				; IR-DPP-NEXT: [[TMP38:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP25]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP39:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP37]], float [[TMP38]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: br label [[TMP40]]
				; IR-DPP: 40:
				; IR-DPP-NEXT: [[TMP41:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP39]], [[TMP33]] ]
				; IR-DPP-NEXT: ret float [[TMP41]]
	;			;
	%result = atomicrmw fsub ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic			%result = atomicrmw fsub ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic
	ret float %result			ret float %result
	}			}

	define amdgpu_ps float @global_atomic_fmin_uni_address_uni_value_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float inreg %val) #0 {			define amdgpu_ps float @global_atomic_fmin_uni_address_uni_value_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float inreg %val) #0 {
	; IR-ITERATIVE-LABEL: @global_atomic_fmin_uni_address_uni_value_agent_scope_unsafe(			; IR-ITERATIVE-LABEL: @global_atomic_fmin_uni_address_uni_value_agent_scope_unsafe(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fmin ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fmin ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; IR-DPP-NEXT: ret float [[RESULT]]			; IR-DPP-NEXT: ret float [[RESULT]]
	;			;
	%result = atomicrmw fmax ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic			%result = atomicrmw fmax ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic
	ret float %result			ret float %result
	}			}

	define amdgpu_ps float @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(ptr addrspace(1) inreg %ptr, float inreg %val) #2 {			define amdgpu_ps float @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(ptr addrspace(1) inreg %ptr, float inreg %val) #2 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7]]
	; IR-ITERATIVE-NEXT: ret float [[RESULT]]			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP24:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-ITERATIVE: 14:
				; IR-ITERATIVE-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP16]]
				; IR-ITERATIVE: 16:
				; IR-ITERATIVE-NEXT: [[TMP17:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP15]], [[TMP14]] ]
				; IR-ITERATIVE-NEXT: [[TMP18:%.*]] = bitcast float [[TMP17]] to i32
				; IR-ITERATIVE-NEXT: [[TMP19:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP18]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = bitcast i32 [[TMP19]] to float
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP8]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP20]], float [[TMP22]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[TMP24]]
				; IR-ITERATIVE: 24:
				; IR-ITERATIVE-NEXT: [[TMP25:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP23]], [[TMP16]] ]
				; IR-ITERATIVE-NEXT: ret float [[TMP25]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8]]
	; IR-DPP-NEXT: ret float [[RESULT]]			; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP24:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-DPP-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-DPP: 14:
				; IR-DPP-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP16]]
				; IR-DPP: 16:
				; IR-DPP-NEXT: [[TMP17:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP15]], [[TMP14]] ]
				; IR-DPP-NEXT: [[TMP18:%.*]] = bitcast float [[TMP17]] to i32
				; IR-DPP-NEXT: [[TMP19:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP18]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP20:%.*]] = bitcast i32 [[TMP19]] to float
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP8]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP20]], float [[TMP22]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: br label [[TMP24]]
				; IR-DPP: 24:
				; IR-DPP-NEXT: [[TMP25:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP23]], [[TMP16]] ]
				; IR-DPP-NEXT: ret float [[TMP25]]
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val monotonic, align 4			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val monotonic, align 4
	ret float %result			ret float %result
	}			}

	define amdgpu_ps float @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(ptr addrspace(1) inreg %ptr, float %val) #2 {			define amdgpu_ps float @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(ptr addrspace(1) inreg %ptr, float %val) #2 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7]]
	; IR-ITERATIVE-NEXT: ret float [[RESULT]]			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP18:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[COMPUTELOOP:%.*]]
				; IR-ITERATIVE: 10:
				; IR-ITERATIVE-NEXT: [[TMP11:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP29:%.*]] monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP12:%.*]]
				; IR-ITERATIVE: 12:
				; IR-ITERATIVE-NEXT: [[TMP13:%.]] = phi float [ poison, [[COMPUTEEND:%.]] ], [ [[TMP11]], [[TMP10:%.*]] ]
				; IR-ITERATIVE-NEXT: [[TMP14:%.*]] = bitcast float [[TMP13]] to i32
				; IR-ITERATIVE-NEXT: [[TMP15:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP14]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP16:%.*]] = bitcast i32 [[TMP15]] to float
				; IR-ITERATIVE-NEXT: [[TMP17:%.]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP16]], float [[TMP28:%.]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[TMP18]]
				; IR-ITERATIVE: 18:
				; IR-ITERATIVE-NEXT: [[TMP19:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP17]], [[TMP12]] ]
				; IR-ITERATIVE-NEXT: ret float [[TMP19]]
				; IR-ITERATIVE: ComputeLoop:
				; IR-ITERATIVE-NEXT: [[ACCUMULATOR:%.*]] = phi float [ -0.000000e+00, [[TMP2]] ], [ [[TMP29]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[OLDVALUEPHI:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP28]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[ACTIVEBITS:%.]] = phi i64 [ [[TMP9]], [[TMP2]] ], [ [[TMP32:%.]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = call i64 @llvm.cttz.i64(i64 [[ACTIVEBITS]], i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = trunc i64 [[TMP20]] to i32
				; IR-ITERATIVE-NEXT: [[TMP22:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP22]], i32 [[TMP21]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP24:%.*]] = bitcast i32 [[TMP23]] to float
				; IR-ITERATIVE-NEXT: [[TMP25:%.*]] = bitcast float [[ACCUMULATOR]] to i32
				; IR-ITERATIVE-NEXT: [[TMP26:%.*]] = bitcast float [[OLDVALUEPHI]] to i32
				; IR-ITERATIVE-NEXT: [[TMP27:%.*]] = call i32 @llvm.amdgcn.writelane(i32 [[TMP25]], i32 [[TMP21]], i32 [[TMP26]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP28]] = bitcast i32 [[TMP27]] to float
				; IR-ITERATIVE-NEXT: [[TMP29]] = call float @llvm.experimental.constrained.fadd.f32(float [[ACCUMULATOR]], float [[TMP24]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP30:%.*]] = shl i64 1, [[TMP20]]
				; IR-ITERATIVE-NEXT: [[TMP31:%.*]] = xor i64 [[TMP30]], -1
				; IR-ITERATIVE-NEXT: [[TMP32]] = and i64 [[ACTIVEBITS]], [[TMP31]]
				; IR-ITERATIVE-NEXT: [[TMP33:%.*]] = icmp eq i64 [[TMP32]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP33]], label [[COMPUTEEND]], label [[COMPUTELOOP]]
				; IR-ITERATIVE: ComputeEnd:
				; IR-ITERATIVE-NEXT: [[TMP34:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP34]], label [[TMP10]], label [[TMP12]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8]]
	; IR-DPP-NEXT: ret float [[RESULT]]			; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP40:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-DPP-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.set.inactive.i32(i32 [[TMP9]], i32 -2147483648) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP11:%.*]] = bitcast i32 [[TMP10]] to float
				; IR-DPP-NEXT: [[TMP12:%.*]] = bitcast i32 [[TMP9]] to float
				; IR-DPP-NEXT: [[TMP13:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP11]], i32 273, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP14:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP11]], float [[TMP13]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP15:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP14]], i32 274, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP16:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP14]], float [[TMP15]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP17:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP16]], i32 276, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP18:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP16]], float [[TMP17]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP19:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP18]], i32 280, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP20:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP18]], float [[TMP19]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP20]], i32 322, i32 10, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP20]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP22]], i32 323, i32 12, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP24:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP22]], float [[TMP23]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP25:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP24]], i32 312, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP26:%.*]] = bitcast float [[TMP24]] to i32
				; IR-DPP-NEXT: [[TMP27:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP26]], i32 63) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP28:%.*]] = bitcast i32 [[TMP27]] to float
				; IR-DPP-NEXT: [[TMP29:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP28]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP30:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP30]], label [[TMP31:%.]], label [[TMP33:%.]]
				; IR-DPP: 31:
				; IR-DPP-NEXT: [[TMP32:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP29]] monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP33]]
				; IR-DPP: 33:
				; IR-DPP-NEXT: [[TMP34:%.*]] = phi float [ poison, [[TMP2]] ], [ [[TMP32]], [[TMP31]] ]
				; IR-DPP-NEXT: [[TMP35:%.*]] = bitcast float [[TMP34]] to i32
				; IR-DPP-NEXT: [[TMP36:%.*]] = call i32 @llvm.amdgcn.readfirstlane(i32 [[TMP35]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP37:%.*]] = bitcast i32 [[TMP36]] to float
				; IR-DPP-NEXT: [[TMP38:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP25]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP39:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP37]], float [[TMP38]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: br label [[TMP40]]
				; IR-DPP: 40:
				; IR-DPP-NEXT: [[TMP41:%.]] = phi float [ poison, [[TMP0:%.]] ], [ [[TMP39]], [[TMP33]] ]
				; IR-DPP-NEXT: ret float [[TMP41]]
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val monotonic, align 4			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val monotonic, align 4
	ret float %result			ret float %result
	}			}


	define amdgpu_ps float @global_atomic_fadd_div_address_uni_value_agent_scope_unsafe(ptr addrspace(1) %ptr, float inreg %val) #0 {			define amdgpu_ps float @global_atomic_fadd_div_address_uni_value_agent_scope_unsafe(ptr addrspace(1) %ptr, float inreg %val) #0 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_div_address_uni_value_agent_scope_unsafe(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_div_address_uni_value_agent_scope_unsafe(
	▲ Show 20 Lines • Show All 158 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/global_atomics_iterative_scan.ll

	Show All 11 Lines
	; IR-NEXT: [[VAL_LOAD2:%.*]] = extractelement <2 x i64> [[LOADED_OUT_KERNARG_OFFSET]], i32 1			; IR-NEXT: [[VAL_LOAD2:%.*]] = extractelement <2 x i64> [[LOADED_OUT_KERNARG_OFFSET]], i32 1
	; IR-NEXT: [[VALUE_ADDRESS:%.*]] = inttoptr i64 [[VAL_LOAD2]] to ptr addrspace(1)			; IR-NEXT: [[VALUE_ADDRESS:%.*]] = inttoptr i64 [[VAL_LOAD2]] to ptr addrspace(1)
	; IR-NEXT: [[LANE:%.*]] = tail call i32 @llvm.amdgcn.workgroup.id.x()			; IR-NEXT: [[LANE:%.*]] = tail call i32 @llvm.amdgcn.workgroup.id.x()
	; IR-NEXT: [[IDXPROM:%.*]] = sext i32 [[LANE]] to i64			; IR-NEXT: [[IDXPROM:%.*]] = sext i32 [[LANE]] to i64
	; IR-NEXT: [[ELE:%.*]] = getelementptr i32, ptr addrspace(1) [[VALUE_ADDRESS]], i64 [[IDXPROM]]			; IR-NEXT: [[ELE:%.*]] = getelementptr i32, ptr addrspace(1) [[VALUE_ADDRESS]], i64 [[IDXPROM]]
	; IR-NEXT: [[VALUE:%.*]] = load i32, ptr addrspace(1) [[ELE]], align 4			; IR-NEXT: [[VALUE:%.*]] = load i32, ptr addrspace(1) [[ELE]], align 4
	; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[MEM_LOCATION]], i32 4			; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[MEM_LOCATION]], i32 4
	; IR-NEXT: [[TMP1:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)			; IR-NEXT: [[TMP1:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
	; IR-NEXT: [[TMP2:%.*]] = bitcast i64 [[TMP1]] to <2 x i32>			; IR-NEXT: [[TMP2:%.*]] = trunc i64 [[TMP1]] to i32
	; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP2]], i32 0			; IR-NEXT: [[TMP3:%.*]] = lshr i64 [[TMP1]], 32
	; IR-NEXT: [[TMP4:%.*]] = extractelement <2 x i32> [[TMP2]], i32 1			; IR-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
	; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP3]], i32 0)			; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)
	; IR-NEXT: [[TMP6:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP4]], i32 [[TMP5]])			; IR-NEXT: [[TMP6:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP4]], i32 [[TMP5]])
	; IR-NEXT: [[TMP7:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP1]])			; IR-NEXT: [[TMP7:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP1]])
	; IR-NEXT: [[TMP8:%.*]] = trunc i64 [[TMP7]] to i32			; IR-NEXT: [[TMP8:%.*]] = trunc i64 [[TMP7]] to i32
	; IR-NEXT: [[TMP9:%.*]] = mul i32 [[VALUE]], [[TMP8]]			; IR-NEXT: [[TMP9:%.*]] = mul i32 [[VALUE]], [[TMP8]]
	; IR-NEXT: [[TMP10:%.*]] = icmp eq i32 [[TMP6]], 0			; IR-NEXT: [[TMP10:%.*]] = icmp eq i32 [[TMP6]], 0
	; IR-NEXT: br i1 [[TMP10]], label [[TMP11:%.]], label [[TMP13:%.]]			; IR-NEXT: br i1 [[TMP10]], label [[TMP11:%.]], label [[TMP13:%.]]
	; IR: 11:			; IR: 11:
	; IR-NEXT: [[TMP12:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP9]] seq_cst, align 4			; IR-NEXT: [[TMP12:%.*]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP9]] seq_cst, align 4
	Show All 29 Lines
	; IR-NEXT: [[VAL_LOAD2:%.*]] = extractelement <2 x i64> [[LOADED_OUT_KERNARG_OFFSET]], i32 1			; IR-NEXT: [[VAL_LOAD2:%.*]] = extractelement <2 x i64> [[LOADED_OUT_KERNARG_OFFSET]], i32 1
	; IR-NEXT: [[VALUE_ADDRESS:%.*]] = inttoptr i64 [[VAL_LOAD2]] to ptr addrspace(1)			; IR-NEXT: [[VALUE_ADDRESS:%.*]] = inttoptr i64 [[VAL_LOAD2]] to ptr addrspace(1)
	; IR-NEXT: [[LANE:%.*]] = tail call i32 @llvm.amdgcn.workitem.id.x()			; IR-NEXT: [[LANE:%.*]] = tail call i32 @llvm.amdgcn.workitem.id.x()
	; IR-NEXT: [[IDXPROM:%.*]] = sext i32 [[LANE]] to i64			; IR-NEXT: [[IDXPROM:%.*]] = sext i32 [[LANE]] to i64
	; IR-NEXT: [[ELE:%.*]] = getelementptr i32, ptr addrspace(1) [[VALUE_ADDRESS]], i64 [[IDXPROM]]			; IR-NEXT: [[ELE:%.*]] = getelementptr i32, ptr addrspace(1) [[VALUE_ADDRESS]], i64 [[IDXPROM]]
	; IR-NEXT: [[VALUE:%.*]] = load i32, ptr addrspace(1) [[ELE]], align 4			; IR-NEXT: [[VALUE:%.*]] = load i32, ptr addrspace(1) [[ELE]], align 4
	; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[MEM_LOCATION]], i32 4			; IR-NEXT: [[GEP:%.*]] = getelementptr i32, ptr addrspace(1) [[MEM_LOCATION]], i32 4
	; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)			; IR-NEXT: [[TMP0:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
	; IR-NEXT: [[TMP1:%.*]] = bitcast i64 [[TMP0]] to <2 x i32>			; IR-NEXT: [[TMP1:%.*]] = trunc i64 [[TMP0]] to i32
	; IR-NEXT: [[TMP2:%.*]] = extractelement <2 x i32> [[TMP1]], i32 0			; IR-NEXT: [[TMP2:%.*]] = lshr i64 [[TMP0]], 32
	; IR-NEXT: [[TMP3:%.*]] = extractelement <2 x i32> [[TMP1]], i32 1			; IR-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32
	; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)			; IR-NEXT: [[TMP4:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP1]], i32 0)
	; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])			; IR-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP3]], i32 [[TMP4]])
	; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)			; IR-NEXT: [[TMP6:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
	; IR-NEXT: br label [[COMPUTELOOP:%.*]]			; IR-NEXT: br label [[COMPUTELOOP:%.*]]
	; IR: 7:			; IR: 7:
	; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP13:%.]] seq_cst, align 4			; IR-NEXT: [[TMP8:%.]] = atomicrmw volatile add ptr addrspace(1) [[GEP]], i32 [[TMP13:%.]] seq_cst, align 4
	; IR-NEXT: br label [[TMP9:%.*]]			; IR-NEXT: br label [[TMP9:%.*]]
	; IR: 9:			; IR: 9:
	; IR-NEXT: ret void			; IR-NEXT: ret void
	▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/global_atomics_iterative_scan_fp.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
				; RUN: opt -S -mtriple=amdgcn-- -amdgpu-atomic-optimizer-strategy=Iterative -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR-ITERATIVE %s
				; RUN: opt -S -mtriple=amdgcn-- -amdgpu-atomic-optimizer-strategy=DPP -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR-DPP %s
				declare i32 @llvm.amdgcn.workitem.id.x()
				define amdgpu_kernel void @global_atomic_fadd_uni_value(ptr addrspace(1) %ptr) #0 {
				; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_value(
				; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: [[TMP2:%.*]] = trunc i64 [[TMP1]] to i32
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = lshr i64 [[TMP1]], 32
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP4]], i32 [[TMP5]])
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP1]])
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = trunc i64 [[TMP7]] to i32
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = uitofp i32 [[TMP8]] to float
				; IR-ITERATIVE-NEXT: [[TMP10:%.*]] = fmul float 4.000000e+00, [[TMP9]]
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = icmp eq i32 [[TMP6]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP11]], label [[TMP12:%.]], label [[TMP14:%.]]
				; IR-ITERATIVE: 12:
				; IR-ITERATIVE-NEXT: [[TMP13:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP10]] seq_cst, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP14]]
				; IR-ITERATIVE: 14:
				; IR-ITERATIVE-NEXT: ret void
				;
				; IR-DPP-LABEL: @global_atomic_fadd_uni_value(
				; IR-DPP-NEXT: [[TMP1:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-DPP-NEXT: [[TMP2:%.*]] = trunc i64 [[TMP1]] to i32
				; IR-DPP-NEXT: [[TMP3:%.*]] = lshr i64 [[TMP1]], 32
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)
				; IR-DPP-NEXT: [[TMP6:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP4]], i32 [[TMP5]])
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP1]])
				; IR-DPP-NEXT: [[TMP8:%.*]] = trunc i64 [[TMP7]] to i32
				; IR-DPP-NEXT: [[TMP9:%.*]] = uitofp i32 [[TMP8]] to float
				; IR-DPP-NEXT: [[TMP10:%.*]] = fmul float 4.000000e+00, [[TMP9]]
				; IR-DPP-NEXT: [[TMP11:%.*]] = icmp eq i32 [[TMP6]], 0
				; IR-DPP-NEXT: br i1 [[TMP11]], label [[TMP12:%.]], label [[TMP14:%.]]
				; IR-DPP: 12:
				; IR-DPP-NEXT: [[TMP13:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP10]] seq_cst, align 4
				; IR-DPP-NEXT: br label [[TMP14]]
				; IR-DPP: 14:
				; IR-DPP-NEXT: ret void
				;
				%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 seq_cst
				ret void
				}


				define amdgpu_kernel void @global_atomic_fadd_div_value(ptr addrspace(1) %ptr) #0 {
				; IR-ITERATIVE-LABEL: @global_atomic_fadd_div_value(
				; IR-ITERATIVE-NEXT: [[ID_X:%.*]] = call i32 @llvm.amdgcn.workitem.id.x()
				; IR-ITERATIVE-NEXT: [[DIVVALUE:%.*]] = bitcast i32 [[ID_X]] to float
				; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: [[TMP2:%.*]] = trunc i64 [[TMP1]] to i32
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = lshr i64 [[TMP1]], 32
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP4]], i32 [[TMP5]])
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: br label [[COMPUTELOOP:%.*]]
				; IR-ITERATIVE: 8:
				; IR-ITERATIVE-NEXT: [[TMP9:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP16:%.*]] seq_cst, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP10:%.*]]
				; IR-ITERATIVE: 10:
				; IR-ITERATIVE-NEXT: ret void
				; IR-ITERATIVE: ComputeLoop:
				; IR-ITERATIVE-NEXT: [[ACCUMULATOR:%.]] = phi float [ -0.000000e+00, [[TMP0:%.]] ], [ [[TMP16]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[ACTIVEBITS:%.]] = phi i64 [ [[TMP7]], [[TMP0]] ], [ [[TMP19:%.]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = call i64 @llvm.cttz.i64(i64 [[ACTIVEBITS]], i1 true)
				; IR-ITERATIVE-NEXT: [[TMP12:%.*]] = trunc i64 [[TMP11]] to i32
				; IR-ITERATIVE-NEXT: [[TMP13:%.*]] = bitcast float [[DIVVALUE]] to i32
				; IR-ITERATIVE-NEXT: [[TMP14:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP13]], i32 [[TMP12]])
				; IR-ITERATIVE-NEXT: [[TMP15:%.*]] = bitcast i32 [[TMP14]] to float
				; IR-ITERATIVE-NEXT: [[TMP16]] = fadd float [[ACCUMULATOR]], [[TMP15]]
				; IR-ITERATIVE-NEXT: [[TMP17:%.*]] = shl i64 1, [[TMP11]]
				; IR-ITERATIVE-NEXT: [[TMP18:%.*]] = xor i64 [[TMP17]], -1
				; IR-ITERATIVE-NEXT: [[TMP19]] = and i64 [[ACTIVEBITS]], [[TMP18]]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = icmp eq i64 [[TMP19]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP20]], label [[COMPUTEEND:%.*]], label [[COMPUTELOOP]]
				; IR-ITERATIVE: ComputeEnd:
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = icmp eq i32 [[TMP6]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP21]], label [[TMP8:%.*]], label [[TMP10]]
				;
				; IR-DPP-LABEL: @global_atomic_fadd_div_value(
				; IR-DPP-NEXT: [[ID_X:%.*]] = call i32 @llvm.amdgcn.workitem.id.x()
				; IR-DPP-NEXT: [[DIVVALUE:%.*]] = bitcast i32 [[ID_X]] to float
				; IR-DPP-NEXT: [[TMP1:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-DPP-NEXT: [[TMP2:%.*]] = trunc i64 [[TMP1]] to i32
				; IR-DPP-NEXT: [[TMP3:%.*]] = lshr i64 [[TMP1]], 32
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)
				; IR-DPP-NEXT: [[TMP6:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP4]], i32 [[TMP5]])
				; IR-DPP-NEXT: [[TMP7:%.*]] = bitcast float [[DIVVALUE]] to i32
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.set.inactive.i32(i32 [[TMP7]], i32 -2147483648)
				; IR-DPP-NEXT: [[TMP9:%.*]] = bitcast i32 [[TMP8]] to float
				; IR-DPP-NEXT: [[TMP10:%.*]] = bitcast i32 [[TMP7]] to float
				; IR-DPP-NEXT: [[TMP11:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP9]], i32 273, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP12:%.*]] = fadd float [[TMP9]], [[TMP11]]
				; IR-DPP-NEXT: [[TMP13:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP12]], i32 274, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP14:%.*]] = fadd float [[TMP12]], [[TMP13]]
				; IR-DPP-NEXT: [[TMP15:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP14]], i32 276, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP16:%.*]] = fadd float [[TMP14]], [[TMP15]]
				; IR-DPP-NEXT: [[TMP17:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP16]], i32 280, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP18:%.*]] = fadd float [[TMP16]], [[TMP17]]
				; IR-DPP-NEXT: [[TMP19:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP18]], i32 322, i32 10, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP20:%.*]] = fadd float [[TMP18]], [[TMP19]]
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP20]], i32 323, i32 12, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP22:%.*]] = fadd float [[TMP20]], [[TMP21]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = bitcast float [[TMP22]] to i32
				; IR-DPP-NEXT: [[TMP24:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP23]], i32 63)
				; IR-DPP-NEXT: [[TMP25:%.*]] = bitcast i32 [[TMP24]] to float
				; IR-DPP-NEXT: [[TMP26:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP25]])
				; IR-DPP-NEXT: [[TMP27:%.*]] = icmp eq i32 [[TMP6]], 0
				; IR-DPP-NEXT: br i1 [[TMP27]], label [[TMP28:%.]], label [[TMP30:%.]]
				; IR-DPP: 28:
				; IR-DPP-NEXT: [[TMP29:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP26]] seq_cst, align 4
				; IR-DPP-NEXT: br label [[TMP30]]
				; IR-DPP: 30:
				; IR-DPP-NEXT: ret void
				;
				%id.x = call i32 @llvm.amdgcn.workitem.id.x()
				%divValue = bitcast i32 %id.x to float
				%result = atomicrmw fadd ptr addrspace(1) %ptr, float %divValue seq_cst
				ret void
				}

				define amdgpu_kernel void @global_atomic_fsub_uni_value(ptr addrspace(1) %ptr) #0 {
				; IR-ITERATIVE-LABEL: @global_atomic_fsub_uni_value(
				; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: [[TMP2:%.*]] = trunc i64 [[TMP1]] to i32
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = lshr i64 [[TMP1]], 32
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP4]], i32 [[TMP5]])
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP1]])
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = trunc i64 [[TMP7]] to i32
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = uitofp i32 [[TMP8]] to float
				; IR-ITERATIVE-NEXT: [[TMP10:%.*]] = fmul float 4.000000e+00, [[TMP9]]
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = icmp eq i32 [[TMP6]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP11]], label [[TMP12:%.]], label [[TMP14:%.]]
				; IR-ITERATIVE: 12:
				; IR-ITERATIVE-NEXT: [[TMP13:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP10]] seq_cst, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP14]]
				; IR-ITERATIVE: 14:
				; IR-ITERATIVE-NEXT: ret void
				;
				pravinjagtapAuthorUnsubmitted Done Reply Inline Actions This & next test points are already covered above. Will remove this. pravinjagtap: This & next test points are already covered above. Will remove this.
				; IR-DPP-LABEL: @global_atomic_fsub_uni_value(
				; IR-DPP-NEXT: [[TMP1:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-DPP-NEXT: [[TMP2:%.*]] = trunc i64 [[TMP1]] to i32
				; IR-DPP-NEXT: [[TMP3:%.*]] = lshr i64 [[TMP1]], 32
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)
				; IR-DPP-NEXT: [[TMP6:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP4]], i32 [[TMP5]])
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP1]])
				; IR-DPP-NEXT: [[TMP8:%.*]] = trunc i64 [[TMP7]] to i32
				; IR-DPP-NEXT: [[TMP9:%.*]] = uitofp i32 [[TMP8]] to float
				; IR-DPP-NEXT: [[TMP10:%.*]] = fmul float 4.000000e+00, [[TMP9]]
				; IR-DPP-NEXT: [[TMP11:%.*]] = icmp eq i32 [[TMP6]], 0
				; IR-DPP-NEXT: br i1 [[TMP11]], label [[TMP12:%.]], label [[TMP14:%.]]
				; IR-DPP: 12:
				; IR-DPP-NEXT: [[TMP13:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP10]] seq_cst, align 4
				; IR-DPP-NEXT: br label [[TMP14]]
				; IR-DPP: 14:
				; IR-DPP-NEXT: ret void
				;
				%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 seq_cst
				ret void
				}


				define amdgpu_kernel void @global_atomic_fsub_div_value(ptr addrspace(1) %ptr) #0 {
				; IR-ITERATIVE-LABEL: @global_atomic_fsub_div_value(
				; IR-ITERATIVE-NEXT: [[ID_X:%.*]] = call i32 @llvm.amdgcn.workitem.id.x()
				; IR-ITERATIVE-NEXT: [[DIVVALUE:%.*]] = bitcast i32 [[ID_X]] to float
				; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: [[TMP2:%.*]] = trunc i64 [[TMP1]] to i32
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = lshr i64 [[TMP1]], 32
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP4]], i32 [[TMP5]])
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: br label [[COMPUTELOOP:%.*]]
				; IR-ITERATIVE: 8:
				; IR-ITERATIVE-NEXT: [[TMP9:%.]] = atomicrmw fsub ptr addrspace(1) [[PTR:%.]], float [[TMP16:%.*]] seq_cst, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP10:%.*]]
				; IR-ITERATIVE: 10:
				; IR-ITERATIVE-NEXT: ret void
				; IR-ITERATIVE: ComputeLoop:
				; IR-ITERATIVE-NEXT: [[ACCUMULATOR:%.]] = phi float [ 0.000000e+00, [[TMP0:%.]] ], [ [[TMP16]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[ACTIVEBITS:%.]] = phi i64 [ [[TMP7]], [[TMP0]] ], [ [[TMP19:%.]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = call i64 @llvm.cttz.i64(i64 [[ACTIVEBITS]], i1 true)
				; IR-ITERATIVE-NEXT: [[TMP12:%.*]] = trunc i64 [[TMP11]] to i32
				; IR-ITERATIVE-NEXT: [[TMP13:%.*]] = bitcast float [[DIVVALUE]] to i32
				; IR-ITERATIVE-NEXT: [[TMP14:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP13]], i32 [[TMP12]])
				; IR-ITERATIVE-NEXT: [[TMP15:%.*]] = bitcast i32 [[TMP14]] to float
				; IR-ITERATIVE-NEXT: [[TMP16]] = fsub float [[ACCUMULATOR]], [[TMP15]]
				; IR-ITERATIVE-NEXT: [[TMP17:%.*]] = shl i64 1, [[TMP11]]
				; IR-ITERATIVE-NEXT: [[TMP18:%.*]] = xor i64 [[TMP17]], -1
				; IR-ITERATIVE-NEXT: [[TMP19]] = and i64 [[ACTIVEBITS]], [[TMP18]]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = icmp eq i64 [[TMP19]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP20]], label [[COMPUTEEND:%.*]], label [[COMPUTELOOP]]
				; IR-ITERATIVE: ComputeEnd:
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = icmp eq i32 [[TMP6]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP21]], label [[TMP8:%.*]], label [[TMP10]]
				;
				; IR-DPP-LABEL: @global_atomic_fsub_div_value(
				; IR-DPP-NEXT: [[ID_X:%.*]] = call i32 @llvm.amdgcn.workitem.id.x()
				; IR-DPP-NEXT: [[DIVVALUE:%.*]] = bitcast i32 [[ID_X]] to float
				; IR-DPP-NEXT: [[TMP1:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-DPP-NEXT: [[TMP2:%.*]] = trunc i64 [[TMP1]] to i32
				; IR-DPP-NEXT: [[TMP3:%.*]] = lshr i64 [[TMP1]], 32
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP2]], i32 0)
				; IR-DPP-NEXT: [[TMP6:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP4]], i32 [[TMP5]])
				; IR-DPP-NEXT: [[TMP7:%.*]] = bitcast float [[DIVVALUE]] to i32
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.set.inactive.i32(i32 [[TMP7]], i32 0)
				; IR-DPP-NEXT: [[TMP9:%.*]] = bitcast i32 [[TMP8]] to float
				; IR-DPP-NEXT: [[TMP10:%.*]] = bitcast i32 [[TMP7]] to float
				; IR-DPP-NEXT: [[TMP11:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP9]], i32 273, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP12:%.*]] = fsub float [[TMP9]], [[TMP11]]
				; IR-DPP-NEXT: [[TMP13:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP12]], i32 274, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP14:%.*]] = fsub float [[TMP12]], [[TMP13]]
				; IR-DPP-NEXT: [[TMP15:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP14]], i32 276, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP16:%.*]] = fsub float [[TMP14]], [[TMP15]]
				; IR-DPP-NEXT: [[TMP17:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP16]], i32 280, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP18:%.*]] = fsub float [[TMP16]], [[TMP17]]
				; IR-DPP-NEXT: [[TMP19:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP18]], i32 322, i32 10, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP20:%.*]] = fsub float [[TMP18]], [[TMP19]]
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP20]], i32 323, i32 12, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP22:%.*]] = fsub float [[TMP20]], [[TMP21]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = bitcast float [[TMP22]] to i32
				; IR-DPP-NEXT: [[TMP24:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP23]], i32 63)
				; IR-DPP-NEXT: [[TMP25:%.*]] = bitcast i32 [[TMP24]] to float
				; IR-DPP-NEXT: [[TMP26:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP25]])
				; IR-DPP-NEXT: [[TMP27:%.*]] = icmp eq i32 [[TMP6]], 0
				; IR-DPP-NEXT: br i1 [[TMP27]], label [[TMP28:%.]], label [[TMP30:%.]]
				; IR-DPP: 28:
				; IR-DPP-NEXT: [[TMP29:%.]] = atomicrmw fsub ptr addrspace(1) [[PTR:%.]], float [[TMP26]] seq_cst, align 4
				; IR-DPP-NEXT: br label [[TMP30]]
				; IR-DPP: 30:
				; IR-DPP-NEXT: ret void
				foadUnsubmitted Not Done Reply Inline Actions This fsub code does not look right (both strategies). First you do an fsub-reduction, and then you do an atomic fsub of the reduced value. That is like a double negative - you will end up adding the values to the memory location. I think you need to do an fadd reduction followed by an atomic fsub, or vice versa. Have you run any conformance tests that exercise this code? foad: This fsub code does not look right (both strategies). First you do an fsub-reduction, and then…
				pravinjagtapAuthorUnsubmitted Done Reply Inline Actions This holds true for integer sub also right? I have ran psdb and gfx pipeline which runs some conformance tests. I will take closer look to see test coverage required to exercise this. pravinjagtap: This holds true for integer sub also right? I have ran psdb and gfx pipeline which runs some…
				pravinjagtapAuthorUnsubmitted Done Reply Inline Actions This did not get caught because atomic `fsub` is transformed to `fadd` before we reach atomic-optimizer: https://cuda.godbolt.org/z/56ToP79Pb pravinjagtap: This did not get caught because atomic `fsub` is transformed to `fadd` before we reach atomic…
				foadUnsubmitted Not Done Reply Inline Actions For integer sub this is already handled by: const AtomicRMWInst::BinOp ScanOp = Op == AtomicRMWInst::Sub ? AtomicRMWInst::Add : Op; foad: For integer sub this is already handled by: ``` const AtomicRMWInst::BinOp ScanOp =…
				;
				%id.x = call i32 @llvm.amdgcn.workitem.id.x()
				%divValue = bitcast i32 %id.x to float
				%result = atomicrmw fsub ptr addrspace(1) %ptr, float %divValue seq_cst
				ret void
				}

				attributes #0 = {"target-cpu"="gfx906"}

llvm/test/CodeGen/AMDGPU/global_atomics_optimizer_fp_no_rtn.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt -S -mtriple=amdgcn-- -mcpu=gfx906 -amdgpu-atomic-optimizer-strategy=Iterative -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR-ITERATIVE %s			; RUN: opt -S -mtriple=amdgcn-- -mcpu=gfx906 -amdgpu-atomic-optimizer-strategy=Iterative -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR-ITERATIVE %s
	; RUN: opt -S -mtriple=amdgcn-- -mcpu=gfx906 -amdgpu-atomic-optimizer-strategy=DPP -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR-DPP %s			; RUN: opt -S -mtriple=amdgcn-- -mcpu=gfx906 -amdgpu-atomic-optimizer-strategy=DPP -passes='amdgpu-atomic-optimizer,verify<domtree>' %s \| FileCheck -check-prefix=IR-DPP %s

	define amdgpu_ps void @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float inreg %val) #0 {			define amdgpu_ps void @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float inreg %val) #0 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live()
				; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP17:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0)
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]])
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]])
				; IR-ITERATIVE-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = uitofp i32 [[TMP10]] to float
				; IR-ITERATIVE-NEXT: [[TMP12:%.]] = fmul float [[VAL:%.]], [[TMP11]]
				; IR-ITERATIVE-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-ITERATIVE: 14:
				; IR-ITERATIVE-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("agent") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP16]]
				; IR-ITERATIVE: 16:
				; IR-ITERATIVE-NEXT: br label [[TMP17]]
				; IR-ITERATIVE: 17:
	; IR-ITERATIVE-NEXT: ret void			; IR-ITERATIVE-NEXT: ret void
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live()
				; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP17:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0)
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]])
				; IR-DPP-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]])
				; IR-DPP-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-DPP-NEXT: [[TMP11:%.*]] = uitofp i32 [[TMP10]] to float
				; IR-DPP-NEXT: [[TMP12:%.]] = fmul float [[VAL:%.]], [[TMP11]]
				; IR-DPP-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-DPP: 14:
				; IR-DPP-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("agent") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP16]]
				; IR-DPP: 16:
				; IR-DPP-NEXT: br label [[TMP17]]
				; IR-DPP: 17:
	; IR-DPP-NEXT: ret void			; IR-DPP-NEXT: ret void
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic, align 4			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic, align 4
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float %val) #0 {			define amdgpu_ps void @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float %val) #0 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live()
	; IR-ITERATIVE-NEXT: ret void			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP13:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0)
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]])
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-ITERATIVE-NEXT: br label [[COMPUTELOOP:%.*]]
				; IR-ITERATIVE: 10:
				; IR-ITERATIVE-NEXT: [[TMP11:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP19:%.*]] syncscope("agent") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP12:%.*]]
				; IR-ITERATIVE: 12:
				; IR-ITERATIVE-NEXT: br label [[TMP13]]
				; IR-ITERATIVE: 13:
				; IR-ITERATIVE-NEXT: ret void
				; IR-ITERATIVE: ComputeLoop:
				; IR-ITERATIVE-NEXT: [[ACCUMULATOR:%.*]] = phi float [ -0.000000e+00, [[TMP2]] ], [ [[TMP19]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[ACTIVEBITS:%.]] = phi i64 [ [[TMP9]], [[TMP2]] ], [ [[TMP22:%.]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[TMP14:%.*]] = call i64 @llvm.cttz.i64(i64 [[ACTIVEBITS]], i1 true)
				; IR-ITERATIVE-NEXT: [[TMP15:%.*]] = trunc i64 [[TMP14]] to i32
				; IR-ITERATIVE-NEXT: [[TMP16:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-ITERATIVE-NEXT: [[TMP17:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP16]], i32 [[TMP15]])
				; IR-ITERATIVE-NEXT: [[TMP18:%.*]] = bitcast i32 [[TMP17]] to float
				; IR-ITERATIVE-NEXT: [[TMP19]] = fadd float [[ACCUMULATOR]], [[TMP18]]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = shl i64 1, [[TMP14]]
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = xor i64 [[TMP20]], -1
				; IR-ITERATIVE-NEXT: [[TMP22]] = and i64 [[ACTIVEBITS]], [[TMP21]]
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = icmp eq i64 [[TMP22]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP23]], label [[COMPUTEEND:%.*]], label [[COMPUTELOOP]]
				; IR-ITERATIVE: ComputeEnd:
				; IR-ITERATIVE-NEXT: [[TMP24:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP24]], label [[TMP10:%.*]], label [[TMP12]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_scope_agent_scope_unsafe(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live()
				; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP33:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true)
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0)
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]])
				; IR-DPP-NEXT: [[TMP9:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-DPP-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.set.inactive.i32(i32 [[TMP9]], i32 -2147483648)
				; IR-DPP-NEXT: [[TMP11:%.*]] = bitcast i32 [[TMP10]] to float
				; IR-DPP-NEXT: [[TMP12:%.*]] = bitcast i32 [[TMP9]] to float
				; IR-DPP-NEXT: [[TMP13:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP11]], i32 273, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP14:%.*]] = fadd float [[TMP11]], [[TMP13]]
				; IR-DPP-NEXT: [[TMP15:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP14]], i32 274, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP16:%.*]] = fadd float [[TMP14]], [[TMP15]]
				; IR-DPP-NEXT: [[TMP17:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP16]], i32 276, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP18:%.*]] = fadd float [[TMP16]], [[TMP17]]
				; IR-DPP-NEXT: [[TMP19:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP18]], i32 280, i32 15, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP20:%.*]] = fadd float [[TMP18]], [[TMP19]]
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP20]], i32 322, i32 10, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP22:%.*]] = fadd float [[TMP20]], [[TMP21]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP22]], i32 323, i32 12, i32 15, i1 false)
				; IR-DPP-NEXT: [[TMP24:%.*]] = fadd float [[TMP22]], [[TMP23]]
				; IR-DPP-NEXT: [[TMP25:%.*]] = bitcast float [[TMP24]] to i32
				; IR-DPP-NEXT: [[TMP26:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP25]], i32 63)
				; IR-DPP-NEXT: [[TMP27:%.*]] = bitcast i32 [[TMP26]] to float
				; IR-DPP-NEXT: [[TMP28:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP27]])
				; IR-DPP-NEXT: [[TMP29:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP29]], label [[TMP30:%.]], label [[TMP32:%.]]
				; IR-DPP: 30:
				; IR-DPP-NEXT: [[TMP31:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP28]] syncscope("agent") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP32]]
				; IR-DPP: 32:
				; IR-DPP-NEXT: br label [[TMP33]]
				; IR-DPP: 33:
	; IR-DPP-NEXT: ret void			; IR-DPP-NEXT: ret void
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic, align 4			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic, align 4
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(ptr addrspace(1) inreg %ptr, float inreg %val) #1 {			define amdgpu_ps void @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(ptr addrspace(1) inreg %ptr, float inreg %val) #1 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("one-as") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7:[0-9]+]]
				; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP17:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-ITERATIVE: 14:
				; IR-ITERATIVE-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("one-as") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP16]]
				; IR-ITERATIVE: 16:
				; IR-ITERATIVE-NEXT: br label [[TMP17]]
				; IR-ITERATIVE: 17:
	; IR-ITERATIVE-NEXT: ret void			; IR-ITERATIVE-NEXT: ret void
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_one_as_scope_unsafe_structfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("one-as") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8:[0-9]+]]
				; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP17:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-DPP-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-DPP: 14:
				; IR-DPP-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("one-as") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP16]]
				; IR-DPP: 16:
				; IR-DPP-NEXT: br label [[TMP17]]
				; IR-DPP: 17:
	; IR-DPP-NEXT: ret void			; IR-DPP-NEXT: ret void
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("one-as") monotonic			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("one-as") monotonic
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(ptr addrspace(1) inreg %ptr, float %val) #1 {			define amdgpu_ps void @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(ptr addrspace(1) inreg %ptr, float %val) #1 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("one-as") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7]]
	; IR-ITERATIVE-NEXT: ret void			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP13:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[COMPUTELOOP:%.*]]
				; IR-ITERATIVE: 10:
				; IR-ITERATIVE-NEXT: [[TMP11:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP19:%.*]] syncscope("one-as") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP12:%.*]]
				; IR-ITERATIVE: 12:
				; IR-ITERATIVE-NEXT: br label [[TMP13]]
				; IR-ITERATIVE: 13:
				; IR-ITERATIVE-NEXT: ret void
				; IR-ITERATIVE: ComputeLoop:
				; IR-ITERATIVE-NEXT: [[ACCUMULATOR:%.*]] = phi float [ -0.000000e+00, [[TMP2]] ], [ [[TMP19]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[ACTIVEBITS:%.]] = phi i64 [ [[TMP9]], [[TMP2]] ], [ [[TMP22:%.]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[TMP14:%.*]] = call i64 @llvm.cttz.i64(i64 [[ACTIVEBITS]], i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP15:%.*]] = trunc i64 [[TMP14]] to i32
				; IR-ITERATIVE-NEXT: [[TMP16:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-ITERATIVE-NEXT: [[TMP17:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP16]], i32 [[TMP15]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP18:%.*]] = bitcast i32 [[TMP17]] to float
				; IR-ITERATIVE-NEXT: [[TMP19]] = call float @llvm.experimental.constrained.fadd.f32(float [[ACCUMULATOR]], float [[TMP18]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = shl i64 1, [[TMP14]]
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = xor i64 [[TMP20]], -1
				; IR-ITERATIVE-NEXT: [[TMP22]] = and i64 [[ACTIVEBITS]], [[TMP21]]
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = icmp eq i64 [[TMP22]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP23]], label [[COMPUTEEND:%.*]], label [[COMPUTELOOP]]
				; IR-ITERATIVE: ComputeEnd:
				; IR-ITERATIVE-NEXT: [[TMP24:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP24]], label [[TMP10:%.*]], label [[TMP12]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_one_as_scope_unsafe_structfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("one-as") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8]]
				; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP33:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-DPP-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.set.inactive.i32(i32 [[TMP9]], i32 -2147483648) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP11:%.*]] = bitcast i32 [[TMP10]] to float
				; IR-DPP-NEXT: [[TMP12:%.*]] = bitcast i32 [[TMP9]] to float
				; IR-DPP-NEXT: [[TMP13:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP11]], i32 273, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP14:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP11]], float [[TMP13]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP15:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP14]], i32 274, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP16:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP14]], float [[TMP15]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP17:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP16]], i32 276, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP18:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP16]], float [[TMP17]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP19:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP18]], i32 280, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP20:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP18]], float [[TMP19]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP20]], i32 322, i32 10, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP20]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP22]], i32 323, i32 12, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP24:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP22]], float [[TMP23]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP25:%.*]] = bitcast float [[TMP24]] to i32
				; IR-DPP-NEXT: [[TMP26:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP25]], i32 63) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP27:%.*]] = bitcast i32 [[TMP26]] to float
				; IR-DPP-NEXT: [[TMP28:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP27]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP29:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP29]], label [[TMP30:%.]], label [[TMP32:%.]]
				; IR-DPP: 30:
				; IR-DPP-NEXT: [[TMP31:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP28]] syncscope("one-as") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP32]]
				; IR-DPP: 32:
				; IR-DPP-NEXT: br label [[TMP33]]
				; IR-DPP: 33:
	; IR-DPP-NEXT: ret void			; IR-DPP-NEXT: ret void
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("one-as") monotonic			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("one-as") monotonic
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(ptr addrspace(1) inreg %ptr, float inreg %val) #2 {			define amdgpu_ps void @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(ptr addrspace(1) inreg %ptr, float inreg %val) #2 {
	; IR-ITERATIVE-LABEL: @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(			; IR-ITERATIVE-LABEL: @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP17:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-ITERATIVE: 14:
				; IR-ITERATIVE-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("agent") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP16]]
				; IR-ITERATIVE: 16:
				; IR-ITERATIVE-NEXT: br label [[TMP17]]
				; IR-ITERATIVE: 17:
	; IR-ITERATIVE-NEXT: ret void			; IR-ITERATIVE-NEXT: ret void
	;			;
	; IR-DPP-LABEL: @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(			; IR-DPP-LABEL: @global_atomic_fsub_uni_address_uni_value_agent_scope_strictfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8]]
				; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP17:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-DPP-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-DPP: 14:
				; IR-DPP-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] syncscope("agent") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP16]]
				; IR-DPP: 16:
				; IR-DPP-NEXT: br label [[TMP17]]
				; IR-DPP: 17:
	; IR-DPP-NEXT: ret void			; IR-DPP-NEXT: ret void
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic
	ret void			ret void
	}			}


	define amdgpu_ps void @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(ptr addrspace(1) inreg %ptr, float %val) #2 {			define amdgpu_ps void @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(ptr addrspace(1) inreg %ptr, float %val) #2 {
	; IR-ITERATIVE-LABEL: @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(			; IR-ITERATIVE-LABEL: @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fsub ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7]]
	; IR-ITERATIVE-NEXT: ret void			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP13:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[COMPUTELOOP:%.*]]
				; IR-ITERATIVE: 10:
				; IR-ITERATIVE-NEXT: [[TMP11:%.]] = atomicrmw fsub ptr addrspace(1) [[PTR:%.]], float [[TMP19:%.*]] syncscope("agent") monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP12:%.*]]
				; IR-ITERATIVE: 12:
				; IR-ITERATIVE-NEXT: br label [[TMP13]]
				; IR-ITERATIVE: 13:
				; IR-ITERATIVE-NEXT: ret void
				; IR-ITERATIVE: ComputeLoop:
				; IR-ITERATIVE-NEXT: [[ACCUMULATOR:%.*]] = phi float [ 0.000000e+00, [[TMP2]] ], [ [[TMP19]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[ACTIVEBITS:%.]] = phi i64 [ [[TMP9]], [[TMP2]] ], [ [[TMP22:%.]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[TMP14:%.*]] = call i64 @llvm.cttz.i64(i64 [[ACTIVEBITS]], i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP15:%.*]] = trunc i64 [[TMP14]] to i32
				; IR-ITERATIVE-NEXT: [[TMP16:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-ITERATIVE-NEXT: [[TMP17:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP16]], i32 [[TMP15]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP18:%.*]] = bitcast i32 [[TMP17]] to float
				; IR-ITERATIVE-NEXT: [[TMP19]] = call float @llvm.experimental.constrained.fsub.f32(float [[ACCUMULATOR]], float [[TMP18]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = shl i64 1, [[TMP14]]
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = xor i64 [[TMP20]], -1
				; IR-ITERATIVE-NEXT: [[TMP22]] = and i64 [[ACTIVEBITS]], [[TMP21]]
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = icmp eq i64 [[TMP22]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP23]], label [[COMPUTEEND:%.*]], label [[COMPUTELOOP]]
				; IR-ITERATIVE: ComputeEnd:
				; IR-ITERATIVE-NEXT: [[TMP24:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP24]], label [[TMP10:%.*]], label [[TMP12]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(			; IR-DPP-LABEL: @global_atomic_fsub_uni_address_div_value_agent_scope_strictfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fsub ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] syncscope("agent") monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8]]
				; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP33:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-DPP-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.set.inactive.i32(i32 [[TMP9]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP11:%.*]] = bitcast i32 [[TMP10]] to float
				; IR-DPP-NEXT: [[TMP12:%.*]] = bitcast i32 [[TMP9]] to float
				; IR-DPP-NEXT: [[TMP13:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP11]], i32 273, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP14:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP11]], float [[TMP13]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP15:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP14]], i32 274, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP16:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP14]], float [[TMP15]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP17:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP16]], i32 276, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP18:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP16]], float [[TMP17]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP19:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP18]], i32 280, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP20:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP18]], float [[TMP19]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP20]], i32 322, i32 10, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP20]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float 0.000000e+00, float [[TMP22]], i32 323, i32 12, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP24:%.*]] = call float @llvm.experimental.constrained.fsub.f32(float [[TMP22]], float [[TMP23]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP25:%.*]] = bitcast float [[TMP24]] to i32
				; IR-DPP-NEXT: [[TMP26:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP25]], i32 63) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP27:%.*]] = bitcast i32 [[TMP26]] to float
				; IR-DPP-NEXT: [[TMP28:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP27]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP29:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP29]], label [[TMP30:%.]], label [[TMP32:%.]]
				; IR-DPP: 30:
				; IR-DPP-NEXT: [[TMP31:%.]] = atomicrmw fsub ptr addrspace(1) [[PTR:%.]], float [[TMP28]] syncscope("agent") monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP32]]
				; IR-DPP: 32:
				; IR-DPP-NEXT: br label [[TMP33]]
				; IR-DPP: 33:
	; IR-DPP-NEXT: ret void			; IR-DPP-NEXT: ret void
	;			;
	%result = atomicrmw fsub ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic			%result = atomicrmw fsub ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fmin_uni_address_uni_value_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float inreg %val) #0 {			define amdgpu_ps void @global_atomic_fmin_uni_address_uni_value_agent_scope_unsafe(ptr addrspace(1) inreg %ptr, float inreg %val) #0 {
	; IR-ITERATIVE-LABEL: @global_atomic_fmin_uni_address_uni_value_agent_scope_unsafe(			; IR-ITERATIVE-LABEL: @global_atomic_fmin_uni_address_uni_value_agent_scope_unsafe(
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; IR-DPP-NEXT: ret void			; IR-DPP-NEXT: ret void
	;			;
	%result = atomicrmw fmax ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic			%result = atomicrmw fmax ptr addrspace(1) %ptr, float %val syncscope("agent") monotonic
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(ptr addrspace(1) inreg %ptr, float inreg %val) #2 {			define amdgpu_ps void @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(ptr addrspace(1) inreg %ptr, float inreg %val) #2 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP17:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-ITERATIVE-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-ITERATIVE: 14:
				; IR-ITERATIVE-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP16]]
				; IR-ITERATIVE: 16:
				; IR-ITERATIVE-NEXT: br label [[TMP17]]
				; IR-ITERATIVE: 17:
	; IR-ITERATIVE-NEXT: ret void			; IR-ITERATIVE-NEXT: ret void
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_uni_value_system_scope_strictfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8]]
				; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP17:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.*]] = call i64 @llvm.ctpop.i64(i64 [[TMP3]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP10:%.*]] = trunc i64 [[TMP9]] to i32
				; IR-DPP-NEXT: [[TMP11:%.*]] = call float @llvm.experimental.constrained.uitofp.f32.i32(i32 [[TMP10]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP12:%.]] = call float @llvm.experimental.constrained.fmul.f32(float [[VAL:%.]], float [[TMP11]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP13:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP13]], label [[TMP14:%.]], label [[TMP16:%.]]
				; IR-DPP: 14:
				; IR-DPP-NEXT: [[TMP15:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP12]] monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP16]]
				; IR-DPP: 16:
				; IR-DPP-NEXT: br label [[TMP17]]
				; IR-DPP: 17:
	; IR-DPP-NEXT: ret void			; IR-DPP-NEXT: ret void
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val monotonic, align 4			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val monotonic, align 4
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(ptr addrspace(1) inreg %ptr, float %val) #2 {			define amdgpu_ps void @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(ptr addrspace(1) inreg %ptr, float %val) #2 {
	; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(			; IR-ITERATIVE-LABEL: @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(
	; IR-ITERATIVE-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] monotonic, align 4			; IR-ITERATIVE-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR7]]
	; IR-ITERATIVE-NEXT: ret void			; IR-ITERATIVE-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP13:%.]]
				; IR-ITERATIVE: 2:
				; IR-ITERATIVE-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-ITERATIVE-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-ITERATIVE-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-ITERATIVE-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP9:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: br label [[COMPUTELOOP:%.*]]
				; IR-ITERATIVE: 10:
				; IR-ITERATIVE-NEXT: [[TMP11:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP19:%.*]] monotonic, align 4
				; IR-ITERATIVE-NEXT: br label [[TMP12:%.*]]
				; IR-ITERATIVE: 12:
				; IR-ITERATIVE-NEXT: br label [[TMP13]]
				; IR-ITERATIVE: 13:
				; IR-ITERATIVE-NEXT: ret void
				; IR-ITERATIVE: ComputeLoop:
				; IR-ITERATIVE-NEXT: [[ACCUMULATOR:%.*]] = phi float [ -0.000000e+00, [[TMP2]] ], [ [[TMP19]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[ACTIVEBITS:%.]] = phi i64 [ [[TMP9]], [[TMP2]] ], [ [[TMP22:%.]], [[COMPUTELOOP]] ]
				; IR-ITERATIVE-NEXT: [[TMP14:%.*]] = call i64 @llvm.cttz.i64(i64 [[ACTIVEBITS]], i1 true) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP15:%.*]] = trunc i64 [[TMP14]] to i32
				; IR-ITERATIVE-NEXT: [[TMP16:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-ITERATIVE-NEXT: [[TMP17:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP16]], i32 [[TMP15]]) #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP18:%.*]] = bitcast i32 [[TMP17]] to float
				; IR-ITERATIVE-NEXT: [[TMP19]] = call float @llvm.experimental.constrained.fadd.f32(float [[ACCUMULATOR]], float [[TMP18]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR7]]
				; IR-ITERATIVE-NEXT: [[TMP20:%.*]] = shl i64 1, [[TMP14]]
				; IR-ITERATIVE-NEXT: [[TMP21:%.*]] = xor i64 [[TMP20]], -1
				; IR-ITERATIVE-NEXT: [[TMP22]] = and i64 [[ACTIVEBITS]], [[TMP21]]
				; IR-ITERATIVE-NEXT: [[TMP23:%.*]] = icmp eq i64 [[TMP22]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP23]], label [[COMPUTEEND:%.*]], label [[COMPUTELOOP]]
				; IR-ITERATIVE: ComputeEnd:
				; IR-ITERATIVE-NEXT: [[TMP24:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-ITERATIVE-NEXT: br i1 [[TMP24]], label [[TMP10:%.*]], label [[TMP12]]
	;			;
	; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(			; IR-DPP-LABEL: @global_atomic_fadd_uni_address_div_value_system_scope_strictfp(
	; IR-DPP-NEXT: [[RESULT:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[VAL:%.*]] monotonic, align 4			; IR-DPP-NEXT: [[TMP1:%.*]] = call i1 @llvm.amdgcn.ps.live() #[[ATTR8]]
				; IR-DPP-NEXT: br i1 [[TMP1]], label [[TMP2:%.]], label [[TMP33:%.]]
				; IR-DPP: 2:
				; IR-DPP-NEXT: [[TMP3:%.*]] = call i64 @llvm.amdgcn.ballot.i64(i1 true) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
				; IR-DPP-NEXT: [[TMP5:%.*]] = lshr i64 [[TMP3]], 32
				; IR-DPP-NEXT: [[TMP6:%.*]] = trunc i64 [[TMP5]] to i32
				; IR-DPP-NEXT: [[TMP7:%.*]] = call i32 @llvm.amdgcn.mbcnt.lo(i32 [[TMP4]], i32 0) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP8:%.*]] = call i32 @llvm.amdgcn.mbcnt.hi(i32 [[TMP6]], i32 [[TMP7]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP9:%.]] = bitcast float [[VAL:%.]] to i32
				; IR-DPP-NEXT: [[TMP10:%.*]] = call i32 @llvm.amdgcn.set.inactive.i32(i32 [[TMP9]], i32 -2147483648) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP11:%.*]] = bitcast i32 [[TMP10]] to float
				; IR-DPP-NEXT: [[TMP12:%.*]] = bitcast i32 [[TMP9]] to float
				; IR-DPP-NEXT: [[TMP13:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP11]], i32 273, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP14:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP11]], float [[TMP13]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP15:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP14]], i32 274, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP16:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP14]], float [[TMP15]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP17:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP16]], i32 276, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP18:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP16]], float [[TMP17]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP19:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP18]], i32 280, i32 15, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP20:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP18]], float [[TMP19]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP21:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP20]], i32 322, i32 10, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP22:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP20]], float [[TMP21]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP23:%.*]] = call float @llvm.amdgcn.update.dpp.f32(float -0.000000e+00, float [[TMP22]], i32 323, i32 12, i32 15, i1 false) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP24:%.*]] = call float @llvm.experimental.constrained.fadd.f32(float [[TMP22]], float [[TMP23]], metadata !"round.dynamic", metadata !"fpexcept.strict") #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP25:%.*]] = bitcast float [[TMP24]] to i32
				; IR-DPP-NEXT: [[TMP26:%.*]] = call i32 @llvm.amdgcn.readlane(i32 [[TMP25]], i32 63) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP27:%.*]] = bitcast i32 [[TMP26]] to float
				; IR-DPP-NEXT: [[TMP28:%.*]] = call float @llvm.amdgcn.strict.wwm.f32(float [[TMP27]]) #[[ATTR8]]
				; IR-DPP-NEXT: [[TMP29:%.*]] = icmp eq i32 [[TMP8]], 0
				; IR-DPP-NEXT: br i1 [[TMP29]], label [[TMP30:%.]], label [[TMP32:%.]]
				; IR-DPP: 30:
				; IR-DPP-NEXT: [[TMP31:%.]] = atomicrmw fadd ptr addrspace(1) [[PTR:%.]], float [[TMP28]] monotonic, align 4
				; IR-DPP-NEXT: br label [[TMP32]]
				; IR-DPP: 32:
				; IR-DPP-NEXT: br label [[TMP33]]
				; IR-DPP: 33:
	; IR-DPP-NEXT: ret void			; IR-DPP-NEXT: ret void
	;			;
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val monotonic, align 4			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %val monotonic, align 4
	ret void			ret void
	}			}


	define amdgpu_ps void @global_atomic_fadd_div_address_uni_value_agent_scope_unsafe(ptr addrspace(1) %ptr, float inreg %val) #0 {			define amdgpu_ps void @global_atomic_fadd_div_address_uni_value_agent_scope_unsafe(ptr addrspace(1) %ptr, float inreg %val) #0 {
	▲ Show 20 Lines • Show All 159 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/global_atomics_scan_fadd.ll

	Show First 20 Lines • Show All 103 Lines • ▼ Show 20 Lines
	; GFX1032-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX1032-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX1032-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX1032-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX1032-NEXT: s_cbranch_execnz .LBB0_1			; GFX1032-NEXT: s_cbranch_execnz .LBB0_1
	; GFX1032-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX1032-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	;			;
	; GFX1164-LABEL: global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe:			; GFX1164-LABEL: global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe:
	; GFX1164: ; %bb.0:			; GFX1164: ; %bb.0:
				; GFX1164-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164-NEXT: s_mov_b64 s[4:5], exec
				; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
				; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v0, s3, v0
				; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v0
				; GFX1164-NEXT: s_cbranch_execz .LBB0_2
				; GFX1164-NEXT: ; %bb.1:
	; GFX1164-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX1164-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX1164-NEXT: v_mov_b32_e32 v0, 0			; GFX1164-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
	; GFX1164-NEXT: v_mov_b32_e32 v1, 4.0			; GFX1164-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164-NEXT: v_cvt_f32_ubyte0_e32 v0, s2
				; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX1164-NEXT: v_mul_f32_e32 v0, 4.0, v0
	; GFX1164-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-NEXT: global_atomic_add_f32 v0, v1, s[0:1]			; GFX1164-NEXT: global_atomic_add_f32 v1, v0, s[0:1]
				; GFX1164-NEXT: .LBB0_2:
	; GFX1164-NEXT: s_nop 0			; GFX1164-NEXT: s_nop 0
	; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-NEXT: s_endpgm			; GFX1164-NEXT: s_endpgm
	;			;
	; GFX1132-LABEL: global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe:			; GFX1132-LABEL: global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe:
	; GFX1132: ; %bb.0:			; GFX1132: ; %bb.0:
				; GFX1132-NEXT: s_mov_b32 s2, exec_lo
				; GFX1132-NEXT: s_mov_b32 s3, exec_lo
				; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
				; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v0
				; GFX1132-NEXT: s_cbranch_execz .LBB0_2
				; GFX1132-NEXT: ; %bb.1:
	; GFX1132-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX1132-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX1132-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0			; GFX1132-NEXT: s_bcnt1_i32_b32 s2, s2
				; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-NEXT: v_cvt_f32_ubyte0_e32 v0, s2
				; GFX1132-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_mul_f32 v0, 4.0, v0
	; GFX1132-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-NEXT: global_atomic_add_f32 v0, v1, s[0:1]			; GFX1132-NEXT: global_atomic_add_f32 v1, v0, s[0:1]
				; GFX1132-NEXT: .LBB0_2:
	; GFX1132-NEXT: s_nop 0			; GFX1132-NEXT: s_nop 0
	; GFX1132-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1132-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1132-NEXT: s_endpgm			; GFX1132-NEXT: s_endpgm
	;			;
	; GFX9-DPP-LABEL: global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe:			; GFX9-DPP-LABEL: global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe:
	; GFX9-DPP: ; %bb.0:			; GFX9-DPP: ; %bb.0:
	; GFX9-DPP-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-DPP-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-DPP-NEXT: s_mov_b64 s[2:3], 0			; GFX9-DPP-NEXT: s_mov_b64 s[2:3], 0
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; GFX1032-DPP-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX1032-DPP-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX1032-DPP-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX1032-DPP-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX1032-DPP-NEXT: s_cbranch_execnz .LBB0_1			; GFX1032-DPP-NEXT: s_cbranch_execnz .LBB0_1
	; GFX1032-DPP-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX1032-DPP-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX1032-DPP-NEXT: s_endpgm			; GFX1032-DPP-NEXT: s_endpgm
	;			;
	; GFX1164-DPP-LABEL: global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe:			; GFX1164-DPP-LABEL: global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe:
	; GFX1164-DPP: ; %bb.0:			; GFX1164-DPP: ; %bb.0:
				; GFX1164-DPP-NEXT: s_mov_b64 s[2:3], exec
				; GFX1164-DPP-NEXT: s_mov_b64 s[4:5], exec
				; GFX1164-DPP-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-DPP-NEXT: v_mbcnt_hi_u32_b32 v0, s3, v0
				; GFX1164-DPP-NEXT: v_cmpx_eq_u32_e32 0, v0
				; GFX1164-DPP-NEXT: s_cbranch_execz .LBB0_2
				; GFX1164-DPP-NEXT: ; %bb.1:
	; GFX1164-DPP-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX1164-DPP-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX1164-DPP-NEXT: v_mov_b32_e32 v0, 0			; GFX1164-DPP-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
	; GFX1164-DPP-NEXT: v_mov_b32_e32 v1, 4.0			; GFX1164-DPP-NEXT: v_mov_b32_e32 v1, 0
				; GFX1164-DPP-NEXT: v_cvt_f32_ubyte0_e32 v0, s2
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX1164-DPP-NEXT: v_mul_f32_e32 v0, 4.0, v0
	; GFX1164-DPP-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-DPP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-DPP-NEXT: global_atomic_add_f32 v0, v1, s[0:1]			; GFX1164-DPP-NEXT: global_atomic_add_f32 v1, v0, s[0:1]
				; GFX1164-DPP-NEXT: .LBB0_2:
	; GFX1164-DPP-NEXT: s_nop 0			; GFX1164-DPP-NEXT: s_nop 0
	; GFX1164-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-DPP-NEXT: s_endpgm			; GFX1164-DPP-NEXT: s_endpgm
	;			;
	; GFX1132-DPP-LABEL: global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe:			; GFX1132-DPP-LABEL: global_atomic_fadd_uni_address_uni_value_agent_scope_unsafe:
	; GFX1132-DPP: ; %bb.0:			; GFX1132-DPP: ; %bb.0:
				; GFX1132-DPP-NEXT: s_mov_b32 s2, exec_lo
				; GFX1132-DPP-NEXT: s_mov_b32 s3, exec_lo
				; GFX1132-DPP-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_cmpx_eq_u32_e32 0, v0
				; GFX1132-DPP-NEXT: s_cbranch_execz .LBB0_2
				; GFX1132-DPP-NEXT: ; %bb.1:
	; GFX1132-DPP-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX1132-DPP-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX1132-DPP-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0			; GFX1132-DPP-NEXT: s_bcnt1_i32_b32 s2, s2
				; GFX1132-DPP-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_cvt_f32_ubyte0_e32 v0, s2
				; GFX1132-DPP-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_mul_f32 v0, 4.0, v0
	; GFX1132-DPP-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-DPP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-DPP-NEXT: global_atomic_add_f32 v0, v1, s[0:1]			; GFX1132-DPP-NEXT: global_atomic_add_f32 v1, v0, s[0:1]
				; GFX1132-DPP-NEXT: .LBB0_2:
	; GFX1132-DPP-NEXT: s_nop 0			; GFX1132-DPP-NEXT: s_nop 0
	; GFX1132-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1132-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1132-DPP-NEXT: s_endpgm			; GFX1132-DPP-NEXT: s_endpgm
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") monotonic, align 4			%result = atomicrmw fadd ptr addrspace(1) %ptr, float 4.0 syncscope("agent") monotonic, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe(ptr addrspace(1) %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe(ptr addrspace(1) %ptr) #0 {
	▲ Show 20 Lines • Show All 183 Lines • ▼ Show 20 Lines
	; GFX1032-NEXT: s_or_b32 s0, vcc_lo, s0			; GFX1032-NEXT: s_or_b32 s0, vcc_lo, s0
	; GFX1032-NEXT: s_andn2_b32 exec_lo, exec_lo, s0			; GFX1032-NEXT: s_andn2_b32 exec_lo, exec_lo, s0
	; GFX1032-NEXT: s_cbranch_execnz .LBB1_1			; GFX1032-NEXT: s_cbranch_execnz .LBB1_1
	; GFX1032-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX1032-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	;			;
	; GFX1164-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe:			; GFX1164-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe:
	; GFX1164: ; %bb.0:			; GFX1164: ; %bb.0:
				; GFX1164-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1164-NEXT: s_mov_b32 s12, s8			; GFX1164-NEXT: s_mov_b32 s12, s8
	; GFX1164-NEXT: s_add_u32 s8, s4, 44			; GFX1164-NEXT: s_add_u32 s8, s34, 44
	; GFX1164-NEXT: s_mov_b32 s13, s9			; GFX1164-NEXT: s_mov_b32 s13, s9
	; GFX1164-NEXT: s_addc_u32 s9, s5, 0			; GFX1164-NEXT: s_addc_u32 s9, s35, 0
				; GFX1164-NEXT: s_getpc_b64 s[4:5]
				; GFX1164-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
				; GFX1164-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
				; GFX1164-NEXT: v_mov_b32_e32 v31, v0
				; GFX1164-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
	; GFX1164-NEXT: s_mov_b32 s14, s10			; GFX1164-NEXT: s_mov_b32 s14, s10
	; GFX1164-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1164-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1164-NEXT: s_getpc_b64 s[6:7]
	; GFX1164-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4
	; GFX1164-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12
	; GFX1164-NEXT: s_load_b64 s[16:17], s[6:7], 0x0
	; GFX1164-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1164-NEXT: v_mov_b32_e32 v31, v0
	; GFX1164-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1164-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1164-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1164-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1164-NEXT: s_mov_b32 s32, 0			; GFX1164-NEXT: s_mov_b32 s32, 0
	; GFX1164-NEXT: v_mov_b32_e32 v40, 0
	; GFX1164-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1164-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1164-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1164-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1164-NEXT: s_mov_b64 s[0:1], exec
				; GFX1164-NEXT: .LBB1_1: ; %ComputeLoop
				; GFX1164-NEXT: ; =>This Inner Loop Header: Depth=1
				; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_2) \| instid1(SALU_CYCLE_1)
				; GFX1164-NEXT: s_ctz_i32_b32 s2, s1
				; GFX1164-NEXT: s_ctz_i32_b32 s3, s0
				; GFX1164-NEXT: s_add_i32 s2, s2, 32
				; GFX1164-NEXT: s_min_u32 s2, s3, s2
				; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(SALU_CYCLE_1)
				; GFX1164-NEXT: v_readlane_b32 s4, v0, s2
				; GFX1164-NEXT: s_lshl_b64 s[2:3], 1, s2
				; GFX1164-NEXT: s_and_not1_b64 s[0:1], s[0:1], s[2:3]
				; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-NEXT: s_cmp_lg_u64 s[0:1], 0
				; GFX1164-NEXT: v_add_f32_e32 v1, s4, v1
				; GFX1164-NEXT: s_cbranch_scc1 .LBB1_1
				; GFX1164-NEXT: ; %bb.2: ; %ComputeEnd
				; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, exec_lo, 0
				; GFX1164-NEXT: s_mov_b64 s[0:1], exec
				; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v0, exec_hi, v0
				; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v0
				; GFX1164-NEXT: s_xor_b64 s[0:1], exec, s[0:1]
				; GFX1164-NEXT: s_cbranch_execz .LBB1_4
				; GFX1164-NEXT: ; %bb.3:
				; GFX1164-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1164-NEXT: v_mov_b32_e32 v0, 0
				; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
				; GFX1164-NEXT: .LBB1_4:
	; GFX1164-NEXT: s_nop 0			; GFX1164-NEXT: s_nop 0
	; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-NEXT: s_endpgm			; GFX1164-NEXT: s_endpgm
	;			;
	; GFX1132-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe:			; GFX1132-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe:
	; GFX1132: ; %bb.0:			; GFX1132: ; %bb.0:
	; GFX1132-NEXT: s_add_u32 s8, s4, 44			; GFX1132-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1132-NEXT: s_addc_u32 s9, s5, 0			; GFX1132-NEXT: v_mov_b32_e32 v31, v0
	; GFX1132-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1132-NEXT: s_add_u32 s8, s34, 44
	; GFX1132-NEXT: s_getpc_b64 s[6:7]			; GFX1132-NEXT: s_addc_u32 s9, s35, 0
	; GFX1132-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4			; GFX1132-NEXT: s_getpc_b64 s[4:5]
	; GFX1132-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12			; GFX1132-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
	; GFX1132-NEXT: s_load_b64 s[16:17], s[6:7], 0x0			; GFX1132-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
	; GFX1132-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1132-NEXT: v_dual_mov_b32 v40, 0 :: v_dual_mov_b32 v31, v0
	; GFX1132-NEXT: s_mov_b32 s12, s13			; GFX1132-NEXT: s_mov_b32 s12, s13
				; GFX1132-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
				; GFX1132-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1132-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1132-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1132-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1132-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1132-NEXT: s_mov_b32 s13, s14			; GFX1132-NEXT: s_mov_b32 s13, s14
	; GFX1132-NEXT: s_mov_b32 s14, s15			; GFX1132-NEXT: s_mov_b32 s14, s15
	; GFX1132-NEXT: s_mov_b32 s32, 0			; GFX1132-NEXT: s_mov_b32 s32, 0
	; GFX1132-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1132-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1132-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1132-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1132-NEXT: s_mov_b32 s0, exec_lo
				; GFX1132-NEXT: .LBB1_1: ; %ComputeLoop
				; GFX1132-NEXT: ; =>This Inner Loop Header: Depth=1
				; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
				; GFX1132-NEXT: s_ctz_i32_b32 s1, s0
				; GFX1132-NEXT: v_readlane_b32 s2, v0, s1
				; GFX1132-NEXT: s_lshl_b32 s1, 1, s1
				; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
				; GFX1132-NEXT: s_and_not1_b32 s0, s0, s1
				; GFX1132-NEXT: s_cmp_lg_u32 s0, 0
				; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX1132-NEXT: v_add_f32_e32 v1, s2, v1
				; GFX1132-NEXT: s_cbranch_scc1 .LBB1_1
				; GFX1132-NEXT: ; %bb.2: ; %ComputeEnd
				; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v0, exec_lo, 0
				; GFX1132-NEXT: s_mov_b32 s0, exec_lo
				; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v0
				; GFX1132-NEXT: s_xor_b32 s0, exec_lo, s0
				; GFX1132-NEXT: s_cbranch_execz .LBB1_4
				; GFX1132-NEXT: ; %bb.3:
				; GFX1132-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1132-NEXT: v_mov_b32_e32 v0, 0
				; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
				; GFX1132-NEXT: .LBB1_4:
	; GFX1132-NEXT: s_nop 0			; GFX1132-NEXT: s_nop 0
	; GFX1132-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1132-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1132-NEXT: s_endpgm			; GFX1132-NEXT: s_endpgm
	;			;
	; GFX9-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe:			; GFX9-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe:
	; GFX9-DPP: ; %bb.0:			; GFX9-DPP: ; %bb.0:
	; GFX9-DPP-NEXT: s_mov_b32 s36, SCRATCH_RSRC_DWORD0			; GFX9-DPP-NEXT: s_mov_b32 s36, SCRATCH_RSRC_DWORD0
	; GFX9-DPP-NEXT: s_mov_b32 s37, SCRATCH_RSRC_DWORD1			; GFX9-DPP-NEXT: s_mov_b32 s37, SCRATCH_RSRC_DWORD1
	▲ Show 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
	; GFX1032-DPP-NEXT: s_or_b32 s0, vcc_lo, s0			; GFX1032-DPP-NEXT: s_or_b32 s0, vcc_lo, s0
	; GFX1032-DPP-NEXT: s_andn2_b32 exec_lo, exec_lo, s0			; GFX1032-DPP-NEXT: s_andn2_b32 exec_lo, exec_lo, s0
	; GFX1032-DPP-NEXT: s_cbranch_execnz .LBB1_1			; GFX1032-DPP-NEXT: s_cbranch_execnz .LBB1_1
	; GFX1032-DPP-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX1032-DPP-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX1032-DPP-NEXT: s_endpgm			; GFX1032-DPP-NEXT: s_endpgm
	;			;
	; GFX1164-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe:			; GFX1164-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe:
	; GFX1164-DPP: ; %bb.0:			; GFX1164-DPP: ; %bb.0:
				; GFX1164-DPP-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1164-DPP-NEXT: s_mov_b32 s12, s8			; GFX1164-DPP-NEXT: s_mov_b32 s12, s8
	; GFX1164-DPP-NEXT: s_add_u32 s8, s4, 44			; GFX1164-DPP-NEXT: s_add_u32 s8, s34, 44
	; GFX1164-DPP-NEXT: s_mov_b32 s13, s9			; GFX1164-DPP-NEXT: s_mov_b32 s13, s9
	; GFX1164-DPP-NEXT: s_addc_u32 s9, s5, 0			; GFX1164-DPP-NEXT: s_addc_u32 s9, s35, 0
				; GFX1164-DPP-NEXT: s_getpc_b64 s[4:5]
				; GFX1164-DPP-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
				; GFX1164-DPP-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v31, v0
				; GFX1164-DPP-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
	; GFX1164-DPP-NEXT: s_mov_b32 s14, s10			; GFX1164-DPP-NEXT: s_mov_b32 s14, s10
	; GFX1164-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1164-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1164-DPP-NEXT: s_getpc_b64 s[6:7]
	; GFX1164-DPP-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4
	; GFX1164-DPP-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12
	; GFX1164-DPP-NEXT: s_load_b64 s[16:17], s[6:7], 0x0
	; GFX1164-DPP-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1164-DPP-NEXT: v_mov_b32_e32 v31, v0
	; GFX1164-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1164-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1164-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1164-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1164-DPP-NEXT: s_mov_b32 s32, 0			; GFX1164-DPP-NEXT: s_mov_b32 s32, 0
	; GFX1164-DPP-NEXT: v_mov_b32_e32 v40, 0
	; GFX1164-DPP-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-DPP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1164-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1164-DPP-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1164-DPP-NEXT: s_or_saveexec_b64 s[0:1], -1
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1164-DPP-NEXT: s_mov_b64 exec, s[0:1]
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v2, v0
				; GFX1164-DPP-NEXT: s_not_b64 exec, exec
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1164-DPP-NEXT: s_not_b64 exec, exec
				; GFX1164-DPP-NEXT: s_or_saveexec_b64 s[0:1], -1
				; GFX1164-DPP-NEXT: s_waitcnt_depctr 0xfff
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v1, v2 row_xmask:1 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v2, v1
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:2 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v2, v1 row_xmask:4 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:8 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v2, v1
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-DPP-NEXT: v_permlanex16_b32 v2, v2, -1, -1
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(SALU_CYCLE_1)
				; GFX1164-DPP-NEXT: v_permlane64_b32 v2, v1
				; GFX1164-DPP-NEXT: s_mov_b64 exec, s[0:1]
				; GFX1164-DPP-NEXT: v_mbcnt_lo_u32_b32 v0, exec_lo, 0
				; GFX1164-DPP-NEXT: s_or_saveexec_b64 s[0:1], -1
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1164-DPP-NEXT: s_mov_b64 exec, s[0:1]
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instid1(SALU_CYCLE_1)
				; GFX1164-DPP-NEXT: v_mbcnt_hi_u32_b32 v4, exec_hi, v0
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v0, v1
				; GFX1164-DPP-NEXT: s_mov_b64 s[0:1], exec
				; GFX1164-DPP-NEXT: v_cmpx_eq_u32_e32 0, v4
				; GFX1164-DPP-NEXT: s_cbranch_execz .LBB1_2
				; GFX1164-DPP-NEXT: ; %bb.1:
				; GFX1164-DPP-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v4, 0
				; GFX1164-DPP-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164-DPP-NEXT: global_atomic_add_f32 v4, v0, s[0:1]
				; GFX1164-DPP-NEXT: .LBB1_2:
	; GFX1164-DPP-NEXT: s_nop 0			; GFX1164-DPP-NEXT: s_nop 0
	; GFX1164-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-DPP-NEXT: s_endpgm			; GFX1164-DPP-NEXT: s_endpgm
	;			;
	; GFX1132-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe:			; GFX1132-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_align4_unsafe:
	; GFX1132-DPP: ; %bb.0:			; GFX1132-DPP: ; %bb.0:
	; GFX1132-DPP-NEXT: s_add_u32 s8, s4, 44			; GFX1132-DPP-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1132-DPP-NEXT: s_addc_u32 s9, s5, 0			; GFX1132-DPP-NEXT: v_mov_b32_e32 v31, v0
	; GFX1132-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1132-DPP-NEXT: s_add_u32 s8, s34, 44
	; GFX1132-DPP-NEXT: s_getpc_b64 s[6:7]			; GFX1132-DPP-NEXT: s_addc_u32 s9, s35, 0
	; GFX1132-DPP-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4			; GFX1132-DPP-NEXT: s_getpc_b64 s[4:5]
	; GFX1132-DPP-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12			; GFX1132-DPP-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
	; GFX1132-DPP-NEXT: s_load_b64 s[16:17], s[6:7], 0x0			; GFX1132-DPP-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
	; GFX1132-DPP-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1132-DPP-NEXT: v_dual_mov_b32 v40, 0 :: v_dual_mov_b32 v31, v0
	; GFX1132-DPP-NEXT: s_mov_b32 s12, s13			; GFX1132-DPP-NEXT: s_mov_b32 s12, s13
				; GFX1132-DPP-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
				; GFX1132-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1132-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1132-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1132-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1132-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1132-DPP-NEXT: s_mov_b32 s13, s14			; GFX1132-DPP-NEXT: s_mov_b32 s13, s14
	; GFX1132-DPP-NEXT: s_mov_b32 s14, s15			; GFX1132-DPP-NEXT: s_mov_b32 s14, s15
	; GFX1132-DPP-NEXT: s_mov_b32 s32, 0			; GFX1132-DPP-NEXT: s_mov_b32 s32, 0
	; GFX1132-DPP-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-DPP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1132-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1132-DPP-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1132-DPP-NEXT: s_or_saveexec_b32 s0, -1
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1132-DPP-NEXT: s_mov_b32 exec_lo, s0
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v2, v0
				; GFX1132-DPP-NEXT: s_not_b32 exec_lo, exec_lo
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1132-DPP-NEXT: s_not_b32 exec_lo, exec_lo
				; GFX1132-DPP-NEXT: s_or_saveexec_b32 s0, -1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v1, v2 row_xmask:1 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v2, v1
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:2 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v2, v1 row_xmask:4 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:8 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v2, v1
				; GFX1132-DPP-NEXT: v_permlanex16_b32 v2, v2, -1, -1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(SALU_CYCLE_1)
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1132-DPP-NEXT: s_mov_b32 exec_lo, s0
				; GFX1132-DPP-NEXT: v_mbcnt_lo_u32_b32 v4, exec_lo, 0
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v0, v1
				; GFX1132-DPP-NEXT: s_mov_b32 s0, exec_lo
				; GFX1132-DPP-NEXT: v_cmpx_eq_u32_e32 0, v4
				; GFX1132-DPP-NEXT: s_cbranch_execz .LBB1_2
				; GFX1132-DPP-NEXT: ; %bb.1:
				; GFX1132-DPP-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v4, 0
				; GFX1132-DPP-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132-DPP-NEXT: global_atomic_add_f32 v4, v0, s[0:1]
				; GFX1132-DPP-NEXT: .LBB1_2:
	; GFX1132-DPP-NEXT: s_nop 0			; GFX1132-DPP-NEXT: s_nop 0
	; GFX1132-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1132-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1132-DPP-NEXT: s_endpgm			; GFX1132-DPP-NEXT: s_endpgm
	%divValue = call float @div.float.value()			%divValue = call float @div.float.value()
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %divValue syncscope("agent") monotonic, align 4			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %divValue syncscope("agent") monotonic, align 4
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 1,180 Lines • ▼ Show 20 Lines
	; GFX1032-NEXT: s_or_b32 s0, vcc_lo, s0			; GFX1032-NEXT: s_or_b32 s0, vcc_lo, s0
	; GFX1032-NEXT: s_andn2_b32 exec_lo, exec_lo, s0			; GFX1032-NEXT: s_andn2_b32 exec_lo, exec_lo, s0
	; GFX1032-NEXT: s_cbranch_execnz .LBB5_1			; GFX1032-NEXT: s_cbranch_execnz .LBB5_1
	; GFX1032-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX1032-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	;			;
	; GFX1164-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe:			; GFX1164-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe:
	; GFX1164: ; %bb.0:			; GFX1164: ; %bb.0:
				; GFX1164-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1164-NEXT: s_mov_b32 s12, s8			; GFX1164-NEXT: s_mov_b32 s12, s8
	; GFX1164-NEXT: s_add_u32 s8, s4, 44			; GFX1164-NEXT: s_add_u32 s8, s34, 44
	; GFX1164-NEXT: s_mov_b32 s13, s9			; GFX1164-NEXT: s_mov_b32 s13, s9
	; GFX1164-NEXT: s_addc_u32 s9, s5, 0			; GFX1164-NEXT: s_addc_u32 s9, s35, 0
				; GFX1164-NEXT: s_getpc_b64 s[4:5]
				; GFX1164-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
				; GFX1164-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
				; GFX1164-NEXT: v_mov_b32_e32 v31, v0
				; GFX1164-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
	; GFX1164-NEXT: s_mov_b32 s14, s10			; GFX1164-NEXT: s_mov_b32 s14, s10
	; GFX1164-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1164-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1164-NEXT: s_getpc_b64 s[6:7]
	; GFX1164-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4
	; GFX1164-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12
	; GFX1164-NEXT: s_load_b64 s[16:17], s[6:7], 0x0
	; GFX1164-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1164-NEXT: v_mov_b32_e32 v31, v0
	; GFX1164-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1164-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1164-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1164-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1164-NEXT: s_mov_b32 s32, 0			; GFX1164-NEXT: s_mov_b32 s32, 0
	; GFX1164-NEXT: v_mov_b32_e32 v40, 0
	; GFX1164-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1164-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1164-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1164-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1164-NEXT: s_mov_b64 s[0:1], exec
				; GFX1164-NEXT: .LBB5_1: ; %ComputeLoop
				; GFX1164-NEXT: ; =>This Inner Loop Header: Depth=1
				; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_2) \| instid1(SALU_CYCLE_1)
				; GFX1164-NEXT: s_ctz_i32_b32 s2, s1
				; GFX1164-NEXT: s_ctz_i32_b32 s3, s0
				; GFX1164-NEXT: s_add_i32 s2, s2, 32
				; GFX1164-NEXT: s_min_u32 s2, s3, s2
				; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(SALU_CYCLE_1)
				; GFX1164-NEXT: v_readlane_b32 s4, v0, s2
				; GFX1164-NEXT: s_lshl_b64 s[2:3], 1, s2
				; GFX1164-NEXT: s_and_not1_b64 s[0:1], s[0:1], s[2:3]
				; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-NEXT: s_cmp_lg_u64 s[0:1], 0
				; GFX1164-NEXT: v_add_f32_e32 v1, s4, v1
				; GFX1164-NEXT: s_cbranch_scc1 .LBB5_1
				; GFX1164-NEXT: ; %bb.2: ; %ComputeEnd
				; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, exec_lo, 0
				; GFX1164-NEXT: s_mov_b64 s[0:1], exec
				; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v0, exec_hi, v0
				; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v0
				; GFX1164-NEXT: s_xor_b64 s[0:1], exec, s[0:1]
				; GFX1164-NEXT: s_cbranch_execz .LBB5_4
				; GFX1164-NEXT: ; %bb.3:
				; GFX1164-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1164-NEXT: v_mov_b32_e32 v0, 0
				; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
				; GFX1164-NEXT: .LBB5_4:
	; GFX1164-NEXT: s_nop 0			; GFX1164-NEXT: s_nop 0
	; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-NEXT: s_endpgm			; GFX1164-NEXT: s_endpgm
	;			;
	; GFX1132-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe:			; GFX1132-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe:
	; GFX1132: ; %bb.0:			; GFX1132: ; %bb.0:
	; GFX1132-NEXT: s_add_u32 s8, s4, 44			; GFX1132-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1132-NEXT: s_addc_u32 s9, s5, 0			; GFX1132-NEXT: v_mov_b32_e32 v31, v0
	; GFX1132-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1132-NEXT: s_add_u32 s8, s34, 44
	; GFX1132-NEXT: s_getpc_b64 s[6:7]			; GFX1132-NEXT: s_addc_u32 s9, s35, 0
	; GFX1132-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4			; GFX1132-NEXT: s_getpc_b64 s[4:5]
	; GFX1132-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12			; GFX1132-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
	; GFX1132-NEXT: s_load_b64 s[16:17], s[6:7], 0x0			; GFX1132-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
	; GFX1132-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1132-NEXT: v_dual_mov_b32 v40, 0 :: v_dual_mov_b32 v31, v0
	; GFX1132-NEXT: s_mov_b32 s12, s13			; GFX1132-NEXT: s_mov_b32 s12, s13
				; GFX1132-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
				; GFX1132-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1132-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1132-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1132-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1132-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1132-NEXT: s_mov_b32 s13, s14			; GFX1132-NEXT: s_mov_b32 s13, s14
	; GFX1132-NEXT: s_mov_b32 s14, s15			; GFX1132-NEXT: s_mov_b32 s14, s15
	; GFX1132-NEXT: s_mov_b32 s32, 0			; GFX1132-NEXT: s_mov_b32 s32, 0
	; GFX1132-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1132-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1132-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1132-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1132-NEXT: s_mov_b32 s0, exec_lo
				; GFX1132-NEXT: .LBB5_1: ; %ComputeLoop
				; GFX1132-NEXT: ; =>This Inner Loop Header: Depth=1
				; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
				; GFX1132-NEXT: s_ctz_i32_b32 s1, s0
				; GFX1132-NEXT: v_readlane_b32 s2, v0, s1
				; GFX1132-NEXT: s_lshl_b32 s1, 1, s1
				; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
				; GFX1132-NEXT: s_and_not1_b32 s0, s0, s1
				; GFX1132-NEXT: s_cmp_lg_u32 s0, 0
				; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX1132-NEXT: v_add_f32_e32 v1, s2, v1
				; GFX1132-NEXT: s_cbranch_scc1 .LBB5_1
				; GFX1132-NEXT: ; %bb.2: ; %ComputeEnd
				; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v0, exec_lo, 0
				; GFX1132-NEXT: s_mov_b32 s0, exec_lo
				; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v0
				; GFX1132-NEXT: s_xor_b32 s0, exec_lo, s0
				; GFX1132-NEXT: s_cbranch_execz .LBB5_4
				; GFX1132-NEXT: ; %bb.3:
				; GFX1132-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1132-NEXT: v_mov_b32_e32 v0, 0
				; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
				; GFX1132-NEXT: .LBB5_4:
	; GFX1132-NEXT: s_nop 0			; GFX1132-NEXT: s_nop 0
	; GFX1132-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1132-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1132-NEXT: s_endpgm			; GFX1132-NEXT: s_endpgm
	;			;
	; GFX9-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe:			; GFX9-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe:
	; GFX9-DPP: ; %bb.0:			; GFX9-DPP: ; %bb.0:
	; GFX9-DPP-NEXT: s_mov_b32 s36, SCRATCH_RSRC_DWORD0			; GFX9-DPP-NEXT: s_mov_b32 s36, SCRATCH_RSRC_DWORD0
	; GFX9-DPP-NEXT: s_mov_b32 s37, SCRATCH_RSRC_DWORD1			; GFX9-DPP-NEXT: s_mov_b32 s37, SCRATCH_RSRC_DWORD1
	▲ Show 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
	; GFX1032-DPP-NEXT: s_or_b32 s0, vcc_lo, s0			; GFX1032-DPP-NEXT: s_or_b32 s0, vcc_lo, s0
	; GFX1032-DPP-NEXT: s_andn2_b32 exec_lo, exec_lo, s0			; GFX1032-DPP-NEXT: s_andn2_b32 exec_lo, exec_lo, s0
	; GFX1032-DPP-NEXT: s_cbranch_execnz .LBB5_1			; GFX1032-DPP-NEXT: s_cbranch_execnz .LBB5_1
	; GFX1032-DPP-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX1032-DPP-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX1032-DPP-NEXT: s_endpgm			; GFX1032-DPP-NEXT: s_endpgm
	;			;
	; GFX1164-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe:			; GFX1164-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe:
	; GFX1164-DPP: ; %bb.0:			; GFX1164-DPP: ; %bb.0:
				; GFX1164-DPP-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1164-DPP-NEXT: s_mov_b32 s12, s8			; GFX1164-DPP-NEXT: s_mov_b32 s12, s8
	; GFX1164-DPP-NEXT: s_add_u32 s8, s4, 44			; GFX1164-DPP-NEXT: s_add_u32 s8, s34, 44
	; GFX1164-DPP-NEXT: s_mov_b32 s13, s9			; GFX1164-DPP-NEXT: s_mov_b32 s13, s9
	; GFX1164-DPP-NEXT: s_addc_u32 s9, s5, 0			; GFX1164-DPP-NEXT: s_addc_u32 s9, s35, 0
				; GFX1164-DPP-NEXT: s_getpc_b64 s[4:5]
				; GFX1164-DPP-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
				; GFX1164-DPP-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v31, v0
				; GFX1164-DPP-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
	; GFX1164-DPP-NEXT: s_mov_b32 s14, s10			; GFX1164-DPP-NEXT: s_mov_b32 s14, s10
	; GFX1164-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1164-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1164-DPP-NEXT: s_getpc_b64 s[6:7]
	; GFX1164-DPP-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4
	; GFX1164-DPP-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12
	; GFX1164-DPP-NEXT: s_load_b64 s[16:17], s[6:7], 0x0
	; GFX1164-DPP-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1164-DPP-NEXT: v_mov_b32_e32 v31, v0
	; GFX1164-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1164-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1164-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1164-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1164-DPP-NEXT: s_mov_b32 s32, 0			; GFX1164-DPP-NEXT: s_mov_b32 s32, 0
	; GFX1164-DPP-NEXT: v_mov_b32_e32 v40, 0
	; GFX1164-DPP-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-DPP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1164-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1164-DPP-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1164-DPP-NEXT: s_or_saveexec_b64 s[0:1], -1
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1164-DPP-NEXT: s_mov_b64 exec, s[0:1]
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v2, v0
				; GFX1164-DPP-NEXT: s_not_b64 exec, exec
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1164-DPP-NEXT: s_not_b64 exec, exec
				; GFX1164-DPP-NEXT: s_or_saveexec_b64 s[0:1], -1
				; GFX1164-DPP-NEXT: s_waitcnt_depctr 0xfff
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v1, v2 row_xmask:1 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v2, v1
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:2 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v2, v1 row_xmask:4 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:8 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v2, v1
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-DPP-NEXT: v_permlanex16_b32 v2, v2, -1, -1
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(SALU_CYCLE_1)
				; GFX1164-DPP-NEXT: v_permlane64_b32 v2, v1
				; GFX1164-DPP-NEXT: s_mov_b64 exec, s[0:1]
				; GFX1164-DPP-NEXT: v_mbcnt_lo_u32_b32 v0, exec_lo, 0
				; GFX1164-DPP-NEXT: s_or_saveexec_b64 s[0:1], -1
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1164-DPP-NEXT: s_mov_b64 exec, s[0:1]
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instid1(SALU_CYCLE_1)
				; GFX1164-DPP-NEXT: v_mbcnt_hi_u32_b32 v4, exec_hi, v0
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v0, v1
				; GFX1164-DPP-NEXT: s_mov_b64 s[0:1], exec
				; GFX1164-DPP-NEXT: v_cmpx_eq_u32_e32 0, v4
				; GFX1164-DPP-NEXT: s_cbranch_execz .LBB5_2
				; GFX1164-DPP-NEXT: ; %bb.1:
				; GFX1164-DPP-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v4, 0
				; GFX1164-DPP-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164-DPP-NEXT: global_atomic_add_f32 v4, v0, s[0:1]
				; GFX1164-DPP-NEXT: .LBB5_2:
	; GFX1164-DPP-NEXT: s_nop 0			; GFX1164-DPP-NEXT: s_nop 0
	; GFX1164-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-DPP-NEXT: s_endpgm			; GFX1164-DPP-NEXT: s_endpgm
	;			;
	; GFX1132-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe:			; GFX1132-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe:
	; GFX1132-DPP: ; %bb.0:			; GFX1132-DPP: ; %bb.0:
	; GFX1132-DPP-NEXT: s_add_u32 s8, s4, 44			; GFX1132-DPP-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1132-DPP-NEXT: s_addc_u32 s9, s5, 0			; GFX1132-DPP-NEXT: v_mov_b32_e32 v31, v0
	; GFX1132-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1132-DPP-NEXT: s_add_u32 s8, s34, 44
	; GFX1132-DPP-NEXT: s_getpc_b64 s[6:7]			; GFX1132-DPP-NEXT: s_addc_u32 s9, s35, 0
	; GFX1132-DPP-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4			; GFX1132-DPP-NEXT: s_getpc_b64 s[4:5]
	; GFX1132-DPP-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12			; GFX1132-DPP-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
	; GFX1132-DPP-NEXT: s_load_b64 s[16:17], s[6:7], 0x0			; GFX1132-DPP-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
	; GFX1132-DPP-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1132-DPP-NEXT: v_dual_mov_b32 v40, 0 :: v_dual_mov_b32 v31, v0
	; GFX1132-DPP-NEXT: s_mov_b32 s12, s13			; GFX1132-DPP-NEXT: s_mov_b32 s12, s13
				; GFX1132-DPP-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
				; GFX1132-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1132-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1132-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1132-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1132-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1132-DPP-NEXT: s_mov_b32 s13, s14			; GFX1132-DPP-NEXT: s_mov_b32 s13, s14
	; GFX1132-DPP-NEXT: s_mov_b32 s14, s15			; GFX1132-DPP-NEXT: s_mov_b32 s14, s15
	; GFX1132-DPP-NEXT: s_mov_b32 s32, 0			; GFX1132-DPP-NEXT: s_mov_b32 s32, 0
	; GFX1132-DPP-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-DPP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1132-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1132-DPP-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1132-DPP-NEXT: s_or_saveexec_b32 s0, -1
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1132-DPP-NEXT: s_mov_b32 exec_lo, s0
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v2, v0
				; GFX1132-DPP-NEXT: s_not_b32 exec_lo, exec_lo
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1132-DPP-NEXT: s_not_b32 exec_lo, exec_lo
				; GFX1132-DPP-NEXT: s_or_saveexec_b32 s0, -1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v1, v2 row_xmask:1 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v2, v1
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:2 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v2, v1 row_xmask:4 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:8 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v2, v1
				; GFX1132-DPP-NEXT: v_permlanex16_b32 v2, v2, -1, -1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(SALU_CYCLE_1)
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1132-DPP-NEXT: s_mov_b32 exec_lo, s0
				; GFX1132-DPP-NEXT: v_mbcnt_lo_u32_b32 v4, exec_lo, 0
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v0, v1
				; GFX1132-DPP-NEXT: s_mov_b32 s0, exec_lo
				; GFX1132-DPP-NEXT: v_cmpx_eq_u32_e32 0, v4
				; GFX1132-DPP-NEXT: s_cbranch_execz .LBB5_2
				; GFX1132-DPP-NEXT: ; %bb.1:
				; GFX1132-DPP-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v4, 0
				; GFX1132-DPP-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132-DPP-NEXT: global_atomic_add_f32 v4, v0, s[0:1]
				; GFX1132-DPP-NEXT: .LBB5_2:
	; GFX1132-DPP-NEXT: s_nop 0			; GFX1132-DPP-NEXT: s_nop 0
	; GFX1132-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1132-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1132-DPP-NEXT: s_endpgm			; GFX1132-DPP-NEXT: s_endpgm
	%divValue = call float @div.float.value()			%divValue = call float @div.float.value()
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %divValue syncscope("agent") monotonic			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %divValue syncscope("agent") monotonic
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 185 Lines • ▼ Show 20 Lines
	; GFX1032-NEXT: s_or_b32 s0, vcc_lo, s0			; GFX1032-NEXT: s_or_b32 s0, vcc_lo, s0
	; GFX1032-NEXT: s_andn2_b32 exec_lo, exec_lo, s0			; GFX1032-NEXT: s_andn2_b32 exec_lo, exec_lo, s0
	; GFX1032-NEXT: s_cbranch_execnz .LBB6_1			; GFX1032-NEXT: s_cbranch_execnz .LBB6_1
	; GFX1032-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX1032-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	;			;
	; GFX1164-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe_structfp:			; GFX1164-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe_structfp:
	; GFX1164: ; %bb.0:			; GFX1164: ; %bb.0:
				; GFX1164-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1164-NEXT: s_mov_b32 s12, s8			; GFX1164-NEXT: s_mov_b32 s12, s8
	; GFX1164-NEXT: s_add_u32 s8, s4, 44			; GFX1164-NEXT: s_add_u32 s8, s34, 44
	; GFX1164-NEXT: s_mov_b32 s13, s9			; GFX1164-NEXT: s_mov_b32 s13, s9
	; GFX1164-NEXT: s_addc_u32 s9, s5, 0			; GFX1164-NEXT: s_addc_u32 s9, s35, 0
				; GFX1164-NEXT: s_getpc_b64 s[4:5]
				; GFX1164-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
				; GFX1164-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
				; GFX1164-NEXT: v_mov_b32_e32 v31, v0
				; GFX1164-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
	; GFX1164-NEXT: s_mov_b32 s14, s10			; GFX1164-NEXT: s_mov_b32 s14, s10
	; GFX1164-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1164-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1164-NEXT: s_getpc_b64 s[6:7]
	; GFX1164-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4
	; GFX1164-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12
	; GFX1164-NEXT: s_load_b64 s[16:17], s[6:7], 0x0
	; GFX1164-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1164-NEXT: v_mov_b32_e32 v31, v0
	; GFX1164-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1164-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1164-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1164-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1164-NEXT: s_mov_b32 s32, 0			; GFX1164-NEXT: s_mov_b32 s32, 0
	; GFX1164-NEXT: v_mov_b32_e32 v40, 0
	; GFX1164-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1164-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1164-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1164-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1164-NEXT: s_mov_b64 s[0:1], exec
				; GFX1164-NEXT: .LBB6_1: ; %ComputeLoop
				; GFX1164-NEXT: ; =>This Inner Loop Header: Depth=1
				; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_2) \| instid1(SALU_CYCLE_1)
				; GFX1164-NEXT: s_ctz_i32_b32 s2, s1
				; GFX1164-NEXT: s_ctz_i32_b32 s3, s0
				; GFX1164-NEXT: s_add_i32 s2, s2, 32
				; GFX1164-NEXT: s_min_u32 s2, s3, s2
				; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(SKIP_1) \| instid1(SALU_CYCLE_1)
				; GFX1164-NEXT: v_readlane_b32 s4, v0, s2
				; GFX1164-NEXT: s_lshl_b64 s[2:3], 1, s2
				; GFX1164-NEXT: s_and_not1_b64 s[0:1], s[0:1], s[2:3]
				; GFX1164-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-NEXT: s_cmp_lg_u64 s[0:1], 0
				; GFX1164-NEXT: v_add_f32_e32 v1, s4, v1
				; GFX1164-NEXT: s_cbranch_scc1 .LBB6_1
				; GFX1164-NEXT: ; %bb.2: ; %ComputeEnd
				; GFX1164-NEXT: v_mbcnt_lo_u32_b32 v0, exec_lo, 0
				; GFX1164-NEXT: s_mov_b64 s[0:1], exec
				; GFX1164-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-NEXT: v_mbcnt_hi_u32_b32 v0, exec_hi, v0
				; GFX1164-NEXT: v_cmpx_eq_u32_e32 0, v0
				; GFX1164-NEXT: s_xor_b64 s[0:1], exec, s[0:1]
				; GFX1164-NEXT: s_cbranch_execz .LBB6_4
				; GFX1164-NEXT: ; %bb.3:
				; GFX1164-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1164-NEXT: v_mov_b32_e32 v0, 0
				; GFX1164-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
				; GFX1164-NEXT: .LBB6_4:
	; GFX1164-NEXT: s_nop 0			; GFX1164-NEXT: s_nop 0
	; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-NEXT: s_endpgm			; GFX1164-NEXT: s_endpgm
	;			;
	; GFX1132-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe_structfp:			; GFX1132-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe_structfp:
	; GFX1132: ; %bb.0:			; GFX1132: ; %bb.0:
	; GFX1132-NEXT: s_add_u32 s8, s4, 44			; GFX1132-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1132-NEXT: s_addc_u32 s9, s5, 0			; GFX1132-NEXT: v_mov_b32_e32 v31, v0
	; GFX1132-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1132-NEXT: s_add_u32 s8, s34, 44
	; GFX1132-NEXT: s_getpc_b64 s[6:7]			; GFX1132-NEXT: s_addc_u32 s9, s35, 0
	; GFX1132-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4			; GFX1132-NEXT: s_getpc_b64 s[4:5]
	; GFX1132-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12			; GFX1132-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
	; GFX1132-NEXT: s_load_b64 s[16:17], s[6:7], 0x0			; GFX1132-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
	; GFX1132-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1132-NEXT: v_dual_mov_b32 v40, 0 :: v_dual_mov_b32 v31, v0
	; GFX1132-NEXT: s_mov_b32 s12, s13			; GFX1132-NEXT: s_mov_b32 s12, s13
				; GFX1132-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
				; GFX1132-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1132-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1132-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1132-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1132-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1132-NEXT: s_mov_b32 s13, s14			; GFX1132-NEXT: s_mov_b32 s13, s14
	; GFX1132-NEXT: s_mov_b32 s14, s15			; GFX1132-NEXT: s_mov_b32 s14, s15
	; GFX1132-NEXT: s_mov_b32 s32, 0			; GFX1132-NEXT: s_mov_b32 s32, 0
	; GFX1132-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1132-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1132-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1132-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1132-NEXT: s_mov_b32 s0, exec_lo
				; GFX1132-NEXT: .LBB6_1: ; %ComputeLoop
				; GFX1132-NEXT: ; =>This Inner Loop Header: Depth=1
				; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
				; GFX1132-NEXT: s_ctz_i32_b32 s1, s0
				; GFX1132-NEXT: v_readlane_b32 s2, v0, s1
				; GFX1132-NEXT: s_lshl_b32 s1, 1, s1
				; GFX1132-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
				; GFX1132-NEXT: s_and_not1_b32 s0, s0, s1
				; GFX1132-NEXT: s_cmp_lg_u32 s0, 0
				; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX1132-NEXT: v_add_f32_e32 v1, s2, v1
				; GFX1132-NEXT: s_cbranch_scc1 .LBB6_1
				; GFX1132-NEXT: ; %bb.2: ; %ComputeEnd
				; GFX1132-NEXT: v_mbcnt_lo_u32_b32 v0, exec_lo, 0
				; GFX1132-NEXT: s_mov_b32 s0, exec_lo
				; GFX1132-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GFX1132-NEXT: v_cmpx_eq_u32_e32 0, v0
				; GFX1132-NEXT: s_xor_b32 s0, exec_lo, s0
				; GFX1132-NEXT: s_cbranch_execz .LBB6_4
				; GFX1132-NEXT: ; %bb.3:
				; GFX1132-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1132-NEXT: v_mov_b32_e32 v0, 0
				; GFX1132-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
				; GFX1132-NEXT: .LBB6_4:
	; GFX1132-NEXT: s_nop 0			; GFX1132-NEXT: s_nop 0
	; GFX1132-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1132-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1132-NEXT: s_endpgm			; GFX1132-NEXT: s_endpgm
	;			;
	; GFX9-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe_structfp:			; GFX9-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe_structfp:
	; GFX9-DPP: ; %bb.0:			; GFX9-DPP: ; %bb.0:
	; GFX9-DPP-NEXT: s_mov_b32 s36, SCRATCH_RSRC_DWORD0			; GFX9-DPP-NEXT: s_mov_b32 s36, SCRATCH_RSRC_DWORD0
	; GFX9-DPP-NEXT: s_mov_b32 s37, SCRATCH_RSRC_DWORD1			; GFX9-DPP-NEXT: s_mov_b32 s37, SCRATCH_RSRC_DWORD1
	▲ Show 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
	; GFX1032-DPP-NEXT: s_or_b32 s0, vcc_lo, s0			; GFX1032-DPP-NEXT: s_or_b32 s0, vcc_lo, s0
	; GFX1032-DPP-NEXT: s_andn2_b32 exec_lo, exec_lo, s0			; GFX1032-DPP-NEXT: s_andn2_b32 exec_lo, exec_lo, s0
	; GFX1032-DPP-NEXT: s_cbranch_execnz .LBB6_1			; GFX1032-DPP-NEXT: s_cbranch_execnz .LBB6_1
	; GFX1032-DPP-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX1032-DPP-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX1032-DPP-NEXT: s_endpgm			; GFX1032-DPP-NEXT: s_endpgm
	;			;
	; GFX1164-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe_structfp:			; GFX1164-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe_structfp:
	; GFX1164-DPP: ; %bb.0:			; GFX1164-DPP: ; %bb.0:
				; GFX1164-DPP-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1164-DPP-NEXT: s_mov_b32 s12, s8			; GFX1164-DPP-NEXT: s_mov_b32 s12, s8
	; GFX1164-DPP-NEXT: s_add_u32 s8, s4, 44			; GFX1164-DPP-NEXT: s_add_u32 s8, s34, 44
	; GFX1164-DPP-NEXT: s_mov_b32 s13, s9			; GFX1164-DPP-NEXT: s_mov_b32 s13, s9
	; GFX1164-DPP-NEXT: s_addc_u32 s9, s5, 0			; GFX1164-DPP-NEXT: s_addc_u32 s9, s35, 0
				; GFX1164-DPP-NEXT: s_getpc_b64 s[4:5]
				; GFX1164-DPP-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
				; GFX1164-DPP-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v31, v0
				; GFX1164-DPP-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
	; GFX1164-DPP-NEXT: s_mov_b32 s14, s10			; GFX1164-DPP-NEXT: s_mov_b32 s14, s10
	; GFX1164-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1164-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1164-DPP-NEXT: s_getpc_b64 s[6:7]
	; GFX1164-DPP-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4
	; GFX1164-DPP-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12
	; GFX1164-DPP-NEXT: s_load_b64 s[16:17], s[6:7], 0x0
	; GFX1164-DPP-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1164-DPP-NEXT: v_mov_b32_e32 v31, v0
	; GFX1164-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1164-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1164-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1164-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1164-DPP-NEXT: s_mov_b32 s32, 0			; GFX1164-DPP-NEXT: s_mov_b32 s32, 0
	; GFX1164-DPP-NEXT: v_mov_b32_e32 v40, 0
	; GFX1164-DPP-NEXT: s_waitcnt lgkmcnt(0)			; GFX1164-DPP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1164-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1164-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1164-DPP-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1164-DPP-NEXT: s_or_saveexec_b64 s[0:1], -1
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1164-DPP-NEXT: s_mov_b64 exec, s[0:1]
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v2, v0
				; GFX1164-DPP-NEXT: s_not_b64 exec, exec
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1164-DPP-NEXT: s_not_b64 exec, exec
				; GFX1164-DPP-NEXT: s_or_saveexec_b64 s[0:1], -1
				; GFX1164-DPP-NEXT: s_waitcnt_depctr 0xfff
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v1, v2 row_xmask:1 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v2, v1
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:2 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1164-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v2, v1 row_xmask:4 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1164-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:8 row_mask:0xf bank_mask:0xf
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v2, v1
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1164-DPP-NEXT: v_permlanex16_b32 v2, v2, -1, -1
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(SALU_CYCLE_1)
				; GFX1164-DPP-NEXT: v_permlane64_b32 v2, v1
				; GFX1164-DPP-NEXT: s_mov_b64 exec, s[0:1]
				; GFX1164-DPP-NEXT: v_mbcnt_lo_u32_b32 v0, exec_lo, 0
				; GFX1164-DPP-NEXT: s_or_saveexec_b64 s[0:1], -1
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1164-DPP-NEXT: s_mov_b64 exec, s[0:1]
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instid1(SALU_CYCLE_1)
				; GFX1164-DPP-NEXT: v_mbcnt_hi_u32_b32 v4, exec_hi, v0
				; GFX1164-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v0, v1
				; GFX1164-DPP-NEXT: s_mov_b64 s[0:1], exec
				; GFX1164-DPP-NEXT: v_cmpx_eq_u32_e32 0, v4
				; GFX1164-DPP-NEXT: s_cbranch_execz .LBB6_2
				; GFX1164-DPP-NEXT: ; %bb.1:
				; GFX1164-DPP-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1164-DPP-NEXT: v_mov_b32_e32 v4, 0
				; GFX1164-DPP-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1164-DPP-NEXT: global_atomic_add_f32 v4, v0, s[0:1]
				; GFX1164-DPP-NEXT: .LBB6_2:
	; GFX1164-DPP-NEXT: s_nop 0			; GFX1164-DPP-NEXT: s_nop 0
	; GFX1164-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1164-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1164-DPP-NEXT: s_endpgm			; GFX1164-DPP-NEXT: s_endpgm
	;			;
	; GFX1132-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe_structfp:			; GFX1132-DPP-LABEL: global_atomic_fadd_uni_address_div_value_agent_scope_unsafe_structfp:
	; GFX1132-DPP: ; %bb.0:			; GFX1132-DPP: ; %bb.0:
	; GFX1132-DPP-NEXT: s_add_u32 s8, s4, 44			; GFX1132-DPP-NEXT: s_mov_b64 s[34:35], s[4:5]
	; GFX1132-DPP-NEXT: s_addc_u32 s9, s5, 0			; GFX1132-DPP-NEXT: v_mov_b32_e32 v31, v0
	; GFX1132-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]			; GFX1132-DPP-NEXT: s_add_u32 s8, s34, 44
	; GFX1132-DPP-NEXT: s_getpc_b64 s[6:7]			; GFX1132-DPP-NEXT: s_addc_u32 s9, s35, 0
	; GFX1132-DPP-NEXT: s_add_u32 s6, s6, div.float.value@gotpcrel32@lo+4			; GFX1132-DPP-NEXT: s_getpc_b64 s[4:5]
	; GFX1132-DPP-NEXT: s_addc_u32 s7, s7, div.float.value@gotpcrel32@hi+12			; GFX1132-DPP-NEXT: s_add_u32 s4, s4, div.float.value@gotpcrel32@lo+4
	; GFX1132-DPP-NEXT: s_load_b64 s[16:17], s[6:7], 0x0			; GFX1132-DPP-NEXT: s_addc_u32 s5, s5, div.float.value@gotpcrel32@hi+12
	; GFX1132-DPP-NEXT: s_load_b64 s[34:35], s[4:5], 0x24
	; GFX1132-DPP-NEXT: v_dual_mov_b32 v40, 0 :: v_dual_mov_b32 v31, v0
	; GFX1132-DPP-NEXT: s_mov_b32 s12, s13			; GFX1132-DPP-NEXT: s_mov_b32 s12, s13
				; GFX1132-DPP-NEXT: s_load_b64 s[16:17], s[4:5], 0x0
				; GFX1132-DPP-NEXT: s_mov_b64 s[10:11], s[6:7]
	; GFX1132-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]			; GFX1132-DPP-NEXT: s_mov_b64 s[4:5], s[0:1]
	; GFX1132-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]			; GFX1132-DPP-NEXT: s_mov_b64 s[6:7], s[2:3]
	; GFX1132-DPP-NEXT: s_mov_b32 s13, s14			; GFX1132-DPP-NEXT: s_mov_b32 s13, s14
	; GFX1132-DPP-NEXT: s_mov_b32 s14, s15			; GFX1132-DPP-NEXT: s_mov_b32 s14, s15
	; GFX1132-DPP-NEXT: s_mov_b32 s32, 0			; GFX1132-DPP-NEXT: s_mov_b32 s32, 0
	; GFX1132-DPP-NEXT: s_waitcnt lgkmcnt(0)			; GFX1132-DPP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1132-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1132-DPP-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1132-DPP-NEXT: global_atomic_add_f32 v40, v0, s[34:35]			; GFX1132-DPP-NEXT: s_or_saveexec_b32 s0, -1
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v1, 1
				; GFX1132-DPP-NEXT: s_mov_b32 exec_lo, s0
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v2, v0
				; GFX1132-DPP-NEXT: s_not_b32 exec_lo, exec_lo
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1132-DPP-NEXT: s_not_b32 exec_lo, exec_lo
				; GFX1132-DPP-NEXT: s_or_saveexec_b32 s0, -1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v1, v2 row_xmask:1 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v2, v1
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v2, 1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:2 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1132-DPP-NEXT: v_bfrev_b32_e32 v3, 1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v2, v1 row_xmask:4 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_dpp v3, v1 row_xmask:8 row_mask:0xf bank_mask:0xf
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v3
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v2, v1
				; GFX1132-DPP-NEXT: v_permlanex16_b32 v2, v2, -1, -1
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(SALU_CYCLE_1)
				; GFX1132-DPP-NEXT: v_add_f32_e32 v1, v1, v2
				; GFX1132-DPP-NEXT: s_mov_b32 exec_lo, s0
				; GFX1132-DPP-NEXT: v_mbcnt_lo_u32_b32 v4, exec_lo, 0
				; GFX1132-DPP-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v0, v1
				; GFX1132-DPP-NEXT: s_mov_b32 s0, exec_lo
				; GFX1132-DPP-NEXT: v_cmpx_eq_u32_e32 0, v4
				; GFX1132-DPP-NEXT: s_cbranch_execz .LBB6_2
				; GFX1132-DPP-NEXT: ; %bb.1:
				; GFX1132-DPP-NEXT: s_load_b64 s[0:1], s[34:35], 0x24
				; GFX1132-DPP-NEXT: v_mov_b32_e32 v4, 0
				; GFX1132-DPP-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1132-DPP-NEXT: global_atomic_add_f32 v4, v0, s[0:1]
				; GFX1132-DPP-NEXT: .LBB6_2:
	; GFX1132-DPP-NEXT: s_nop 0			; GFX1132-DPP-NEXT: s_nop 0
	; GFX1132-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX1132-DPP-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1132-DPP-NEXT: s_endpgm			; GFX1132-DPP-NEXT: s_endpgm
	%divValue = call float @div.float.value()			%divValue = call float @div.float.value()
	%result = atomicrmw fadd ptr addrspace(1) %ptr, float %divValue syncscope("agent") monotonic			%result = atomicrmw fadd ptr addrspace(1) %ptr, float %divValue syncscope("agent") monotonic
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 739 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.ll

	; RUN: llc < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs \| FileCheck %s -check-prefix=GCN			; RUN: llc < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs -amdgpu-atomic-optimizer-strategy=DPP \| FileCheck %s -check-prefix=GCN
	; RUN: llc < %s -march=amdgcn -mcpu=gfx90a -verify-machineinstrs \| FileCheck %s -check-prefix=GCN			; RUN: llc < %s -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -amdgpu-atomic-optimizer-strategy=DPP \| FileCheck %s -check-prefix=GCN

	declare float @llvm.amdgcn.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i1)			declare float @llvm.amdgcn.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i1)
	declare <2 x half> @llvm.amdgcn.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i1)			declare <2 x half> @llvm.amdgcn.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i1)
	declare float @llvm.amdgcn.global.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)			declare float @llvm.amdgcn.global.atomic.fadd.f32.p1.f32(ptr addrspace(1), float)
	declare <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1.v2f16(ptr addrspace(1), <2 x half>)			declare <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1.v2f16(ptr addrspace(1), <2 x half>)
	declare float @llvm.amdgcn.flat.atomic.fadd.f32.p0.f32(ptr, float)			declare float @llvm.amdgcn.flat.atomic.fadd.f32.p0.f32(ptr, float)

	; GCN-LABEL: {{^}}buffer_atomic_add_f32:			; GCN-LABEL: {{^}}buffer_atomic_add_f32:
	▲ Show 20 Lines • Show All 101 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/local-atomics-fp.ll

Show First 20 Lines • Show All 137 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
%result = atomicrmw fadd ptr addrspace(3) %ptr, float 4.0 seq_cst		%result = atomicrmw fadd ptr addrspace(3) %ptr, float 4.0 seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @lds_ds_fadd(ptr addrspace(1) %out, ptr addrspace(3) %ptrf, i32 %idx) {		define amdgpu_kernel void @lds_ds_fadd(ptr addrspace(1) %out, ptr addrspace(3) %ptrf, i32 %idx) {
; VI-LABEL: lds_ds_fadd:		; VI-LABEL: lds_ds_fadd:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
; VI-NEXT: v_mov_b32_e32 v0, 0x42280000		; VI-NEXT: s_mov_b64 s[4:5], exec
; VI-NEXT: s_mov_b32 m0, -1		; VI-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: v_mbcnt_hi_u32_b32 v0, s5, v0
; VI-NEXT: s_lshl_b32 s4, s3, 3		; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; VI-NEXT: v_mov_b32_e32 v1, s4
; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: ds_add_rtn_f32 v1, v1, v0 offset:32
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
		; VI-NEXT: s_add_i32 s3, s3, 4
		; VI-NEXT: ; implicit-def: $vgpr1
		; VI-NEXT: s_mov_b32 m0, -1
		; VI-NEXT: s_and_saveexec_b64 s[6:7], vcc
		; VI-NEXT: s_cbranch_execz .LBB2_2
		; VI-NEXT: ; %bb.1:
		; VI-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
		; VI-NEXT: s_lshl_b32 s8, s3, 3
		; VI-NEXT: v_cvt_f32_ubyte0_e32 v1, s4
		; VI-NEXT: v_mul_f32_e32 v1, 0x42280000, v1
		; VI-NEXT: v_mov_b32_e32 v2, s8
		; VI-NEXT: s_waitcnt lgkmcnt(0)
		; VI-NEXT: ds_add_rtn_f32 v1, v2, v1
		; VI-NEXT: s_waitcnt lgkmcnt(0)
		; VI-NEXT: .LBB2_2:
		; VI-NEXT: s_or_b64 exec, exec, s[6:7]
		; VI-NEXT: s_mov_b64 s[6:7], exec
		; VI-NEXT: s_waitcnt lgkmcnt(0)
		; VI-NEXT: v_readfirstlane_b32 s8, v1
		; VI-NEXT: v_mbcnt_lo_u32_b32 v1, s6, 0
		; VI-NEXT: v_mbcnt_hi_u32_b32 v1, s7, v1
		; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
		; VI-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; VI-NEXT: s_cbranch_execz .LBB2_4
		; VI-NEXT: ; %bb.3:
		; VI-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
		; VI-NEXT: v_cvt_f32_ubyte0_e32 v1, s6
; VI-NEXT: s_lshl_b32 s3, s3, 4		; VI-NEXT: s_lshl_b32 s3, s3, 4
		; VI-NEXT: v_mul_f32_e32 v1, 0x42280000, v1
; VI-NEXT: v_mov_b32_e32 v2, s3		; VI-NEXT: v_mov_b32_e32 v2, s3
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: ds_add_f32 v2, v0 offset:64		; VI-NEXT: ds_add_f32 v2, v1
		; VI-NEXT: s_waitcnt lgkmcnt(0)
		; VI-NEXT: .LBB2_4:
		; VI-NEXT: s_or_b64 exec, exec, s[4:5]
		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
		; VI-NEXT: v_mul_f32_e32 v0, 0x42280000, v0
		; VI-NEXT: s_mov_b64 s[4:5], exec
		; VI-NEXT: v_add_f32_e32 v2, s8, v0
		; VI-NEXT: v_bfrev_b32_e32 v1, 1
		; VI-NEXT: ; implicit-def: $vgpr0
		; VI-NEXT: .LBB2_5: ; %ComputeLoop
		; VI-NEXT: ; =>This Inner Loop Header: Depth=1
		; VI-NEXT: s_ff1_i32_b32 s3, s5
		; VI-NEXT: s_ff1_i32_b32 s6, s4
		; VI-NEXT: s_add_i32 s3, s3, 32
		; VI-NEXT: s_min_u32 s3, s6, s3
		; VI-NEXT: s_lshl_b64 s[6:7], 1, s3
		; VI-NEXT: v_readfirstlane_b32 s8, v1
		; VI-NEXT: v_readlane_b32 s9, v2, s3
		; VI-NEXT: s_mov_b32 m0, s3
		; VI-NEXT: s_andn2_b64 s[4:5], s[4:5], s[6:7]
		; VI-NEXT: v_writelane_b32 v0, s8, m0
		; VI-NEXT: s_cmp_lg_u64 s[4:5], 0
		; VI-NEXT: v_add_f32_e32 v1, s9, v1
		; VI-NEXT: s_cbranch_scc1 .LBB2_5
		; VI-NEXT: ; %bb.6: ; %ComputeEnd
		; VI-NEXT: v_mbcnt_lo_u32_b32 v2, exec_lo, 0
		; VI-NEXT: v_mbcnt_hi_u32_b32 v2, exec_hi, v2
		; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
		; VI-NEXT: ; implicit-def: $vgpr2
		; VI-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; VI-NEXT: s_xor_b64 s[4:5], exec, s[4:5]
		; VI-NEXT: s_cbranch_execz .LBB2_8
		; VI-NEXT: ; %bb.7:
		; VI-NEXT: v_mov_b32_e32 v2, s2
		; VI-NEXT: s_mov_b32 m0, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v0, s2		; VI-NEXT: ds_add_rtn_f32 v2, v2, v1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: ds_add_rtn_f32 v2, v0, v1		; VI-NEXT: .LBB2_8:
		; VI-NEXT: s_or_b64 exec, exec, s[4:5]
		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
		; VI-NEXT: v_readfirstlane_b32 s2, v2
		; VI-NEXT: v_add_f32_e32 v2, s2, v0
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; GFX9-LABEL: lds_ds_fadd:		; GFX9-LABEL: lds_ds_fadd:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
; GFX9-NEXT: v_mov_b32_e32 v0, 0x42280000		; GFX9-NEXT: s_mov_b64 s[4:5], exec
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
; GFX9-NEXT: s_lshl_b32 s4, s3, 3		; GFX9-NEXT: v_mbcnt_hi_u32_b32 v0, s5, v0
; GFX9-NEXT: v_mov_b32_e32 v1, s4		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: ds_add_rtn_f32 v1, v1, v0 offset:32		; GFX9-NEXT: s_add_i32 s3, s3, 4
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: ; implicit-def: $vgpr1
		; GFX9-NEXT: s_and_saveexec_b64 s[6:7], vcc
		; GFX9-NEXT: s_cbranch_execz .LBB2_2
		; GFX9-NEXT: ; %bb.1:
		; GFX9-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
		; GFX9-NEXT: s_lshl_b32 s8, s3, 3
		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v1, s4
		; GFX9-NEXT: v_mul_f32_e32 v1, 0x42280000, v1
		; GFX9-NEXT: v_mov_b32_e32 v2, s8
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: ds_add_rtn_f32 v1, v2, v1
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: .LBB2_2:
		; GFX9-NEXT: s_or_b64 exec, exec, s[6:7]
		; GFX9-NEXT: s_mov_b64 s[6:7], exec
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: v_readfirstlane_b32 s8, v1
		; GFX9-NEXT: v_mbcnt_lo_u32_b32 v1, s6, 0
		; GFX9-NEXT: v_mbcnt_hi_u32_b32 v1, s7, v1
		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
		; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GFX9-NEXT: s_cbranch_execz .LBB2_4
		; GFX9-NEXT: ; %bb.3:
		; GFX9-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v1, s6
; GFX9-NEXT: s_lshl_b32 s3, s3, 4		; GFX9-NEXT: s_lshl_b32 s3, s3, 4
		; GFX9-NEXT: v_mul_f32_e32 v1, 0x42280000, v1
; GFX9-NEXT: v_mov_b32_e32 v2, s3		; GFX9-NEXT: v_mov_b32_e32 v2, s3
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: ds_add_f32 v2, v0 offset:64		; GFX9-NEXT: ds_add_f32 v2, v1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v0, s2		; GFX9-NEXT: .LBB2_4:
		; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
		; GFX9-NEXT: v_mul_f32_e32 v0, 0x42280000, v0
		; GFX9-NEXT: s_mov_b64 s[4:5], exec
		; GFX9-NEXT: v_add_f32_e32 v2, s8, v0
		; GFX9-NEXT: v_bfrev_b32_e32 v1, 1
		; GFX9-NEXT: ; implicit-def: $vgpr0
		; GFX9-NEXT: .LBB2_5: ; %ComputeLoop
		; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
		; GFX9-NEXT: s_ff1_i32_b32 s3, s5
		; GFX9-NEXT: s_ff1_i32_b32 s6, s4
		; GFX9-NEXT: s_add_i32 s3, s3, 32
		; GFX9-NEXT: s_min_u32 s3, s6, s3
		; GFX9-NEXT: s_lshl_b64 s[6:7], 1, s3
		; GFX9-NEXT: v_readfirstlane_b32 s8, v1
		; GFX9-NEXT: v_readlane_b32 s9, v2, s3
		; GFX9-NEXT: s_mov_b32 m0, s3
		; GFX9-NEXT: s_andn2_b64 s[4:5], s[4:5], s[6:7]
		; GFX9-NEXT: v_writelane_b32 v0, s8, m0
		; GFX9-NEXT: s_cmp_lg_u64 s[4:5], 0
		; GFX9-NEXT: v_add_f32_e32 v1, s9, v1
		; GFX9-NEXT: s_cbranch_scc1 .LBB2_5
		; GFX9-NEXT: ; %bb.6: ; %ComputeEnd
		; GFX9-NEXT: v_mbcnt_lo_u32_b32 v2, exec_lo, 0
		; GFX9-NEXT: v_mbcnt_hi_u32_b32 v2, exec_hi, v2
		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
		; GFX9-NEXT: ; implicit-def: $vgpr2
		; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GFX9-NEXT: s_xor_b64 s[4:5], exec, s[4:5]
		; GFX9-NEXT: s_cbranch_execz .LBB2_8
		; GFX9-NEXT: ; %bb.7:
		; GFX9-NEXT: v_mov_b32_e32 v2, s2
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: ds_add_rtn_f32 v0, v0, v1		; GFX9-NEXT: ds_add_rtn_f32 v2, v2, v1
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: .LBB2_8:
		; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: v_readfirstlane_b32 s2, v2
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
		; GFX9-NEXT: v_add_f32_e32 v0, s2, v0
; GFX9-NEXT: global_store_dword v1, v0, s[0:1]		; GFX9-NEXT: global_store_dword v1, v0, s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX7-LABEL: lds_ds_fadd:		; GFX7-LABEL: lds_ds_fadd:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb		; GFX7-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
; GFX7-NEXT: s_mov_b32 m0, -1		; GFX7-NEXT: s_mov_b32 m0, -1
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 142 Lines • ▼ Show 20 Lines	; GFX8-NEXT: s_endpgm
%a3 = atomicrmw fadd ptr addrspace(3) %ptrf, float %a1 seq_cst		%a3 = atomicrmw fadd ptr addrspace(3) %ptrf, float %a1 seq_cst
store float %a3, ptr addrspace(1) %out		store float %a3, ptr addrspace(1) %out
ret void		ret void
}		}

define amdgpu_kernel void @lds_ds_fadd_one_as(ptr addrspace(1) %out, ptr addrspace(3) %ptrf, i32 %idx) {		define amdgpu_kernel void @lds_ds_fadd_one_as(ptr addrspace(1) %out, ptr addrspace(3) %ptrf, i32 %idx) {
; VI-LABEL: lds_ds_fadd_one_as:		; VI-LABEL: lds_ds_fadd_one_as:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
; VI-NEXT: v_mov_b32_e32 v0, 0x42280000		; VI-NEXT: s_mov_b64 s[4:5], exec
; VI-NEXT: s_mov_b32 m0, -1		; VI-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
		; VI-NEXT: v_mbcnt_hi_u32_b32 v0, s5, v0
		; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_lshl_b32 s4, s3, 3		; VI-NEXT: s_add_i32 s3, s3, 4
; VI-NEXT: v_mov_b32_e32 v1, s4		; VI-NEXT: ; implicit-def: $vgpr1
; VI-NEXT: ds_add_rtn_f32 v1, v1, v0 offset:32		; VI-NEXT: s_mov_b32 m0, -1
		; VI-NEXT: s_and_saveexec_b64 s[6:7], vcc
		; VI-NEXT: s_cbranch_execz .LBB3_2
		; VI-NEXT: ; %bb.1:
		; VI-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
		; VI-NEXT: s_lshl_b32 s8, s3, 3
		; VI-NEXT: v_cvt_f32_ubyte0_e32 v1, s4
		; VI-NEXT: v_mul_f32_e32 v1, 0x42280000, v1
		; VI-NEXT: v_mov_b32_e32 v2, s8
		; VI-NEXT: ds_add_rtn_f32 v1, v2, v1
		; VI-NEXT: .LBB3_2:
		; VI-NEXT: s_or_b64 exec, exec, s[6:7]
		; VI-NEXT: s_mov_b64 s[6:7], exec
		; VI-NEXT: s_waitcnt lgkmcnt(0)
		; VI-NEXT: v_readfirstlane_b32 s8, v1
		; VI-NEXT: v_mbcnt_lo_u32_b32 v1, s6, 0
		; VI-NEXT: v_mbcnt_hi_u32_b32 v1, s7, v1
		; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
		; VI-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; VI-NEXT: s_cbranch_execz .LBB3_4
		; VI-NEXT: ; %bb.3:
		; VI-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
		; VI-NEXT: v_cvt_f32_ubyte0_e32 v1, s6
; VI-NEXT: s_lshl_b32 s3, s3, 4		; VI-NEXT: s_lshl_b32 s3, s3, 4
		; VI-NEXT: v_mul_f32_e32 v1, 0x42280000, v1
; VI-NEXT: v_mov_b32_e32 v2, s3		; VI-NEXT: v_mov_b32_e32 v2, s3
; VI-NEXT: ds_add_f32 v2, v0 offset:64		; VI-NEXT: ds_add_f32 v2, v1
; VI-NEXT: v_mov_b32_e32 v0, s2		; VI-NEXT: .LBB3_4:
; VI-NEXT: s_waitcnt lgkmcnt(1)		; VI-NEXT: s_or_b64 exec, exec, s[4:5]
; VI-NEXT: ds_add_rtn_f32 v2, v0, v1		; VI-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
		; VI-NEXT: v_mul_f32_e32 v0, 0x42280000, v0
		; VI-NEXT: s_mov_b64 s[4:5], exec
		; VI-NEXT: v_add_f32_e32 v2, s8, v0
		; VI-NEXT: v_bfrev_b32_e32 v1, 1
		; VI-NEXT: ; implicit-def: $vgpr0
		; VI-NEXT: .LBB3_5: ; %ComputeLoop
		; VI-NEXT: ; =>This Inner Loop Header: Depth=1
		; VI-NEXT: s_ff1_i32_b32 s3, s5
		; VI-NEXT: s_ff1_i32_b32 s6, s4
		; VI-NEXT: s_add_i32 s3, s3, 32
		; VI-NEXT: s_min_u32 s3, s6, s3
		; VI-NEXT: s_lshl_b64 s[6:7], 1, s3
		; VI-NEXT: v_readfirstlane_b32 s8, v1
		; VI-NEXT: v_readlane_b32 s9, v2, s3
		; VI-NEXT: s_mov_b32 m0, s3
		; VI-NEXT: s_andn2_b64 s[4:5], s[4:5], s[6:7]
		; VI-NEXT: v_writelane_b32 v0, s8, m0
		; VI-NEXT: s_cmp_lg_u64 s[4:5], 0
		; VI-NEXT: v_add_f32_e32 v1, s9, v1
		; VI-NEXT: s_cbranch_scc1 .LBB3_5
		; VI-NEXT: ; %bb.6: ; %ComputeEnd
		; VI-NEXT: v_mbcnt_lo_u32_b32 v2, exec_lo, 0
		; VI-NEXT: v_mbcnt_hi_u32_b32 v2, exec_hi, v2
		; VI-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
		; VI-NEXT: ; implicit-def: $vgpr2
		; VI-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; VI-NEXT: s_xor_b64 s[4:5], exec, s[4:5]
		; VI-NEXT: s_cbranch_execz .LBB3_8
		; VI-NEXT: ; %bb.7:
		; VI-NEXT: v_mov_b32_e32 v2, s2
		; VI-NEXT: s_mov_b32 m0, -1
		; VI-NEXT: ds_add_rtn_f32 v2, v2, v1
		; VI-NEXT: .LBB3_8:
		; VI-NEXT: s_or_b64 exec, exec, s[4:5]
		; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; VI-NEXT: s_waitcnt lgkmcnt(0)
		; VI-NEXT: v_readfirstlane_b32 s2, v2
		; VI-NEXT: v_add_f32_e32 v2, s2, v0
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s0
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: flat_store_dword v[0:1], v2		; VI-NEXT: flat_store_dword v[0:1], v2
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
;		;
; GFX9-LABEL: lds_ds_fadd_one_as:		; GFX9-LABEL: lds_ds_fadd_one_as:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
; GFX9-NEXT: v_mov_b32_e32 v0, 0x42280000		; GFX9-NEXT: s_mov_b64 s[4:5], exec
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
; GFX9-NEXT: s_lshl_b32 s4, s3, 3		; GFX9-NEXT: v_mbcnt_hi_u32_b32 v0, s5, v0
; GFX9-NEXT: v_mov_b32_e32 v1, s4		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GFX9-NEXT: ds_add_rtn_f32 v1, v1, v0 offset:32		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: s_add_i32 s3, s3, 4
		; GFX9-NEXT: ; implicit-def: $vgpr1
		; GFX9-NEXT: s_and_saveexec_b64 s[6:7], vcc
		; GFX9-NEXT: s_cbranch_execz .LBB3_2
		; GFX9-NEXT: ; %bb.1:
		; GFX9-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
		; GFX9-NEXT: s_lshl_b32 s8, s3, 3
		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v1, s4
		; GFX9-NEXT: v_mul_f32_e32 v1, 0x42280000, v1
		; GFX9-NEXT: v_mov_b32_e32 v2, s8
		; GFX9-NEXT: ds_add_rtn_f32 v1, v2, v1
		; GFX9-NEXT: .LBB3_2:
		; GFX9-NEXT: s_or_b64 exec, exec, s[6:7]
		; GFX9-NEXT: s_mov_b64 s[6:7], exec
		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: v_readfirstlane_b32 s8, v1
		; GFX9-NEXT: v_mbcnt_lo_u32_b32 v1, s6, 0
		; GFX9-NEXT: v_mbcnt_hi_u32_b32 v1, s7, v1
		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
		; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GFX9-NEXT: s_cbranch_execz .LBB3_4
		; GFX9-NEXT: ; %bb.3:
		; GFX9-NEXT: s_bcnt1_i32_b64 s6, s[6:7]
		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v1, s6
; GFX9-NEXT: s_lshl_b32 s3, s3, 4		; GFX9-NEXT: s_lshl_b32 s3, s3, 4
		; GFX9-NEXT: v_mul_f32_e32 v1, 0x42280000, v1
; GFX9-NEXT: v_mov_b32_e32 v2, s3		; GFX9-NEXT: v_mov_b32_e32 v2, s3
; GFX9-NEXT: ds_add_f32 v2, v0 offset:64		; GFX9-NEXT: ds_add_f32 v2, v1
; GFX9-NEXT: v_mov_b32_e32 v0, s2		; GFX9-NEXT: .LBB3_4:
; GFX9-NEXT: s_waitcnt lgkmcnt(1)		; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
; GFX9-NEXT: ds_add_rtn_f32 v0, v0, v1		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, v0
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x42280000, v0
		; GFX9-NEXT: s_mov_b64 s[4:5], exec
		; GFX9-NEXT: v_add_f32_e32 v2, s8, v0
		; GFX9-NEXT: v_bfrev_b32_e32 v1, 1
		; GFX9-NEXT: ; implicit-def: $vgpr0
		; GFX9-NEXT: .LBB3_5: ; %ComputeLoop
		; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
		; GFX9-NEXT: s_ff1_i32_b32 s3, s5
		; GFX9-NEXT: s_ff1_i32_b32 s6, s4
		; GFX9-NEXT: s_add_i32 s3, s3, 32
		; GFX9-NEXT: s_min_u32 s3, s6, s3
		; GFX9-NEXT: s_lshl_b64 s[6:7], 1, s3
		; GFX9-NEXT: v_readfirstlane_b32 s8, v1
		; GFX9-NEXT: v_readlane_b32 s9, v2, s3
		; GFX9-NEXT: s_mov_b32 m0, s3
		; GFX9-NEXT: s_andn2_b64 s[4:5], s[4:5], s[6:7]
		; GFX9-NEXT: v_writelane_b32 v0, s8, m0
		; GFX9-NEXT: s_cmp_lg_u64 s[4:5], 0
		; GFX9-NEXT: v_add_f32_e32 v1, s9, v1
		; GFX9-NEXT: s_cbranch_scc1 .LBB3_5
		; GFX9-NEXT: ; %bb.6: ; %ComputeEnd
		; GFX9-NEXT: v_mbcnt_lo_u32_b32 v2, exec_lo, 0
		; GFX9-NEXT: v_mbcnt_hi_u32_b32 v2, exec_hi, v2
		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
		; GFX9-NEXT: ; implicit-def: $vgpr2
		; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
		; GFX9-NEXT: s_xor_b64 s[4:5], exec, s[4:5]
		; GFX9-NEXT: s_cbranch_execz .LBB3_8
		; GFX9-NEXT: ; %bb.7:
		; GFX9-NEXT: v_mov_b32_e32 v2, s2
		; GFX9-NEXT: ds_add_rtn_f32 v2, v2, v1
		; GFX9-NEXT: .LBB3_8:
		; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NEXT: v_readfirstlane_b32 s2, v2
		; GFX9-NEXT: v_mov_b32_e32 v1, 0
		; GFX9-NEXT: v_add_f32_e32 v0, s2, v0
; GFX9-NEXT: global_store_dword v1, v0, s[0:1]		; GFX9-NEXT: global_store_dword v1, v0, s[0:1]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX7-LABEL: lds_ds_fadd_one_as:		; GFX7-LABEL: lds_ds_fadd_one_as:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb		; GFX7-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
; GFX7-NEXT: s_mov_b32 m0, -1		; GFX7-NEXT: s_mov_b32 m0, -1
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 718 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Support FAdd/FSub global atomics in AMDGPUAtomicOptimizer.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 554745

llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/atomic_optimizations_mul_one.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/global-atomic-fadd.f32-no-rtn.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/global-atomic-fadd.f32-rtn.ll

llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll

llvm/test/CodeGen/AMDGPU/atomics-hw-remarks-gfx90a.ll

llvm/test/CodeGen/AMDGPU/global-atomic-fadd.f32-no-rtn.ll

llvm/test/CodeGen/AMDGPU/global-atomic-fadd.f32-rtn.ll

llvm/test/CodeGen/AMDGPU/global-atomic-scan.ll

llvm/test/CodeGen/AMDGPU/global-atomics-fp-wrong-subtarget.ll

llvm/test/CodeGen/AMDGPU/global-atomics-fp.ll

llvm/test/CodeGen/AMDGPU/global_atomic_optimizer_fp_rtn.ll

llvm/test/CodeGen/AMDGPU/global_atomics_iterative_scan.ll

llvm/test/CodeGen/AMDGPU/global_atomics_iterative_scan_fp.ll

llvm/test/CodeGen/AMDGPU/global_atomics_optimizer_fp_no_rtn.ll

llvm/test/CodeGen/AMDGPU/global_atomics_scan_fadd.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.ll

llvm/test/CodeGen/AMDGPU/local-atomics-fp.ll

[AMDGPU] Support FAdd/FSub global atomics in AMDGPUAtomicOptimizer.
ClosedPublic