This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
-
AMDGPUInstructionSelector.h
-
AMDGPUInstructionSelector.cpp
1/2
AMDGPULegalizerInfo.cpp
-
AMDGPURegisterBankInfo.cpp
1
BUFInstructions.td
3/6
FLATInstructions.td
1/2
SIISelLowering.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
fp-atomics-gfx940.ll
-
llvm.amdgcn.global.atomic.fadd-with-ret.ll
-
llvm.amdgcn.global.atomic.fadd.ll
-
llvm.amdgcn.raw.buffer.atomic.fadd-with-ret.ll
-
llvm.amdgcn.struct.buffer.atomic.fadd-with-ret.ll
-
global-atomics-fp.ll
1/2
llvm.amdgcn.atomic.fadd.rtn_no-rtn.ll

Differential D130579

AMDGPU: Use tablegen patterns for buffer global and flat atomic fadd
ClosedPublic

Authored by Petar.Avramovic on Jul 26 2022, 8:07 AM.

Download Raw Diff

Details

Reviewers

foad
arsenm
abinavpp

Group Reviewers

Restricted Project

Commits

rG6db7921b65d9: AMDGPU: Use tablegen patterns for buffer global and flat atomic fadd

Summary

Remove manual selection for atomic fadd from global-isel.
Stop pre-isel translation to AtomicLoadFAdd/G_ATOMICRMW_FADD
which corresponds to llvm-ir's atomicrmw fadd instruction.

global and flat atomic fadd patterns changes:
Split rtn/no-rtn patterns
Add missing patterns or fix predicates
remove atomicrmw patterns for v2f16 (atomic rmw doesn't support vectors)
Patterns now check addrspace of pointer, added patterns for flat intrinsic
with global addrspace pointer that selects into global atomic instruction.

buffer atomic fadd patterns changes:
edit patterns to import into global-isel
remove gfx6/gfx7 _addr64 and _offset patterns
remove patterns that can't be reached (same pattern but different feature)

Diff Detail

Event Timeline

Petar.Avramovic created this revision.Jul 26 2022, 8:07 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 26 2022, 8:07 AM

Herald added subscribers: kosarev, jsilvanus, kerbowa and 8 others. · View Herald Transcript

Petar.Avramovic requested review of this revision.Jul 26 2022, 8:07 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 26 2022, 8:07 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

Petar.Avramovic added inline comments.Jul 26 2022, 8:10 AM

llvm/lib/Target/AMDGPU/FLATInstructions.td
1452–1453	Predicates are edited to match predicates for atomicrmw fadd (_NO_RTN) see llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.ll global_atomic_fadd_f32_wrong_subtarget I left v2f16_rtn, f64_no_rtn, f64_rtn patterns in isGFX90APlus, should each of them get feature for itself? Here is the list of predicates and atomic global fadd instructions they have HasAtomicFaddRtnInsts: f32_rtn HasAtomicFaddNoRtnInsts: f32_no_rtn HasAtomicPkFaddNoRtnInsts: v2f16_no_rtn isGFX90APlus: v2f16_rtn, f64_no_rtn, f64_rtn GFX90A has all of the above

Petar.Avramovic edited the summary of this revision. (Show Details)Jul 26 2022, 8:10 AM

Please add some codegen tests for flat_atomic_add_f32. Also I can't see any buffer_atomic_add_f32 tests that run on GFX11.

About flat_atomic_add, there are some tests for gfx9, gfx908 and gfx90a. I will test them for never targets also.

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.rtn_no-rtn.ll
4	this tests all buffer_atomic_add_f32 patterns for gfx11

Harbormaster completed remote builds in B177628: Diff 447714.Jul 26 2022, 9:46 AM

abinavpp added inline comments.Jul 27 2022, 1:26 AM

llvm/lib/Target/AMDGPU/BUFInstructions.td
1588	Can we remove the PredicateCode and GISelPredicateCode above?
llvm/lib/Target/AMDGPU/FLATInstructions.td
1040	Since you're splitting the ret and noret patterns to their own multiclasses, I think you can remove the complexity argument here and from FlatSignedAtomicPatImplRtn and use `let AddedComplexity = ... in` in the defms.

arsenm added inline comments.Jul 27 2022, 5:44 AM

llvm/lib/Target/AMDGPU/FLATInstructions.td
1040	Complexity argument is weird, should put in a let block around the instances
llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.rtn_no-rtn.ll
7	Why are these checks so sparse? Why isn't this test generated like the others?

added detailed mir tests for global/flat atomic fadd f32 on gfx11. Covers all patterns from td files. MI subtargets are already covered.

Petar.Avramovic added inline comments.Jul 29 2022, 8:59 AM

llvm/lib/Target/AMDGPU/FLATInstructions.td
1266	these added complexity numbers are calculated by refactoring. Although I think it would be enough to have AddedComplexity = 1 on nortn patterns since they no longer have a way to get higher complexity then ret pattern (we no longer use complex patterns for no ret checks). Is there some desired precedence for regular vs saddr pattern?
1459	Strange name: atomic_load_fadd_v2f16_global_noret_32.
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
12737	I wanted to avoid lowering for gfx11, I am not sure if this is the correct place.

Harbormaster completed remote builds in B178294: Diff 448642.Jul 29 2022, 9:27 AM

Overall I think this looks good. Can you precommit all the changes in test/ (consider it pre approved) and then rebase this patch?

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1344	Apparently gfx90a has flat_atomic_add for f64 (but not f32 or v2f16). Are there any tests for that?

I will to put tests in precommit but some will have to be excluded since they fail to select

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1344	yes, there are a few but atomic gets lowered in ir. I will try to fix that.

arsenm added inline comments.Aug 2 2022, 7:41 AM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
12737	Should be based on a subtarget feature check, or at least the getGeneration() query on the subtarget. This also wouldn't belong in a change that's just supposed to stop using manual selection

Checked inc files, removed more patterns that can't be used
Tests for all patterns are in precommit
rmw lowering is moved to another patch

Harbormaster completed remote builds in B180362: Diff 451426.Aug 10 2022, 5:41 AM

Petar.Avramovic mentioned this in D131560: AMDGPU: Improve atomicrmw fadd selection.Aug 10 2022, 5:42 AM

Petar.Avramovic mentioned this in D131561: AMDGPU: Add detailed buffer, global and flat atomic fadd tests.

Petar.Avramovic added a parent revision: D131560: AMDGPU: Improve atomicrmw fadd selection.

LGTM

llvm/lib/Target/AMDGPU/FLATInstructions.td
1426	Can drop the Intr from the multiclass name for consistency
llvm/test/CodeGen/AMDGPU/GlobalISel/flat-atomic-fadd-f32.ll
5 ↗	(On Diff #451426)	I'm assuming this really does exist on gfx11

This revision is now accepted and ready to land.Sep 15 2022, 9:51 AM

foad added inline comments.Sep 16 2022, 1:37 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-atomic-fadd-f32.ll
5 ↗	(On Diff #451426)	Yes GFX11 has FLAT_ATOMIC_ADD_F32.

There are some conflicts with https://reviews.llvm.org/D130729, looks like an error to me.
Intrinsic patterns don't check address space (they will take any pointer)

define amdgpu_ps float @flat_atomic_fadd_f32_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)*, float)


define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(float* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.global.atomic.fadd(float* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.global.atomic.fadd(float*, float)

tests like this will select %ptr ignoring it is from wrong address space. I would expect tests like this to fail to select.
Comments and behavior from D130729 are based on translation of intrinsic to atomic rmw which are selected based on address space of %ptr (removed in this patch, intrinsics have separate patterns).

Planed fix:
intrinsic patterns should check address space, failing to select when pointer argument has wrong address space (I assume this is possible to do in tablegen).
D130729 will also change intrinsic id, when it changes pointer.

Any comments?

In D130579#3795146, @Petar.Avramovic wrote:
There are some conflicts with https://reviews.llvm.org/D130729, looks like an error to me.
Intrinsic patterns don't check address space (they will take any pointer)
define amdgpu_ps float @flat_atomic_fadd_f32_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)*, float)


define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(float* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.global.atomic.fadd(float* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.global.atomic.fadd(float*, float)
tests like this will select %ptr ignoring it is from wrong address space. I would expect tests like this to fail to select.
Comments and behavior from D130729 are based on translation of intrinsic to atomic rmw which are selected based on address space of %ptr (removed in this patch, intrinsics have separate patterns).

Planed fix:
intrinsic patterns should check address space, failing to select when pointer argument has wrong address space (I assume this is possible to do in tablegen).
D130729 will also change intrinsic id, when it changes pointer.

Any comments?

The flat intrinsic with a global pointer is perfectly fine (and we recently started optimizing the address space for these in 20cf170e68def39dc50b59847afb8d9ab445703d). The global intrinsic with a flat pointer is more of a grey area and probably shouldn't select

In D130579#3795182, @arsenm wrote:
In D130579#3795146, @Petar.Avramovic wrote:
There are some conflicts with https://reviews.llvm.org/D130729, looks like an error to me.
Intrinsic patterns don't check address space (they will take any pointer)
define amdgpu_ps float @flat_atomic_fadd_f32_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)*, float)


define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(float* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.global.atomic.fadd(float* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.global.atomic.fadd(float*, float)
tests like this will select %ptr ignoring it is from wrong address space. I would expect tests like this to fail to select.
Comments and behavior from D130729 are based on translation of intrinsic to atomic rmw which are selected based on address space of %ptr (removed in this patch, intrinsics have separate patterns).

Planed fix:
intrinsic patterns should check address space, failing to select when pointer argument has wrong address space (I assume this is possible to do in tablegen).
D130729 will also change intrinsic id, when it changes pointer.

Any comments?
The flat intrinsic with a global pointer is perfectly fine (and we recently started optimizing the address space for these in 20cf170e68def39dc50b59847afb8d9ab445703d). The global intrinsic with a flat pointer is more of a grey area and probably shouldn't select

Petar, just to explain, this is because the global addr space is a subset of the flat addr space, so any global pointer is also a valid flat pointer (but not vice versa). Given a global pointer it is OK to select a FLAT_ instruction, but it would still be better to select a GLOBAL_ instruction if one is available.

then do I need to add additional sets of patterns for flat_intrinsic with global addr assuming we add checks for address space in each intrinsic pattern
global_intrinsic + addr_space1 -> global_atomic
flat_intrinsic + addr_space0 -> flat_atomic
flat_intrinsic + addr_space1 -> global_atomic

In D130579#3795273, @Petar.Avramovic wrote:

then do I need to add additional sets of patterns for flat_intrinsic with global addr assuming we add checks for address space in each intrinsic pattern
global_intrinsic + addr_space1 -> global_atomic
flat_intrinsic + addr_space0 -> flat_atomic
flat_intrinsic + addr_space1 -> global_atomic

Yes, this should be the current behavior. Arguably flat intrinsic + addrspace1 should select to flat_atomic but I don't think it matters much. We should probably be swapping the intrinsic instead in the address space optimization

Added type checks to address spaces using same method as rmw atomics (made new PatFrags with let IsAtomic = 1; and let AddressSpaces = ... ).
Intrinsic patterns use these (I think they are called PatFrags), there are some additional tests for 'flat intrinsic' + 'global address' -> global atomic instruction

This revision is now accepted and ready to land.Sep 21 2022, 3:30 PM

Harbormaster completed remote builds in B188060: Diff 462023.Sep 21 2022, 3:31 PM

Petar.Avramovic updated this revision to Diff 462144.Sep 22 2022, 5:11 AM

Petar.Avramovic edited the summary of this revision. (Show Details)

Harbormaster completed remote builds in B188150: Diff 462144.Sep 22 2022, 5:11 AM

Petar.Avramovic requested review of this revision.Sep 22 2022, 5:12 AM

arsenm accepted this revision.Sep 22 2022, 5:52 AM

This revision is now accepted and ready to land.Sep 22 2022, 5:52 AM

Closed by commit rG6db7921b65d9: AMDGPU: Use tablegen patterns for buffer global and flat atomic fadd (authored by Petar.Avramovic). · Explain WhySep 23 2022, 9:01 AM

This revision was automatically updated to reflect the committed changes.

Petar.Avramovic mentioned this in rG48968c47b0a1: AMDGPU: Add detailed buffer, global and flat atomic fadd tests.

Petar.Avramovic mentioned this in rG5cee9047d5ff: AMDGPU: Improve atomicrmw fadd selection.

Petar.Avramovic added a commit: rG6db7921b65d9: AMDGPU: Use tablegen patterns for buffer global and flat atomic fadd.

This broke check-clang everywhere, see e.g. https://lab.llvm.org/buildbot/#/builders/109/builds/47270 (or most other bots on https://lab.llvm.org/buildbot/#/console) or http://45.33.8.238/macm1/45085/step_7.txt (or all other bots on http://45.33.8.238/).

Please take a look and revert for now if it takes a while to fix.

I am aware, looking into it

Petar.Avramovic mentioned this in rGa3becb333d7f: [clang][AMDGPU] Temporarily disable clang atomic fadd test for gfx90a.Sep 23 2022, 12:51 PM

Petar.Avramovic mentioned this in D134568: [AMDGPU] Add pattern for flat fadd f64 intrinsic with local address.Sep 23 2022, 2:54 PM

Petar.Avramovic mentioned this in rGdcc756d03e59: [AMDGPU] Pattern for flat atomic fadd f64 intrinsic with local addr.Sep 25 2022, 4:33 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPUInstructionSelector.h

3 lines

AMDGPUInstructionSelector.cpp

138 lines

AMDGPULegalizerInfo.cpp

21 lines

AMDGPURegisterBankInfo.cpp

3 lines

BUFInstructions.td

16 lines

FLATInstructions.td

103 lines

SIISelLowering.cpp

20 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

fp-atomics-gfx940.ll

135 lines

llvm.amdgcn.global.atomic.fadd-with-ret.ll

2 lines

llvm.amdgcn.global.atomic.fadd.ll

7 lines

llvm.amdgcn.raw.buffer.atomic.fadd-with-ret.ll

5 lines

llvm.amdgcn.struct.buffer.atomic.fadd-with-ret.ll

5 lines

global-atomics-fp.ll

106 lines

llvm.amdgcn.atomic.fadd.rtn_no-rtn.ll

768 lines

Diff 448642

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h

Show First 20 Lines • Show All 133 Lines • ▼ Show 20 Lines	private:
bool selectG_LOAD_STORE_ATOMICRMW(MachineInstr &I) const;		bool selectG_LOAD_STORE_ATOMICRMW(MachineInstr &I) const;
bool selectG_SELECT(MachineInstr &I) const;		bool selectG_SELECT(MachineInstr &I) const;
bool selectG_BRCOND(MachineInstr &I) const;		bool selectG_BRCOND(MachineInstr &I) const;
bool selectG_GLOBAL_VALUE(MachineInstr &I) const;		bool selectG_GLOBAL_VALUE(MachineInstr &I) const;
bool selectG_PTRMASK(MachineInstr &I) const;		bool selectG_PTRMASK(MachineInstr &I) const;
bool selectG_EXTRACT_VECTOR_ELT(MachineInstr &I) const;		bool selectG_EXTRACT_VECTOR_ELT(MachineInstr &I) const;
bool selectG_INSERT_VECTOR_ELT(MachineInstr &I) const;		bool selectG_INSERT_VECTOR_ELT(MachineInstr &I) const;
bool selectG_SHUFFLE_VECTOR(MachineInstr &I) const;		bool selectG_SHUFFLE_VECTOR(MachineInstr &I) const;
bool selectAMDGPU_BUFFER_ATOMIC_FADD(MachineInstr &I) const;
bool selectGlobalAtomicFadd(MachineInstr &I, MachineOperand &AddrOp,
MachineOperand &DataOp) const;
bool selectBufferLoadLds(MachineInstr &MI) const;		bool selectBufferLoadLds(MachineInstr &MI) const;
bool selectGlobalLoadLds(MachineInstr &MI) const;		bool selectGlobalLoadLds(MachineInstr &MI) const;
bool selectBVHIntrinsic(MachineInstr &I) const;		bool selectBVHIntrinsic(MachineInstr &I) const;
bool selectSMFMACIntrin(MachineInstr &I) const;		bool selectSMFMACIntrin(MachineInstr &I) const;
bool selectWaveAddress(MachineInstr &I) const;		bool selectWaveAddress(MachineInstr &I) const;

std::pair<Register, unsigned>		std::pair<Register, unsigned>
selectVOP3ModsImpl(MachineOperand &Root, bool AllowAbs = true,		selectVOP3ModsImpl(MachineOperand &Root, bool AllowAbs = true,
▲ Show 20 Lines • Show All 197 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp

Show First 20 Lines • Show All 1,819 Lines • ▼ Show 20 Lines	bool AMDGPUInstructionSelector::selectG_INTRINSIC_W_SIDE_EFFECTS(
case Intrinsic::amdgcn_ds_gws_sema_release_all:		case Intrinsic::amdgcn_ds_gws_sema_release_all:
return selectDSGWSIntrinsic(I, IntrinsicID);		return selectDSGWSIntrinsic(I, IntrinsicID);
case Intrinsic::amdgcn_ds_append:		case Intrinsic::amdgcn_ds_append:
return selectDSAppendConsume(I, true);		return selectDSAppendConsume(I, true);
case Intrinsic::amdgcn_ds_consume:		case Intrinsic::amdgcn_ds_consume:
return selectDSAppendConsume(I, false);		return selectDSAppendConsume(I, false);
case Intrinsic::amdgcn_s_barrier:		case Intrinsic::amdgcn_s_barrier:
return selectSBarrier(I);		return selectSBarrier(I);
case Intrinsic::amdgcn_global_atomic_fadd:
return selectGlobalAtomicFadd(I, I.getOperand(2), I.getOperand(3));
case Intrinsic::amdgcn_raw_buffer_load_lds:		case Intrinsic::amdgcn_raw_buffer_load_lds:
case Intrinsic::amdgcn_struct_buffer_load_lds:		case Intrinsic::amdgcn_struct_buffer_load_lds:
return selectBufferLoadLds(I);		return selectBufferLoadLds(I);
case Intrinsic::amdgcn_global_load_lds:		case Intrinsic::amdgcn_global_load_lds:
return selectGlobalLoadLds(I);		return selectGlobalLoadLds(I);
case Intrinsic::amdgcn_exp_compr:		case Intrinsic::amdgcn_exp_compr:
if (!STI.hasCompressedExport()) {		if (!STI.hasCompressedExport()) {
Function &F = I.getMF()->getFunction();		Function &F = I.getMF()->getFunction();
▲ Show 20 Lines • Show All 599 Lines • ▼ Show 20 Lines	if ((AS == AMDGPUAS::LOCAL_ADDRESS \|\| AS == AMDGPUAS::REGION_ADDRESS) &&
// If DS instructions require M0 initialization, insert it before selecting.		// If DS instructions require M0 initialization, insert it before selecting.
BuildMI(*BB, &I, I.getDebugLoc(), TII.get(AMDGPU::S_MOV_B32), AMDGPU::M0)		BuildMI(*BB, &I, I.getDebugLoc(), TII.get(AMDGPU::S_MOV_B32), AMDGPU::M0)
.addImm(-1);		.addImm(-1);
}		}
}		}

bool AMDGPUInstructionSelector::selectG_LOAD_STORE_ATOMICRMW(		bool AMDGPUInstructionSelector::selectG_LOAD_STORE_ATOMICRMW(
MachineInstr &I) const {		MachineInstr &I) const {
if (I.getOpcode() == TargetOpcode::G_ATOMICRMW_FADD) {
const LLT PtrTy = MRI->getType(I.getOperand(1).getReg());
unsigned AS = PtrTy.getAddressSpace();
if (AS == AMDGPUAS::GLOBAL_ADDRESS)
return selectGlobalAtomicFadd(I, I.getOperand(1), I.getOperand(2));
}

initM0(I);		initM0(I);
return selectImpl(I, *CoverageInfo);		return selectImpl(I, *CoverageInfo);
}		}

static bool isVCmpResult(Register Reg, MachineRegisterInfo &MRI) {		static bool isVCmpResult(Register Reg, MachineRegisterInfo &MRI) {
if (Reg.isPhysical())		if (Reg.isPhysical())
return false;		return false;

▲ Show 20 Lines • Show All 550 Lines • ▼ Show 20 Lines	if (Mask[0] == 1 && Mask[1] == -1) {
}		}
} else		} else
llvm_unreachable("all shuffle masks should be handled");		llvm_unreachable("all shuffle masks should be handled");

MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
}		}

bool AMDGPUInstructionSelector::selectAMDGPU_BUFFER_ATOMIC_FADD(
MachineInstr &MI) const {
const Register DefReg = MI.getOperand(0).getReg();
LLT DefTy = MRI->getType(DefReg);
if (AMDGPU::hasAtomicFaddRtnForTy(STI, DefTy))
return selectImpl(MI, *CoverageInfo);

MachineBasicBlock *MBB = MI.getParent();
const DebugLoc &DL = MI.getDebugLoc();

if (!MRI->use_nodbg_empty(DefReg)) {
Function &F = MBB->getParent()->getFunction();
DiagnosticInfoUnsupported
NoFpRet(F, "return versions of fp atomics not supported",
MI.getDebugLoc(), DS_Error);
F.getContext().diagnose(NoFpRet);
return false;
}

// FIXME: This is only needed because tablegen requires number of dst operands
// in match and replace pattern to be the same. Otherwise patterns can be
// exported from SDag path.
MachineOperand &VDataIn = MI.getOperand(1);
MachineOperand &VIndex = MI.getOperand(3);
MachineOperand &VOffset = MI.getOperand(4);
MachineOperand &SOffset = MI.getOperand(5);
int16_t Offset = MI.getOperand(6).getImm();

bool HasVOffset = !isOperandImmEqual(VOffset, 0, *MRI);
bool HasVIndex = !isOperandImmEqual(VIndex, 0, *MRI);

unsigned Opcode;
if (HasVOffset) {
Opcode = HasVIndex ? AMDGPU::BUFFER_ATOMIC_ADD_F32_BOTHEN
: AMDGPU::BUFFER_ATOMIC_ADD_F32_OFFEN;
} else {
Opcode = HasVIndex ? AMDGPU::BUFFER_ATOMIC_ADD_F32_IDXEN
: AMDGPU::BUFFER_ATOMIC_ADD_F32_OFFSET;
}

if (MRI->getType(VDataIn.getReg()).isVector()) {
switch (Opcode) {
case AMDGPU::BUFFER_ATOMIC_ADD_F32_BOTHEN:
Opcode = AMDGPU::BUFFER_ATOMIC_PK_ADD_F16_BOTHEN;
break;
case AMDGPU::BUFFER_ATOMIC_ADD_F32_OFFEN:
Opcode = AMDGPU::BUFFER_ATOMIC_PK_ADD_F16_OFFEN;
break;
case AMDGPU::BUFFER_ATOMIC_ADD_F32_IDXEN:
Opcode = AMDGPU::BUFFER_ATOMIC_PK_ADD_F16_IDXEN;
break;
case AMDGPU::BUFFER_ATOMIC_ADD_F32_OFFSET:
Opcode = AMDGPU::BUFFER_ATOMIC_PK_ADD_F16_OFFSET;
break;
}
}

auto I = BuildMI(*MBB, MI, DL, TII.get(Opcode));
I.add(VDataIn);

if (Opcode == AMDGPU::BUFFER_ATOMIC_ADD_F32_BOTHEN \|\|
Opcode == AMDGPU::BUFFER_ATOMIC_PK_ADD_F16_BOTHEN) {
Register IdxReg = MRI->createVirtualRegister(TRI.getVGPR64Class());
BuildMI(MBB, &I, DL, TII.get(AMDGPU::REG_SEQUENCE), IdxReg)
.addReg(VIndex.getReg())
.addImm(AMDGPU::sub0)
.addReg(VOffset.getReg())
.addImm(AMDGPU::sub1);

I.addReg(IdxReg);
} else if (HasVIndex) {
I.add(VIndex);
} else if (HasVOffset) {
I.add(VOffset);
}

I.add(MI.getOperand(2)); // rsrc
I.add(SOffset);
I.addImm(Offset);
I.addImm(MI.getOperand(7).getImm()); // cpol
I.cloneMemRefs(MI);

MI.eraseFromParent();

return true;
}

bool AMDGPUInstructionSelector::selectGlobalAtomicFadd(
MachineInstr &MI, MachineOperand &AddrOp, MachineOperand &DataOp) const {

if (STI.hasGFX90AInsts()) {
// gfx90a adds return versions of the global atomic fadd instructions so no
// special handling is required.
return selectImpl(MI, *CoverageInfo);
}

MachineBasicBlock *MBB = MI.getParent();
const DebugLoc &DL = MI.getDebugLoc();

if (!MRI->use_nodbg_empty(MI.getOperand(0).getReg())) {
Function &F = MBB->getParent()->getFunction();
DiagnosticInfoUnsupported
NoFpRet(F, "return versions of fp atomics not supported",
MI.getDebugLoc(), DS_Error);
F.getContext().diagnose(NoFpRet);
return false;
}

// FIXME: This is only needed because tablegen requires number of dst operands
// in match and replace pattern to be the same. Otherwise patterns can be
// exported from SDag path.
auto Addr = selectFlatOffsetImpl(AddrOp, SIInstrFlags::FlatGlobal);

Register Data = DataOp.getReg();
const unsigned Opc = MRI->getType(Data).isVector() ?
AMDGPU::GLOBAL_ATOMIC_PK_ADD_F16 : AMDGPU::GLOBAL_ATOMIC_ADD_F32;
auto MIB = BuildMI(*MBB, &MI, DL, TII.get(Opc))
.addReg(Addr.first)
.addReg(Data)
.addImm(Addr.second)
.addImm(0) // cpol
.cloneMemRefs(MI);

MI.eraseFromParent();
return constrainSelectedInstRegOperands(*MIB, TII, TRI, RBI);
}

bool AMDGPUInstructionSelector::selectBufferLoadLds(MachineInstr &MI) const {		bool AMDGPUInstructionSelector::selectBufferLoadLds(MachineInstr &MI) const {
unsigned Opc;		unsigned Opc;
unsigned Size = MI.getOperand(3).getImm();		unsigned Size = MI.getOperand(3).getImm();

// The struct intrinsic variants add one additional operand over raw.		// The struct intrinsic variants add one additional operand over raw.
const bool HasVIndex = MI.getNumOperands() == 9;		const bool HasVIndex = MI.getNumOperands() == 9;
Register VIndex;		Register VIndex;
int OpOffset = 0;		int OpOffset = 0;
▲ Show 20 Lines • Show All 395 Lines • ▼ Show 20 Lines	bool AMDGPUInstructionSelector::select(MachineInstr &I) {
case AMDGPU::G_AMDGPU_INTRIN_IMAGE_STORE_D16: {		case AMDGPU::G_AMDGPU_INTRIN_IMAGE_STORE_D16: {
const AMDGPU::ImageDimIntrinsicInfo *Intr		const AMDGPU::ImageDimIntrinsicInfo *Intr
= AMDGPU::getImageDimIntrinsicInfo(I.getIntrinsicID());		= AMDGPU::getImageDimIntrinsicInfo(I.getIntrinsicID());
assert(Intr && "not an image intrinsic with image pseudo");		assert(Intr && "not an image intrinsic with image pseudo");
return selectImageIntrinsic(I, Intr);		return selectImageIntrinsic(I, Intr);
}		}
case AMDGPU::G_AMDGPU_INTRIN_BVH_INTERSECT_RAY:		case AMDGPU::G_AMDGPU_INTRIN_BVH_INTERSECT_RAY:
return selectBVHIntrinsic(I);		return selectBVHIntrinsic(I);
case AMDGPU::G_AMDGPU_BUFFER_ATOMIC_FADD:
return selectAMDGPU_BUFFER_ATOMIC_FADD(I);
case AMDGPU::G_SBFX:		case AMDGPU::G_SBFX:
case AMDGPU::G_UBFX:		case AMDGPU::G_UBFX:
return selectG_SBFX_UBFX(I);		return selectG_SBFX_UBFX(I);
case AMDGPU::G_SI_CALL:		case AMDGPU::G_SI_CALL:
I.setDesc(TII.get(AMDGPU::SI_CALL));		I.setDesc(TII.get(AMDGPU::SI_CALL));
return true;		return true;
case AMDGPU::G_AMDGPU_WAVE_ADDRESS:		case AMDGPU::G_AMDGPU_WAVE_ADDRESS:
return selectWaveAddress(I);		return selectWaveAddress(I);
▲ Show 20 Lines • Show All 1,434 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

Show First 20 Lines • Show All 1,335 Lines • ▼ Show 20 Lines	if (ST.hasLDSFPAtomicAdd()) {
Atomic.legalFor({{S32, LocalPtr}, {S32, RegionPtr}});		Atomic.legalFor({{S32, LocalPtr}, {S32, RegionPtr}});
if (ST.hasGFX90AInsts())		if (ST.hasGFX90AInsts())
Atomic.legalFor({{S64, LocalPtr}});		Atomic.legalFor({{S64, LocalPtr}});
if (ST.hasGFX940Insts())		if (ST.hasGFX940Insts())
Atomic.legalFor({{V2S16, LocalPtr}});		Atomic.legalFor({{V2S16, LocalPtr}});
}		}
if (ST.hasAtomicFaddInsts())		if (ST.hasAtomicFaddInsts())
Atomic.legalFor({{S32, GlobalPtr}});		Atomic.legalFor({{S32, GlobalPtr}});
		if (ST.hasGFX940Insts())
		foadUnsubmitted Not Done Reply Inline Actions Apparently gfx90a has flat_atomic_add for f64 (but not f32 or v2f16). Are there any tests for that? foad: Apparently gfx90a has flat_atomic_add for f64 (but not f32 or v2f16). Are there any tests for…
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions yes, there are a few but atomic gets lowered in ir. I will try to fix that. Petar.Avramovic: yes, there are a few but atomic gets lowered in ir. I will try to fix that.
		Atomic.legalFor({{S32, FlatPtr}, {S64, FlatPtr}, {V2S16, FlatPtr}});
		if (AMDGPU::isGFX11Plus(ST))
		Atomic.legalFor({{S32, FlatPtr}});

if (ST.hasGFX90AInsts()) {		if (ST.hasGFX90AInsts()) {
// These are legal with some caveats, and should have undergone expansion in		// These are legal with some caveats, and should have undergone expansion in
// the IR in most situations		// the IR in most situations
// TODO: Move atomic expansion into legalizer		// TODO: Move atomic expansion into legalizer
// TODO: Also supports <2 x f16>		// TODO: Also supports <2 x f16>
Atomic.legalFor({		Atomic.legalFor({
{S32, GlobalPtr},		{S32, GlobalPtr},
▲ Show 20 Lines • Show All 4,409 Lines • ▼ Show 20 Lines	bool AMDGPULegalizerInfo::legalizeIntrinsic(LegalizerHelper &Helper,
case Intrinsic::amdgcn_raw_buffer_atomic_dec:		case Intrinsic::amdgcn_raw_buffer_atomic_dec:
case Intrinsic::amdgcn_struct_buffer_atomic_dec:		case Intrinsic::amdgcn_struct_buffer_atomic_dec:
case Intrinsic::amdgcn_raw_buffer_atomic_cmpswap:		case Intrinsic::amdgcn_raw_buffer_atomic_cmpswap:
case Intrinsic::amdgcn_struct_buffer_atomic_cmpswap:		case Intrinsic::amdgcn_struct_buffer_atomic_cmpswap:
case Intrinsic::amdgcn_raw_buffer_atomic_fmin:		case Intrinsic::amdgcn_raw_buffer_atomic_fmin:
case Intrinsic::amdgcn_struct_buffer_atomic_fmin:		case Intrinsic::amdgcn_struct_buffer_atomic_fmin:
case Intrinsic::amdgcn_raw_buffer_atomic_fmax:		case Intrinsic::amdgcn_raw_buffer_atomic_fmax:
case Intrinsic::amdgcn_struct_buffer_atomic_fmax:		case Intrinsic::amdgcn_struct_buffer_atomic_fmax:
return legalizeBufferAtomic(MI, B, IntrID);
case Intrinsic::amdgcn_raw_buffer_atomic_fadd:		case Intrinsic::amdgcn_raw_buffer_atomic_fadd:
case Intrinsic::amdgcn_struct_buffer_atomic_fadd: {		case Intrinsic::amdgcn_struct_buffer_atomic_fadd:
Register DstReg = MI.getOperand(0).getReg();
if (!MRI.use_empty(DstReg) &&
!AMDGPU::hasAtomicFaddRtnForTy(ST, MRI.getType(DstReg))) {
Function &F = B.getMF().getFunction();
DiagnosticInfoUnsupported NoFpRet(
F, "return versions of fp atomics not supported", B.getDebugLoc(),
DS_Error);
F.getContext().diagnose(NoFpRet);
B.buildUndef(DstReg);
MI.eraseFromParent();
return true;
}

return legalizeBufferAtomic(MI, B, IntrID);		return legalizeBufferAtomic(MI, B, IntrID);
}
case Intrinsic::amdgcn_atomic_inc:		case Intrinsic::amdgcn_atomic_inc:
return legalizeAtomicIncDec(MI, B, true);		return legalizeAtomicIncDec(MI, B, true);
case Intrinsic::amdgcn_atomic_dec:		case Intrinsic::amdgcn_atomic_dec:
return legalizeAtomicIncDec(MI, B, false);		return legalizeAtomicIncDec(MI, B, false);
case Intrinsic::trap:		case Intrinsic::trap:
return legalizeTrapIntrinsic(MI, MRI, B);		return legalizeTrapIntrinsic(MI, MRI, B);
case Intrinsic::debugtrap:		case Intrinsic::debugtrap:
return legalizeDebugTrapIntrinsic(MI, MRI, B);		return legalizeDebugTrapIntrinsic(MI, MRI, B);
Show All 18 Lines

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

Show First 20 Lines • Show All 4,566 Lines • ▼ Show 20 Lines	case AMDGPU::G_INTRINSIC_W_SIDE_EFFECTS: {
case Intrinsic::amdgcn_global_atomic_fmax:		case Intrinsic::amdgcn_global_atomic_fmax:
case Intrinsic::amdgcn_flat_atomic_fadd:		case Intrinsic::amdgcn_flat_atomic_fadd:
case Intrinsic::amdgcn_flat_atomic_fmin:		case Intrinsic::amdgcn_flat_atomic_fmin:
case Intrinsic::amdgcn_flat_atomic_fmax:		case Intrinsic::amdgcn_flat_atomic_fmax:
case Intrinsic::amdgcn_global_atomic_fadd_v2bf16:		case Intrinsic::amdgcn_global_atomic_fadd_v2bf16:
case Intrinsic::amdgcn_flat_atomic_fadd_v2bf16:		case Intrinsic::amdgcn_flat_atomic_fadd_v2bf16:
return getDefaultMappingAllVGPR(MI);		return getDefaultMappingAllVGPR(MI);
case Intrinsic::amdgcn_ds_ordered_add:		case Intrinsic::amdgcn_ds_ordered_add:
case Intrinsic::amdgcn_ds_ordered_swap: {		case Intrinsic::amdgcn_ds_ordered_swap:
		case Intrinsic::amdgcn_ds_fadd_v2bf16: {
unsigned DstSize = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();		unsigned DstSize = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();
OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, DstSize);		OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, DstSize);
unsigned M0Bank = getRegBankID(MI.getOperand(2).getReg(), MRI,		unsigned M0Bank = getRegBankID(MI.getOperand(2).getReg(), MRI,
AMDGPU::SGPRRegBankID);		AMDGPU::SGPRRegBankID);
OpdsMapping[2] = AMDGPU::getValueMapping(M0Bank, 32);		OpdsMapping[2] = AMDGPU::getValueMapping(M0Bank, 32);
OpdsMapping[3] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, 32);		OpdsMapping[3] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, 32);
break;		break;
}		}
▲ Show 20 Lines • Show All 276 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/BUFInstructions.td

	Show First 20 Lines • Show All 1,578 Lines • ▼ Show 20 Lines
	}			}
	let SubtargetPredicate = isGFX6GFX7GFX10 in {			let SubtargetPredicate = isGFX6GFX7GFX10 in {
	defm : SIBufferAtomicPat<"SIbuffer_atomic_fmin", f64, "BUFFER_ATOMIC_FMIN_X2">;			defm : SIBufferAtomicPat<"SIbuffer_atomic_fmin", f64, "BUFFER_ATOMIC_FMIN_X2">;
	defm : SIBufferAtomicPat<"SIbuffer_atomic_fmax", f64, "BUFFER_ATOMIC_FMAX_X2">;			defm : SIBufferAtomicPat<"SIbuffer_atomic_fmax", f64, "BUFFER_ATOMIC_FMAX_X2">;
	}			}

	class NoUseBufferAtomic<SDPatternOperator Op, ValueType vt> : PatFrag <			class NoUseBufferAtomic<SDPatternOperator Op, ValueType vt> : PatFrag <
	(ops node:$src0, node:$src1, node:$src2, node:$src3, node:$src4, node:$src5, node:$src6, node:$src7),			(ops node:$src0, node:$src1, node:$src2, node:$src3, node:$src4, node:$src5, node:$src6, node:$src7),
	(vt (Op $src0, $src1, $src2, $src3, $src4, $src5, $src6, $src7)),			(vt (Op $src0, $src1, $src2, $src3, $src4, $src5, $src6, $src7))> {
	[{ return SDValue(N, 0).use_empty(); }]> {			let HasNoUse = true;
				abinavppUnsubmitted Not Done Reply Inline Actions Can we remove the PredicateCode and GISelPredicateCode above? abinavpp: Can we remove the PredicateCode and GISelPredicateCode above?

	let GISelPredicateCode = [{
	return MRI.use_nodbg_empty(MI.getOperand(0).getReg());
	}];
	}			}

	multiclass BufferAtomicPatterns_NO_RTN<SDPatternOperator name, ValueType vt,			multiclass BufferAtomicPatterns_NO_RTN<SDPatternOperator name, ValueType vt,
	string opcode> {			string opcode> {
	def : GCNPat<			def : GCNPat<
	(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, 0,			(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, 0,
	0, i32:$soffset, timm:$offset,			0, i32:$soffset, timm:$offset,
	timm:$cachepolicy, 0),			timm:$cachepolicy, 0),
	(!cast<MUBUF_Pseudo>(opcode # _OFFSET) getVregSrcForVT<vt>.ret:$vdata_in, SReg_128:$rsrc, SCSrc_b32:$soffset,			(!cast<MUBUF_Pseudo>(opcode # _OFFSET) getVregSrcForVT<vt>.ret:$vdata_in, SReg_128:$rsrc, SCSrc_b32:$soffset,
	(as_i16timm $offset), $cachepolicy)			(as_i16timm $offset), timm:$cachepolicy)
	>;			>;

	def : GCNPat<			def : GCNPat<
	(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, i32:$vindex,			(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, i32:$vindex,
	0, i32:$soffset, timm:$offset,			0, i32:$soffset, timm:$offset,
	timm:$cachepolicy, timm),			timm:$cachepolicy, timm),
	(!cast<MUBUF_Pseudo>(opcode # _IDXEN) getVregSrcForVT<vt>.ret:$vdata_in, VGPR_32:$vindex, SReg_128:$rsrc, SCSrc_b32:$soffset,			(!cast<MUBUF_Pseudo>(opcode # _IDXEN) getVregSrcForVT<vt>.ret:$vdata_in, VGPR_32:$vindex, SReg_128:$rsrc, SCSrc_b32:$soffset,
	(as_i16timm $offset), $cachepolicy)			(as_i16timm $offset), timm:$cachepolicy)
	>;			>;

	def : GCNPat<			def : GCNPat<
	(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, 0,			(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, 0,
	i32:$voffset, i32:$soffset, timm:$offset,			i32:$voffset, i32:$soffset, timm:$offset,
	timm:$cachepolicy, 0),			timm:$cachepolicy, 0),
	(!cast<MUBUF_Pseudo>(opcode # _OFFEN) getVregSrcForVT<vt>.ret:$vdata_in, VGPR_32:$voffset, SReg_128:$rsrc, SCSrc_b32:$soffset,			(!cast<MUBUF_Pseudo>(opcode # _OFFEN) getVregSrcForVT<vt>.ret:$vdata_in, VGPR_32:$voffset, SReg_128:$rsrc, SCSrc_b32:$soffset,
	(as_i16timm $offset), $cachepolicy)			(as_i16timm $offset), timm:$cachepolicy)
	>;			>;

	def : GCNPat<			def : GCNPat<
	(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, i32:$vindex,			(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, i32:$vindex,
	i32:$voffset, i32:$soffset, timm:$offset,			i32:$voffset, i32:$soffset, timm:$offset,
	timm:$cachepolicy, timm),			timm:$cachepolicy, timm),
	(!cast<MUBUF_Pseudo>(opcode # _BOTHEN)			(!cast<MUBUF_Pseudo>(opcode # _BOTHEN)
	getVregSrcForVT<vt>.ret:$vdata_in,			getVregSrcForVT<vt>.ret:$vdata_in,
	(REG_SEQUENCE VReg_64, VGPR_32:$vindex, sub0, VGPR_32:$voffset, sub1),			(REG_SEQUENCE VReg_64, VGPR_32:$vindex, sub0, VGPR_32:$voffset, sub1),
	SReg_128:$rsrc, SCSrc_b32:$soffset, (as_i16timm $offset), $cachepolicy)			SReg_128:$rsrc, SCSrc_b32:$soffset, (as_i16timm $offset), timm:$cachepolicy)
	>;			>;
	}			}

	let SubtargetPredicate = HasAtomicFaddNoRtnInsts in			let SubtargetPredicate = HasAtomicFaddNoRtnInsts in
	defm : BufferAtomicPatterns_NO_RTN<SIbuffer_atomic_fadd, f32, "BUFFER_ATOMIC_ADD_F32">;			defm : BufferAtomicPatterns_NO_RTN<SIbuffer_atomic_fadd, f32, "BUFFER_ATOMIC_ADD_F32">;

	let SubtargetPredicate = HasAtomicPkFaddNoRtnInsts in			let SubtargetPredicate = HasAtomicPkFaddNoRtnInsts in
	defm : BufferAtomicPatterns_NO_RTN<SIbuffer_atomic_fadd, v2f16, "BUFFER_ATOMIC_PK_ADD_F16">;			defm : BufferAtomicPatterns_NO_RTN<SIbuffer_atomic_fadd, v2f16, "BUFFER_ATOMIC_PK_ADD_F16">;
	▲ Show 20 Lines • Show All 1,402 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/FLATInstructions.td

Show First 20 Lines • Show All 1,020 Lines • ▼ Show 20 Lines	multiclass FlatAtomicPat <string inst, string node, ValueType vt,
def : GCNPat <(vt (rtnNode (FlatOffset i64:$vaddr, i16:$offset), data_vt:$data)),		def : GCNPat <(vt (rtnNode (FlatOffset i64:$vaddr, i16:$offset), data_vt:$data)),
(!cast<FLAT_Pseudo>(inst#"_RTN") VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;		(!cast<FLAT_Pseudo>(inst#"_RTN") VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;

let AddedComplexity = 1 in		let AddedComplexity = 1 in
def : GCNPat <(vt (noRtnNode (FlatOffset i64:$vaddr, i16:$offset), data_vt:$data)),		def : GCNPat <(vt (noRtnNode (FlatOffset i64:$vaddr, i16:$offset), data_vt:$data)),
(!cast<FLAT_Pseudo>(inst) VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;		(!cast<FLAT_Pseudo>(inst) VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;
}		}

		class FlatSignedAtomicPatBase <FLAT_Pseudo inst, SDPatternOperator node,
		ValueType vt, ValueType data_vt = vt> : GCNPat <
		(vt (node (GlobalOffset i64:$vaddr, i16:$offset), data_vt:$data)),
		(inst VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)
		>;

multiclass FlatSignedAtomicPat <string inst, string node, ValueType vt,		multiclass FlatSignedAtomicPat <string inst, string node, ValueType vt,
ValueType data_vt = vt, int complexity = 0,		ValueType data_vt = vt, int complexity = 0,
bit isIntr = 0> {		bit isIntr = 0> {
defvar rtnNode = !cast<SDPatternOperator>(node # !if(isIntr, "", "_" # vt.Size));		defvar rtnNode = !cast<SDPatternOperator>(node # !if(isIntr, "", "_" # vt.Size));
defvar noRtnNode = !cast<PatFrags>(node # "_noret" # !if(isIntr, "", "_" # vt.Size));		defvar noRtnNode = !cast<PatFrags>(node # "_noret" # !if(isIntr, "", "_" # vt.Size));

		abinavppUnsubmitted Not Done Reply Inline Actions Since you're splitting the ret and noret patterns to their own multiclasses, I think you can remove the complexity argument here and from FlatSignedAtomicPatImplRtn and use `let AddedComplexity = ... in` in the defms. abinavpp: Since you're splitting the ret and noret patterns to their own multiclasses, I think you can…
		arsenmUnsubmitted Not Done Reply Inline Actions Complexity argument is weird, should put in a let block around the instances arsenm: Complexity argument is weird, should put in a let block around the instances
let AddedComplexity = complexity in		let AddedComplexity = complexity in
def : GCNPat <(vt (rtnNode (GlobalOffset i64:$vaddr, i16:$offset), data_vt:$data)),		def : FlatSignedAtomicPatBase<!cast<FLAT_Pseudo>(inst#"_RTN"), rtnNode, vt, data_vt>;
(!cast<FLAT_Pseudo>(inst#"_RTN") VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;

let AddedComplexity = !add(complexity, 1) in		let AddedComplexity = !add(complexity, 1) in
def : GCNPat <(vt (noRtnNode (GlobalOffset i64:$vaddr, i16:$offset), data_vt:$data)),		def : FlatSignedAtomicPatBase<!cast<FLAT_Pseudo>(inst), noRtnNode, vt, data_vt>;
(!cast<FLAT_Pseudo>(inst) VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;
}		}

multiclass FlatSignedAtomicIntrPat <string inst, string node, ValueType vt,		multiclass FlatSignedAtomicIntrPat <string inst, string node, ValueType vt,
ValueType data_vt = vt> {		ValueType data_vt = vt> {
defm : FlatSignedAtomicPat<inst, node, vt, data_vt, /* complexity / 0, / isIntr */ 1>;		defm : FlatSignedAtomicPat<inst, node, vt, data_vt, /* complexity / 0, / isIntr */ 1>;
}		}

class FlatSignedAtomicPatNoRtn <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <
(node (GlobalOffset i64:$vaddr, i16:$offset), vt:$data),
(inst VReg_64:$vaddr, getVregSrcForVT<vt>.ret:$data, $offset)
>;

class FlatSignedAtomicPatRtn <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt,
ValueType data_vt = vt> : GCNPat <
(vt (node (GlobalOffset i64:$vaddr, i16:$offset), data_vt:$data)),
(inst VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)
>;

class ScratchLoadSignedPat <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <		class ScratchLoadSignedPat <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <
(vt (node (ScratchOffset (i32 VGPR_32:$vaddr), i16:$offset))),		(vt (node (ScratchOffset (i32 VGPR_32:$vaddr), i16:$offset))),
(inst $vaddr, $offset)		(inst $vaddr, $offset)
>;		>;

class ScratchLoadSignedPat_D16 <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <		class ScratchLoadSignedPat_D16 <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <
(node (ScratchOffset (i32 VGPR_32:$vaddr), i16:$offset), vt:$in),		(node (ScratchOffset (i32 VGPR_32:$vaddr), i16:$offset), vt:$in),
(inst $vaddr, $offset, 0, $in)		(inst $vaddr, $offset, 0, $in)
▲ Show 20 Lines • Show All 178 Lines • ▼ Show 20 Lines	def : FlatStoreSignedAtomicPat <inst, node, vt> {
let AddedComplexity = 10;		let AddedComplexity = 10;
}		}

def : GlobalAtomicStoreSaddrPat<!cast<FLAT_Pseudo>(!cast<string>(inst)#"_SADDR"), node, vt> {		def : GlobalAtomicStoreSaddrPat<!cast<FLAT_Pseudo>(!cast<string>(inst)#"_SADDR"), node, vt> {
let AddedComplexity = 11;		let AddedComplexity = 11;
}		}
}		}

multiclass GlobalFLATAtomicPatsRtn<string nortn_inst_name, SDPatternOperator node,		multiclass GlobalFLATAtomicPatsNoRtnBase<string inst, SDPatternOperator node,
ValueType vt, ValueType data_vt = vt> {		ValueType vt, ValueType data_vt = vt> {
def : FlatSignedAtomicPatRtn <!cast<FLAT_Pseudo>(nortn_inst_name#"_RTN"), node, vt, data_vt> {		let AddedComplexity = 11 in
let AddedComplexity = 10;		def : FlatSignedAtomicPatBase<!cast<FLAT_Pseudo>(inst), node, vt, data_vt>;
}

def : GlobalAtomicSaddrPat<!cast<FLAT_Pseudo>(nortn_inst_name#"_SADDR_RTN"), node, vt, data_vt> {		let AddedComplexity = 13 in
let AddedComplexity = 11;		def : GlobalAtomicSaddrPat<!cast<FLAT_Pseudo>(inst#"_SADDR"), node, vt, data_vt>;
}
}		}

multiclass GlobalFLATAtomicPats<string inst, string node, ValueType vt,		multiclass GlobalFLATAtomicPatsNoRtn<string inst, string node, ValueType vt,
ValueType data_vt = vt, bit isIntr = 0> {		ValueType data_vt = vt, bit isIntr = 0> {
defvar rtnNode = !cast<SDPatternOperator>(node # !if(isIntr, "", "_" # vt.Size));
defvar noRtnNode = !cast<PatFrags>(node # "_noret" # !if(isIntr, "", "_" # vt.Size));		defvar noRtnNode = !cast<PatFrags>(node # "_noret" # !if(isIntr, "", "_" # vt.Size));
		defm : GlobalFLATAtomicPatsNoRtnBase<inst, noRtnNode, vt, data_vt>;
		}

defm : FlatSignedAtomicPat <inst, node, vt, data_vt, /* complexity */ 10, isIntr>;		multiclass GlobalFLATAtomicPatsRtn<string inst, string node, ValueType vt,
		ValueType data_vt = vt, bit isIntr = 0> {
		defvar rtnNode = !cast<SDPatternOperator>(node # !if(isIntr, "", "_" # vt.Size));

let AddedComplexity = 13 in		let AddedComplexity = 10 in
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions these added complexity numbers are calculated by refactoring. Although I think it would be enough to have AddedComplexity = 1 on nortn patterns since they no longer have a way to get higher complexity then ret pattern (we no longer use complex patterns for no ret checks). Is there some desired precedence for regular vs saddr pattern? Petar.Avramovic: these added complexity numbers are calculated by refactoring. Although I think it would be…
def : GlobalAtomicSaddrPat<!cast<FLAT_Pseudo>(inst#"_SADDR"), noRtnNode, vt, data_vt>;		def : FlatSignedAtomicPatBase<!cast<FLAT_Pseudo>(inst#"_RTN"), rtnNode, vt, data_vt>;

let AddedComplexity = 12 in		let AddedComplexity = 12 in
def : GlobalAtomicSaddrPat<!cast<FLAT_Pseudo>(inst#"_SADDR_RTN"), rtnNode, vt, data_vt>;		def : GlobalAtomicSaddrPat<!cast<FLAT_Pseudo>(inst#"_SADDR_RTN"), rtnNode, vt, data_vt>;
}		}

		multiclass GlobalFLATAtomicPats<string inst, string node, ValueType vt,
		ValueType data_vt = vt, bit isIntr = 0> :
		GlobalFLATAtomicPatsNoRtn<inst, node, vt, data_vt, isIntr>,
		GlobalFLATAtomicPatsRtn<inst, node, vt, data_vt, isIntr>;

multiclass GlobalFLATAtomicIntrPats<string inst, string node, ValueType vt,		multiclass GlobalFLATAtomicIntrPats<string inst, string node, ValueType vt,
ValueType data_vt = vt> {		ValueType data_vt = vt> {
defm : GlobalFLATAtomicPats<inst, node, vt, data_vt, /* isIntr */ 1>;		defm : GlobalFLATAtomicPats<inst, node, vt, data_vt, /* isIntr */ 1>;
}		}

multiclass GlobalFLATNoRtnAtomicPats<FLAT_Pseudo inst, SDPatternOperator node,		multiclass GlobalFLATAtomicIntrPatsNoRet<string inst, string node, ValueType vt,
ValueType vt> {		ValueType data_vt = vt> {
def : FlatSignedAtomicPatNoRtn <inst, node, vt> {		defm : GlobalFLATAtomicPatsNoRtn<inst, node, vt, data_vt, /* isIntr */ 1>;
let AddedComplexity = 10;
}		}

def : GlobalAtomicNoRtnSaddrPat<!cast<FLAT_Pseudo>(!cast<string>(inst)#"_SADDR"), node, vt> {		multiclass GlobalFLATAtomicIntrPatsRet<string inst, string node, ValueType vt,
let AddedComplexity = 11;		ValueType data_vt = vt> {
}		defm : GlobalFLATAtomicPatsRtn<inst, node, vt, data_vt, /* isIntr */ 1>;
}		}

multiclass ScratchFLATLoadPats<FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> {		multiclass ScratchFLATLoadPats<FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> {
def : ScratchLoadSignedPat <inst, node, vt> {		def : ScratchLoadSignedPat <inst, node, vt> {
let AddedComplexity = 25;		let AddedComplexity = 25;
}		}

def : ScratchLoadSaddrPat<!cast<FLAT_Pseudo>(!cast<string>(inst)#"_SADDR"), node, vt> {		def : ScratchLoadSaddrPat<!cast<FLAT_Pseudo>(!cast<string>(inst)#"_SADDR"), node, vt> {
▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMAX", "atomic_load_max_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMAX", "atomic_load_max_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMAX", "atomic_load_umax_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMAX", "atomic_load_umax_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMIN", "atomic_load_min_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMIN", "atomic_load_min_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMIN", "atomic_load_umin_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMIN", "atomic_load_umin_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_OR", "atomic_load_or_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_OR", "atomic_load_or_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SWAP", "atomic_swap_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SWAP", "atomic_swap_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_CMPSWAP", "AMDGPUatomic_cmp_swap_global", i32, v2i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_CMPSWAP", "AMDGPUatomic_cmp_swap_global", i32, v2i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_XOR", "atomic_load_xor_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_XOR", "atomic_load_xor_global", i32>;
defm : GlobalFLATAtomicPatsRtn <"GLOBAL_ATOMIC_CSUB", int_amdgcn_global_atomic_csub, i32>;		defm : GlobalFLATAtomicIntrPatsRet <"GLOBAL_ATOMIC_CSUB", "int_amdgcn_global_atomic_csub", i32>;
		arsenmUnsubmitted Not Done Reply Inline Actions Can drop the Intr from the multiclass name for consistency arsenm: Can drop the Intr from the multiclass name for consistency

defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_ADD_X2", "atomic_load_add_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_ADD_X2", "atomic_load_add_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SUB_X2", "atomic_load_sub_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SUB_X2", "atomic_load_sub_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_INC_X2", "atomic_inc_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_INC_X2", "atomic_inc_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_DEC_X2", "atomic_dec_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_DEC_X2", "atomic_dec_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_AND_X2", "atomic_load_and_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_AND_X2", "atomic_load_and_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMAX_X2", "atomic_load_max_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMAX_X2", "atomic_load_max_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMAX_X2", "atomic_load_umax_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMAX_X2", "atomic_load_umax_global", i64>;
Show All 9 Lines
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMAX", "atomic_load_fmax_global", f32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMAX", "atomic_load_fmax_global", f32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMIN_X2", "atomic_load_fmin_global", f64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMIN_X2", "atomic_load_fmin_global", f64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMAX_X2", "atomic_load_fmax_global", f64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMAX_X2", "atomic_load_fmax_global", f64>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMIN", "int_amdgcn_global_atomic_fmin", f32>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMIN", "int_amdgcn_global_atomic_fmin", f32>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMAX", "int_amdgcn_global_atomic_fmax", f32>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMAX", "int_amdgcn_global_atomic_fmax", f32>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMIN_X2", "int_amdgcn_global_atomic_fmin", f64>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMIN_X2", "int_amdgcn_global_atomic_fmin", f64>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMAX_X2", "int_amdgcn_global_atomic_fmax", f64>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMAX_X2", "int_amdgcn_global_atomic_fmax", f64>;
}		}

let OtherPredicates = [HasAtomicFaddNoRtnInsts] in		let OtherPredicates = [HasAtomicFaddNoRtnInsts] in {
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions Predicates are edited to match predicates for atomicrmw fadd (_NO_RTN) see llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.ll global_atomic_fadd_f32_wrong_subtarget I left v2f16_rtn, f64_no_rtn, f64_rtn patterns in isGFX90APlus, should each of them get feature for itself? Here is the list of predicates and atomic global fadd instructions they have HasAtomicFaddRtnInsts: f32_rtn HasAtomicFaddNoRtnInsts: f32_no_rtn HasAtomicPkFaddNoRtnInsts: v2f16_no_rtn isGFX90APlus: v2f16_rtn, f64_no_rtn, f64_rtn GFX90A has all of the above Petar.Avramovic: Predicates are edited to match predicates for atomicrmw fadd (_NO_RTN) see…
defm : GlobalFLATNoRtnAtomicPats <GLOBAL_ATOMIC_ADD_F32, atomic_load_fadd_global_noret_32, f32>;		defm : GlobalFLATAtomicPatsNoRtn <"GLOBAL_ATOMIC_ADD_F32", "atomic_load_fadd_global", f32>;
let OtherPredicates = [HasAtomicPkFaddNoRtnInsts] in		defm : GlobalFLATAtomicIntrPatsNoRet <"GLOBAL_ATOMIC_ADD_F32", "int_amdgcn_global_atomic_fadd", f32>;
defm : GlobalFLATNoRtnAtomicPats <GLOBAL_ATOMIC_PK_ADD_F16, atomic_load_fadd_v2f16_global_noret_32, v2f16>;		}

		let OtherPredicates = [HasAtomicPkFaddNoRtnInsts] in {
		defm : GlobalFLATAtomicPatsNoRtnBase <"GLOBAL_ATOMIC_PK_ADD_F16", atomic_load_fadd_v2f16_global_noret_32, v2f16>;
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions Strange name: atomic_load_fadd_v2f16_global_noret_32. Petar.Avramovic: Strange name: atomic_load_fadd_v2f16_global_noret_32.
		defm : GlobalFLATAtomicIntrPatsNoRet <"GLOBAL_ATOMIC_PK_ADD_F16", "int_amdgcn_global_atomic_fadd", v2f16>;
		}

		let OtherPredicates = [HasAtomicFaddRtnInsts] in {
		defm : GlobalFLATAtomicPatsRtn <"GLOBAL_ATOMIC_ADD_F32", "atomic_load_fadd_global", f32>;
		defm : GlobalFLATAtomicIntrPatsRet <"GLOBAL_ATOMIC_ADD_F32", "int_amdgcn_global_atomic_fadd", f32>;
		}

let OtherPredicates = [isGFX90APlus] in {		let OtherPredicates = [isGFX90APlus] in {
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_ADD_F32", "atomic_load_fadd_global", f32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_PK_ADD_F16", "atomic_load_fadd_v2f16_global", v2f16>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_PK_ADD_F16", "atomic_load_fadd_v2f16_global", v2f16>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_ADD_F64", "atomic_load_fadd_global", f64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_ADD_F64", "atomic_load_fadd_global", f64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_MIN_F64", "atomic_load_fmin_global", f64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_MIN_F64", "atomic_load_fmin_global", f64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_MAX_F64", "atomic_load_fmax_global", f64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_MAX_F64", "atomic_load_fmax_global", f64>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_ADD_F32", "int_amdgcn_global_atomic_fadd", f32>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_ADD_F64", "int_amdgcn_global_atomic_fadd", f64>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_ADD_F64", "int_amdgcn_global_atomic_fadd", f64>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_PK_ADD_F16", "int_amdgcn_global_atomic_fadd", v2f16>;		defm : GlobalFLATAtomicIntrPatsRet <"GLOBAL_ATOMIC_PK_ADD_F16", "int_amdgcn_global_atomic_fadd", v2f16>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_MIN_F64", "int_amdgcn_global_atomic_fmin", f64>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_MIN_F64", "int_amdgcn_global_atomic_fmin", f64>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_MAX_F64", "int_amdgcn_global_atomic_fmax", f64>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_MAX_F64", "int_amdgcn_global_atomic_fmax", f64>;
defm : FlatSignedAtomicPat <"FLAT_ATOMIC_ADD_F64", "atomic_load_fadd_flat", f64>;		defm : FlatSignedAtomicPat <"FLAT_ATOMIC_ADD_F64", "atomic_load_fadd_flat", f64>;
defm : FlatSignedAtomicPat <"FLAT_ATOMIC_MIN_F64", "atomic_load_fmin_flat", f64>;		defm : FlatSignedAtomicPat <"FLAT_ATOMIC_MIN_F64", "atomic_load_fmin_flat", f64>;
defm : FlatSignedAtomicPat <"FLAT_ATOMIC_MAX_F64", "atomic_load_fmax_flat", f64>;		defm : FlatSignedAtomicPat <"FLAT_ATOMIC_MAX_F64", "atomic_load_fmax_flat", f64>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_ADD_F64", "int_amdgcn_flat_atomic_fadd", f64>;		defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_ADD_F64", "int_amdgcn_flat_atomic_fadd", f64>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_MIN_F64", "int_amdgcn_flat_atomic_fmin", f64>;		defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_MIN_F64", "int_amdgcn_flat_atomic_fmin", f64>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_MAX_F64", "int_amdgcn_flat_atomic_fmax", f64>;		defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_MAX_F64", "int_amdgcn_flat_atomic_fmax", f64>;
}		}

let OtherPredicates = [isGFX940Plus] in {		let OtherPredicates = [isGFX940GFX11Plus] in {
defm : FlatSignedAtomicPat <"FLAT_ATOMIC_ADD_F32", "atomic_load_fadd_flat", f32>;		defm : FlatSignedAtomicPat <"FLAT_ATOMIC_ADD_F32", "atomic_load_fadd_flat", f32>;
defm : FlatSignedAtomicPat <"FLAT_ATOMIC_PK_ADD_F16", "atomic_load_fadd_v2f16_flat", v2f16>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_ADD_F32", "int_amdgcn_flat_atomic_fadd", f32>;		defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_ADD_F32", "int_amdgcn_flat_atomic_fadd", f32>;
		}

		let OtherPredicates = [isGFX940Plus] in {
		defm : FlatSignedAtomicPat <"FLAT_ATOMIC_PK_ADD_F16", "atomic_load_fadd_v2f16_flat", v2f16>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_PK_ADD_F16", "int_amdgcn_flat_atomic_fadd", v2f16>;		defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_PK_ADD_F16", "int_amdgcn_flat_atomic_fadd", v2f16>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_PK_ADD_BF16", "int_amdgcn_flat_atomic_fadd_v2bf16", v2i16>;		defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_PK_ADD_BF16", "int_amdgcn_flat_atomic_fadd_v2bf16", v2i16>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_PK_ADD_BF16", "int_amdgcn_global_atomic_fadd_v2bf16", v2i16>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_PK_ADD_BF16", "int_amdgcn_global_atomic_fadd_v2bf16", v2i16>;
}		}

} // End OtherPredicates = [HasFlatGlobalInsts], AddedComplexity = 10		} // End OtherPredicates = [HasFlatGlobalInsts], AddedComplexity = 10

let OtherPredicates = [HasFlatScratchInsts, EnableFlatScratch] in {		let OtherPredicates = [HasFlatScratchInsts, EnableFlatScratch] in {
▲ Show 20 Lines • Show All 847 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,793 Lines • ▼ Show 20 Lines	if (IsA16)
Ops.push_back(DAG.getTargetConstant(1, DL, MVT::i1));		Ops.push_back(DAG.getTargetConstant(1, DL, MVT::i1));
Ops.push_back(M->getChain());		Ops.push_back(M->getChain());

auto *NewNode = DAG.getMachineNode(Opcode, DL, M->getVTList(), Ops);		auto *NewNode = DAG.getMachineNode(Opcode, DL, M->getVTList(), Ops);
MachineMemOperand *MemRef = M->getMemOperand();		MachineMemOperand *MemRef = M->getMemOperand();
DAG.setNodeMemRefs(NewNode, {MemRef});		DAG.setNodeMemRefs(NewNode, {MemRef});
return SDValue(NewNode, 0);		return SDValue(NewNode, 0);
}		}
case Intrinsic::amdgcn_global_atomic_fadd:
if (!Op.getValue(0).use_empty() && !Subtarget->hasGFX90AInsts()) {
DiagnosticInfoUnsupported
NoFpRet(DAG.getMachineFunction().getFunction(),
"return versions of fp atomics not supported",
DL.getDebugLoc(), DS_Error);
DAG.getContext()->diagnose(NoFpRet);
return SDValue();
}
LLVM_FALLTHROUGH;
case Intrinsic::amdgcn_global_atomic_fmin:		case Intrinsic::amdgcn_global_atomic_fmin:
case Intrinsic::amdgcn_global_atomic_fmax:		case Intrinsic::amdgcn_global_atomic_fmax:
case Intrinsic::amdgcn_flat_atomic_fadd:
case Intrinsic::amdgcn_flat_atomic_fmin:		case Intrinsic::amdgcn_flat_atomic_fmin:
case Intrinsic::amdgcn_flat_atomic_fmax: {		case Intrinsic::amdgcn_flat_atomic_fmax: {
MemSDNode *M = cast<MemSDNode>(Op);		MemSDNode *M = cast<MemSDNode>(Op);
SDValue Ops[] = {		SDValue Ops[] = {
M->getOperand(0), // Chain		M->getOperand(0), // Chain
M->getOperand(2), // Ptr		M->getOperand(2), // Ptr
M->getOperand(3) // Value		M->getOperand(3) // Value
};		};
unsigned Opcode = 0;		unsigned Opcode = 0;
switch (IntrID) {		switch (IntrID) {
case Intrinsic::amdgcn_global_atomic_fadd:
case Intrinsic::amdgcn_flat_atomic_fadd: {
EVT VT = Op.getOperand(3).getValueType();
return DAG.getAtomic(ISD::ATOMIC_LOAD_FADD, DL, VT,
DAG.getVTList(VT, MVT::Other), Ops,
M->getMemOperand());
}
case Intrinsic::amdgcn_global_atomic_fmin:		case Intrinsic::amdgcn_global_atomic_fmin:
case Intrinsic::amdgcn_flat_atomic_fmin: {		case Intrinsic::amdgcn_flat_atomic_fmin: {
Opcode = AMDGPUISD::ATOMIC_LOAD_FMIN;		Opcode = AMDGPUISD::ATOMIC_LOAD_FMIN;
break;		break;
}		}
case Intrinsic::amdgcn_global_atomic_fmax:		case Intrinsic::amdgcn_global_atomic_fmax:
case Intrinsic::amdgcn_flat_atomic_fmax: {		case Intrinsic::amdgcn_flat_atomic_fmax: {
Opcode = AMDGPUISD::ATOMIC_LOAD_FMAX;		Opcode = AMDGPUISD::ATOMIC_LOAD_FMAX;
▲ Show 20 Lines • Show All 4,907 Lines • ▼ Show 20 Lines	case AtomicRMWInst::FAdd: {
if (Ty->isHalfTy())		if (Ty->isHalfTy())
return AtomicExpansionKind::None;		return AtomicExpansionKind::None;

if (!Ty->isFloatTy() && (!Subtarget->hasGFX90AInsts() \|\| !Ty->isDoubleTy()))		if (!Ty->isFloatTy() && (!Subtarget->hasGFX90AInsts() \|\| !Ty->isDoubleTy()))
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;

if ((AS == AMDGPUAS::GLOBAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS) &&		if ((AS == AMDGPUAS::GLOBAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS) &&
Subtarget->hasAtomicFaddNoRtnInsts()) {		Subtarget->hasAtomicFaddNoRtnInsts()) {
if (Subtarget->hasGFX940Insts())		if (Subtarget->hasGFX940Insts() \|\| AMDGPU::isGFX11(*Subtarget))
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions I wanted to avoid lowering for gfx11, I am not sure if this is the correct place. Petar.Avramovic: I wanted to avoid lowering for gfx11, I am not sure if this is the correct place.
		arsenmUnsubmitted Not Done Reply Inline Actions Should be based on a subtarget feature check, or at least the getGeneration() query on the subtarget. This also wouldn't belong in a change that's just supposed to stop using manual selection arsenm: Should be based on a subtarget feature check, or at least the getGeneration() query on the…
return AtomicExpansionKind::None;		return AtomicExpansionKind::None;

// The amdgpu-unsafe-fp-atomics attribute enables generation of unsafe		// The amdgpu-unsafe-fp-atomics attribute enables generation of unsafe
// floating point atomic instructions. May generate more efficient code,		// floating point atomic instructions. May generate more efficient code,
// but may not respect rounding and denormal modes, and may give incorrect		// but may not respect rounding and denormal modes, and may give incorrect
// results for certain memory destinations.		// results for certain memory destinations.
if (RMW->getFunction()		if (RMW->getFunction()
->getFnAttribute("amdgpu-unsafe-fp-atomics")		->getFnAttribute("amdgpu-unsafe-fp-atomics")
▲ Show 20 Lines • Show All 210 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fp-atomics-gfx940.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -march=amdgcn -mcpu=gfx940 -verify-machineinstrs \| FileCheck %s -check-prefix=GFX940			; RUN: llc < %s -march=amdgcn -mcpu=gfx940 -global-isel -verify-machineinstrs \| FileCheck %s -check-prefix=GFX940

	declare float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)			declare float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)
	declare <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)			declare <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)

	; bf16 atomics use v2i16 argument since there is no bf16 data type in the llvm.			; bf16 atomics use v2i16 argument since there is no bf16 data type in the llvm.
	declare <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)			declare <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)
	declare <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)			declare <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)
	declare <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3) * %ptr, <2 x half> %data, i32, i32, i1)			declare <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3) * %ptr, <2 x half> %data, i32, i32, i1)
	declare <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3) * %ptr, <2 x i16> %data)			declare <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3) * %ptr, <2 x i16> %data)

	define amdgpu_kernel void @flat_atomic_fadd_f32_noret(float* %ptr, float %data) {			define amdgpu_kernel void @flat_atomic_fadd_f32_noret(float* %ptr, float %data) {
	; GFX940-LABEL: flat_atomic_fadd_f32_noret:			; GFX940-LABEL: flat_atomic_fadd_f32_noret:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]			; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]
	; GFX940-NEXT: v_mov_b32_e32 v2, s4			; GFX940-NEXT: v_mov_b32_e32 v2, s4
	; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2			; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2
	; GFX940-NEXT: s_endpgm			; GFX940-NEXT: s_endpgm
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)
	ret void			ret void
	}			}

				define amdgpu_kernel void @flat_atomic_fadd_f32_noret_pat(float* %ptr) {
				; GFX940-LABEL: flat_atomic_fadd_f32_noret_pat:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX940-NEXT: v_mov_b32_e32 v2, 4.0
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_endpgm
				%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
				ret void
				}

				define amdgpu_kernel void @flat_atomic_fadd_f32_noret_pat_ieee(float* %ptr) #0 {
				; GFX940-LABEL: flat_atomic_fadd_f32_noret_pat_ieee:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX940-NEXT: v_mov_b32_e32 v2, 4.0
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_endpgm
				%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
				ret void
				}

	define float @flat_atomic_fadd_f32_rtn(float* %ptr, float %data) {			define float @flat_atomic_fadd_f32_rtn(float* %ptr, float %data) {
	; GFX940-LABEL: flat_atomic_fadd_f32_rtn:			; GFX940-LABEL: flat_atomic_fadd_f32_rtn:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX940-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 sc0			; GFX940-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 sc0
	; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX940-NEXT: s_setpc_b64 s[30:31]			; GFX940-NEXT: s_setpc_b64 s[30:31]
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

				define float @flat_atomic_fadd_f32_rtn_pat(float* %ptr, float %data) {
				; GFX940-LABEL: flat_atomic_fadd_f32_rtn_pat:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: v_mov_b32_e32 v2, 4.0
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
				ret float %ret
				}

	define amdgpu_kernel void @flat_atomic_fadd_v2f16_noret(<2 x half>* %ptr, <2 x half> %data) {			define amdgpu_kernel void @flat_atomic_fadd_v2f16_noret(<2 x half>* %ptr, <2 x half> %data) {
	; GFX940-LABEL: flat_atomic_fadd_v2f16_noret:			; GFX940-LABEL: flat_atomic_fadd_v2f16_noret:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]			; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]
	; GFX940-NEXT: v_mov_b32_e32 v2, s4			; GFX940-NEXT: v_mov_b32_e32 v2, s4
	Show All 9 Lines
	; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX940-NEXT: flat_atomic_pk_add_f16 v0, v[0:1], v2 sc0			; GFX940-NEXT: flat_atomic_pk_add_f16 v0, v[0:1], v2 sc0
	; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX940-NEXT: s_setpc_b64 s[30:31]			; GFX940-NEXT: s_setpc_b64 s[30:31]
	%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

				define amdgpu_kernel void @flat_atomic_fadd_v2bf16_noret(<2 x i16>* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: flat_atomic_fadd_v2bf16_noret:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]
				; GFX940-NEXT: v_mov_b32_e32 v2, s4
				; GFX940-NEXT: flat_atomic_pk_add_bf16 v[0:1], v2
				; GFX940-NEXT: s_endpgm
				%ret = call <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)
				ret void
				}

				define <2 x i16> @flat_atomic_fadd_v2bf16_rtn(<2 x i16>* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: flat_atomic_fadd_v2bf16_rtn:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_pk_add_bf16 v0, v[0:1], v2 sc0
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = call <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)
				ret <2 x i16> %ret
				}

				define amdgpu_kernel void @global_atomic_fadd_v2bf16_noret(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: global_atomic_fadd_v2bf16_noret:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX940-NEXT: v_mov_b32_e32 v1, 0
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b32_e32 v0, s4
				; GFX940-NEXT: global_atomic_pk_add_bf16 v1, v0, s[2:3]
				; GFX940-NEXT: s_endpgm
				%ret = call <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)
				ret void
				}

				define <2 x i16> @global_atomic_fadd_v2bf16_rtn(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: global_atomic_fadd_v2bf16_rtn:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: global_atomic_pk_add_bf16 v0, v[0:1], v2, off sc0
				; GFX940-NEXT: s_waitcnt vmcnt(0)
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = call <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)
				ret <2 x i16> %ret
				}

	define amdgpu_kernel void @local_atomic_fadd_v2f16_noret(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {			define amdgpu_kernel void @local_atomic_fadd_v2f16_noret(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {
	; GFX940-LABEL: local_atomic_fadd_v2f16_noret:			; GFX940-LABEL: local_atomic_fadd_v2f16_noret:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_load_dword s2, s[0:1], 0x24			; GFX940-NEXT: s_load_dword s2, s[0:1], 0x24
	; GFX940-NEXT: s_load_dword s3, s[0:1], 0x28			; GFX940-NEXT: s_load_dword s3, s[0:1], 0x28
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: v_mov_b32_e32 v0, s2			; GFX940-NEXT: v_mov_b32_e32 v0, s2
	; GFX940-NEXT: v_mov_b32_e32 v1, s3			; GFX940-NEXT: v_mov_b32_e32 v1, s3
	; GFX940-NEXT: ds_pk_add_f16 v0, v1			; GFX940-NEXT: ds_pk_add_f16 v0, v1
	; GFX940-NEXT: s_endpgm			; GFX940-NEXT: s_endpgm
	%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)			%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)
	ret void			ret void
	}			}

	define <2 x half> @local_atomic_fadd_v2f16_rtn(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {			define <2 x half> @local_atomic_fadd_v2f16_rtn(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {
	; GFX940-LABEL: local_atomic_fadd_v2f16_rtn:			; GFX940-LABEL: local_atomic_fadd_v2f16_rtn:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX940-NEXT: ds_pk_add_rtn_f16 v0, v0, v1			; GFX940-NEXT: ds_pk_add_rtn_f16 v0, v0, v1
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: s_setpc_b64 s[30:31]			; GFX940-NEXT: s_setpc_b64 s[30:31]
	%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)			%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

				define amdgpu_kernel void @local_atomic_fadd_v2bf16_noret(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: local_atomic_fadd_v2bf16_noret:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dword s2, s[0:1], 0x28
				; GFX940-NEXT: s_load_dword s3, s[0:1], 0x24
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b32_e32 v0, s2
				; GFX940-NEXT: v_mov_b32_e32 v1, s3
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: ds_pk_add_bf16 v1, v0
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_endpgm
				%ret = call <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data)
				ret void
				}

				define <2 x i16> @local_atomic_fadd_v2bf16_rtn(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: local_atomic_fadd_v2bf16_rtn:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: ds_pk_add_rtn_bf16 v0, v0, v1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = call <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data)
				ret <2 x i16> %ret
				}

				attributes #0 = { "denormal-fp-math-f32"="ieee,ieee" }

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.fadd-with-ret.ll

	; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s			; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s
	; RUN: not --crash llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908			; RUN: not --crash llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908

	declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* nocapture, float)			declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* nocapture, float)
	declare <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* nocapture, <2 x half>)			declare <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* nocapture, <2 x half>)

	; GFX908: error: {{.*}} return versions of fp atomics not supported			; GFX908: LLVM ERROR: cannot select: %4:vgpr_32(s32) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.global.atomic.fadd), %0:vgpr(p1), %1:vgpr(s32) :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1) (in function: global_atomic_fadd_f32_rtn)

	; GFX90A-LABEL: {{^}}global_atomic_fadd_f32_rtn:			; GFX90A-LABEL: {{^}}global_atomic_fadd_f32_rtn:
	; GFX90A: global_atomic_add_f32 v0, v[0:1], v2, off glc			; GFX90A: global_atomic_add_f32 v0, v[0:1], v2, off glc
	define float @global_atomic_fadd_f32_rtn(float addrspace(1)* %ptr, float %data) {			define float @global_atomic_fadd_f32_rtn(float addrspace(1)* %ptr, float %data) {
	%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)			%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	; GFX90A-LABEL: {{^}}global_atomic_fadd_v2f16_rtn:			; GFX90A-LABEL: {{^}}global_atomic_fadd_v2f16_rtn:
	; GFX90A: global_atomic_pk_add_f16 v0, v[0:1], v2, off glc			; GFX90A: global_atomic_pk_add_f16 v0, v[0:1], v2, off glc
	define <2 x half> @global_atomic_fadd_v2f16_rtn(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {			define <2 x half> @global_atomic_fadd_v2f16_rtn(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {
	%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.fadd.ll

Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	; GFX90A-NEXT: s_setpc_b64 s[30:31]
ret void		ret void
}		}

define amdgpu_kernel void @global_atomic_fadd_f32_off_ss(float addrspace(1)* %ptr, float %data) {		define amdgpu_kernel void @global_atomic_fadd_f32_off_ss(float addrspace(1)* %ptr, float %data) {
; GFX908-LABEL: global_atomic_fadd_f32_off_ss:		; GFX908-LABEL: global_atomic_fadd_f32_off_ss:
; GFX908: ; %bb.0:		; GFX908: ; %bb.0:
; GFX908-NEXT: s_load_dword s2, s[4:5], 0x8		; GFX908-NEXT: s_load_dword s2, s[4:5], 0x8
; GFX908-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX908-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
		; GFX908-NEXT: v_mov_b32_e32 v1, 0
; GFX908-NEXT: s_waitcnt lgkmcnt(0)		; GFX908-NEXT: s_waitcnt lgkmcnt(0)
; GFX908-NEXT: v_mov_b32_e32 v2, s2		; GFX908-NEXT: v_mov_b32_e32 v0, s2
; GFX908-NEXT: v_mov_b32_e32 v0, s0		; GFX908-NEXT: global_atomic_add_f32 v1, v0, s[0:1] offset:2048
; GFX908-NEXT: v_mov_b32_e32 v1, s1
; GFX908-NEXT: global_atomic_add_f32 v[0:1], v2, off offset:2048
; GFX908-NEXT: s_endpgm		; GFX908-NEXT: s_endpgm
;		;
; GFX90A-LABEL: global_atomic_fadd_f32_off_ss:		; GFX90A-LABEL: global_atomic_fadd_f32_off_ss:
; GFX90A: ; %bb.0:		; GFX90A: ; %bb.0:
; GFX90A-NEXT: s_load_dword s2, s[4:5], 0x8		; GFX90A-NEXT: s_load_dword s2, s[4:5], 0x8
; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX90A-NEXT: v_mov_b32_e32 v1, 0		; GFX90A-NEXT: v_mov_b32_e32 v1, 0
; GFX90A-NEXT: s_waitcnt lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.raw.buffer.atomic.fadd-with-ret.ll

	; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s			; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s
	; RUN: not llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908			; RUN: not --crash llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908

	declare float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32 immarg)			declare float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32 immarg)
	declare <2 x half> @llvm.amdgcn.raw.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i32 immarg)			declare <2 x half> @llvm.amdgcn.raw.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i32 immarg)

	; GFX908: error: {{.*}} return versions of fp atomics not supported			; GFX908: LLVM ERROR: cannot select: %24:vgpr_32(s32) = G_AMDGPU_BUFFER_ATOMIC_FADD %28:vgpr, %14:sgpr(<4 x s32>), %29:vgpr(s32), %30:vgpr, %27:sgpr, 0, 0, 0 :: (volatile dereferenceable load store (s32), align 1, addrspace 4) (in function: buffer_atomic_add_f32_rtn)
	; GFX908: error: {{.*}} return versions of fp atomics not supported

	; GFX90A-LABEL: {{^}}buffer_atomic_add_f32_rtn:			; GFX90A-LABEL: {{^}}buffer_atomic_add_f32_rtn:
	; GFX90A: buffer_atomic_add_f32 v{{[0-9]+}}, v{{[0-9]+}}, s[{{[0-9:]+}}], s{{[0-9]+}} offen glc			; GFX90A: buffer_atomic_add_f32 v{{[0-9]+}}, v{{[0-9]+}}, s[{{[0-9:]+}}], s{{[0-9]+}} offen glc
	define amdgpu_kernel void @buffer_atomic_add_f32_rtn(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 %soffset) {			define amdgpu_kernel void @buffer_atomic_add_f32_rtn(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 %soffset) {
	main_body:			main_body:
	%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)			%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)
	store float %ret, float* undef			store float %ret, float* undef
	ret void			ret void
	Show All 10 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.struct.buffer.atomic.fadd-with-ret.ll

	; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s			; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s
	; RUN: not llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908			; RUN: not --crash llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908

	; GFX908: error: {{.*}} return versions of fp atomics not supported			; GFX908: LLVM ERROR: cannot select: %29:vgpr_32(s32) = G_AMDGPU_BUFFER_ATOMIC_FADD %40:vgpr, %15:sgpr(<4 x s32>), %41:vgpr(s32), %42:vgpr, %33:sgpr, 0, 0, -1 :: (volatile dereferenceable load store (s32), align 1, addrspace 4) (in function: buffer_atomic_add_f32_rtn)
	; GFX908: error: {{.*}} return versions of fp atomics not supported

	declare float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32, i32 immarg)			declare float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32, i32 immarg)
	declare <2 x half> @llvm.amdgcn.struct.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i32, i32 immarg)			declare <2 x half> @llvm.amdgcn.struct.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i32, i32 immarg)


	; GFX90A-LABEL: {{^}}buffer_atomic_add_f32_rtn:			; GFX90A-LABEL: {{^}}buffer_atomic_add_f32_rtn:
	; GFX90A: buffer_atomic_add_f32 v{{[0-9]+}}, v[{{[0-9:]+}}], s[{{[0-9:]+}}], s{{[0-9]+}} idxen offen glc			; GFX90A: buffer_atomic_add_f32 v{{[0-9]+}}, v[{{[0-9:]+}}], s[{{[0-9:]+}}], s{{[0-9]+}} idxen offen glc
	define amdgpu_kernel void @buffer_atomic_add_f32_rtn(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset) {			define amdgpu_kernel void @buffer_atomic_add_f32_rtn(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset) {
	Show All 14 Lines

llvm/test/CodeGen/AMDGPU/global-atomics-fp.ll

	Show First 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: global_atomic_fadd_ret_f32:			; GFX11-LABEL: global_atomic_fadd_ret_f32:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0			; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB0_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc			; GFX11-NEXT: global_atomic_add_f32 v0, v0, v1, s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv			; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv			; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX11-NEXT: global_store_b32 v[0:1], v0, off
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB0_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_ret_f32_ieee(float addrspace(1)* %ptr) #2 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32_ieee(float addrspace(1)* %ptr) #2 {
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: global_atomic_fadd_ret_f32_ieee:			; GFX11-LABEL: global_atomic_fadd_ret_f32_ieee:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0			; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB1_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc			; GFX11-NEXT: global_atomic_add_f32 v0, v0, v1, s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv			; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv			; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX11-NEXT: global_store_b32 v[0:1], v0, off
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB1_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_noret_f32(float addrspace(1)* %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_noret_f32(float addrspace(1)* %ptr) #0 {
	▲ Show 20 Lines • Show All 263 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: global_atomic_fadd_ret_f32_agent:			; GFX11-LABEL: global_atomic_fadd_ret_f32_agent:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0			; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB4_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc			; GFX11-NEXT: global_atomic_add_f32 v0, v0, v1, s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv			; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv			; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX11-NEXT: global_store_b32 v[0:1], v0, off
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB4_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_ret_f32_system(float addrspace(1)* %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32_system(float addrspace(1)* %ptr) #0 {
	▲ Show 20 Lines • Show All 103 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: global_atomic_fadd_ret_f32_system:			; GFX11-LABEL: global_atomic_fadd_ret_f32_system:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0			; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB5_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc			; GFX11-NEXT: global_atomic_add_f32 v0, v0, v1, s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv			; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv			; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX11-NEXT: global_store_b32 v[0:1], v0, off
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB5_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("one-as") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("one-as") seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_ret_f32_wrong_subtarget(float addrspace(1)* %ptr) #1 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32_wrong_subtarget(float addrspace(1)* %ptr) #1 {
	▲ Show 20 Lines • Show All 139 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB8_1			; GFX10-NEXT: s_cbranch_execnz .LBB8_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: global_atomic_fadd_noret_f32_safe:			; GFX11-LABEL: global_atomic_fadd_noret_f32_safe:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v2, 0			; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB8_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_add_f32_e32 v0, 4.0, v1
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v0, v2, v[0:1], s[0:1] glc			; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: buffer_gl0_inv			; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv			; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1
	; GFX11-NEXT: v_mov_b32_e32 v1, v0
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB8_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @infer_as_before_atomic(float* addrspace(4)* %arg) #0 {			define amdgpu_kernel void @infer_as_before_atomic(float* addrspace(4)* %arg) #0 {
	; GFX900-LABEL: infer_as_before_atomic:			; GFX900-LABEL: infer_as_before_atomic:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	▲ Show 20 Lines • Show All 86 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.rtn_no-rtn.ll

	; RUN: llc -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -enable-var-scope -check-prefixes=GFX11 %s			; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -enable-var-scope -check-prefixes=GFX11 %s			; RUN: llc -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -enable-var-scope -check-prefixes=SDAG %s
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -enable-var-scope -check-prefixes=GISEL %s

				Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions this tests all buffer_atomic_add_f32 patterns for gfx11 Petar.Avramovic: this tests all buffer_atomic_add_f32 patterns for gfx11
	; no-rtn			; no-rtn

	; GFX11: BUFFER_ATOMIC_ADD_F32_OFFEN
	define amdgpu_ps void @raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {			define amdgpu_ps void @raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {
				arsenmUnsubmitted Not Done Reply Inline Actions Why are these checks so sparse? Why isn't this test generated like the others? arsenm: Why are these checks so sparse? Why isn't this test generated like the others?
				; SDAG-LABEL: name: raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY4]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY2]], %subreg.sub3
				; SDAG-NEXT: BUFFER_ATOMIC_ADD_F32_OFFEN [[COPY6]], [[COPY1]], killed [[REG_SEQUENCE]], [[COPY]], 4095, 0, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: BUFFER_ATOMIC_ADD_F32_OFFEN [[COPY]], [[COPY5]], [[REG_SEQUENCE]], [[COPY6]], 4095, 0, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: S_ENDPGM 0
	%voffset.add = add i32 %voffset, 4095			%voffset.add = add i32 %voffset, 4095
	%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset.add, i32 %soffset, i32 0)			%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset.add, i32 %soffset, i32 0)
	ret void			ret void
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_OFFEN
	define amdgpu_ps void @raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {			define amdgpu_ps void @raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {
				; SDAG-LABEL: name: raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY4]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY2]], %subreg.sub3
				; SDAG-NEXT: BUFFER_ATOMIC_ADD_F32_OFFEN [[COPY6]], [[COPY1]], killed [[REG_SEQUENCE]], [[COPY]], 0, 2, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: BUFFER_ATOMIC_ADD_F32_OFFEN [[COPY]], [[COPY5]], [[REG_SEQUENCE]], [[COPY6]], 0, 2, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: S_ENDPGM 0
	%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 2)			%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 2)
	ret void			ret void
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_OFFSET
	define amdgpu_ps void @raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 inreg %soffset) {			define amdgpu_ps void @raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 inreg %soffset) {
				; SDAG-LABEL: name: raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_4095__sgpr_soffset
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY3]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY1]], %subreg.sub3
				; SDAG-NEXT: BUFFER_ATOMIC_ADD_F32_OFFSET [[COPY5]], killed [[REG_SEQUENCE]], [[COPY]], 4095, 0, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: raw_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_4095__sgpr_soffset
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: BUFFER_ATOMIC_ADD_F32_OFFSET [[COPY]], [[REG_SEQUENCE]], [[COPY5]], 4095, 0, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: S_ENDPGM 0
	%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 4095, i32 %soffset, i32 0)			%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 4095, i32 %soffset, i32 0)
	ret void			ret void
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_IDXEN
	define amdgpu_ps void @struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__4095_voffset__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 inreg %soffset) {			define amdgpu_ps void @struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__4095_voffset__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 inreg %soffset) {
				; SDAG-LABEL: name: struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__4095_voffset__sgpr_soffset
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY4]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY2]], %subreg.sub3
				; SDAG-NEXT: BUFFER_ATOMIC_ADD_F32_IDXEN [[COPY6]], [[COPY1]], killed [[REG_SEQUENCE]], [[COPY]], 4095, 0, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__4095_voffset__sgpr_soffset
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: BUFFER_ATOMIC_ADD_F32_IDXEN [[COPY]], [[COPY5]], [[REG_SEQUENCE]], [[COPY6]], 4095, 0, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: S_ENDPGM 0
	%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 4095, i32 %soffset, i32 0)			%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 4095, i32 %soffset, i32 0)
	ret void			ret void
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_IDXEN
	define amdgpu_ps void @struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__0_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 inreg %soffset) {			define amdgpu_ps void @struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__0_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 inreg %soffset) {
				; SDAG-LABEL: name: struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__0_voffset__sgpr_soffset_slc
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY4]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY2]], %subreg.sub3
				; SDAG-NEXT: BUFFER_ATOMIC_ADD_F32_IDXEN [[COPY6]], [[COPY1]], killed [[REG_SEQUENCE]], [[COPY]], 0, 2, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__0_voffset__sgpr_soffset_slc
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: BUFFER_ATOMIC_ADD_F32_IDXEN [[COPY]], [[COPY5]], [[REG_SEQUENCE]], [[COPY6]], 0, 2, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: S_ENDPGM 0
	%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 %soffset, i32 2)			%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 %soffset, i32 2)
	ret void			ret void
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_BOTHEN
	define amdgpu_ps void @struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {			define amdgpu_ps void @struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {
				; SDAG-LABEL: name: struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $vgpr2, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY6]], %subreg.sub0, [[COPY5]], %subreg.sub1, [[COPY4]], %subreg.sub2, [[COPY3]], %subreg.sub3
				; SDAG-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: BUFFER_ATOMIC_ADD_F32_BOTHEN [[COPY7]], killed [[REG_SEQUENCE1]], killed [[REG_SEQUENCE]], [[COPY]], 4095, 0, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: struct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: [[COPY7:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY6]], %subreg.sub1
				; GISEL-NEXT: BUFFER_ATOMIC_ADD_F32_BOTHEN [[COPY]], [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY7]], 4095, 0, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: S_ENDPGM 0
	%voffset.add = add i32 %voffset, 4095			%voffset.add = add i32 %voffset, 4095
	%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset.add, i32 %soffset, i32 0)			%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset.add, i32 %soffset, i32 0)
	ret void			ret void
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_BOTHEN
	define amdgpu_ps void @xstruct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {			define amdgpu_ps void @xstruct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {
				; SDAG-LABEL: name: xstruct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $vgpr2, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY6]], %subreg.sub0, [[COPY5]], %subreg.sub1, [[COPY4]], %subreg.sub2, [[COPY3]], %subreg.sub3
				; SDAG-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: BUFFER_ATOMIC_ADD_F32_BOTHEN [[COPY7]], killed [[REG_SEQUENCE1]], killed [[REG_SEQUENCE]], [[COPY]], 0, 2, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: xstruct_buffer_atomic_add_f32_noret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: [[COPY7:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY6]], %subreg.sub1
				; GISEL-NEXT: BUFFER_ATOMIC_ADD_F32_BOTHEN [[COPY]], [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY7]], 0, 2, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: S_ENDPGM 0
	%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 2)			%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 2)
	ret void			ret void
	}			}


	; rtn			; rtn

	; GFX11: BUFFER_ATOMIC_ADD_F32_OFFEN
	define amdgpu_ps float @raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {			define amdgpu_ps float @raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {
				; SDAG-LABEL: name: raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY4]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY2]], %subreg.sub3
				; SDAG-NEXT: [[BUFFER_ATOMIC_ADD_F32_OFFEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_OFFEN_RTN [[COPY6]], [[COPY1]], killed [[REG_SEQUENCE]], [[COPY]], 4095, 1, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_OFFEN_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: [[BUFFER_ATOMIC_ADD_F32_OFFEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_OFFEN_RTN [[COPY]], [[COPY5]], [[REG_SEQUENCE]], [[COPY6]], 4095, 1, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_OFFEN_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%voffset.add = add i32 %voffset, 4095			%voffset.add = add i32 %voffset, 4095
	%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset.add, i32 %soffset, i32 0)			%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset.add, i32 %soffset, i32 0)
	ret float %ret			ret float %ret
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_OFFEN
	define amdgpu_ps float @raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {			define amdgpu_ps float @raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 inreg %soffset) {
				; SDAG-LABEL: name: raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY4]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY2]], %subreg.sub3
				; SDAG-NEXT: [[BUFFER_ATOMIC_ADD_F32_OFFEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_OFFEN_RTN [[COPY6]], [[COPY1]], killed [[REG_SEQUENCE]], [[COPY]], 0, 3, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_OFFEN_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: [[BUFFER_ATOMIC_ADD_F32_OFFEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_OFFEN_RTN [[COPY]], [[COPY5]], [[REG_SEQUENCE]], [[COPY6]], 0, 3, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_OFFEN_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 2)			%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 2)
	ret float %ret			ret float %ret
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_OFFSET
	define amdgpu_ps float @raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 inreg %soffset) {			define amdgpu_ps float @raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 inreg %soffset) {
				; SDAG-LABEL: name: raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_4095__sgpr_soffset
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY4]], %subreg.sub0, [[COPY3]], %subreg.sub1, [[COPY2]], %subreg.sub2, [[COPY1]], %subreg.sub3
				; SDAG-NEXT: [[BUFFER_ATOMIC_ADD_F32_OFFSET_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_OFFSET_RTN [[COPY5]], killed [[REG_SEQUENCE]], [[COPY]], 4095, 1, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_OFFSET_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: raw_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_4095__sgpr_soffset
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: [[BUFFER_ATOMIC_ADD_F32_OFFSET_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_OFFSET_RTN [[COPY]], [[REG_SEQUENCE]], [[COPY5]], 4095, 1, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_OFFSET_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 4095, i32 %soffset, i32 0)			%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 4095, i32 %soffset, i32 0)
	ret float %ret			ret float %ret
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_IDXEN
	define amdgpu_ps float @struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__4095_voffset__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 inreg %soffset) {			define amdgpu_ps float @struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__4095_voffset__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 inreg %soffset) {
				; SDAG-LABEL: name: struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__4095_voffset__sgpr_soffset
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY4]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY2]], %subreg.sub3
				; SDAG-NEXT: [[BUFFER_ATOMIC_ADD_F32_IDXEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_IDXEN_RTN [[COPY6]], [[COPY1]], killed [[REG_SEQUENCE]], [[COPY]], 4095, 1, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_IDXEN_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__4095_voffset__sgpr_soffset
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: [[BUFFER_ATOMIC_ADD_F32_IDXEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_IDXEN_RTN [[COPY]], [[COPY5]], [[REG_SEQUENCE]], [[COPY6]], 4095, 1, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_IDXEN_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 4095, i32 %soffset, i32 0)			%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 4095, i32 %soffset, i32 0)
	ret float %ret			ret float %ret
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_IDXEN
	define amdgpu_ps float @struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__0_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 inreg %soffset) {			define amdgpu_ps float @struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__0_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 inreg %soffset) {
				; SDAG-LABEL: name: struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__0_voffset__sgpr_soffset_slc
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY4]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY2]], %subreg.sub3
				; SDAG-NEXT: [[BUFFER_ATOMIC_ADD_F32_IDXEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_IDXEN_RTN [[COPY6]], [[COPY1]], killed [[REG_SEQUENCE]], [[COPY]], 0, 3, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_IDXEN_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__0_voffset__sgpr_soffset_slc
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: [[BUFFER_ATOMIC_ADD_F32_IDXEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_IDXEN_RTN [[COPY]], [[COPY5]], [[REG_SEQUENCE]], [[COPY6]], 0, 3, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_IDXEN_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 %soffset, i32 2)			%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 %soffset, i32 2)
	ret float %ret			ret float %ret
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_BOTHEN
	define amdgpu_ps float @struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {			define amdgpu_ps float @struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {
				; SDAG-LABEL: name: struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $vgpr2, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY6]], %subreg.sub0, [[COPY5]], %subreg.sub1, [[COPY4]], %subreg.sub2, [[COPY3]], %subreg.sub3
				; SDAG-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN [[COPY7]], killed [[REG_SEQUENCE1]], killed [[REG_SEQUENCE]], [[COPY]], 4095, 1, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: struct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset_plus4095__sgpr_soffset
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: [[COPY7:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY6]], %subreg.sub1
				; GISEL-NEXT: [[BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN [[COPY]], [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY7]], 4095, 1, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%voffset.add = add i32 %voffset, 4095			%voffset.add = add i32 %voffset, 4095
	%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset.add, i32 %soffset, i32 0)			%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset.add, i32 %soffset, i32 0)
	ret float %ret			ret float %ret
	}			}

	; GFX11: BUFFER_ATOMIC_ADD_F32_BOTHEN
	define amdgpu_ps float @xstruct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {			define amdgpu_ps float @xstruct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc(float %val, <4 x i32> inreg %rsrc, i32 %vindex, i32 %voffset, i32 inreg %soffset) {
				; SDAG-LABEL: name: xstruct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr1, $vgpr2, $sgpr4
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; SDAG-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; SDAG-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY6]], %subreg.sub0, [[COPY5]], %subreg.sub1, [[COPY4]], %subreg.sub2, [[COPY3]], %subreg.sub3
				; SDAG-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN [[COPY7]], killed [[REG_SEQUENCE1]], killed [[REG_SEQUENCE]], [[COPY]], 0, 3, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; SDAG-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: xstruct_buffer_atomic_add_f32_ret__vgpr_val__sgpr_rsrc__vgpr_voffset__sgpr_soffset_slc
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_128 = REG_SEQUENCE [[COPY1]], %subreg.sub0, [[COPY2]], %subreg.sub1, [[COPY3]], %subreg.sub2, [[COPY4]], %subreg.sub3
				; GISEL-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: [[COPY7:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY5]], %subreg.sub0, [[COPY6]], %subreg.sub1
				; GISEL-NEXT: [[BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN:%[0-9]+]]:vgpr_32 = BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN [[COPY]], [[REG_SEQUENCE1]], [[REG_SEQUENCE]], [[COPY7]], 0, 3, implicit $exec :: (volatile dereferenceable load store (s32), align 1, addrspace 4)
				; GISEL-NEXT: $vgpr0 = COPY [[BUFFER_ATOMIC_ADD_F32_BOTHEN_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 2)			%ret = call float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset, i32 2)
	ret float %ret			ret float %ret
	}			}

				define amdgpu_ps void @global_atomic_fadd_f32_noret_intrinsic(float addrspace(1)* %ptr, float %data) {
				; SDAG-LABEL: name: global_atomic_fadd_f32_noret_intrinsic
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; SDAG-NEXT: GLOBAL_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: global_atomic_fadd_f32_noret_intrinsic
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GISEL-NEXT: S_ENDPGM 0
				%ret = call float @llvm.amdgcn.global.atomic.fadd(float addrspace(1)* %ptr, float %data)
				ret void
				}

				define amdgpu_ps float @global_atomic_fadd_f32_ret_intrinsic(float addrspace(1)* %ptr, float %data) {
				; SDAG-LABEL: name: global_atomic_fadd_f32_ret_intrinsic
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; SDAG-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; SDAG-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: global_atomic_fadd_f32_ret_intrinsic
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GISEL-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				%ret = call float @llvm.amdgcn.global.atomic.fadd(float addrspace(1)* %ptr, float %data)
				ret float %ret
				}

				define amdgpu_ps void @global_atomic_fadd_f32_saddr_noret_intrinsic(float addrspace(1)* inreg %ptr, float %data) {
				; SDAG-LABEL: name: global_atomic_fadd_f32_saddr_noret_intrinsic
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; SDAG-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: global_atomic_fadd_f32_saddr_noret_intrinsic
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GISEL-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GISEL-NEXT: S_ENDPGM 0
				%ret = call float @llvm.amdgcn.global.atomic.fadd(float addrspace(1)* %ptr, float %data)
				ret void
				}

				define amdgpu_ps float @global_atomic_fadd_f32_saddr_ret_intrinsic(float addrspace(1)* inreg %ptr, float %data) {
				; SDAG-LABEL: name: global_atomic_fadd_f32_saddr_ret_intrinsic
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; SDAG-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; SDAG-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: global_atomic_fadd_f32_saddr_ret_intrinsic
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GISEL-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GISEL-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				%ret = call float @llvm.amdgcn.global.atomic.fadd(float addrspace(1)* %ptr, float %data)
				ret float %ret
				}


				define amdgpu_ps void @global_atomic_fadd_f32_noret_atomicrmw(float addrspace(1)* %ptr, float %data) {
				; SDAG-LABEL: name: global_atomic_fadd_f32_noret_atomicrmw
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; SDAG-NEXT: GLOBAL_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec :: (load store seq_cst (s32) on %ir.ptr, addrspace 1)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: global_atomic_fadd_f32_noret_atomicrmw
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (load store seq_cst (s32) on %ir.ptr, addrspace 1)
				; GISEL-NEXT: S_ENDPGM 0
				%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data seq_cst
				ret void
				}

				define amdgpu_ps float @global_atomic_fadd_f32_ret_atomicrmw(float addrspace(1)* %ptr, float %data) {
				; SDAG-LABEL: name: global_atomic_fadd_f32_ret_atomicrmw
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; SDAG-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (load store seq_cst (s32) on %ir.ptr, addrspace 1)
				; SDAG-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: global_atomic_fadd_f32_ret_atomicrmw
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (load store seq_cst (s32) on %ir.ptr, addrspace 1)
				; GISEL-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data seq_cst
				ret float %ret
				}

				define amdgpu_ps void @global_atomic_fadd_f32_saddr_noret_atomicrmw(float addrspace(1)* inreg %ptr, float %data) {
				; SDAG-LABEL: name: global_atomic_fadd_f32_saddr_noret_atomicrmw
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; SDAG-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 0, implicit $exec :: (load store seq_cst (s32) on %ir.ptr, addrspace 1)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: global_atomic_fadd_f32_saddr_noret_atomicrmw
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GISEL-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (load store seq_cst (s32) on %ir.ptr, addrspace 1)
				; GISEL-NEXT: S_ENDPGM 0
				%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data seq_cst
				ret void
				}

				define amdgpu_ps float @global_atomic_fadd_f32_saddr_ret_atomicrmw(float addrspace(1)* inreg %ptr, float %data) {
				; SDAG-LABEL: name: global_atomic_fadd_f32_saddr_ret_atomicrmw
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; SDAG-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store seq_cst (s32) on %ir.ptr, addrspace 1)
				; SDAG-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: global_atomic_fadd_f32_saddr_ret_atomicrmw
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GISEL-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store seq_cst (s32) on %ir.ptr, addrspace 1)
				; GISEL-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data seq_cst
				ret float %ret
				}

				define amdgpu_ps void @flat_atomic_fadd_f32_noret_intrinsic(float* %ptr, float %data) {
				; SDAG-LABEL: name: flat_atomic_fadd_f32_noret_intrinsic
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; SDAG-NEXT: FLAT_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: flat_atomic_fadd_f32_noret_intrinsic
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: FLAT_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr)
				; GISEL-NEXT: S_ENDPGM 0
				%ret = call float @llvm.amdgcn.flat.atomic.fadd(float* %ptr, float %data)
				ret void
				}

				define amdgpu_ps float @flat_atomic_fadd_f32_ret_intrinsic(float* %ptr, float %data) {
				; SDAG-LABEL: name: flat_atomic_fadd_f32_ret_intrinsic
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; SDAG-NEXT: [[FLAT_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr)
				; SDAG-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_ADD_F32_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: flat_atomic_fadd_f32_ret_intrinsic
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: [[FLAT_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr)
				; GISEL-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_ADD_F32_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				%ret = call float @llvm.amdgcn.flat.atomic.fadd(float* %ptr, float %data)
				ret float %ret
				}

				define amdgpu_ps void @flat_atomic_fadd_f32_noret_atomicrmw(float* %ptr, float %data) {
				; SDAG-LABEL: name: flat_atomic_fadd_f32_noret_atomicrmw
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; SDAG-NEXT: FLAT_ATOMIC_ADD_F32 killed [[COPY3]], [[COPY]], 0, 0, implicit $exec, implicit $flat_scr :: (load store seq_cst (s32) on %ir.ptr)
				; SDAG-NEXT: S_ENDPGM 0
				; GISEL-LABEL: name: flat_atomic_fadd_f32_noret_atomicrmw
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: FLAT_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (load store seq_cst (s32) on %ir.ptr)
				; GISEL-NEXT: S_ENDPGM 0
				%ret = atomicrmw fadd float* %ptr, float %data seq_cst
				ret void
				}

				define amdgpu_ps float @flat_atomic_fadd_f32_ret_atomicrmw(float* %ptr, float %data) {
				; SDAG-LABEL: name: flat_atomic_fadd_f32_ret_atomicrmw
				; SDAG: bb.0 (%ir-block.0):
				; SDAG-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; SDAG-NEXT: {{ $}}
				; SDAG-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; SDAG-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; SDAG-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; SDAG-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; SDAG-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; SDAG-NEXT: [[FLAT_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec, implicit $flat_scr :: (load store seq_cst (s32) on %ir.ptr)
				; SDAG-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_ADD_F32_RTN]]
				; SDAG-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GISEL-LABEL: name: flat_atomic_fadd_f32_ret_atomicrmw
				; GISEL: bb.1 (%ir-block.0):
				; GISEL-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GISEL-NEXT: {{ $}}
				; GISEL-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-NEXT: [[FLAT_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec, implicit $flat_scr :: (load store seq_cst (s32) on %ir.ptr)
				; GISEL-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_ADD_F32_RTN]]
				; GISEL-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				%ret = atomicrmw fadd float* %ptr, float %data seq_cst
				ret float %ret
				}

	declare float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32 immarg) #0			declare float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32 immarg) #0
	declare float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32, i32 immarg) #0			declare float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32, i32 immarg) #0
				declare float @llvm.amdgcn.global.atomic.fadd(float addrspace(1)*, float)
				declare float @llvm.amdgcn.flat.atomic.fadd(float*, float)
	attributes #0 = { nounwind }			attributes #0 = { nounwind }