This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
-
AMDGPUInstructionSelector.h
-
AMDGPUInstructionSelector.cpp
-
AMDGPUInstructions.td
1/2
AMDGPULegalizerInfo.cpp
1
BUFInstructions.td
3/6
FLATInstructions.td
1/2
SIISelLowering.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
global-atomic-fadd.f32-no-rtn.ll
-
global-atomic-fadd.f32-rtn.ll
-
global-atomic-fadd.f64.ll
-
global-atomic-fadd.v2f16-no-rtn.ll
-
global-atomic-fadd.v2f16-rtn.ll
-
llvm.amdgcn.global.atomic.fadd.ll
-
llvm.amdgcn.raw.buffer.atomic.fadd-with-ret.ll
-
llvm.amdgcn.struct.buffer.atomic.fadd-with-ret.ll
-
global-atomic-fadd.f32-rtn.ll
-
global-atomics-fp.ll
-
llvm.amdgcn.atomic.fadd.gfx90a.ll

Differential D130579

AMDGPU: Use tablegen patterns for buffer global and flat atomic fadd
ClosedPublic

Authored by Petar.Avramovic on Jul 26 2022, 8:07 AM.

Download Raw Diff

Details

Reviewers

foad
arsenm
abinavpp

Group Reviewers

Restricted Project

Commits

rG6db7921b65d9: AMDGPU: Use tablegen patterns for buffer global and flat atomic fadd

Summary

Remove manual selection for atomic fadd from global-isel.
Stop pre-isel translation to AtomicLoadFAdd/G_ATOMICRMW_FADD
which corresponds to llvm-ir's atomicrmw fadd instruction.

global and flat atomic fadd patterns changes:
Split rtn/no-rtn patterns
Add missing patterns or fix predicates
remove atomicrmw patterns for v2f16 (atomic rmw doesn't support vectors)
Patterns now check addrspace of pointer, added patterns for flat intrinsic
with global addrspace pointer that selects into global atomic instruction.

buffer atomic fadd patterns changes:
edit patterns to import into global-isel
remove gfx6/gfx7 _addr64 and _offset patterns
remove patterns that can't be reached (same pattern but different feature)

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

Petar.Avramovic created this revision.Jul 26 2022, 8:07 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 26 2022, 8:07 AM

Herald added subscribers: kosarev, jsilvanus, kerbowa and 8 others. · View Herald Transcript

Petar.Avramovic requested review of this revision.Jul 26 2022, 8:07 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 26 2022, 8:07 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

Petar.Avramovic added inline comments.Jul 26 2022, 8:10 AM

llvm/lib/Target/AMDGPU/FLATInstructions.td
1462–1463	Predicates are edited to match predicates for atomicrmw fadd (_NO_RTN) see llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.ll global_atomic_fadd_f32_wrong_subtarget I left v2f16_rtn, f64_no_rtn, f64_rtn patterns in isGFX90APlus, should each of them get feature for itself? Here is the list of predicates and atomic global fadd instructions they have HasAtomicFaddRtnInsts: f32_rtn HasAtomicFaddNoRtnInsts: f32_no_rtn HasAtomicPkFaddNoRtnInsts: v2f16_no_rtn isGFX90APlus: v2f16_rtn, f64_no_rtn, f64_rtn GFX90A has all of the above

Petar.Avramovic edited the summary of this revision. (Show Details)Jul 26 2022, 8:10 AM

Please add some codegen tests for flat_atomic_add_f32. Also I can't see any buffer_atomic_add_f32 tests that run on GFX11.

About flat_atomic_add, there are some tests for gfx9, gfx908 and gfx90a. I will test them for never targets also.

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.rtn_no-rtn.ll
3 ↗	(On Diff #447714)	this tests all buffer_atomic_add_f32 patterns for gfx11

Harbormaster completed remote builds in B177628: Diff 447714.Jul 26 2022, 9:46 AM

abinavpp added inline comments.Jul 27 2022, 1:26 AM

llvm/lib/Target/AMDGPU/BUFInstructions.td
1588	Can we remove the PredicateCode and GISelPredicateCode above?
llvm/lib/Target/AMDGPU/FLATInstructions.td
1035	Since you're splitting the ret and noret patterns to their own multiclasses, I think you can remove the complexity argument here and from FlatSignedAtomicPatImplRtn and use `let AddedComplexity = ... in` in the defms.

arsenm added inline comments.Jul 27 2022, 5:44 AM

llvm/lib/Target/AMDGPU/FLATInstructions.td
1035	Complexity argument is weird, should put in a let block around the instances
llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.rtn_no-rtn.ll
6 ↗	(On Diff #447714)	Why are these checks so sparse? Why isn't this test generated like the others?

added detailed mir tests for global/flat atomic fadd f32 on gfx11. Covers all patterns from td files. MI subtargets are already covered.

Petar.Avramovic added inline comments.Jul 29 2022, 8:59 AM

llvm/lib/Target/AMDGPU/FLATInstructions.td
1265–1266	these added complexity numbers are calculated by refactoring. Although I think it would be enough to have AddedComplexity = 1 on nortn patterns since they no longer have a way to get higher complexity then ret pattern (we no longer use complex patterns for no ret checks). Is there some desired precedence for regular vs saddr pattern?
1469	Strange name: atomic_load_fadd_v2f16_global_noret_32.
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
12763–12764	I wanted to avoid lowering for gfx11, I am not sure if this is the correct place.

Harbormaster completed remote builds in B178294: Diff 448642.Jul 29 2022, 9:27 AM

Overall I think this looks good. Can you precommit all the changes in test/ (consider it pre approved) and then rebase this patch?

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1344	Apparently gfx90a has flat_atomic_add for f64 (but not f32 or v2f16). Are there any tests for that?

I will to put tests in precommit but some will have to be excluded since they fail to select

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1344	yes, there are a few but atomic gets lowered in ir. I will try to fix that.

arsenm added inline comments.Aug 2 2022, 7:41 AM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
12763–12764	Should be based on a subtarget feature check, or at least the getGeneration() query on the subtarget. This also wouldn't belong in a change that's just supposed to stop using manual selection

Checked inc files, removed more patterns that can't be used
Tests for all patterns are in precommit
rmw lowering is moved to another patch

Harbormaster completed remote builds in B180362: Diff 451426.Aug 10 2022, 5:41 AM

Petar.Avramovic mentioned this in D131560: AMDGPU: Improve atomicrmw fadd selection.Aug 10 2022, 5:42 AM

Petar.Avramovic mentioned this in D131561: AMDGPU: Add detailed buffer, global and flat atomic fadd tests.

Petar.Avramovic added a parent revision: D131560: AMDGPU: Improve atomicrmw fadd selection.

LGTM

llvm/lib/Target/AMDGPU/FLATInstructions.td
1436	Can drop the Intr from the multiclass name for consistency
llvm/test/CodeGen/AMDGPU/GlobalISel/flat-atomic-fadd-f32.ll
5 ↗	(On Diff #451426)	I'm assuming this really does exist on gfx11

This revision is now accepted and ready to land.Sep 15 2022, 9:51 AM

foad added inline comments.Sep 16 2022, 1:37 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-atomic-fadd-f32.ll
5 ↗	(On Diff #451426)	Yes GFX11 has FLAT_ATOMIC_ADD_F32.

There are some conflicts with https://reviews.llvm.org/D130729, looks like an error to me.
Intrinsic patterns don't check address space (they will take any pointer)

define amdgpu_ps float @flat_atomic_fadd_f32_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)*, float)


define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(float* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.global.atomic.fadd(float* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.global.atomic.fadd(float*, float)

tests like this will select %ptr ignoring it is from wrong address space. I would expect tests like this to fail to select.
Comments and behavior from D130729 are based on translation of intrinsic to atomic rmw which are selected based on address space of %ptr (removed in this patch, intrinsics have separate patterns).

Planed fix:
intrinsic patterns should check address space, failing to select when pointer argument has wrong address space (I assume this is possible to do in tablegen).
D130729 will also change intrinsic id, when it changes pointer.

Any comments?

In D130579#3795146, @Petar.Avramovic wrote:
There are some conflicts with https://reviews.llvm.org/D130729, looks like an error to me.
Intrinsic patterns don't check address space (they will take any pointer)
define amdgpu_ps float @flat_atomic_fadd_f32_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)*, float)


define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(float* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.global.atomic.fadd(float* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.global.atomic.fadd(float*, float)
tests like this will select %ptr ignoring it is from wrong address space. I would expect tests like this to fail to select.
Comments and behavior from D130729 are based on translation of intrinsic to atomic rmw which are selected based on address space of %ptr (removed in this patch, intrinsics have separate patterns).

Planed fix:
intrinsic patterns should check address space, failing to select when pointer argument has wrong address space (I assume this is possible to do in tablegen).
D130729 will also change intrinsic id, when it changes pointer.

Any comments?

The flat intrinsic with a global pointer is perfectly fine (and we recently started optimizing the address space for these in 20cf170e68def39dc50b59847afb8d9ab445703d). The global intrinsic with a flat pointer is more of a grey area and probably shouldn't select

In D130579#3795182, @arsenm wrote:
In D130579#3795146, @Petar.Avramovic wrote:
There are some conflicts with https://reviews.llvm.org/D130729, looks like an error to me.
Intrinsic patterns don't check address space (they will take any pointer)
define amdgpu_ps float @flat_atomic_fadd_f32_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.flat.atomic.fadd(float addrspace(1)*, float)


define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(float* %ptr, float %data) {
  %ret = call float @llvm.amdgcn.global.atomic.fadd(float* %ptr, float %data)
  ret float %ret
}

declare float @llvm.amdgcn.global.atomic.fadd(float*, float)
tests like this will select %ptr ignoring it is from wrong address space. I would expect tests like this to fail to select.
Comments and behavior from D130729 are based on translation of intrinsic to atomic rmw which are selected based on address space of %ptr (removed in this patch, intrinsics have separate patterns).

Planed fix:
intrinsic patterns should check address space, failing to select when pointer argument has wrong address space (I assume this is possible to do in tablegen).
D130729 will also change intrinsic id, when it changes pointer.

Any comments?
The flat intrinsic with a global pointer is perfectly fine (and we recently started optimizing the address space for these in 20cf170e68def39dc50b59847afb8d9ab445703d). The global intrinsic with a flat pointer is more of a grey area and probably shouldn't select

Petar, just to explain, this is because the global addr space is a subset of the flat addr space, so any global pointer is also a valid flat pointer (but not vice versa). Given a global pointer it is OK to select a FLAT_ instruction, but it would still be better to select a GLOBAL_ instruction if one is available.

then do I need to add additional sets of patterns for flat_intrinsic with global addr assuming we add checks for address space in each intrinsic pattern
global_intrinsic + addr_space1 -> global_atomic
flat_intrinsic + addr_space0 -> flat_atomic
flat_intrinsic + addr_space1 -> global_atomic

In D130579#3795273, @Petar.Avramovic wrote:

then do I need to add additional sets of patterns for flat_intrinsic with global addr assuming we add checks for address space in each intrinsic pattern
global_intrinsic + addr_space1 -> global_atomic
flat_intrinsic + addr_space0 -> flat_atomic
flat_intrinsic + addr_space1 -> global_atomic

Yes, this should be the current behavior. Arguably flat intrinsic + addrspace1 should select to flat_atomic but I don't think it matters much. We should probably be swapping the intrinsic instead in the address space optimization

Added type checks to address spaces using same method as rmw atomics (made new PatFrags with let IsAtomic = 1; and let AddressSpaces = ... ).
Intrinsic patterns use these (I think they are called PatFrags), there are some additional tests for 'flat intrinsic' + 'global address' -> global atomic instruction

This revision is now accepted and ready to land.Sep 21 2022, 3:30 PM

Harbormaster completed remote builds in B188060: Diff 462023.Sep 21 2022, 3:31 PM

Petar.Avramovic updated this revision to Diff 462144.Sep 22 2022, 5:11 AM

Petar.Avramovic edited the summary of this revision. (Show Details)

Harbormaster completed remote builds in B188150: Diff 462144.Sep 22 2022, 5:11 AM

Petar.Avramovic requested review of this revision.Sep 22 2022, 5:12 AM

arsenm accepted this revision.Sep 22 2022, 5:52 AM

This revision is now accepted and ready to land.Sep 22 2022, 5:52 AM

Closed by commit rG6db7921b65d9: AMDGPU: Use tablegen patterns for buffer global and flat atomic fadd (authored by Petar.Avramovic). · Explain WhySep 23 2022, 9:01 AM

This revision was automatically updated to reflect the committed changes.

Petar.Avramovic mentioned this in rG48968c47b0a1: AMDGPU: Add detailed buffer, global and flat atomic fadd tests.

Petar.Avramovic mentioned this in rG5cee9047d5ff: AMDGPU: Improve atomicrmw fadd selection.

Petar.Avramovic added a commit: rG6db7921b65d9: AMDGPU: Use tablegen patterns for buffer global and flat atomic fadd.

This broke check-clang everywhere, see e.g. https://lab.llvm.org/buildbot/#/builders/109/builds/47270 (or most other bots on https://lab.llvm.org/buildbot/#/console) or http://45.33.8.238/macm1/45085/step_7.txt (or all other bots on http://45.33.8.238/).

Please take a look and revert for now if it takes a while to fix.

I am aware, looking into it

Petar.Avramovic mentioned this in rGa3becb333d7f: [clang][AMDGPU] Temporarily disable clang atomic fadd test for gfx90a.Sep 23 2022, 12:51 PM

Petar.Avramovic mentioned this in D134568: [AMDGPU] Add pattern for flat fadd f64 intrinsic with local address.Sep 23 2022, 2:54 PM

Petar.Avramovic mentioned this in rGdcc756d03e59: [AMDGPU] Pattern for flat atomic fadd f64 intrinsic with local addr.Sep 25 2022, 4:33 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPUInstructionSelector.h

3 lines

AMDGPUInstructionSelector.cpp

138 lines

AMDGPUInstructions.td

37 lines

AMDGPULegalizerInfo.cpp

17 lines

BUFInstructions.td

31 lines

FLATInstructions.td

136 lines

SIISelLowering.cpp

34 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

global-atomic-fadd.f32-no-rtn.ll

262 lines

global-atomic-fadd.f32-rtn.ll

216 lines

global-atomic-fadd.f64.ll

24 lines

global-atomic-fadd.v2f16-no-rtn.ll

134 lines

global-atomic-fadd.v2f16-rtn.ll

98 lines

llvm.amdgcn.global.atomic.fadd.ll

7 lines

llvm.amdgcn.raw.buffer.atomic.fadd-with-ret.ll

5 lines

llvm.amdgcn.struct.buffer.atomic.fadd-with-ret.ll

5 lines

global-atomic-fadd.f32-rtn.ll

76 lines

global-atomics-fp.ll

12 lines

llvm.amdgcn.atomic.fadd.gfx90a.ll

2 lines

Diff 462511

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h

Show First 20 Lines • Show All 134 Lines • ▼ Show 20 Lines	private:
bool selectG_LOAD_STORE_ATOMICRMW(MachineInstr &I) const;		bool selectG_LOAD_STORE_ATOMICRMW(MachineInstr &I) const;
bool selectG_SELECT(MachineInstr &I) const;		bool selectG_SELECT(MachineInstr &I) const;
bool selectG_BRCOND(MachineInstr &I) const;		bool selectG_BRCOND(MachineInstr &I) const;
bool selectG_GLOBAL_VALUE(MachineInstr &I) const;		bool selectG_GLOBAL_VALUE(MachineInstr &I) const;
bool selectG_PTRMASK(MachineInstr &I) const;		bool selectG_PTRMASK(MachineInstr &I) const;
bool selectG_EXTRACT_VECTOR_ELT(MachineInstr &I) const;		bool selectG_EXTRACT_VECTOR_ELT(MachineInstr &I) const;
bool selectG_INSERT_VECTOR_ELT(MachineInstr &I) const;		bool selectG_INSERT_VECTOR_ELT(MachineInstr &I) const;
bool selectG_SHUFFLE_VECTOR(MachineInstr &I) const;		bool selectG_SHUFFLE_VECTOR(MachineInstr &I) const;
bool selectAMDGPU_BUFFER_ATOMIC_FADD(MachineInstr &I) const;
bool selectGlobalAtomicFadd(MachineInstr &I, MachineOperand &AddrOp,
MachineOperand &DataOp) const;
bool selectBufferLoadLds(MachineInstr &MI) const;		bool selectBufferLoadLds(MachineInstr &MI) const;
bool selectGlobalLoadLds(MachineInstr &MI) const;		bool selectGlobalLoadLds(MachineInstr &MI) const;
bool selectBVHIntrinsic(MachineInstr &I) const;		bool selectBVHIntrinsic(MachineInstr &I) const;
bool selectSMFMACIntrin(MachineInstr &I) const;		bool selectSMFMACIntrin(MachineInstr &I) const;
bool selectWaveAddress(MachineInstr &I) const;		bool selectWaveAddress(MachineInstr &I) const;

std::pair<Register, unsigned>		std::pair<Register, unsigned>
selectVOP3ModsImpl(MachineOperand &Root, bool AllowAbs = true,		selectVOP3ModsImpl(MachineOperand &Root, bool AllowAbs = true,
▲ Show 20 Lines • Show All 198 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp

Show First 20 Lines • Show All 1,846 Lines • ▼ Show 20 Lines	bool AMDGPUInstructionSelector::selectG_INTRINSIC_W_SIDE_EFFECTS(
case Intrinsic::amdgcn_ds_gws_sema_release_all:		case Intrinsic::amdgcn_ds_gws_sema_release_all:
return selectDSGWSIntrinsic(I, IntrinsicID);		return selectDSGWSIntrinsic(I, IntrinsicID);
case Intrinsic::amdgcn_ds_append:		case Intrinsic::amdgcn_ds_append:
return selectDSAppendConsume(I, true);		return selectDSAppendConsume(I, true);
case Intrinsic::amdgcn_ds_consume:		case Intrinsic::amdgcn_ds_consume:
return selectDSAppendConsume(I, false);		return selectDSAppendConsume(I, false);
case Intrinsic::amdgcn_s_barrier:		case Intrinsic::amdgcn_s_barrier:
return selectSBarrier(I);		return selectSBarrier(I);
case Intrinsic::amdgcn_global_atomic_fadd:
return selectGlobalAtomicFadd(I, I.getOperand(2), I.getOperand(3));
case Intrinsic::amdgcn_raw_buffer_load_lds:		case Intrinsic::amdgcn_raw_buffer_load_lds:
case Intrinsic::amdgcn_struct_buffer_load_lds:		case Intrinsic::amdgcn_struct_buffer_load_lds:
return selectBufferLoadLds(I);		return selectBufferLoadLds(I);
case Intrinsic::amdgcn_global_load_lds:		case Intrinsic::amdgcn_global_load_lds:
return selectGlobalLoadLds(I);		return selectGlobalLoadLds(I);
case Intrinsic::amdgcn_exp_compr:		case Intrinsic::amdgcn_exp_compr:
if (!STI.hasCompressedExport()) {		if (!STI.hasCompressedExport()) {
Function &F = I.getMF()->getFunction();		Function &F = I.getMF()->getFunction();
▲ Show 20 Lines • Show All 601 Lines • ▼ Show 20 Lines	if ((AS == AMDGPUAS::LOCAL_ADDRESS \|\| AS == AMDGPUAS::REGION_ADDRESS) &&
// If DS instructions require M0 initialization, insert it before selecting.		// If DS instructions require M0 initialization, insert it before selecting.
BuildMI(*BB, &I, I.getDebugLoc(), TII.get(AMDGPU::S_MOV_B32), AMDGPU::M0)		BuildMI(*BB, &I, I.getDebugLoc(), TII.get(AMDGPU::S_MOV_B32), AMDGPU::M0)
.addImm(-1);		.addImm(-1);
}		}
}		}

bool AMDGPUInstructionSelector::selectG_LOAD_STORE_ATOMICRMW(		bool AMDGPUInstructionSelector::selectG_LOAD_STORE_ATOMICRMW(
MachineInstr &I) const {		MachineInstr &I) const {
if (I.getOpcode() == TargetOpcode::G_ATOMICRMW_FADD) {
const LLT PtrTy = MRI->getType(I.getOperand(1).getReg());
unsigned AS = PtrTy.getAddressSpace();
if (AS == AMDGPUAS::GLOBAL_ADDRESS)
return selectGlobalAtomicFadd(I, I.getOperand(1), I.getOperand(2));
}

initM0(I);		initM0(I);
return selectImpl(I, *CoverageInfo);		return selectImpl(I, *CoverageInfo);
}		}

static bool isVCmpResult(Register Reg, MachineRegisterInfo &MRI) {		static bool isVCmpResult(Register Reg, MachineRegisterInfo &MRI) {
if (Reg.isPhysical())		if (Reg.isPhysical())
return false;		return false;

▲ Show 20 Lines • Show All 549 Lines • ▼ Show 20 Lines	if (Mask[0] == 1 && Mask[1] == -1) {
}		}
} else		} else
llvm_unreachable("all shuffle masks should be handled");		llvm_unreachable("all shuffle masks should be handled");

MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
}		}

bool AMDGPUInstructionSelector::selectAMDGPU_BUFFER_ATOMIC_FADD(
MachineInstr &MI) const {
const Register DefReg = MI.getOperand(0).getReg();
LLT DefTy = MRI->getType(DefReg);
if (AMDGPU::hasAtomicFaddRtnForTy(STI, DefTy))
return selectImpl(MI, *CoverageInfo);

MachineBasicBlock *MBB = MI.getParent();
const DebugLoc &DL = MI.getDebugLoc();

if (!MRI->use_nodbg_empty(DefReg)) {
Function &F = MBB->getParent()->getFunction();
DiagnosticInfoUnsupported
NoFpRet(F, "return versions of fp atomics not supported",
MI.getDebugLoc(), DS_Error);
F.getContext().diagnose(NoFpRet);
return false;
}

// FIXME: This is only needed because tablegen requires number of dst operands
// in match and replace pattern to be the same. Otherwise patterns can be
// exported from SDag path.
MachineOperand &VDataIn = MI.getOperand(1);
MachineOperand &VIndex = MI.getOperand(3);
MachineOperand &VOffset = MI.getOperand(4);
MachineOperand &SOffset = MI.getOperand(5);
int16_t Offset = MI.getOperand(6).getImm();

bool HasVOffset = !isOperandImmEqual(VOffset, 0, *MRI);
bool HasVIndex = !isOperandImmEqual(VIndex, 0, *MRI);

unsigned Opcode;
if (HasVOffset) {
Opcode = HasVIndex ? AMDGPU::BUFFER_ATOMIC_ADD_F32_BOTHEN
: AMDGPU::BUFFER_ATOMIC_ADD_F32_OFFEN;
} else {
Opcode = HasVIndex ? AMDGPU::BUFFER_ATOMIC_ADD_F32_IDXEN
: AMDGPU::BUFFER_ATOMIC_ADD_F32_OFFSET;
}

if (MRI->getType(VDataIn.getReg()).isVector()) {
switch (Opcode) {
case AMDGPU::BUFFER_ATOMIC_ADD_F32_BOTHEN:
Opcode = AMDGPU::BUFFER_ATOMIC_PK_ADD_F16_BOTHEN;
break;
case AMDGPU::BUFFER_ATOMIC_ADD_F32_OFFEN:
Opcode = AMDGPU::BUFFER_ATOMIC_PK_ADD_F16_OFFEN;
break;
case AMDGPU::BUFFER_ATOMIC_ADD_F32_IDXEN:
Opcode = AMDGPU::BUFFER_ATOMIC_PK_ADD_F16_IDXEN;
break;
case AMDGPU::BUFFER_ATOMIC_ADD_F32_OFFSET:
Opcode = AMDGPU::BUFFER_ATOMIC_PK_ADD_F16_OFFSET;
break;
}
}

auto I = BuildMI(*MBB, MI, DL, TII.get(Opcode));
I.add(VDataIn);

if (Opcode == AMDGPU::BUFFER_ATOMIC_ADD_F32_BOTHEN \|\|
Opcode == AMDGPU::BUFFER_ATOMIC_PK_ADD_F16_BOTHEN) {
Register IdxReg = MRI->createVirtualRegister(TRI.getVGPR64Class());
BuildMI(MBB, &I, DL, TII.get(AMDGPU::REG_SEQUENCE), IdxReg)
.addReg(VIndex.getReg())
.addImm(AMDGPU::sub0)
.addReg(VOffset.getReg())
.addImm(AMDGPU::sub1);

I.addReg(IdxReg);
} else if (HasVIndex) {
I.add(VIndex);
} else if (HasVOffset) {
I.add(VOffset);
}

I.add(MI.getOperand(2)); // rsrc
I.add(SOffset);
I.addImm(Offset);
I.addImm(MI.getOperand(7).getImm()); // cpol
I.cloneMemRefs(MI);

MI.eraseFromParent();

return true;
}

bool AMDGPUInstructionSelector::selectGlobalAtomicFadd(
MachineInstr &MI, MachineOperand &AddrOp, MachineOperand &DataOp) const {

if (STI.hasGFX90AInsts()) {
// gfx90a adds return versions of the global atomic fadd instructions so no
// special handling is required.
return selectImpl(MI, *CoverageInfo);
}

MachineBasicBlock *MBB = MI.getParent();
const DebugLoc &DL = MI.getDebugLoc();

if (!MRI->use_nodbg_empty(MI.getOperand(0).getReg())) {
Function &F = MBB->getParent()->getFunction();
DiagnosticInfoUnsupported
NoFpRet(F, "return versions of fp atomics not supported",
MI.getDebugLoc(), DS_Error);
F.getContext().diagnose(NoFpRet);
return false;
}

// FIXME: This is only needed because tablegen requires number of dst operands
// in match and replace pattern to be the same. Otherwise patterns can be
// exported from SDag path.
auto Addr = selectFlatOffsetImpl(AddrOp, SIInstrFlags::FlatGlobal);

Register Data = DataOp.getReg();
const unsigned Opc = MRI->getType(Data).isVector() ?
AMDGPU::GLOBAL_ATOMIC_PK_ADD_F16 : AMDGPU::GLOBAL_ATOMIC_ADD_F32;
auto MIB = BuildMI(*MBB, &MI, DL, TII.get(Opc))
.addReg(Addr.first)
.addReg(Data)
.addImm(Addr.second)
.addImm(0) // cpol
.cloneMemRefs(MI);

MI.eraseFromParent();
return constrainSelectedInstRegOperands(*MIB, TII, TRI, RBI);
}

bool AMDGPUInstructionSelector::selectBufferLoadLds(MachineInstr &MI) const {		bool AMDGPUInstructionSelector::selectBufferLoadLds(MachineInstr &MI) const {
unsigned Opc;		unsigned Opc;
unsigned Size = MI.getOperand(3).getImm();		unsigned Size = MI.getOperand(3).getImm();

// The struct intrinsic variants add one additional operand over raw.		// The struct intrinsic variants add one additional operand over raw.
const bool HasVIndex = MI.getNumOperands() == 9;		const bool HasVIndex = MI.getNumOperands() == 9;
Register VIndex;		Register VIndex;
int OpOffset = 0;		int OpOffset = 0;
▲ Show 20 Lines • Show All 397 Lines • ▼ Show 20 Lines	bool AMDGPUInstructionSelector::select(MachineInstr &I) {
case AMDGPU::G_AMDGPU_INTRIN_IMAGE_STORE_D16: {		case AMDGPU::G_AMDGPU_INTRIN_IMAGE_STORE_D16: {
const AMDGPU::ImageDimIntrinsicInfo *Intr		const AMDGPU::ImageDimIntrinsicInfo *Intr
= AMDGPU::getImageDimIntrinsicInfo(I.getIntrinsicID());		= AMDGPU::getImageDimIntrinsicInfo(I.getIntrinsicID());
assert(Intr && "not an image intrinsic with image pseudo");		assert(Intr && "not an image intrinsic with image pseudo");
return selectImageIntrinsic(I, Intr);		return selectImageIntrinsic(I, Intr);
}		}
case AMDGPU::G_AMDGPU_INTRIN_BVH_INTERSECT_RAY:		case AMDGPU::G_AMDGPU_INTRIN_BVH_INTERSECT_RAY:
return selectBVHIntrinsic(I);		return selectBVHIntrinsic(I);
case AMDGPU::G_AMDGPU_BUFFER_ATOMIC_FADD:
return selectAMDGPU_BUFFER_ATOMIC_FADD(I);
case AMDGPU::G_SBFX:		case AMDGPU::G_SBFX:
case AMDGPU::G_UBFX:		case AMDGPU::G_UBFX:
return selectG_SBFX_UBFX(I);		return selectG_SBFX_UBFX(I);
case AMDGPU::G_SI_CALL:		case AMDGPU::G_SI_CALL:
I.setDesc(TII.get(AMDGPU::SI_CALL));		I.setDesc(TII.get(AMDGPU::SI_CALL));
return true;		return true;
case AMDGPU::G_AMDGPU_WAVE_ADDRESS:		case AMDGPU::G_AMDGPU_WAVE_ADDRESS:
return selectWaveAddress(I);		return selectWaveAddress(I);
▲ Show 20 Lines • Show All 1,455 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUInstructions.td

	Show First 20 Lines • Show All 542 Lines • ▼ Show 20 Lines
	} // End foreach as			} // End foreach as

	multiclass noret_op {			multiclass noret_op {
	let HasNoUse = true in			let HasNoUse = true in
	def "_noret" : PatFrag<(ops node:$ptr, node:$data),			def "_noret" : PatFrag<(ops node:$ptr, node:$data),
	(!cast<SDPatternOperator>(NAME) node:$ptr, node:$data)>;			(!cast<SDPatternOperator>(NAME) node:$ptr, node:$data)>;
	}			}

	defm int_amdgcn_flat_atomic_fadd : noret_op;			multiclass global_addr_space_atomic_op {
				def "_noret_global_addrspace" :
				PatFrag<(ops node:$ptr, node:$data),
				(!cast<SDPatternOperator>(NAME) node:$ptr, node:$data)>{
				let HasNoUse = true;
				let AddressSpaces = LoadAddress_global.AddrSpaces;
				let IsAtomic = 1;
				}
				def "_global_addrspace" :
				PatFrag<(ops node:$ptr, node:$data),
				(!cast<SDPatternOperator>(NAME) node:$ptr, node:$data)>{
				let AddressSpaces = LoadAddress_global.AddrSpaces;
				let IsAtomic = 1;
				}
				}

				multiclass flat_addr_space_atomic_op {
				def "_noret_flat_addrspace" :
				PatFrag<(ops node:$ptr, node:$data),
				(!cast<SDPatternOperator>(NAME) node:$ptr, node:$data)>{
				let HasNoUse = true;
				let AddressSpaces = LoadAddress_flat.AddrSpaces;
				let IsAtomic = 1;
				}
				def "_flat_addrspace" :
				PatFrag<(ops node:$ptr, node:$data),
				(!cast<SDPatternOperator>(NAME) node:$ptr, node:$data)>{
				let AddressSpaces = LoadAddress_flat.AddrSpaces;
				let IsAtomic = 1;
				}
				}

				defm int_amdgcn_flat_atomic_fadd : flat_addr_space_atomic_op;
	defm int_amdgcn_flat_atomic_fadd_v2bf16 : noret_op;			defm int_amdgcn_flat_atomic_fadd_v2bf16 : noret_op;
	defm int_amdgcn_flat_atomic_fmin : noret_op;			defm int_amdgcn_flat_atomic_fmin : noret_op;
	defm int_amdgcn_flat_atomic_fmax : noret_op;			defm int_amdgcn_flat_atomic_fmax : noret_op;
	defm int_amdgcn_global_atomic_fadd : noret_op;			defm int_amdgcn_global_atomic_fadd : global_addr_space_atomic_op;
				defm int_amdgcn_flat_atomic_fadd : global_addr_space_atomic_op;
	defm int_amdgcn_global_atomic_fadd_v2bf16 : noret_op;			defm int_amdgcn_global_atomic_fadd_v2bf16 : noret_op;
	defm int_amdgcn_global_atomic_fmin : noret_op;			defm int_amdgcn_global_atomic_fmin : noret_op;
	defm int_amdgcn_global_atomic_fmax : noret_op;			defm int_amdgcn_global_atomic_fmax : noret_op;
	defm int_amdgcn_ds_fadd_v2bf16 : noret_op;			defm int_amdgcn_ds_fadd_v2bf16 : noret_op;

	multiclass noret_binary_atomic_op<SDNode atomic_op, bit IsInt = 1> {			multiclass noret_binary_atomic_op<SDNode atomic_op, bit IsInt = 1> {
	let HasNoUse = true in			let HasNoUse = true in
	defm "_noret" : binary_atomic_op<atomic_op, IsInt>;			defm "_noret" : binary_atomic_op<atomic_op, IsInt>;
	▲ Show 20 Lines • Show All 210 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

Show First 20 Lines • Show All 1,335 Lines • ▼ Show 20 Lines	if (ST.hasLDSFPAtomicAdd()) {
Atomic.legalFor({{S32, LocalPtr}, {S32, RegionPtr}});		Atomic.legalFor({{S32, LocalPtr}, {S32, RegionPtr}});
if (ST.hasGFX90AInsts())		if (ST.hasGFX90AInsts())
Atomic.legalFor({{S64, LocalPtr}});		Atomic.legalFor({{S64, LocalPtr}});
if (ST.hasGFX940Insts())		if (ST.hasGFX940Insts())
Atomic.legalFor({{V2S16, LocalPtr}});		Atomic.legalFor({{V2S16, LocalPtr}});
}		}
if (ST.hasAtomicFaddInsts())		if (ST.hasAtomicFaddInsts())
Atomic.legalFor({{S32, GlobalPtr}});		Atomic.legalFor({{S32, GlobalPtr}});
if (ST.hasFlatAtomicFaddF32Inst())		if (ST.hasFlatAtomicFaddF32Inst())
		foadUnsubmitted Not Done Reply Inline Actions Apparently gfx90a has flat_atomic_add for f64 (but not f32 or v2f16). Are there any tests for that? foad: Apparently gfx90a has flat_atomic_add for f64 (but not f32 or v2f16). Are there any tests for…
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions yes, there are a few but atomic gets lowered in ir. I will try to fix that. Petar.Avramovic: yes, there are a few but atomic gets lowered in ir. I will try to fix that.
Atomic.legalFor({{S32, FlatPtr}});		Atomic.legalFor({{S32, FlatPtr}});

if (ST.hasGFX90AInsts()) {		if (ST.hasGFX90AInsts()) {
// These are legal with some caveats, and should have undergone expansion in		// These are legal with some caveats, and should have undergone expansion in
// the IR in most situations		// the IR in most situations
// TODO: Move atomic expansion into legalizer		// TODO: Move atomic expansion into legalizer
Atomic.legalFor({		Atomic.legalFor({
{S32, GlobalPtr},		{S32, GlobalPtr},
▲ Show 20 Lines • Show All 4,409 Lines • ▼ Show 20 Lines	bool AMDGPULegalizerInfo::legalizeIntrinsic(LegalizerHelper &Helper,
case Intrinsic::amdgcn_raw_buffer_atomic_dec:		case Intrinsic::amdgcn_raw_buffer_atomic_dec:
case Intrinsic::amdgcn_struct_buffer_atomic_dec:		case Intrinsic::amdgcn_struct_buffer_atomic_dec:
case Intrinsic::amdgcn_raw_buffer_atomic_cmpswap:		case Intrinsic::amdgcn_raw_buffer_atomic_cmpswap:
case Intrinsic::amdgcn_struct_buffer_atomic_cmpswap:		case Intrinsic::amdgcn_struct_buffer_atomic_cmpswap:
case Intrinsic::amdgcn_raw_buffer_atomic_fmin:		case Intrinsic::amdgcn_raw_buffer_atomic_fmin:
case Intrinsic::amdgcn_struct_buffer_atomic_fmin:		case Intrinsic::amdgcn_struct_buffer_atomic_fmin:
case Intrinsic::amdgcn_raw_buffer_atomic_fmax:		case Intrinsic::amdgcn_raw_buffer_atomic_fmax:
case Intrinsic::amdgcn_struct_buffer_atomic_fmax:		case Intrinsic::amdgcn_struct_buffer_atomic_fmax:
return legalizeBufferAtomic(MI, B, IntrID);
case Intrinsic::amdgcn_raw_buffer_atomic_fadd:		case Intrinsic::amdgcn_raw_buffer_atomic_fadd:
case Intrinsic::amdgcn_struct_buffer_atomic_fadd: {		case Intrinsic::amdgcn_struct_buffer_atomic_fadd:
Register DstReg = MI.getOperand(0).getReg();
if (!MRI.use_empty(DstReg) &&
!AMDGPU::hasAtomicFaddRtnForTy(ST, MRI.getType(DstReg))) {
Function &F = B.getMF().getFunction();
DiagnosticInfoUnsupported NoFpRet(
F, "return versions of fp atomics not supported", B.getDebugLoc(),
DS_Error);
F.getContext().diagnose(NoFpRet);
B.buildUndef(DstReg);
MI.eraseFromParent();
return true;
}

return legalizeBufferAtomic(MI, B, IntrID);		return legalizeBufferAtomic(MI, B, IntrID);
}
case Intrinsic::amdgcn_atomic_inc:		case Intrinsic::amdgcn_atomic_inc:
return legalizeAtomicIncDec(MI, B, true);		return legalizeAtomicIncDec(MI, B, true);
case Intrinsic::amdgcn_atomic_dec:		case Intrinsic::amdgcn_atomic_dec:
return legalizeAtomicIncDec(MI, B, false);		return legalizeAtomicIncDec(MI, B, false);
case Intrinsic::trap:		case Intrinsic::trap:
return legalizeTrapIntrinsic(MI, MRI, B);		return legalizeTrapIntrinsic(MI, MRI, B);
case Intrinsic::debugtrap:		case Intrinsic::debugtrap:
return legalizeDebugTrapIntrinsic(MI, MRI, B);		return legalizeDebugTrapIntrinsic(MI, MRI, B);
Show All 18 Lines

llvm/lib/Target/AMDGPU/BUFInstructions.td

	Show First 20 Lines • Show All 1,145 Lines • ▼ Show 20 Lines

	let SubtargetPredicate = HasAtomicPkFaddNoRtnInsts in			let SubtargetPredicate = HasAtomicPkFaddNoRtnInsts in
	defm BUFFER_ATOMIC_PK_ADD_F16 : MUBUF_Pseudo_Atomics_NO_RTN <			defm BUFFER_ATOMIC_PK_ADD_F16 : MUBUF_Pseudo_Atomics_NO_RTN <
	"buffer_atomic_pk_add_f16", VGPR_32, v2f16			"buffer_atomic_pk_add_f16", VGPR_32, v2f16
	>;			>;

	let OtherPredicates = [HasAtomicFaddRtnInsts] in			let OtherPredicates = [HasAtomicFaddRtnInsts] in
	defm BUFFER_ATOMIC_ADD_F32 : MUBUF_Pseudo_Atomics_RTN<			defm BUFFER_ATOMIC_ADD_F32 : MUBUF_Pseudo_Atomics_RTN<
	"buffer_atomic_add_f32", VGPR_32, f32, atomic_load_fadd_global_32			"buffer_atomic_add_f32", VGPR_32, f32, null_frag
	>;			>;

	let OtherPredicates = [isGFX90APlus] in			let OtherPredicates = [isGFX90APlus] in
	defm BUFFER_ATOMIC_PK_ADD_F16 : MUBUF_Pseudo_Atomics_RTN <			defm BUFFER_ATOMIC_PK_ADD_F16 : MUBUF_Pseudo_Atomics_RTN <
	"buffer_atomic_pk_add_f16", VGPR_32, v2f16, atomic_load_fadd_v2f16_global_32			"buffer_atomic_pk_add_f16", VGPR_32, v2f16, null_frag
	>;			>;

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// MTBUF Instructions			// MTBUF Instructions
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	defm TBUFFER_LOAD_FORMAT_X : MTBUF_Pseudo_Loads <"tbuffer_load_format_x", VGPR_32, 1>;			defm TBUFFER_LOAD_FORMAT_X : MTBUF_Pseudo_Loads <"tbuffer_load_format_x", VGPR_32, 1>;
	defm TBUFFER_LOAD_FORMAT_XY : MTBUF_Pseudo_Loads <"tbuffer_load_format_xy", VReg_64, 2>;			defm TBUFFER_LOAD_FORMAT_XY : MTBUF_Pseudo_Loads <"tbuffer_load_format_xy", VReg_64, 2>;
	▲ Show 20 Lines • Show All 411 Lines • ▼ Show 20 Lines
	}			}
	let SubtargetPredicate = isGFX6GFX7GFX10 in {			let SubtargetPredicate = isGFX6GFX7GFX10 in {
	defm : SIBufferAtomicPat<"SIbuffer_atomic_fmin", f64, "BUFFER_ATOMIC_FMIN_X2">;			defm : SIBufferAtomicPat<"SIbuffer_atomic_fmin", f64, "BUFFER_ATOMIC_FMIN_X2">;
	defm : SIBufferAtomicPat<"SIbuffer_atomic_fmax", f64, "BUFFER_ATOMIC_FMAX_X2">;			defm : SIBufferAtomicPat<"SIbuffer_atomic_fmax", f64, "BUFFER_ATOMIC_FMAX_X2">;
	}			}

	class NoUseBufferAtomic<SDPatternOperator Op, ValueType vt> : PatFrag <			class NoUseBufferAtomic<SDPatternOperator Op, ValueType vt> : PatFrag <
	(ops node:$src0, node:$src1, node:$src2, node:$src3, node:$src4, node:$src5, node:$src6, node:$src7),			(ops node:$src0, node:$src1, node:$src2, node:$src3, node:$src4, node:$src5, node:$src6, node:$src7),
	(vt (Op $src0, $src1, $src2, $src3, $src4, $src5, $src6, $src7)),			(vt (Op $src0, $src1, $src2, $src3, $src4, $src5, $src6, $src7))> {
	[{ return SDValue(N, 0).use_empty(); }]> {			let HasNoUse = true;
				abinavppUnsubmitted Not Done Reply Inline Actions Can we remove the PredicateCode and GISelPredicateCode above? abinavpp: Can we remove the PredicateCode and GISelPredicateCode above?

	let GISelPredicateCode = [{
	return MRI.use_nodbg_empty(MI.getOperand(0).getReg());
	}];
	}			}

	multiclass BufferAtomicPatterns_NO_RTN<SDPatternOperator name, ValueType vt,			multiclass BufferAtomicPatterns_NO_RTN<SDPatternOperator name, ValueType vt,
	string opcode> {			string opcode> {
	def : GCNPat<			def : GCNPat<
	(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, 0,			(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, 0,
	0, i32:$soffset, timm:$offset,			0, i32:$soffset, timm:$offset,
	timm:$cachepolicy, 0),			timm:$cachepolicy, 0),
	(!cast<MUBUF_Pseudo>(opcode # _OFFSET) getVregSrcForVT<vt>.ret:$vdata_in, SReg_128:$rsrc, SCSrc_b32:$soffset,			(!cast<MUBUF_Pseudo>(opcode # _OFFSET) getVregSrcForVT<vt>.ret:$vdata_in, SReg_128:$rsrc, SCSrc_b32:$soffset,
	(as_i16timm $offset), $cachepolicy)			(as_i16timm $offset), timm:$cachepolicy)
	>;			>;

	def : GCNPat<			def : GCNPat<
	(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, i32:$vindex,			(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, i32:$vindex,
	0, i32:$soffset, timm:$offset,			0, i32:$soffset, timm:$offset,
	timm:$cachepolicy, timm),			timm:$cachepolicy, timm),
	(!cast<MUBUF_Pseudo>(opcode # _IDXEN) getVregSrcForVT<vt>.ret:$vdata_in, VGPR_32:$vindex, SReg_128:$rsrc, SCSrc_b32:$soffset,			(!cast<MUBUF_Pseudo>(opcode # _IDXEN) getVregSrcForVT<vt>.ret:$vdata_in, VGPR_32:$vindex, SReg_128:$rsrc, SCSrc_b32:$soffset,
	(as_i16timm $offset), $cachepolicy)			(as_i16timm $offset), timm:$cachepolicy)
	>;			>;

	def : GCNPat<			def : GCNPat<
	(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, 0,			(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, 0,
	i32:$voffset, i32:$soffset, timm:$offset,			i32:$voffset, i32:$soffset, timm:$offset,
	timm:$cachepolicy, 0),			timm:$cachepolicy, 0),
	(!cast<MUBUF_Pseudo>(opcode # _OFFEN) getVregSrcForVT<vt>.ret:$vdata_in, VGPR_32:$voffset, SReg_128:$rsrc, SCSrc_b32:$soffset,			(!cast<MUBUF_Pseudo>(opcode # _OFFEN) getVregSrcForVT<vt>.ret:$vdata_in, VGPR_32:$voffset, SReg_128:$rsrc, SCSrc_b32:$soffset,
	(as_i16timm $offset), $cachepolicy)			(as_i16timm $offset), timm:$cachepolicy)
	>;			>;

	def : GCNPat<			def : GCNPat<
	(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, i32:$vindex,			(NoUseBufferAtomic<name, vt> vt:$vdata_in, v4i32:$rsrc, i32:$vindex,
	i32:$voffset, i32:$soffset, timm:$offset,			i32:$voffset, i32:$soffset, timm:$offset,
	timm:$cachepolicy, timm),			timm:$cachepolicy, timm),
	(!cast<MUBUF_Pseudo>(opcode # _BOTHEN)			(!cast<MUBUF_Pseudo>(opcode # _BOTHEN)
	getVregSrcForVT<vt>.ret:$vdata_in,			getVregSrcForVT<vt>.ret:$vdata_in,
	(REG_SEQUENCE VReg_64, VGPR_32:$vindex, sub0, VGPR_32:$voffset, sub1),			(REG_SEQUENCE VReg_64, VGPR_32:$vindex, sub0, VGPR_32:$voffset, sub1),
	SReg_128:$rsrc, SCSrc_b32:$soffset, (as_i16timm $offset), $cachepolicy)			SReg_128:$rsrc, SCSrc_b32:$soffset, (as_i16timm $offset), timm:$cachepolicy)
	>;			>;
	}			}

	let SubtargetPredicate = HasAtomicFaddNoRtnInsts in			let SubtargetPredicate = HasAtomicFaddNoRtnInsts in
	defm : BufferAtomicPatterns_NO_RTN<SIbuffer_atomic_fadd, f32, "BUFFER_ATOMIC_ADD_F32">;			defm : SIBufferAtomicPat<"SIbuffer_atomic_fadd", f32, "BUFFER_ATOMIC_ADD_F32", ["noret"]>;

	let SubtargetPredicate = HasAtomicPkFaddNoRtnInsts in			let SubtargetPredicate = HasAtomicPkFaddNoRtnInsts in
	defm : BufferAtomicPatterns_NO_RTN<SIbuffer_atomic_fadd, v2f16, "BUFFER_ATOMIC_PK_ADD_F16">;			defm : SIBufferAtomicPat<"SIbuffer_atomic_fadd", v2f16, "BUFFER_ATOMIC_PK_ADD_F16", ["noret"]>;

	let SubtargetPredicate = HasAtomicFaddRtnInsts in			let SubtargetPredicate = HasAtomicFaddRtnInsts in
	defm : SIBufferAtomicPat<"SIbuffer_atomic_fadd", f32, "BUFFER_ATOMIC_ADD_F32">;			defm : SIBufferAtomicPat<"SIbuffer_atomic_fadd", f32, "BUFFER_ATOMIC_ADD_F32", ["ret"]>;

	let SubtargetPredicate = isGFX90APlus in {			let SubtargetPredicate = isGFX90APlus in {
	defm : BufferAtomicIntrPat<"int_amdgcn_global_atomic_fadd", f64, "BUFFER_ATOMIC_ADD_F64">;			defm : SIBufferAtomicPat<"SIbuffer_atomic_fadd", v2f16, "BUFFER_ATOMIC_PK_ADD_F16", ["ret"]>;
	defm : BufferAtomicIntrPat<"int_amdgcn_global_atomic_fmin", f64, "BUFFER_ATOMIC_MIN_F64">;
	defm : BufferAtomicIntrPat<"int_amdgcn_global_atomic_fmax", f64, "BUFFER_ATOMIC_MAX_F64">;
	defm : SIBufferAtomicPat<"SIbuffer_atomic_fadd", v2f16, "BUFFER_ATOMIC_PK_ADD_F16">;

	defm : SIBufferAtomicPat<"SIbuffer_atomic_fadd", f64, "BUFFER_ATOMIC_ADD_F64">;			defm : SIBufferAtomicPat<"SIbuffer_atomic_fadd", f64, "BUFFER_ATOMIC_ADD_F64">;
	defm : SIBufferAtomicPat<"SIbuffer_atomic_fmin", f64, "BUFFER_ATOMIC_MIN_F64">;			defm : SIBufferAtomicPat<"SIbuffer_atomic_fmin", f64, "BUFFER_ATOMIC_MIN_F64">;
	defm : SIBufferAtomicPat<"SIbuffer_atomic_fmax", f64, "BUFFER_ATOMIC_MAX_F64">;			defm : SIBufferAtomicPat<"SIbuffer_atomic_fmax", f64, "BUFFER_ATOMIC_MAX_F64">;
	} // End SubtargetPredicate = isGFX90APlus			} // End SubtargetPredicate = isGFX90APlus

	foreach RtnMode = ["ret", "noret"] in {			foreach RtnMode = ["ret", "noret"] in {

	▲ Show 20 Lines • Show All 1,395 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/FLATInstructions.td

Show First 20 Lines • Show All 1,002 Lines • ▼ Show 20 Lines
class FlatStoreSignedAtomicPat <FLAT_Pseudo inst, SDPatternOperator node,		class FlatStoreSignedAtomicPat <FLAT_Pseudo inst, SDPatternOperator node,
ValueType vt, ValueType data_vt = vt> : GCNPat <		ValueType vt, ValueType data_vt = vt> : GCNPat <
// atomic store follows atomic binop convention so the address comes		// atomic store follows atomic binop convention so the address comes
// first.		// first.
(node (GlobalOffset i64:$vaddr, i16:$offset), data_vt:$data),		(node (GlobalOffset i64:$vaddr, i16:$offset), data_vt:$data),
(inst $vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)		(inst $vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)
>;		>;

class FlatAtomicPatNoRtn <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <
(node (FlatOffset i64:$vaddr, i16:$offset), vt:$data),
(inst VReg_64:$vaddr, getVregSrcForVT<vt>.ret:$data, $offset)
>;

multiclass FlatAtomicPat <string inst, string node, ValueType vt,		multiclass FlatAtomicPat <string inst, string node, ValueType vt,
ValueType data_vt = vt> {		ValueType data_vt = vt> {
defvar rtnNode = !cast<PatFrags>(node#"_"#vt.Size);		defvar rtnNode = !cast<PatFrags>(node#"_"#vt.Size);
defvar noRtnNode = !cast<PatFrags>(node#"_noret_"#vt.Size);		defvar noRtnNode = !cast<PatFrags>(node#"_noret_"#vt.Size);

def : GCNPat <(vt (rtnNode (FlatOffset i64:$vaddr, i16:$offset), data_vt:$data)),		def : GCNPat <(vt (rtnNode (FlatOffset i64:$vaddr, i16:$offset), data_vt:$data)),
(!cast<FLAT_Pseudo>(inst#"_RTN") VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;		(!cast<FLAT_Pseudo>(inst#"_RTN") VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;

let AddedComplexity = 1 in		let AddedComplexity = 1 in
def : GCNPat <(vt (noRtnNode (FlatOffset i64:$vaddr, i16:$offset), data_vt:$data)),		def : GCNPat <(vt (noRtnNode (FlatOffset i64:$vaddr, i16:$offset), data_vt:$data)),
(!cast<FLAT_Pseudo>(inst) VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;		(!cast<FLAT_Pseudo>(inst) VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;
}		}

		class FlatSignedAtomicPatBase <FLAT_Pseudo inst, SDPatternOperator node,
		ValueType vt, ValueType data_vt = vt> : GCNPat <
		(vt (node (GlobalOffset i64:$vaddr, i16:$offset), data_vt:$data)),
		(inst VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)
		>;

multiclass FlatSignedAtomicPat <string inst, string node, ValueType vt,		multiclass FlatSignedAtomicPat <string inst, string node, ValueType vt,
ValueType data_vt = vt, int complexity = 0,		ValueType data_vt = vt, int complexity = 0,
bit isIntr = 0> {		bit isIntr = 0> {
defvar rtnNode = !cast<SDPatternOperator>(node # !if(isIntr, "", "_" # vt.Size));		defvar rtnNode = !cast<SDPatternOperator>(node # !if(isIntr, "", "_" # vt.Size));
defvar noRtnNode = !cast<PatFrags>(node # "_noret" # !if(isIntr, "", "_" # vt.Size));		defvar noRtnNode = !cast<PatFrags>(node # "_noret" # !if(isIntr, "", "_" # vt.Size));

		abinavppUnsubmitted Not Done Reply Inline Actions Since you're splitting the ret and noret patterns to their own multiclasses, I think you can remove the complexity argument here and from FlatSignedAtomicPatImplRtn and use `let AddedComplexity = ... in` in the defms. abinavpp: Since you're splitting the ret and noret patterns to their own multiclasses, I think you can…
		arsenmUnsubmitted Not Done Reply Inline Actions Complexity argument is weird, should put in a let block around the instances arsenm: Complexity argument is weird, should put in a let block around the instances
let AddedComplexity = complexity in		let AddedComplexity = complexity in
def : GCNPat <(vt (rtnNode (GlobalOffset i64:$vaddr, i16:$offset), data_vt:$data)),		def : FlatSignedAtomicPatBase<!cast<FLAT_Pseudo>(inst#"_RTN"), rtnNode, vt, data_vt>;
(!cast<FLAT_Pseudo>(inst#"_RTN") VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;

let AddedComplexity = !add(complexity, 1) in		let AddedComplexity = !add(complexity, 1) in
def : GCNPat <(vt (noRtnNode (GlobalOffset i64:$vaddr, i16:$offset), data_vt:$data)),		def : FlatSignedAtomicPatBase<!cast<FLAT_Pseudo>(inst), noRtnNode, vt, data_vt>;
(!cast<FLAT_Pseudo>(inst) VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)>;
}		}

multiclass FlatSignedAtomicIntrPat <string inst, string node, ValueType vt,		multiclass FlatSignedAtomicIntrPat <string inst, string node, ValueType vt,
ValueType data_vt = vt> {		ValueType data_vt = vt> {
defm : FlatSignedAtomicPat<inst, node, vt, data_vt, /* complexity / 0, / isIntr */ 1>;		defm : FlatSignedAtomicPat<inst, node, vt, data_vt, /* complexity / 0, / isIntr */ 1>;
}		}

class FlatSignedAtomicPatNoRtn <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <		multiclass FlatSignedAtomicPatWithAddrSpace<string inst, string intr, string addrSpaceSuffix,
(node (GlobalOffset i64:$vaddr, i16:$offset), vt:$data),		ValueType vt, ValueType data_vt = vt> {
(inst VReg_64:$vaddr, getVregSrcForVT<vt>.ret:$data, $offset)		defvar noRtnNode = !cast<PatFrags>(intr # "_noret_" # addrSpaceSuffix);
>;		defvar rtnNode = !cast<PatFrags>(intr # "_" # addrSpaceSuffix);

class FlatSignedAtomicPatRtn <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt,		let AddedComplexity = 1 in
ValueType data_vt = vt> : GCNPat <		def : FlatSignedAtomicPatBase<!cast<FLAT_Pseudo>(inst), noRtnNode, vt, data_vt>;
(vt (node (GlobalOffset i64:$vaddr, i16:$offset), data_vt:$data)),		def : FlatSignedAtomicPatBase<!cast<FLAT_Pseudo>(inst#"_RTN"), rtnNode, vt, data_vt>;
(inst VReg_64:$vaddr, getVregSrcForVT<data_vt>.ret:$data, $offset)		}
>;

class ScratchLoadSignedPat <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <		class ScratchLoadSignedPat <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <
(vt (node (ScratchOffset (i32 VGPR_32:$vaddr), i16:$offset))),		(vt (node (ScratchOffset (i32 VGPR_32:$vaddr), i16:$offset))),
(inst $vaddr, $offset)		(inst $vaddr, $offset)
>;		>;

class ScratchLoadSignedPat_D16 <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <		class ScratchLoadSignedPat_D16 <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <
(node (ScratchOffset (i32 VGPR_32:$vaddr), i16:$offset), vt:$in),		(node (ScratchOffset (i32 VGPR_32:$vaddr), i16:$offset), vt:$in),
▲ Show 20 Lines • Show All 179 Lines • ▼ Show 20 Lines	def : FlatStoreSignedAtomicPat <inst, node, vt> {
let AddedComplexity = 10;		let AddedComplexity = 10;
}		}

def : GlobalAtomicStoreSaddrPat<!cast<FLAT_Pseudo>(!cast<string>(inst)#"_SADDR"), node, vt> {		def : GlobalAtomicStoreSaddrPat<!cast<FLAT_Pseudo>(!cast<string>(inst)#"_SADDR"), node, vt> {
let AddedComplexity = 11;		let AddedComplexity = 11;
}		}
}		}

multiclass GlobalFLATAtomicPatsRtn<string nortn_inst_name, SDPatternOperator node,		multiclass GlobalFLATAtomicPatsNoRtnBase<string inst, string node, ValueType vt,
ValueType vt, ValueType data_vt = vt> {		ValueType data_vt = vt> {
def : FlatSignedAtomicPatRtn <!cast<FLAT_Pseudo>(nortn_inst_name#"_RTN"), node, vt, data_vt> {		let AddedComplexity = 11 in
let AddedComplexity = 10;		def : FlatSignedAtomicPatBase<!cast<FLAT_Pseudo>(inst), !cast<PatFrags>(node), vt, data_vt>;
}

def : GlobalAtomicSaddrPat<!cast<FLAT_Pseudo>(nortn_inst_name#"_SADDR_RTN"), node, vt, data_vt> {		let AddedComplexity = 13 in
let AddedComplexity = 11;		def : GlobalAtomicSaddrPat<!cast<FLAT_Pseudo>(inst#"_SADDR"), !cast<PatFrags>(node), vt, data_vt>;
}
}		}

multiclass GlobalFLATAtomicPats<string inst, string node, ValueType vt,		multiclass GlobalFLATAtomicPatsRtnBase<string inst, string node, ValueType vt,
ValueType data_vt = vt, bit isIntr = 0> {		ValueType data_vt = vt, bit isPatFrags = 0> {
defvar rtnNode = !cast<SDPatternOperator>(node # !if(isIntr, "", "_" # vt.Size));		defvar rtnNode = !if(isPatFrags, !cast<PatFrags>(node), !cast<SDPatternOperator>(node));
defvar noRtnNode = !cast<PatFrags>(node # "_noret" # !if(isIntr, "", "_" # vt.Size));

defm : FlatSignedAtomicPat <inst, node, vt, data_vt, /* complexity */ 10, isIntr>;		let AddedComplexity = 10 in
		def : FlatSignedAtomicPatBase<!cast<FLAT_Pseudo>(inst#"_RTN"), rtnNode, vt, data_vt>;
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions these added complexity numbers are calculated by refactoring. Although I think it would be enough to have AddedComplexity = 1 on nortn patterns since they no longer have a way to get higher complexity then ret pattern (we no longer use complex patterns for no ret checks). Is there some desired precedence for regular vs saddr pattern? Petar.Avramovic: these added complexity numbers are calculated by refactoring. Although I think it would be…
let AddedComplexity = 13 in
def : GlobalAtomicSaddrPat<!cast<FLAT_Pseudo>(inst#"_SADDR"), noRtnNode, vt, data_vt>;

let AddedComplexity = 12 in		let AddedComplexity = 12 in
def : GlobalAtomicSaddrPat<!cast<FLAT_Pseudo>(inst#"_SADDR_RTN"), rtnNode, vt, data_vt>;		def : GlobalAtomicSaddrPat<!cast<FLAT_Pseudo>(inst#"_SADDR_RTN"), rtnNode, vt, data_vt>;
}		}

		multiclass GlobalFLATAtomicPatsNoRtn<string inst, string node, ValueType vt,
		ValueType data_vt = vt, bit isIntr = 0> :
		GlobalFLATAtomicPatsNoRtnBase<inst, node # "_noret" # !if(isIntr, "", "_" # vt.Size), vt, data_vt>;

		multiclass GlobalFLATAtomicPatsRtn<string inst, string node, ValueType vt,
		ValueType data_vt = vt, bit isIntr = 0> :
		GlobalFLATAtomicPatsRtnBase<inst, node # !if(isIntr, "", "_" # vt.Size), vt, data_vt>;

		multiclass GlobalFLATAtomicPats<string inst, string node, ValueType vt,
		ValueType data_vt = vt, bit isIntr = 0> :
		GlobalFLATAtomicPatsNoRtn<inst, node, vt, data_vt, isIntr>,
		GlobalFLATAtomicPatsRtn<inst, node, vt, data_vt, isIntr>;

		multiclass GlobalFLATAtomicPatsNoRtnWithAddrSpace<string inst, string intr, string addrSpaceSuffix,
		ValueType vt, ValueType data_vt = vt> :
		GlobalFLATAtomicPatsNoRtnBase<inst, intr # "_noret_" # addrSpaceSuffix, vt, data_vt>;

		multiclass GlobalFLATAtomicPatsRtnWithAddrSpace<string inst, string intr, string addrSpaceSuffix,
		ValueType vt, ValueType data_vt = vt> :
		GlobalFLATAtomicPatsRtnBase<inst, intr # "_" # addrSpaceSuffix, vt, data_vt, /isPatFrags/ 1>;

		multiclass GlobalFLATAtomicPatsWithAddrSpace<string inst, string intr, string addrSpaceSuffix,
		ValueType vt, ValueType data_vt = vt> :
		GlobalFLATAtomicPatsNoRtnWithAddrSpace<inst, intr, addrSpaceSuffix, vt, data_vt>,
		GlobalFLATAtomicPatsRtnWithAddrSpace<inst, intr, addrSpaceSuffix, vt, data_vt>;

multiclass GlobalFLATAtomicIntrPats<string inst, string node, ValueType vt,		multiclass GlobalFLATAtomicIntrPats<string inst, string node, ValueType vt,
ValueType data_vt = vt> {		ValueType data_vt = vt> {
defm : GlobalFLATAtomicPats<inst, node, vt, data_vt, /* isIntr */ 1>;		defm : GlobalFLATAtomicPats<inst, node, vt, data_vt, /* isIntr */ 1>;
}		}

multiclass GlobalFLATNoRtnAtomicPats<FLAT_Pseudo inst, SDPatternOperator node,
ValueType vt> {
def : FlatSignedAtomicPatNoRtn <inst, node, vt> {
let AddedComplexity = 10;
}

def : GlobalAtomicNoRtnSaddrPat<!cast<FLAT_Pseudo>(!cast<string>(inst)#"_SADDR"), node, vt> {
let AddedComplexity = 11;
}
}

multiclass ScratchFLATLoadPats<FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> {		multiclass ScratchFLATLoadPats<FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> {
def : ScratchLoadSignedPat <inst, node, vt> {		def : ScratchLoadSignedPat <inst, node, vt> {
let AddedComplexity = 25;		let AddedComplexity = 25;
}		}

def : ScratchLoadSaddrPat<!cast<FLAT_Pseudo>(!cast<string>(inst)#"_SADDR"), node, vt> {		def : ScratchLoadSaddrPat<!cast<FLAT_Pseudo>(!cast<string>(inst)#"_SADDR"), node, vt> {
let AddedComplexity = 26;		let AddedComplexity = 26;
}		}
▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMAX", "atomic_load_max_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMAX", "atomic_load_max_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMAX", "atomic_load_umax_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMAX", "atomic_load_umax_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMIN", "atomic_load_min_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMIN", "atomic_load_min_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMIN", "atomic_load_umin_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMIN", "atomic_load_umin_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_OR", "atomic_load_or_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_OR", "atomic_load_or_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SWAP", "atomic_swap_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SWAP", "atomic_swap_global", i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_CMPSWAP", "AMDGPUatomic_cmp_swap_global", i32, v2i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_CMPSWAP", "AMDGPUatomic_cmp_swap_global", i32, v2i32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_XOR", "atomic_load_xor_global", i32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_XOR", "atomic_load_xor_global", i32>;
defm : GlobalFLATAtomicPatsRtn <"GLOBAL_ATOMIC_CSUB", int_amdgcn_global_atomic_csub, i32>;		defm : GlobalFLATAtomicPatsRtn <"GLOBAL_ATOMIC_CSUB", "int_amdgcn_global_atomic_csub", i32, i32, /* isIntr */ 1>;
		arsenmUnsubmitted Not Done Reply Inline Actions Can drop the Intr from the multiclass name for consistency arsenm: Can drop the Intr from the multiclass name for consistency

defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_ADD_X2", "atomic_load_add_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_ADD_X2", "atomic_load_add_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SUB_X2", "atomic_load_sub_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SUB_X2", "atomic_load_sub_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_INC_X2", "atomic_inc_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_INC_X2", "atomic_inc_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_DEC_X2", "atomic_dec_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_DEC_X2", "atomic_dec_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_AND_X2", "atomic_load_and_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_AND_X2", "atomic_load_and_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMAX_X2", "atomic_load_max_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_SMAX_X2", "atomic_load_max_global", i64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMAX_X2", "atomic_load_umax_global", i64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_UMAX_X2", "atomic_load_umax_global", i64>;
Show All 9 Lines
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMAX", "atomic_load_fmax_global", f32>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMAX", "atomic_load_fmax_global", f32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMIN_X2", "atomic_load_fmin_global", f64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMIN_X2", "atomic_load_fmin_global", f64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMAX_X2", "atomic_load_fmax_global", f64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_FMAX_X2", "atomic_load_fmax_global", f64>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMIN", "int_amdgcn_global_atomic_fmin", f32>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMIN", "int_amdgcn_global_atomic_fmin", f32>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMAX", "int_amdgcn_global_atomic_fmax", f32>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMAX", "int_amdgcn_global_atomic_fmax", f32>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMIN_X2", "int_amdgcn_global_atomic_fmin", f64>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMIN_X2", "int_amdgcn_global_atomic_fmin", f64>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMAX_X2", "int_amdgcn_global_atomic_fmax", f64>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_FMAX_X2", "int_amdgcn_global_atomic_fmax", f64>;
}		}

let OtherPredicates = [HasAtomicFaddNoRtnInsts] in		let OtherPredicates = [HasAtomicFaddNoRtnInsts] in {
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions Predicates are edited to match predicates for atomicrmw fadd (_NO_RTN) see llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.ll global_atomic_fadd_f32_wrong_subtarget I left v2f16_rtn, f64_no_rtn, f64_rtn patterns in isGFX90APlus, should each of them get feature for itself? Here is the list of predicates and atomic global fadd instructions they have HasAtomicFaddRtnInsts: f32_rtn HasAtomicFaddNoRtnInsts: f32_no_rtn HasAtomicPkFaddNoRtnInsts: v2f16_no_rtn isGFX90APlus: v2f16_rtn, f64_no_rtn, f64_rtn GFX90A has all of the above Petar.Avramovic: Predicates are edited to match predicates for atomicrmw fadd (_NO_RTN) see…
defm : GlobalFLATNoRtnAtomicPats <GLOBAL_ATOMIC_ADD_F32, atomic_load_fadd_global_noret_32, f32>;		defm : GlobalFLATAtomicPatsNoRtn <"GLOBAL_ATOMIC_ADD_F32", "atomic_load_fadd_global", f32>;
let OtherPredicates = [HasAtomicPkFaddNoRtnInsts] in		defm : GlobalFLATAtomicPatsNoRtnWithAddrSpace <"GLOBAL_ATOMIC_ADD_F32", "int_amdgcn_flat_atomic_fadd", "global_addrspace", f32>;
defm : GlobalFLATNoRtnAtomicPats <GLOBAL_ATOMIC_PK_ADD_F16, atomic_load_fadd_v2f16_global_noret_32, v2f16>;		defm : GlobalFLATAtomicPatsNoRtnWithAddrSpace <"GLOBAL_ATOMIC_ADD_F32", "int_amdgcn_global_atomic_fadd", "global_addrspace", f32>;
		}

		let OtherPredicates = [HasAtomicPkFaddNoRtnInsts] in {
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions Strange name: atomic_load_fadd_v2f16_global_noret_32. Petar.Avramovic: Strange name: atomic_load_fadd_v2f16_global_noret_32.
		defm : GlobalFLATAtomicPatsNoRtnWithAddrSpace <"GLOBAL_ATOMIC_PK_ADD_F16", "int_amdgcn_flat_atomic_fadd", "global_addrspace", v2f16>;
		defm : GlobalFLATAtomicPatsNoRtnWithAddrSpace <"GLOBAL_ATOMIC_PK_ADD_F16", "int_amdgcn_global_atomic_fadd", "global_addrspace", v2f16>;
		}

		let OtherPredicates = [HasAtomicFaddRtnInsts] in {
		defm : GlobalFLATAtomicPatsRtn <"GLOBAL_ATOMIC_ADD_F32", "atomic_load_fadd_global", f32>;
		defm : GlobalFLATAtomicPatsRtnWithAddrSpace <"GLOBAL_ATOMIC_ADD_F32", "int_amdgcn_flat_atomic_fadd", "global_addrspace", f32>;
		defm : GlobalFLATAtomicPatsRtnWithAddrSpace <"GLOBAL_ATOMIC_ADD_F32", "int_amdgcn_global_atomic_fadd", "global_addrspace", f32>;
		}

let OtherPredicates = [isGFX90APlus] in {		let OtherPredicates = [isGFX90APlus] in {
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_ADD_F32", "atomic_load_fadd_global", f32>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_PK_ADD_F16", "atomic_load_fadd_v2f16_global", v2f16>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_ADD_F64", "atomic_load_fadd_global", f64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_ADD_F64", "atomic_load_fadd_global", f64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_MIN_F64", "atomic_load_fmin_global", f64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_MIN_F64", "atomic_load_fmin_global", f64>;
defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_MAX_F64", "atomic_load_fmax_global", f64>;		defm : GlobalFLATAtomicPats <"GLOBAL_ATOMIC_MAX_F64", "atomic_load_fmax_global", f64>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_ADD_F32", "int_amdgcn_global_atomic_fadd", f32>;		defm : GlobalFLATAtomicPatsWithAddrSpace<"GLOBAL_ATOMIC_ADD_F64", "int_amdgcn_flat_atomic_fadd", "global_addrspace", f64>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_ADD_F64", "int_amdgcn_global_atomic_fadd", f64>;		defm : GlobalFLATAtomicPatsWithAddrSpace<"GLOBAL_ATOMIC_ADD_F64", "int_amdgcn_global_atomic_fadd", "global_addrspace", f64>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_PK_ADD_F16", "int_amdgcn_global_atomic_fadd", v2f16>;		defm : GlobalFLATAtomicPatsRtnWithAddrSpace <"GLOBAL_ATOMIC_PK_ADD_F16", "int_amdgcn_flat_atomic_fadd", "global_addrspace", v2f16>;
		defm : GlobalFLATAtomicPatsRtnWithAddrSpace <"GLOBAL_ATOMIC_PK_ADD_F16", "int_amdgcn_global_atomic_fadd", "global_addrspace", v2f16>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_MIN_F64", "int_amdgcn_global_atomic_fmin", f64>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_MIN_F64", "int_amdgcn_global_atomic_fmin", f64>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_MAX_F64", "int_amdgcn_global_atomic_fmax", f64>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_MAX_F64", "int_amdgcn_global_atomic_fmax", f64>;
defm : FlatSignedAtomicPat <"FLAT_ATOMIC_ADD_F64", "atomic_load_fadd_flat", f64>;		defm : FlatSignedAtomicPat <"FLAT_ATOMIC_ADD_F64", "atomic_load_fadd_flat", f64>;
defm : FlatSignedAtomicPat <"FLAT_ATOMIC_MIN_F64", "atomic_load_fmin_flat", f64>;		defm : FlatSignedAtomicPat <"FLAT_ATOMIC_MIN_F64", "atomic_load_fmin_flat", f64>;
defm : FlatSignedAtomicPat <"FLAT_ATOMIC_MAX_F64", "atomic_load_fmax_flat", f64>;		defm : FlatSignedAtomicPat <"FLAT_ATOMIC_MAX_F64", "atomic_load_fmax_flat", f64>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_ADD_F64", "int_amdgcn_flat_atomic_fadd", f64>;		defm : FlatSignedAtomicPatWithAddrSpace <"FLAT_ATOMIC_ADD_F64", "int_amdgcn_flat_atomic_fadd", "flat_addrspace", f64>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_MIN_F64", "int_amdgcn_flat_atomic_fmin", f64>;		defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_MIN_F64", "int_amdgcn_flat_atomic_fmin", f64>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_MAX_F64", "int_amdgcn_flat_atomic_fmax", f64>;		defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_MAX_F64", "int_amdgcn_flat_atomic_fmax", f64>;
}		}

let OtherPredicates = [HasFlatAtomicFaddF32Inst] in {		let OtherPredicates = [HasFlatAtomicFaddF32Inst] in {
defm : FlatSignedAtomicPat <"FLAT_ATOMIC_ADD_F32", "atomic_load_fadd_flat", f32>;		defm : FlatSignedAtomicPat <"FLAT_ATOMIC_ADD_F32", "atomic_load_fadd_flat", f32>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_ADD_F32", "int_amdgcn_flat_atomic_fadd", f32>;		defm : FlatSignedAtomicPatWithAddrSpace <"FLAT_ATOMIC_ADD_F32", "int_amdgcn_flat_atomic_fadd", "flat_addrspace", f32>;
}		}

let OtherPredicates = [isGFX940Plus] in {		let OtherPredicates = [isGFX940Plus] in {
defm : FlatSignedAtomicPat <"FLAT_ATOMIC_PK_ADD_F16", "atomic_load_fadd_v2f16_flat", v2f16>;		defm : FlatSignedAtomicPatWithAddrSpace <"FLAT_ATOMIC_PK_ADD_F16", "int_amdgcn_flat_atomic_fadd", "flat_addrspace", v2f16>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_PK_ADD_F16", "int_amdgcn_flat_atomic_fadd", v2f16>;
defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_PK_ADD_BF16", "int_amdgcn_flat_atomic_fadd_v2bf16", v2i16>;		defm : FlatSignedAtomicIntrPat <"FLAT_ATOMIC_PK_ADD_BF16", "int_amdgcn_flat_atomic_fadd_v2bf16", v2i16>;
defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_PK_ADD_BF16", "int_amdgcn_global_atomic_fadd_v2bf16", v2i16>;		defm : GlobalFLATAtomicIntrPats <"GLOBAL_ATOMIC_PK_ADD_BF16", "int_amdgcn_global_atomic_fadd_v2bf16", v2i16>;
}		}

} // End OtherPredicates = [HasFlatGlobalInsts], AddedComplexity = 10		} // End OtherPredicates = [HasFlatGlobalInsts], AddedComplexity = 10

let OtherPredicates = [HasFlatScratchInsts, EnableFlatScratch] in {		let OtherPredicates = [HasFlatScratchInsts, EnableFlatScratch] in {

▲ Show 20 Lines • Show All 846 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,524 Lines • ▼ Show 20 Lines	case Intrinsic::amdgcn_buffer_atomic_and:
break;		break;
case Intrinsic::amdgcn_buffer_atomic_or:		case Intrinsic::amdgcn_buffer_atomic_or:
Opcode = AMDGPUISD::BUFFER_ATOMIC_OR;		Opcode = AMDGPUISD::BUFFER_ATOMIC_OR;
break;		break;
case Intrinsic::amdgcn_buffer_atomic_xor:		case Intrinsic::amdgcn_buffer_atomic_xor:
Opcode = AMDGPUISD::BUFFER_ATOMIC_XOR;		Opcode = AMDGPUISD::BUFFER_ATOMIC_XOR;
break;		break;
case Intrinsic::amdgcn_buffer_atomic_fadd:		case Intrinsic::amdgcn_buffer_atomic_fadd:
if (!Op.getValue(0).use_empty() && !hasAtomicFaddRtnForTy(Op)) {
DiagnosticInfoUnsupported
NoFpRet(DAG.getMachineFunction().getFunction(),
"return versions of fp atomics not supported",
DL.getDebugLoc(), DS_Error);
DAG.getContext()->diagnose(NoFpRet);
return SDValue();
}
Opcode = AMDGPUISD::BUFFER_ATOMIC_FADD;		Opcode = AMDGPUISD::BUFFER_ATOMIC_FADD;
break;		break;
default:		default:
llvm_unreachable("unhandled atomic opcode");		llvm_unreachable("unhandled atomic opcode");
}		}

return DAG.getMemIntrinsicNode(Opcode, DL, Op->getVTList(), Ops, VT,		return DAG.getMemIntrinsicNode(Opcode, DL, Op->getVTList(), Ops, VT,
M->getMemOperand());		M->getMemOperand());
▲ Show 20 Lines • Show All 254 Lines • ▼ Show 20 Lines	if (IsA16)
Ops.push_back(DAG.getTargetConstant(1, DL, MVT::i1));		Ops.push_back(DAG.getTargetConstant(1, DL, MVT::i1));
Ops.push_back(M->getChain());		Ops.push_back(M->getChain());

auto *NewNode = DAG.getMachineNode(Opcode, DL, M->getVTList(), Ops);		auto *NewNode = DAG.getMachineNode(Opcode, DL, M->getVTList(), Ops);
MachineMemOperand *MemRef = M->getMemOperand();		MachineMemOperand *MemRef = M->getMemOperand();
DAG.setNodeMemRefs(NewNode, {MemRef});		DAG.setNodeMemRefs(NewNode, {MemRef});
return SDValue(NewNode, 0);		return SDValue(NewNode, 0);
}		}
case Intrinsic::amdgcn_global_atomic_fadd:		case Intrinsic::amdgcn_global_atomic_fadd: {
if (!Op.getValue(0).use_empty() && !Subtarget->hasGFX90AInsts()) {		if (!Subtarget->hasAtomicFaddNoRtnInsts())
DiagnosticInfoUnsupported		return makeV_ILLEGAL(Op, DAG);
NoFpRet(DAG.getMachineFunction().getFunction(),
"return versions of fp atomics not supported",
DL.getDebugLoc(), DS_Error);
DAG.getContext()->diagnose(NoFpRet);
return SDValue();		return SDValue();
}		}
[[fallthrough]];
case Intrinsic::amdgcn_global_atomic_fmin:		case Intrinsic::amdgcn_global_atomic_fmin:
case Intrinsic::amdgcn_global_atomic_fmax:		case Intrinsic::amdgcn_global_atomic_fmax:
case Intrinsic::amdgcn_flat_atomic_fadd:
case Intrinsic::amdgcn_flat_atomic_fmin:		case Intrinsic::amdgcn_flat_atomic_fmin:
case Intrinsic::amdgcn_flat_atomic_fmax: {		case Intrinsic::amdgcn_flat_atomic_fmax: {
MemSDNode *M = cast<MemSDNode>(Op);		MemSDNode *M = cast<MemSDNode>(Op);
SDValue Ops[] = {		SDValue Ops[] = {
M->getOperand(0), // Chain		M->getOperand(0), // Chain
M->getOperand(2), // Ptr		M->getOperand(2), // Ptr
M->getOperand(3) // Value		M->getOperand(3) // Value
};		};
unsigned Opcode = 0;		unsigned Opcode = 0;
switch (IntrID) {		switch (IntrID) {
case Intrinsic::amdgcn_global_atomic_fadd:
if (!Subtarget->hasAtomicFaddNoRtnInsts())
return makeV_ILLEGAL(Op, DAG);
[[fallthrough]];
case Intrinsic::amdgcn_flat_atomic_fadd: {
EVT VT = Op.getOperand(3).getValueType();
return DAG.getAtomic(ISD::ATOMIC_LOAD_FADD, DL, VT,
DAG.getVTList(VT, MVT::Other), Ops,
M->getMemOperand());
}
case Intrinsic::amdgcn_global_atomic_fmin:		case Intrinsic::amdgcn_global_atomic_fmin:
case Intrinsic::amdgcn_flat_atomic_fmin: {		case Intrinsic::amdgcn_flat_atomic_fmin: {
Opcode = AMDGPUISD::ATOMIC_LOAD_FMIN;		Opcode = AMDGPUISD::ATOMIC_LOAD_FMIN;
break;		break;
}		}
case Intrinsic::amdgcn_global_atomic_fmax:		case Intrinsic::amdgcn_global_atomic_fmax:
case Intrinsic::amdgcn_flat_atomic_fmax: {		case Intrinsic::amdgcn_flat_atomic_fmax: {
Opcode = AMDGPUISD::ATOMIC_LOAD_FMAX;		Opcode = AMDGPUISD::ATOMIC_LOAD_FMAX;
▲ Show 20 Lines • Show All 4,927 Lines • ▼ Show 20 Lines	case AtomicRMWInst::FAdd: {
// as-is.		// as-is.
if (Ty->isHalfTy())		if (Ty->isHalfTy())
return AtomicExpansionKind::None;		return AtomicExpansionKind::None;

if (!Ty->isFloatTy() && (!Subtarget->hasGFX90AInsts() \|\| !Ty->isDoubleTy()))		if (!Ty->isFloatTy() && (!Subtarget->hasGFX90AInsts() \|\| !Ty->isDoubleTy()))
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;

if ((AS == AMDGPUAS::GLOBAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS) &&		if ((AS == AMDGPUAS::GLOBAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS) &&
Subtarget->hasAtomicFaddNoRtnInsts()) {		Subtarget->hasAtomicFaddNoRtnInsts()) {
// The amdgpu-unsafe-fp-atomics attribute enables generation of unsafe		// The amdgpu-unsafe-fp-atomics attribute enables generation of unsafe
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions I wanted to avoid lowering for gfx11, I am not sure if this is the correct place. Petar.Avramovic: I wanted to avoid lowering for gfx11, I am not sure if this is the correct place.
		arsenmUnsubmitted Not Done Reply Inline Actions Should be based on a subtarget feature check, or at least the getGeneration() query on the subtarget. This also wouldn't belong in a change that's just supposed to stop using manual selection arsenm: Should be based on a subtarget feature check, or at least the getGeneration() query on the…
// floating point atomic instructions. May generate more efficient code,		// floating point atomic instructions. May generate more efficient code,
// but may not respect rounding and denormal modes, and may give incorrect		// but may not respect rounding and denormal modes, and may give incorrect
// results for certain memory destinations.		// results for certain memory destinations.
if (RMW->getFunction()		if (RMW->getFunction()
->getFnAttribute("amdgpu-unsafe-fp-atomics")		->getFnAttribute("amdgpu-unsafe-fp-atomics")
.getValueAsString() != "true")		.getValueAsString() != "true")
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;

▲ Show 20 Lines • Show All 224 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/global-atomic-fadd.f32-no-rtn.ll

	; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx908 -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=GFX908_GFX90A %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx908 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX908_GFX11 %s
	; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=GFX908_GFX90A %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX940 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX11 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX908_GFX11 %s

	; GFX908_GFX90A: LLVM ERROR: cannot select: %{{[0-9]+}}:vgpr(s32) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.flat.atomic.fadd)

	define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {			define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {
	; GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic			; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX908_GFX11: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX908_GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX940-NEXT: {{ $}}			; GFX908_GFX11-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: S_ENDPGM 0			; GFX908_GFX11-NEXT: S_ENDPGM 0
	; GFX11-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_intrinsic
	; GFX11: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX11-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX11-NEXT: S_ENDPGM 0			; GFX90A_GFX940-NEXT: S_ENDPGM 0
	%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)			%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_intrinsic(float addrspace(1)* inreg %ptr, float %data) {			define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_intrinsic(float addrspace(1)* inreg %ptr, float %data) {
	; GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_intrinsic			; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX908_GFX11: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX908_GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX940-NEXT: {{ $}}			; GFX908_GFX11-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec			; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: S_ENDPGM 0			; GFX908_GFX11-NEXT: S_ENDPGM 0
	; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_intrinsic
	; GFX11: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX11-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]			; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[COPY3]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX11-NEXT: S_ENDPGM 0			; GFX90A_GFX940-NEXT: S_ENDPGM 0
	%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)			%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_flat_intrinsic(float addrspace(1)* %ptr, float %data) {			define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_flat_intrinsic(float addrspace(1)* %ptr, float %data) {
	; GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_flat_intrinsic			; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_no_rtn_flat_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX908_GFX11: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX908_GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX940-NEXT: {{ $}}			; GFX908_GFX11-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX940-NEXT: FLAT_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: S_ENDPGM 0			; GFX908_GFX11-NEXT: S_ENDPGM 0
	; GFX11-LABEL: name: global_atomic_fadd_f32_no_rtn_flat_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_flat_intrinsic
	; GFX11: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX11-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX11-NEXT: FLAT_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX11-NEXT: S_ENDPGM 0			; GFX90A_GFX940-NEXT: S_ENDPGM 0
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic(float addrspace(1)* inreg %ptr, float %data) {			define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic(float addrspace(1)* inreg %ptr, float %data) {
	; GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic			; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX908_GFX11: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX908_GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX940-NEXT: {{ $}}			; GFX908_GFX11-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]			; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX940-NEXT: FLAT_ATOMIC_ADD_F32 [[COPY3]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: S_ENDPGM 0			; GFX908_GFX11-NEXT: S_ENDPGM 0
	; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_flat_intrinsic
	; GFX11: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX11-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]			; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX11-NEXT: FLAT_ATOMIC_ADD_F32 [[COPY3]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX11-NEXT: S_ENDPGM 0			; GFX90A_GFX940-NEXT: S_ENDPGM 0
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_atomicrmw(float addrspace(1)* %ptr, float %data) #0 {			define amdgpu_ps void @global_atomic_fadd_f32_no_rtn_atomicrmw(float addrspace(1)* %ptr, float %data) #0 {
	; GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_atomicrmw			; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_no_rtn_atomicrmw
	; GFX940: bb.1 (%ir-block.0):			; GFX908_GFX11: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX908_GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX940-NEXT: {{ $}}			; GFX908_GFX11-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)			; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: S_ENDPGM 0			; GFX908_GFX11-NEXT: S_ENDPGM 0
	; GFX11-LABEL: name: global_atomic_fadd_f32_no_rtn_atomicrmw			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_no_rtn_atomicrmw
	; GFX11: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX11-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
	; GFX11-NEXT: S_ENDPGM 0			; GFX90A_GFX940-NEXT: S_ENDPGM 0
	%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic			%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_atomicrmw(float addrspace(1)* inreg %ptr, float %data) #0 {			define amdgpu_ps void @global_atomic_fadd_f32_saddr_no_rtn_atomicrmw(float addrspace(1)* inreg %ptr, float %data) #0 {
	; GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_atomicrmw			; GFX908_GFX11-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_atomicrmw
	; GFX940: bb.1 (%ir-block.0):			; GFX908_GFX11: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX908_GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX940-NEXT: {{ $}}			; GFX908_GFX11-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX908_GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX908_GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX908_GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX908_GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec			; GFX908_GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)			; GFX908_GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: S_ENDPGM 0			; GFX908_GFX11-NEXT: S_ENDPGM 0
	; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_atomicrmw			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_no_rtn_atomicrmw
	; GFX11: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX11-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]			; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX11-NEXT: GLOBAL_ATOMIC_ADD_F32 [[COPY3]], [[COPY2]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F32_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
	; GFX11-NEXT: S_ENDPGM 0			; GFX90A_GFX940-NEXT: S_ENDPGM 0
	%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic			%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic
	ret void			ret void
	}			}

	declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)			declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)
	declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)			declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)

	attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }			attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }

llvm/test/CodeGen/AMDGPU/GlobalISel/global-atomic-fadd.f32-rtn.ll

	; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=GFX90A %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX940 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
	; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=GFX11 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX11 %s

	; GFX90A: LLVM ERROR: cannot select: %{{[0-9]+}}:vgpr_32(s32) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.flat.atomic.fadd)
	; GFX11: error: {{.*}} return versions of fp atomics not supported

	define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {			define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {
	; GFX940-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
	; GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic
				; GFX11: bb.1 (%ir-block.0):
				; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)			%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_intrinsic(float addrspace(1)* inreg %ptr, float %data) {			define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_intrinsic(float addrspace(1)* inreg %ptr, float %data) {
	; GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec			; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
	; GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_intrinsic
				; GFX11: bb.1 (%ir-block.0):
				; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)			%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps float @global_atomic_fadd_f32_rtn_flat_intrinsic(float addrspace(1)* %ptr, float %data) {			define amdgpu_ps float @global_atomic_fadd_f32_rtn_flat_intrinsic(float addrspace(1)* %ptr, float %data) {
	; GFX940-LABEL: name: global_atomic_fadd_f32_rtn_flat_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_flat_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX940-NEXT: [[FLAT_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_ADD_F32_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
	; GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_flat_intrinsic
				; GFX11: bb.1 (%ir-block.0):
				; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_flat_intrinsic(float addrspace(1)* inreg %ptr, float %data) {			define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_flat_intrinsic(float addrspace(1)* inreg %ptr, float %data) {
	; GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_flat_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_flat_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]			; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX940-NEXT: [[FLAT_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_ADD_F32_RTN [[COPY3]], [[COPY2]], 0, 1, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_ADD_F32_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
	; GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_flat_intrinsic
				; GFX11: bb.1 (%ir-block.0):
				; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps float @global_atomic_fadd_f32_rtn_atomicrmw(float addrspace(1)* %ptr, float %data) #0 {			define amdgpu_ps float @global_atomic_fadd_f32_rtn_atomicrmw(float addrspace(1)* %ptr, float %data) #0 {
	; GFX940-LABEL: name: global_atomic_fadd_f32_rtn_atomicrmw			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_atomicrmw
	; GFX940: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
	; GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_atomicrmw
				; GFX11: bb.1 (%ir-block.0):
				; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic			%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_atomicrmw(float addrspace(1)* inreg %ptr, float %data) #0 {			define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_atomicrmw(float addrspace(1)* inreg %ptr, float %data) #0 {
	; GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw
	; GFX940: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec			; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
	; GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw
				; GFX11: bb.1 (%ir-block.0):
				; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic			%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic
	ret float %ret			ret float %ret
	}			}

	declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)			declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)
	declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)			declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)

	attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }			attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }

llvm/test/CodeGen/AMDGPU/GlobalISel/global-atomic-fadd.f64.ll

Show First 20 Lines • Show All 89 Lines • ▼ Show 20 Lines	define amdgpu_ps void @global_atomic_fadd_f64_no_rtn_flat_intrinsic(double addrspace(1)* %ptr, double %data) {
; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3		; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr3		; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr3
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY3]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY3]], %subreg.sub1
; GFX90A_GFX940-NEXT: FLAT_ATOMIC_ADD_F64 [[REG_SEQUENCE]], [[REG_SEQUENCE1]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s64) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F64 [[REG_SEQUENCE]], [[REG_SEQUENCE1]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s64) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: S_ENDPGM 0		; GFX90A_GFX940-NEXT: S_ENDPGM 0
%ret = call double @llvm.amdgcn.flat.atomic.fadd.f64.p1f64.f64(double addrspace(1)* %ptr, double %data)		%ret = call double @llvm.amdgcn.flat.atomic.fadd.f64.p1f64.f64(double addrspace(1)* %ptr, double %data)
ret void		ret void
}		}

define amdgpu_ps double @global_atomic_fadd_f64_rtn_flat_intrinsic(double addrspace(1)* %ptr, double %data) {		define amdgpu_ps double @global_atomic_fadd_f64_rtn_flat_intrinsic(double addrspace(1)* %ptr, double %data) {
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f64_rtn_flat_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f64_rtn_flat_intrinsic
; GFX90A_GFX940: bb.1 (%ir-block.0):		; GFX90A_GFX940: bb.1 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3		; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr3		; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr3
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY3]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY3]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[FLAT_ATOMIC_ADD_F64_RTN:%[0-9]+]]:vreg_64_align2 = FLAT_ATOMIC_ADD_F64_RTN [[REG_SEQUENCE]], [[REG_SEQUENCE1]], 0, 1, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s64) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F64_RTN:%[0-9]+]]:vreg_64_align2 = GLOBAL_ATOMIC_ADD_F64_RTN [[REG_SEQUENCE]], [[REG_SEQUENCE1]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s64) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[FLAT_ATOMIC_ADD_F64_RTN]].sub0		; GFX90A_GFX940-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[GLOBAL_ATOMIC_ADD_F64_RTN]].sub0
; GFX90A_GFX940-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[FLAT_ATOMIC_ADD_F64_RTN]].sub1		; GFX90A_GFX940-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[GLOBAL_ATOMIC_ADD_F64_RTN]].sub1
; GFX90A_GFX940-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32 = V_READFIRSTLANE_B32 [[COPY4]], implicit $exec		; GFX90A_GFX940-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32 = V_READFIRSTLANE_B32 [[COPY4]], implicit $exec
; GFX90A_GFX940-NEXT: $sgpr0 = COPY [[V_READFIRSTLANE_B32_]]		; GFX90A_GFX940-NEXT: $sgpr0 = COPY [[V_READFIRSTLANE_B32_]]
; GFX90A_GFX940-NEXT: [[V_READFIRSTLANE_B32_1:%[0-9]+]]:sreg_32 = V_READFIRSTLANE_B32 [[COPY5]], implicit $exec		; GFX90A_GFX940-NEXT: [[V_READFIRSTLANE_B32_1:%[0-9]+]]:sreg_32 = V_READFIRSTLANE_B32 [[COPY5]], implicit $exec
; GFX90A_GFX940-NEXT: $sgpr1 = COPY [[V_READFIRSTLANE_B32_1]]		; GFX90A_GFX940-NEXT: $sgpr1 = COPY [[V_READFIRSTLANE_B32_1]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $sgpr0, implicit $sgpr1		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $sgpr0, implicit $sgpr1
%ret = call double @llvm.amdgcn.flat.atomic.fadd.f64.p1f64.f64(double addrspace(1)* %ptr, double %data)		%ret = call double @llvm.amdgcn.flat.atomic.fadd.f64.p1f64.f64(double addrspace(1)* %ptr, double %data)
ret double %ret		ret double %ret
}		}

define amdgpu_ps void @global_atomic_fadd_f64_saddr_no_rtn_flat_intrinsic(double addrspace(1)* inreg %ptr, double %data) {		define amdgpu_ps void @global_atomic_fadd_f64_saddr_no_rtn_flat_intrinsic(double addrspace(1)* inreg %ptr, double %data) {
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f64_saddr_no_rtn_flat_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f64_saddr_no_rtn_flat_intrinsic
; GFX90A_GFX940: bb.1 (%ir-block.0):		; GFX90A_GFX940: bb.1 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1		; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY3]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY3]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY4:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]		; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX90A_GFX940-NEXT: FLAT_ATOMIC_ADD_F64 [[COPY4]], [[REG_SEQUENCE1]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s64) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_ADD_F64_SADDR [[V_MOV_B32_e32_]], [[REG_SEQUENCE1]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (s64) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: S_ENDPGM 0		; GFX90A_GFX940-NEXT: S_ENDPGM 0
%ret = call double @llvm.amdgcn.flat.atomic.fadd.f64.p1f64.f64(double addrspace(1)* %ptr, double %data)		%ret = call double @llvm.amdgcn.flat.atomic.fadd.f64.p1f64.f64(double addrspace(1)* %ptr, double %data)
ret void		ret void
}		}

define amdgpu_ps double @global_atomic_fadd_f64_saddr_rtn_flat_intrinsic(double addrspace(1)* inreg %ptr, double %data) {		define amdgpu_ps double @global_atomic_fadd_f64_saddr_rtn_flat_intrinsic(double addrspace(1)* inreg %ptr, double %data) {
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f64_saddr_rtn_flat_intrinsic		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f64_saddr_rtn_flat_intrinsic
; GFX90A_GFX940: bb.1 (%ir-block.0):		; GFX90A_GFX940: bb.1 (%ir-block.0):
; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1		; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1
; GFX90A_GFX940-NEXT: {{ $}}		; GFX90A_GFX940-NEXT: {{ $}}
; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0		; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1		; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr1		; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr1
; GFX90A_GFX940-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY3]], %subreg.sub1		; GFX90A_GFX940-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY3]], %subreg.sub1
; GFX90A_GFX940-NEXT: [[COPY4:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]		; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
; GFX90A_GFX940-NEXT: [[FLAT_ATOMIC_ADD_F64_RTN:%[0-9]+]]:vreg_64_align2 = FLAT_ATOMIC_ADD_F64_RTN [[COPY4]], [[REG_SEQUENCE1]], 0, 1, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s64) on %ir.ptr, addrspace 1)		; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F64_SADDR_RTN:%[0-9]+]]:vreg_64_align2 = GLOBAL_ATOMIC_ADD_F64_SADDR_RTN [[V_MOV_B32_e32_]], [[REG_SEQUENCE1]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s64) on %ir.ptr, addrspace 1)
; GFX90A_GFX940-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[FLAT_ATOMIC_ADD_F64_RTN]].sub0		; GFX90A_GFX940-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[GLOBAL_ATOMIC_ADD_F64_SADDR_RTN]].sub0
; GFX90A_GFX940-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY [[FLAT_ATOMIC_ADD_F64_RTN]].sub1		; GFX90A_GFX940-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[GLOBAL_ATOMIC_ADD_F64_SADDR_RTN]].sub1
; GFX90A_GFX940-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32 = V_READFIRSTLANE_B32 [[COPY5]], implicit $exec		; GFX90A_GFX940-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sreg_32 = V_READFIRSTLANE_B32 [[COPY4]], implicit $exec
; GFX90A_GFX940-NEXT: $sgpr0 = COPY [[V_READFIRSTLANE_B32_]]		; GFX90A_GFX940-NEXT: $sgpr0 = COPY [[V_READFIRSTLANE_B32_]]
; GFX90A_GFX940-NEXT: [[V_READFIRSTLANE_B32_1:%[0-9]+]]:sreg_32 = V_READFIRSTLANE_B32 [[COPY6]], implicit $exec		; GFX90A_GFX940-NEXT: [[V_READFIRSTLANE_B32_1:%[0-9]+]]:sreg_32 = V_READFIRSTLANE_B32 [[COPY5]], implicit $exec
; GFX90A_GFX940-NEXT: $sgpr1 = COPY [[V_READFIRSTLANE_B32_1]]		; GFX90A_GFX940-NEXT: $sgpr1 = COPY [[V_READFIRSTLANE_B32_1]]
; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $sgpr0, implicit $sgpr1		; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $sgpr0, implicit $sgpr1
%ret = call double @llvm.amdgcn.flat.atomic.fadd.f64.p1f64.f64(double addrspace(1)* %ptr, double %data)		%ret = call double @llvm.amdgcn.flat.atomic.fadd.f64.p1f64.f64(double addrspace(1)* %ptr, double %data)
ret double %ret		ret double %ret
}		}

define amdgpu_ps void @global_atomic_fadd_f64_no_rtn_atomicrmw(double addrspace(1)* %ptr, double %data) #0 {		define amdgpu_ps void @global_atomic_fadd_f64_no_rtn_atomicrmw(double addrspace(1)* %ptr, double %data) #0 {
; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f64_no_rtn_atomicrmw		; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f64_no_rtn_atomicrmw
▲ Show 20 Lines • Show All 84 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/global-atomic-fadd.v2f16-no-rtn.ll

	; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx908 -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=GFX908_GFX90A %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx908 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX908 %s
	; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=GFX908_GFX90A %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX940 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s

	; GFX908_GFX90A: LLVM ERROR: cannot select: %{{[0-9]+}}:vgpr(<2 x s16>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.flat.atomic.fadd)

	define amdgpu_ps void @global_atomic_fadd_v2f16_no_rtn_intrinsic(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {			define amdgpu_ps void @global_atomic_fadd_v2f16_no_rtn_intrinsic(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {
	; GFX940-LABEL: name: global_atomic_fadd_v2f16_no_rtn_intrinsic			; GFX908-LABEL: name: global_atomic_fadd_v2f16_no_rtn_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX908: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX908-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX940-NEXT: {{ $}}			; GFX908-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX908-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX908-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX908-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX908-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX940-NEXT: GLOBAL_ATOMIC_PK_ADD_F16 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)			; GFX908-NEXT: GLOBAL_ATOMIC_PK_ADD_F16 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: S_ENDPGM 0			; GFX908-NEXT: S_ENDPGM 0
				; GFX90A_GFX940-LABEL: name: global_atomic_fadd_v2f16_no_rtn_intrinsic
				; GFX90A_GFX940: bb.1 (%ir-block.0):
				; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX90A_GFX940-NEXT: {{ $}}
				; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_PK_ADD_F16 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
				; GFX90A_GFX940-NEXT: S_ENDPGM 0
	%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_v2f16_saddr_no_rtn_intrinsic(<2 x half> addrspace(1)* inreg %ptr, <2 x half> %data) {			define amdgpu_ps void @global_atomic_fadd_v2f16_saddr_no_rtn_intrinsic(<2 x half> addrspace(1)* inreg %ptr, <2 x half> %data) {
	; GFX940-LABEL: name: global_atomic_fadd_v2f16_saddr_no_rtn_intrinsic			; GFX908-LABEL: name: global_atomic_fadd_v2f16_saddr_no_rtn_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX908: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX908-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX940-NEXT: {{ $}}			; GFX908-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX908-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX908-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX908-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX908-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec			; GFX908-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX940-NEXT: GLOBAL_ATOMIC_PK_ADD_F16_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)			; GFX908-NEXT: GLOBAL_ATOMIC_PK_ADD_F16_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: S_ENDPGM 0			; GFX908-NEXT: S_ENDPGM 0
				; GFX90A_GFX940-LABEL: name: global_atomic_fadd_v2f16_saddr_no_rtn_intrinsic
				; GFX90A_GFX940: bb.1 (%ir-block.0):
				; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GFX90A_GFX940-NEXT: {{ $}}
				; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_PK_ADD_F16_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
				; GFX90A_GFX940-NEXT: S_ENDPGM 0
	%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_v2f16_no_rtn_flat_intrinsic(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {			define amdgpu_ps void @global_atomic_fadd_v2f16_no_rtn_flat_intrinsic(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {
	; GFX940-LABEL: name: global_atomic_fadd_v2f16_no_rtn_flat_intrinsic			; GFX908-LABEL: name: global_atomic_fadd_v2f16_no_rtn_flat_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX908: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX908-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX940-NEXT: {{ $}}			; GFX908-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX908-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX908-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX908-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX908-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX940-NEXT: FLAT_ATOMIC_PK_ADD_F16 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)			; GFX908-NEXT: GLOBAL_ATOMIC_PK_ADD_F16 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: S_ENDPGM 0			; GFX908-NEXT: S_ENDPGM 0
				; GFX90A_GFX940-LABEL: name: global_atomic_fadd_v2f16_no_rtn_flat_intrinsic
				; GFX90A_GFX940: bb.1 (%ir-block.0):
				; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX90A_GFX940-NEXT: {{ $}}
				; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_PK_ADD_F16 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
				; GFX90A_GFX940-NEXT: S_ENDPGM 0
	%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)
	ret void			ret void
	}			}

	define amdgpu_ps void @global_atomic_fadd_v2f16_saddr_no_rtn_flat_intrinsic(<2 x half> addrspace(1)* inreg %ptr, <2 x half> %data) {			define amdgpu_ps void @global_atomic_fadd_v2f16_saddr_no_rtn_flat_intrinsic(<2 x half> addrspace(1)* inreg %ptr, <2 x half> %data) {
	; GFX940-LABEL: name: global_atomic_fadd_v2f16_saddr_no_rtn_flat_intrinsic			; GFX908-LABEL: name: global_atomic_fadd_v2f16_saddr_no_rtn_flat_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX908: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX908-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX940-NEXT: {{ $}}			; GFX908-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX908-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX908-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX908-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX908-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]			; GFX908-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX940-NEXT: FLAT_ATOMIC_PK_ADD_F16 [[COPY3]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)			; GFX908-NEXT: GLOBAL_ATOMIC_PK_ADD_F16_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: S_ENDPGM 0			; GFX908-NEXT: S_ENDPGM 0
				; GFX90A_GFX940-LABEL: name: global_atomic_fadd_v2f16_saddr_no_rtn_flat_intrinsic
				; GFX90A_GFX940: bb.1 (%ir-block.0):
				; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GFX90A_GFX940-NEXT: {{ $}}
				; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX90A_GFX940-NEXT: GLOBAL_ATOMIC_PK_ADD_F16_SADDR [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 0, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
				; GFX90A_GFX940-NEXT: S_ENDPGM 0
	%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)
	ret void			ret void
	}			}

	declare <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)*, <2 x half>)			declare <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)*, <2 x half>)
	declare <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)*, <2 x half>)			declare <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)*, <2 x half>)

llvm/test/CodeGen/AMDGPU/GlobalISel/global-atomic-fadd.v2f16-rtn.ll

	; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=GFX90A %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX940 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s

	; GFX90A: LLVM ERROR: cannot select: %{{[0-9]+}}:vgpr_32(<2 x s16>) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.flat.atomic.fadd)

	define amdgpu_ps <2 x half> @global_atomic_fadd_v2f16_rtn_intrinsic(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {			define amdgpu_ps <2 x half> @global_atomic_fadd_v2f16_rtn_intrinsic(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {
	; GFX940-LABEL: name: global_atomic_fadd_v2f16_rtn_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_v2f16_rtn_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX940-NEXT: [[GLOBAL_ATOMIC_PK_ADD_F16_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_PK_ADD_F16_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_PK_ADD_F16_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_PK_ADD_F16_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_PK_ADD_F16_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_PK_ADD_F16_RTN]]
	; GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

	define amdgpu_ps <2 x half> @global_atomic_fadd_v2f16_saddr_rtn_intrinsic(<2 x half> addrspace(1)* inreg %ptr, <2 x half> %data) {			define amdgpu_ps <2 x half> @global_atomic_fadd_v2f16_saddr_rtn_intrinsic(<2 x half> addrspace(1)* inreg %ptr, <2 x half> %data) {
	; GFX940-LABEL: name: global_atomic_fadd_v2f16_saddr_rtn_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_v2f16_saddr_rtn_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec			; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX940-NEXT: [[GLOBAL_ATOMIC_PK_ADD_F16_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_PK_ADD_F16_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_PK_ADD_F16_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_PK_ADD_F16_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_PK_ADD_F16_SADDR_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_PK_ADD_F16_SADDR_RTN]]
	; GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

	define amdgpu_ps <2 x half> @global_atomic_fadd_v2f16_rtn_flat_intrinsic(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {			define amdgpu_ps <2 x half> @global_atomic_fadd_v2f16_rtn_flat_intrinsic(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {
	; GFX940-LABEL: name: global_atomic_fadd_v2f16_rtn_flat_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_v2f16_rtn_flat_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX940-NEXT: [[FLAT_ATOMIC_PK_ADD_F16_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_PK_ADD_F16_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_PK_ADD_F16_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_PK_ADD_F16_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_PK_ADD_F16_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_PK_ADD_F16_RTN]]
	; GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

	define amdgpu_ps <2 x half> @global_atomic_fadd_v2f16_saddr_rtn_flat_intrinsic(<2 x half> addrspace(1)* inreg %ptr, <2 x half> %data) {			define amdgpu_ps <2 x half> @global_atomic_fadd_v2f16_saddr_rtn_flat_intrinsic(<2 x half> addrspace(1)* inreg %ptr, <2 x half> %data) {
	; GFX940-LABEL: name: global_atomic_fadd_v2f16_saddr_rtn_flat_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_v2f16_saddr_rtn_flat_intrinsic
	; GFX940: bb.1 (%ir-block.0):			; GFX90A_GFX940: bb.1 (%ir-block.0):
	; GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
	; GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]			; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX940-NEXT: [[FLAT_ATOMIC_PK_ADD_F16_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_PK_ADD_F16_RTN [[COPY3]], [[COPY2]], 0, 1, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_PK_ADD_F16_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_PK_ADD_F16_SADDR_RTN [[V_MOV_B32_e32_]], [[COPY2]], [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (<2 x s16>) on %ir.ptr, addrspace 1)
	; GFX940-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_PK_ADD_F16_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_PK_ADD_F16_SADDR_RTN]]
	; GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

	declare <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)*, <2 x half>)			declare <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)*, <2 x half>)
	declare <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)*, <2 x half>)			declare <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)*, <2 x half>)

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.fadd.ll

Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	; GFX90A-NEXT: s_setpc_b64 s[30:31]
ret void		ret void
}		}

define amdgpu_kernel void @global_atomic_fadd_f32_off_ss(float addrspace(1)* %ptr, float %data) {		define amdgpu_kernel void @global_atomic_fadd_f32_off_ss(float addrspace(1)* %ptr, float %data) {
; GFX908-LABEL: global_atomic_fadd_f32_off_ss:		; GFX908-LABEL: global_atomic_fadd_f32_off_ss:
; GFX908: ; %bb.0:		; GFX908: ; %bb.0:
; GFX908-NEXT: s_load_dword s2, s[4:5], 0x8		; GFX908-NEXT: s_load_dword s2, s[4:5], 0x8
; GFX908-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX908-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
		; GFX908-NEXT: v_mov_b32_e32 v1, 0
; GFX908-NEXT: s_waitcnt lgkmcnt(0)		; GFX908-NEXT: s_waitcnt lgkmcnt(0)
; GFX908-NEXT: v_mov_b32_e32 v2, s2		; GFX908-NEXT: v_mov_b32_e32 v0, s2
; GFX908-NEXT: v_mov_b32_e32 v0, s0		; GFX908-NEXT: global_atomic_add_f32 v1, v0, s[0:1] offset:2048
; GFX908-NEXT: v_mov_b32_e32 v1, s1
; GFX908-NEXT: global_atomic_add_f32 v[0:1], v2, off offset:2048
; GFX908-NEXT: s_endpgm		; GFX908-NEXT: s_endpgm
;		;
; GFX90A-LABEL: global_atomic_fadd_f32_off_ss:		; GFX90A-LABEL: global_atomic_fadd_f32_off_ss:
; GFX90A: ; %bb.0:		; GFX90A: ; %bb.0:
; GFX90A-NEXT: s_load_dword s2, s[4:5], 0x8		; GFX90A-NEXT: s_load_dword s2, s[4:5], 0x8
; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX90A-NEXT: v_mov_b32_e32 v1, 0		; GFX90A-NEXT: v_mov_b32_e32 v1, 0
; GFX90A-NEXT: s_waitcnt lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt lgkmcnt(0)
▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.raw.buffer.atomic.fadd-with-ret.ll

	; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s			; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s
	; RUN: not llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908			; RUN: not --crash llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908

	declare float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32 immarg)			declare float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32 immarg)
	declare <2 x half> @llvm.amdgcn.raw.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i32 immarg)			declare <2 x half> @llvm.amdgcn.raw.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i32 immarg)

	; GFX908: error: {{.*}} return versions of fp atomics not supported			; GFX908: LLVM ERROR: cannot select: %24:vgpr_32(s32) = G_AMDGPU_BUFFER_ATOMIC_FADD %28:vgpr, %14:sgpr(<4 x s32>), %29:vgpr(s32), %30:vgpr, %27:sgpr, 0, 0, 0 :: (volatile dereferenceable load store (s32), align 1, addrspace 4) (in function: buffer_atomic_add_f32_rtn)
	; GFX908: error: {{.*}} return versions of fp atomics not supported

	; GFX90A-LABEL: {{^}}buffer_atomic_add_f32_rtn:			; GFX90A-LABEL: {{^}}buffer_atomic_add_f32_rtn:
	; GFX90A: buffer_atomic_add_f32 v{{[0-9]+}}, v{{[0-9]+}}, s[{{[0-9:]+}}], s{{[0-9]+}} offen glc			; GFX90A: buffer_atomic_add_f32 v{{[0-9]+}}, v{{[0-9]+}}, s[{{[0-9:]+}}], s{{[0-9]+}} offen glc
	define amdgpu_kernel void @buffer_atomic_add_f32_rtn(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 %soffset) {			define amdgpu_kernel void @buffer_atomic_add_f32_rtn(float %val, <4 x i32> inreg %rsrc, i32 %voffset, i32 %soffset) {
	main_body:			main_body:
	%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)			%ret = call float @llvm.amdgcn.raw.buffer.atomic.fadd.f32(float %val, <4 x i32> %rsrc, i32 %voffset, i32 %soffset, i32 0)
	store float %ret, float* undef			store float %ret, float* undef
	ret void			ret void
	Show All 10 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.struct.buffer.atomic.fadd-with-ret.ll

	; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s			; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s
	; RUN: not llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908			; RUN: not --crash llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908

	; GFX908: error: {{.*}} return versions of fp atomics not supported			; GFX908: LLVM ERROR: cannot select: %29:vgpr_32(s32) = G_AMDGPU_BUFFER_ATOMIC_FADD %40:vgpr, %15:sgpr(<4 x s32>), %41:vgpr(s32), %42:vgpr, %33:sgpr, 0, 0, -1 :: (volatile dereferenceable load store (s32), align 1, addrspace 4) (in function: buffer_atomic_add_f32_rtn)
	; GFX908: error: {{.*}} return versions of fp atomics not supported

	declare float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32, i32 immarg)			declare float @llvm.amdgcn.struct.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i32, i32 immarg)
	declare <2 x half> @llvm.amdgcn.struct.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i32, i32 immarg)			declare <2 x half> @llvm.amdgcn.struct.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i32, i32 immarg)


	; GFX90A-LABEL: {{^}}buffer_atomic_add_f32_rtn:			; GFX90A-LABEL: {{^}}buffer_atomic_add_f32_rtn:
	; GFX90A: buffer_atomic_add_f32 v{{[0-9]+}}, v[{{[0-9:]+}}], s[{{[0-9:]+}}], s{{[0-9]+}} idxen offen glc			; GFX90A: buffer_atomic_add_f32 v{{[0-9]+}}, v[{{[0-9:]+}}], s[{{[0-9:]+}}], s{{[0-9]+}} idxen offen glc
	define amdgpu_kernel void @buffer_atomic_add_f32_rtn(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset) {			define amdgpu_kernel void @buffer_atomic_add_f32_rtn(float %val, <4 x i32> %rsrc, i32 %vindex, i32 %voffset, i32 %soffset) {
	Show All 14 Lines

llvm/test/CodeGen/AMDGPU/global-atomic-fadd.f32-rtn.ll

	; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	; RUN: llc -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s			; RUN: llc -march=amdgcn -mcpu=gfx90a -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
	; RUN: llc -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s			; RUN: llc -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX90A_GFX940 %s
	; RUN: not --crash llc -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=amdgpu-isel < %s 2>&1 \| FileCheck -check-prefix=GFX11 %s			; RUN: llc -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=amdgpu-isel < %s \| FileCheck -check-prefix=GFX11 %s

	; GFX11: error: {{.*}} return versions of fp atomics not supported

	define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {			define amdgpu_ps float @global_atomic_fadd_f32_rtn_intrinsic(float addrspace(1)* %ptr, float %data) {
	; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic
	; GFX90A_GFX940: bb.0 (%ir-block.0):			; GFX90A_GFX940: bb.0 (%ir-block.0):
	; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX90A_GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]			; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]
	; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
	; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_intrinsic
				; GFX11: bb.0 (%ir-block.0):
				; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG $vgpr0
	%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)			%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_intrinsic(float addrspace(1)* inreg %ptr, float %data) {			define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_intrinsic(float addrspace(1)* inreg %ptr, float %data) {
	; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_intrinsic
	; GFX90A_GFX940: bb.0 (%ir-block.0):			; GFX90A_GFX940: bb.0 (%ir-block.0):
	; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX90A_GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
	; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
	; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec			; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
	; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_intrinsic
				; GFX11: bb.0 (%ir-block.0):
				; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG $vgpr0
	%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)			%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps float @global_atomic_fadd_f32_rtn_flat_intrinsic(float addrspace(1)* %ptr, float %data) {			define amdgpu_ps float @global_atomic_fadd_f32_rtn_flat_intrinsic(float addrspace(1)* %ptr, float %data) {
	; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_flat_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_flat_intrinsic
	; GFX90A_GFX940: bb.0 (%ir-block.0):			; GFX90A_GFX940: bb.0 (%ir-block.0):
	; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX90A_GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]			; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]
	; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
	; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_flat_intrinsic
				; GFX11: bb.0 (%ir-block.0):
				; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG $vgpr0
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_flat_intrinsic(float addrspace(1)* inreg %ptr, float %data) {			define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_flat_intrinsic(float addrspace(1)* inreg %ptr, float %data) {
	; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_flat_intrinsic			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_flat_intrinsic
	; GFX90A_GFX940: bb.0 (%ir-block.0):			; GFX90A_GFX940: bb.0 (%ir-block.0):
	; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX90A_GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
	; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
	; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec			; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
	; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
	; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_flat_intrinsic
				; GFX11: bb.0 (%ir-block.0):
				; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG $vgpr0
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)* inreg %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps float @global_atomic_fadd_f32_rtn_atomicrmw(float addrspace(1)* %ptr, float %data) #0 {			define amdgpu_ps float @global_atomic_fadd_f32_rtn_atomicrmw(float addrspace(1)* %ptr, float %data) #0 {
	; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_atomicrmw			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_rtn_atomicrmw
	; GFX90A_GFX940: bb.0 (%ir-block.0):			; GFX90A_GFX940: bb.0 (%ir-block.0):
	; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2			; GFX90A_GFX940-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
	; GFX90A_GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]			; GFX90A_GFX940-NEXT: [[COPY3:%[0-9]+]]:vreg_64_align2 = COPY [[REG_SEQUENCE]]
	; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
	; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
	; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_rtn_atomicrmw
				; GFX11: bb.0 (%ir-block.0):
				; GFX11-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[COPY3:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_RTN killed [[COPY3]], [[COPY]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG $vgpr0
	%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic			%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_atomicrmw(float addrspace(1)* inreg %ptr, float %data) #0 {			define amdgpu_ps float @global_atomic_fadd_f32_saddr_rtn_atomicrmw(float addrspace(1)* inreg %ptr, float %data) #0 {
	; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw			; GFX90A_GFX940-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw
	; GFX90A_GFX940: bb.0 (%ir-block.0):			; GFX90A_GFX940: bb.0 (%ir-block.0):
	; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0			; GFX90A_GFX940-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
	; GFX90A_GFX940-NEXT: {{ $}}			; GFX90A_GFX940-NEXT: {{ $}}
	; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GFX90A_GFX940-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1			; GFX90A_GFX940-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
	; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0			; GFX90A_GFX940-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
	; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1			; GFX90A_GFX940-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
	; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec			; GFX90A_GFX940-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
	; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)			; GFX90A_GFX940-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
	; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]			; GFX90A_GFX940-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
	; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0			; GFX90A_GFX940-NEXT: SI_RETURN_TO_EPILOG $vgpr0
				; GFX11-LABEL: name: global_atomic_fadd_f32_saddr_rtn_atomicrmw
				; GFX11: bb.0 (%ir-block.0):
				; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $vgpr0
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GFX11-NEXT: [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
				; GFX11-NEXT: [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN:%[0-9]+]]:vgpr_32 = GLOBAL_ATOMIC_ADD_F32_SADDR_RTN killed [[V_MOV_B32_e32_]], [[COPY]], killed [[REG_SEQUENCE]], 0, 1, implicit $exec :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr, addrspace 1)
				; GFX11-NEXT: $vgpr0 = COPY [[GLOBAL_ATOMIC_ADD_F32_SADDR_RTN]]
				; GFX11-NEXT: SI_RETURN_TO_EPILOG $vgpr0
	%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic			%ret = atomicrmw fadd float addrspace(1)* %ptr, float %data syncscope("wavefront") monotonic
	ret float %ret			ret float %ret
	}			}

	declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)			declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)
	declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)			declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)

	attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }			attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }

llvm/test/CodeGen/AMDGPU/global-atomics-fp.ll

	Show First 20 Lines • Show All 237 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: global_atomic_fadd_ret_f32_ieee:			; GFX11-LABEL: global_atomic_fadd_ret_f32_ieee:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v2, 4.0			; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 glc			; GFX11-NEXT: global_atomic_add_f32 v0, v0, v1, s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv			; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv			; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: global_store_b32 v[0:1], v0, off			; GFX11-NEXT: global_store_b32 v[0:1], v0, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	▲ Show 20 Lines • Show All 267 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: global_atomic_fadd_ret_f32_agent:			; GFX11-LABEL: global_atomic_fadd_ret_f32_agent:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v2, 4.0			; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 glc			; GFX11-NEXT: global_atomic_add_f32 v0, v0, v1, s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv			; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv			; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: global_store_b32 v[0:1], v0, off			; GFX11-NEXT: global_store_b32 v[0:1], v0, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	▲ Show 20 Lines • Show All 445 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.atomic.fadd.gfx90a.ll

	; RUN: llc < %s -march=amdgcn -mcpu=gfx90a -verify-machineinstrs \| FileCheck %s -check-prefix=GFX90A			; RUN: llc < %s -march=amdgcn -mcpu=gfx90a -verify-machineinstrs \| FileCheck %s -check-prefix=GFX90A
	; RUN: not --crash llc < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908			; RUN: not --crash llc < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908

	declare float @llvm.amdgcn.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i1)			declare float @llvm.amdgcn.buffer.atomic.fadd.f32(float, <4 x i32>, i32, i32, i1)
	declare <2 x half> @llvm.amdgcn.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i1)			declare <2 x half> @llvm.amdgcn.buffer.atomic.fadd.v2f16(<2 x half>, <4 x i32>, i32, i32, i1)
	declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)			declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)*, float)
	declare <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)*, <2 x half>)			declare <2 x half> @llvm.amdgcn.global.atomic.fadd.v2f16.p1v2f16.v2f16(<2 x half> addrspace(1)*, <2 x half>)

	; GFX908: error: {{.*}} return versions of fp atomics not supported			; GFX908: LLVM ERROR: Cannot select: {{.+}}: f32,ch = BUFFER_ATOMIC_FADD

	; GFX90A-LABEL: {{^}}buffer_atomic_add_f32:			; GFX90A-LABEL: {{^}}buffer_atomic_add_f32:
	; GFX90A: buffer_atomic_add_f32 v0, v1, s[0:3], 0 idxen glc			; GFX90A: buffer_atomic_add_f32 v0, v1, s[0:3], 0 idxen glc
	define amdgpu_ps float @buffer_atomic_add_f32(<4 x i32> inreg %rsrc, float %data, i32 %vindex) {			define amdgpu_ps float @buffer_atomic_add_f32(<4 x i32> inreg %rsrc, float %data, i32 %vindex) {
	main_body:			main_body:
	%ret = call float @llvm.amdgcn.buffer.atomic.fadd.f32(float %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i1 0)			%ret = call float @llvm.amdgcn.buffer.atomic.fadd.f32(float %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i1 0)
	ret float %ret			ret float %ret
	}			}
	▲ Show 20 Lines • Show All 76 Lines • Show Last 20 Lines