Diff 451427

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

Show First 20 Lines • Show All 1,335 Lines • ▼ Show 20 Lines	if (ST.hasLDSFPAtomicAdd()) {
Atomic.legalFor({{S32, LocalPtr}, {S32, RegionPtr}});		Atomic.legalFor({{S32, LocalPtr}, {S32, RegionPtr}});
if (ST.hasGFX90AInsts())		if (ST.hasGFX90AInsts())
Atomic.legalFor({{S64, LocalPtr}});		Atomic.legalFor({{S64, LocalPtr}});
if (ST.hasGFX940Insts())		if (ST.hasGFX940Insts())
Atomic.legalFor({{V2S16, LocalPtr}});		Atomic.legalFor({{V2S16, LocalPtr}});
}		}
if (ST.hasAtomicFaddInsts())		if (ST.hasAtomicFaddInsts())
Atomic.legalFor({{S32, GlobalPtr}});		Atomic.legalFor({{S32, GlobalPtr}});
		if (ST.hasGFX940Insts())
		arsenmUnsubmitted Not Done Reply Inline Actions Probably should factor this into a feature test arsenm: Probably should factor this into a feature test
		Atomic.legalFor({{S32, FlatPtr}});
		if (AMDGPU::isGFX11Plus(ST))
		arsenmUnsubmitted Not Done Reply Inline Actions Using this predicate function instead of another ST method is inconsistent. Also can merge these two ifs into an or arsenm: Using this predicate function instead of another ST method is inconsistent. Also can merge…
		Atomic.legalFor({{S32, FlatPtr}});

if (ST.hasGFX90AInsts()) {		if (ST.hasGFX90AInsts()) {
// These are legal with some caveats, and should have undergone expansion in		// These are legal with some caveats, and should have undergone expansion in
// the IR in most situations		// the IR in most situations
// TODO: Move atomic expansion into legalizer		// TODO: Move atomic expansion into legalizer
// TODO: Also supports <2 x f16>
Atomic.legalFor({		Atomic.legalFor({
{S32, GlobalPtr},		{S32, GlobalPtr},
{S64, GlobalPtr},		{S64, GlobalPtr},
{S64, FlatPtr}		{S64, FlatPtr}
});		});
}		}

// BUFFER/FLAT_ATOMIC_CMP_SWAP on GCN GPUs needs input marshalling, and output		// BUFFER/FLAT_ATOMIC_CMP_SWAP on GCN GPUs needs input marshalling, and output
▲ Show 20 Lines • Show All 4,455 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

Show First 20 Lines • Show All 4,566 Lines • ▼ Show 20 Lines	case AMDGPU::G_INTRINSIC_W_SIDE_EFFECTS: {
case Intrinsic::amdgcn_global_atomic_fmax:		case Intrinsic::amdgcn_global_atomic_fmax:
case Intrinsic::amdgcn_flat_atomic_fadd:		case Intrinsic::amdgcn_flat_atomic_fadd:
case Intrinsic::amdgcn_flat_atomic_fmin:		case Intrinsic::amdgcn_flat_atomic_fmin:
case Intrinsic::amdgcn_flat_atomic_fmax:		case Intrinsic::amdgcn_flat_atomic_fmax:
case Intrinsic::amdgcn_global_atomic_fadd_v2bf16:		case Intrinsic::amdgcn_global_atomic_fadd_v2bf16:
case Intrinsic::amdgcn_flat_atomic_fadd_v2bf16:		case Intrinsic::amdgcn_flat_atomic_fadd_v2bf16:
return getDefaultMappingAllVGPR(MI);		return getDefaultMappingAllVGPR(MI);
case Intrinsic::amdgcn_ds_ordered_add:		case Intrinsic::amdgcn_ds_ordered_add:
case Intrinsic::amdgcn_ds_ordered_swap: {		case Intrinsic::amdgcn_ds_ordered_swap:
		case Intrinsic::amdgcn_ds_fadd_v2bf16: {
unsigned DstSize = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();		unsigned DstSize = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();
OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, DstSize);		OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, DstSize);
unsigned M0Bank = getRegBankID(MI.getOperand(2).getReg(), MRI,		unsigned M0Bank = getRegBankID(MI.getOperand(2).getReg(), MRI,
AMDGPU::SGPRRegBankID);		AMDGPU::SGPRRegBankID);
OpdsMapping[2] = AMDGPU::getValueMapping(M0Bank, 32);		OpdsMapping[2] = AMDGPU::getValueMapping(M0Bank, 32);
OpdsMapping[3] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, 32);		OpdsMapping[3] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, 32);
break;		break;
}		}
▲ Show 20 Lines • Show All 276 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 12,764 Lines • ▼ Show 20 Lines	SITargetLowering::shouldExpandAtomicRMWInIR(AtomicRMWInst *RMW) const {
case AtomicRMWInst::FAdd: {		case AtomicRMWInst::FAdd: {
Type *Ty = RMW->getType();		Type *Ty = RMW->getType();

// We don't have a way to support 16-bit atomics now, so just leave them		// We don't have a way to support 16-bit atomics now, so just leave them
// as-is.		// as-is.
if (Ty->isHalfTy())		if (Ty->isHalfTy())
return AtomicExpansionKind::None;		return AtomicExpansionKind::None;

if (!Ty->isFloatTy() && (!Subtarget->hasGFX90AInsts() \|\| !Ty->isDoubleTy()))		if (!Ty->isFloatTy() && (!Subtarget->hasGFX90AInsts() \|\| !Ty->isDoubleTy()))
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;

if ((AS == AMDGPUAS::GLOBAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS) &&		if ((AS == AMDGPUAS::GLOBAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS) &&
Subtarget->hasAtomicFaddNoRtnInsts()) {		Subtarget->hasAtomicFaddNoRtnInsts()) {
if (Subtarget->hasGFX940Insts())		if (Subtarget->hasGFX940Insts())
return AtomicExpansionKind::None;		return AtomicExpansionKind::None;
		// Global fadd f32 no-rtn for gfx908 (and gfx11+).
		if (!Subtarget->hasGFX90AInsts() && AS == AMDGPUAS::GLOBAL_ADDRESS &&
		rampitecUnsubmitted Not Done Reply Inline Actions I think both are still unsafe even when supported, on both targets. rampitec: I think both are still unsafe even when supported, on both targets.
		b-sumnerUnsubmitted Not Done Reply Inline Actions I agree, these are unsafe. b-sumner: I agree, these are unsafe.
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions In order to simplify all these conditions: Obvious first requirement is that subtarget needs to have instruction. for gfx940 (MI300) having instruction is enough for all other subtargets fadd is unsafe and can be selected only when function has amdgpu-unsafe-fp-atomics=true and atomic rmw needs to be non-system scope and not "one-as" Second bullet is already implemented for gfx90a (MI200). If I understand this correctly, fadd atomic rmw for gfx908(MI100) and gfx11 is unsafe like for MI200 and can be selected under same conditions. summary of logic // mi300 if `subtarget == gfx940` and `subtarget has instruction` don't expand and return // mi100, mi200, gfx11+ if 'amdgpu-unsafe-fp-atomics=true' and 'scope is non-system' and `subtarget has instruction` don't expand and return expand Petar.Avramovic: In order to simplify all these conditions: Obvious first requirement is that subtarget needs to…
		b-sumnerUnsubmitted Not Done Reply Inline Actions There will be variants of gfx940 where atomics are still unsafe, so probably better to use the same approach as for gfx90a. b-sumner: There will be variants of gfx940 where atomics are still unsafe, so probably better to use the…
		rampitecUnsubmitted Not Done Reply Inline Actions I am not completely sure about system scope though, is that OK for gfx908 and gfx11? It is certainly unsafe in terms of denorm handling. rampitec: I am not completely sure about system scope though, is that OK for gfx908 and gfx11? It is…
		Ty->isFloatTy() && RMW->use_empty())
		return AtomicExpansionKind::None;
		if (Subtarget->getGeneration() >= AMDGPUSubtarget::GFX11 &&
		Ty->isFloatTy())
		return AtomicExpansionKind::None;
		arsenmUnsubmitted Not Done Reply Inline Actions The flow of these options is getting too hard to follow. You're basically repeating all the same checks as above, so why not treat this as an independent case before the outer if? arsenm: The flow of these options is getting too hard to follow. You're basically repeating all the…

		rampitecUnsubmitted Not Done Reply Inline Actions The logic below seems correct to me, but why dropping `hasAtomicFaddNoRtnInsts` check? It is a fast way to skip the whole block for the targets which do not have it at all. rampitec: The logic below seems correct to me, but why dropping `hasAtomicFaddNoRtnInsts` check? It is a…
// The amdgpu-unsafe-fp-atomics attribute enables generation of unsafe		// The amdgpu-unsafe-fp-atomics attribute enables generation of unsafe
// floating point atomic instructions. May generate more efficient code,		// floating point atomic instructions. May generate more efficient code,
// but may not respect rounding and denormal modes, and may give incorrect		// but may not respect rounding and denormal modes, and may give incorrect
// results for certain memory destinations.		// results for certain memory destinations.
if (RMW->getFunction()		if (RMW->getFunction()
->getFnAttribute("amdgpu-unsafe-fp-atomics")		->getFnAttribute("amdgpu-unsafe-fp-atomics")
.getValueAsString() != "true")		.getValueAsString() != "true")
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;

if (Subtarget->hasGFX90AInsts()) {		if (Subtarget->hasGFX90AInsts()) {
if (Ty->isFloatTy() && AS == AMDGPUAS::FLAT_ADDRESS)		if (Ty->isFloatTy() && AS == AMDGPUAS::FLAT_ADDRESS)
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;

auto SSID = RMW->getSyncScopeID();		auto SSID = RMW->getSyncScopeID();
if (SSID == SyncScope::System \|\|		if (SSID == SyncScope::System \|\|
SSID == RMW->getContext().getOrInsertSyncScopeID("one-as"))		SSID == RMW->getContext().getOrInsertSyncScopeID("one-as"))
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;

return ReportUnsafeHWInst(AtomicExpansionKind::None);		return ReportUnsafeHWInst(AtomicExpansionKind::None);
		tianshilei1992Unsubmitted Not Done Reply Inline Actions If I read it correctly, `Subtarget->hasAtomicFaddNoRtnInsts()` is always true here right? Because it is in the block: if ((AS == AMDGPUAS::GLOBAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS) && Subtarget->hasAtomicFaddNoRtnInsts()) { tianshilei1992: If I read it correctly, `Subtarget->hasAtomicFaddNoRtnInsts()` is always true here right?
}		}

if (AS == AMDGPUAS::FLAT_ADDRESS)		if (AS == AMDGPUAS::FLAT_ADDRESS)
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;

return RMW->use_empty() ? ReportUnsafeHWInst(AtomicExpansionKind::None)		return RMW->use_empty() ? ReportUnsafeHWInst(AtomicExpansionKind::None)
: AtomicExpansionKind::CmpXChg;		: AtomicExpansionKind::CmpXChg;
}		}
▲ Show 20 Lines • Show All 189 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-atomic-fadd-f32.ll

	; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=MI300 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=MI300 %s
	; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=GFX11 %s			; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=GFX11 %s

	; MI300: LLVM ERROR: unable to legalize instruction: %4:_(s32) = G_ATOMICRMW_FADD %0:_(p0), %1:_ :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr) (in function: flat_atomic_fadd_f32_no_rtn_atomicrmw)
	; GFX11: LLVM ERROR: cannot select: %4:vgpr(s32) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.flat.atomic.fadd), %0:vgpr(p0), %1:vgpr(s32) :: (volatile dereferenceable load store (s32) on %ir.ptr) (in function: flat_atomic_fadd_f32_no_rtn_intrinsic)			; GFX11: LLVM ERROR: cannot select: %4:vgpr(s32) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.flat.atomic.fadd), %0:vgpr(p0), %1:vgpr(s32) :: (volatile dereferenceable load store (s32) on %ir.ptr) (in function: flat_atomic_fadd_f32_no_rtn_intrinsic)

	define amdgpu_ps void @flat_atomic_fadd_f32_no_rtn_intrinsic(float* %ptr, float %data) {			define amdgpu_ps void @flat_atomic_fadd_f32_no_rtn_intrinsic(float* %ptr, float %data) {
				; MI300-LABEL: name: flat_atomic_fadd_f32_no_rtn_intrinsic
				; MI300: bb.1 (%ir-block.0):
				; MI300-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; MI300-NEXT: {{ $}}
				; MI300-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; MI300-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; MI300-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; MI300-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; MI300-NEXT: FLAT_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr)
				; MI300-NEXT: S_ENDPGM 0
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float* %ptr, float %data)
	ret void			ret void
	}			}

	define amdgpu_ps float @flat_atomic_fadd_f32_rtn_intrinsic(float* %ptr, float %data) {			define amdgpu_ps float @flat_atomic_fadd_f32_rtn_intrinsic(float* %ptr, float %data) {
				; MI300-LABEL: name: flat_atomic_fadd_f32_rtn_intrinsic
				; MI300: bb.1 (%ir-block.0):
				; MI300-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; MI300-NEXT: {{ $}}
				; MI300-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; MI300-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; MI300-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; MI300-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; MI300-NEXT: [[FLAT_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr)
				; MI300-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_ADD_F32_RTN]]
				; MI300-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps void @flat_atomic_fadd_f32_no_rtn_atomicrmw(float* %ptr, float %data) #0 {			define amdgpu_ps void @flat_atomic_fadd_f32_no_rtn_atomicrmw(float* %ptr, float %data) #0 {
				; MI300-LABEL: name: flat_atomic_fadd_f32_no_rtn_atomicrmw
				; MI300: bb.1 (%ir-block.0):
				; MI300-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; MI300-NEXT: {{ $}}
				; MI300-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; MI300-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; MI300-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; MI300-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; MI300-NEXT: FLAT_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr)
				; MI300-NEXT: S_ENDPGM 0
	%ret = atomicrmw fadd float* %ptr, float %data syncscope("wavefront") monotonic			%ret = atomicrmw fadd float* %ptr, float %data syncscope("wavefront") monotonic
	ret void			ret void
	}			}

	define amdgpu_ps float @flat_atomic_fadd_f32_rtn_atomicrmw(float* %ptr, float %data) #0 {			define amdgpu_ps float @flat_atomic_fadd_f32_rtn_atomicrmw(float* %ptr, float %data) #0 {
				; MI300-LABEL: name: flat_atomic_fadd_f32_rtn_atomicrmw
				; MI300: bb.1 (%ir-block.0):
				; MI300-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; MI300-NEXT: {{ $}}
				; MI300-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; MI300-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; MI300-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; MI300-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; MI300-NEXT: [[FLAT_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec, implicit $flat_scr :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr)
				; MI300-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_ADD_F32_RTN]]
				; MI300-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = atomicrmw fadd float* %ptr, float %data syncscope("wavefront") monotonic			%ret = atomicrmw fadd float* %ptr, float %data syncscope("wavefront") monotonic
	ret float %ret			ret float %ret
	}			}

	declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float*, float)			declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float*, float)

	attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }			attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }

llvm/test/CodeGen/AMDGPU/GlobalISel/fp-atomics-gfx940.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -march=amdgcn -mcpu=gfx940 -verify-machineinstrs \| FileCheck %s -check-prefix=GFX940			; RUN: llc < %s -march=amdgcn -mcpu=gfx940 -global-isel -verify-machineinstrs \| FileCheck %s -check-prefix=GFX940

	declare float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)			declare float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)
	declare <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)			declare <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)

	; bf16 atomics use v2i16 argument since there is no bf16 data type in the llvm.			; bf16 atomics use v2i16 argument since there is no bf16 data type in the llvm.
	declare <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)			declare <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)
	declare <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)			declare <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)
	declare <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3) * %ptr, <2 x half> %data, i32, i32, i1)			declare <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3) * %ptr, <2 x half> %data, i32, i32, i1)
	declare <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3) * %ptr, <2 x i16> %data)			declare <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3) * %ptr, <2 x i16> %data)

	define amdgpu_kernel void @flat_atomic_fadd_f32_noret(float* %ptr, float %data) {			define amdgpu_kernel void @flat_atomic_fadd_f32_noret(float* %ptr, float %data) {
	; GFX940-LABEL: flat_atomic_fadd_f32_noret:			; GFX940-LABEL: flat_atomic_fadd_f32_noret:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]			; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]
	; GFX940-NEXT: v_mov_b32_e32 v2, s4			; GFX940-NEXT: v_mov_b32_e32 v2, s4
	; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2			; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2
	; GFX940-NEXT: s_endpgm			; GFX940-NEXT: s_endpgm
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)
	ret void			ret void
	}			}

				define amdgpu_kernel void @flat_atomic_fadd_f32_noret_pat(float* %ptr) {
				; GFX940-LABEL: flat_atomic_fadd_f32_noret_pat:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX940-NEXT: v_mov_b32_e32 v2, 4.0
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_endpgm
				%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
				ret void
				}

				define amdgpu_kernel void @flat_atomic_fadd_f32_noret_pat_ieee(float* %ptr) #0 {
				; GFX940-LABEL: flat_atomic_fadd_f32_noret_pat_ieee:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX940-NEXT: v_mov_b32_e32 v2, 4.0
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_endpgm
				%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
				ret void
				}

	define float @flat_atomic_fadd_f32_rtn(float* %ptr, float %data) {			define float @flat_atomic_fadd_f32_rtn(float* %ptr, float %data) {
	; GFX940-LABEL: flat_atomic_fadd_f32_rtn:			; GFX940-LABEL: flat_atomic_fadd_f32_rtn:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX940-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 sc0			; GFX940-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 sc0
	; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX940-NEXT: s_setpc_b64 s[30:31]			; GFX940-NEXT: s_setpc_b64 s[30:31]
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

				define float @flat_atomic_fadd_f32_rtn_pat(float* %ptr, float %data) {
				; GFX940-LABEL: flat_atomic_fadd_f32_rtn_pat:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: v_mov_b32_e32 v2, 4.0
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
				ret float %ret
				}

	define amdgpu_kernel void @flat_atomic_fadd_v2f16_noret(<2 x half>* %ptr, <2 x half> %data) {			define amdgpu_kernel void @flat_atomic_fadd_v2f16_noret(<2 x half>* %ptr, <2 x half> %data) {
	; GFX940-LABEL: flat_atomic_fadd_v2f16_noret:			; GFX940-LABEL: flat_atomic_fadd_v2f16_noret:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]			; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]
	; GFX940-NEXT: v_mov_b32_e32 v2, s4			; GFX940-NEXT: v_mov_b32_e32 v2, s4
	Show All 9 Lines
	; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX940-NEXT: flat_atomic_pk_add_f16 v0, v[0:1], v2 sc0			; GFX940-NEXT: flat_atomic_pk_add_f16 v0, v[0:1], v2 sc0
	; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX940-NEXT: s_setpc_b64 s[30:31]			; GFX940-NEXT: s_setpc_b64 s[30:31]
	%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

				define amdgpu_kernel void @flat_atomic_fadd_v2bf16_noret(<2 x i16>* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: flat_atomic_fadd_v2bf16_noret:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]
				; GFX940-NEXT: v_mov_b32_e32 v2, s4
				; GFX940-NEXT: flat_atomic_pk_add_bf16 v[0:1], v2
				; GFX940-NEXT: s_endpgm
				%ret = call <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)
				ret void
				}

				define <2 x i16> @flat_atomic_fadd_v2bf16_rtn(<2 x i16>* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: flat_atomic_fadd_v2bf16_rtn:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_pk_add_bf16 v0, v[0:1], v2 sc0
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = call <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)
				ret <2 x i16> %ret
				}

				define amdgpu_kernel void @global_atomic_fadd_v2bf16_noret(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: global_atomic_fadd_v2bf16_noret:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX940-NEXT: v_mov_b32_e32 v1, 0
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b32_e32 v0, s4
				; GFX940-NEXT: global_atomic_pk_add_bf16 v1, v0, s[2:3]
				; GFX940-NEXT: s_endpgm
				%ret = call <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)
				ret void
				}

				define <2 x i16> @global_atomic_fadd_v2bf16_rtn(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: global_atomic_fadd_v2bf16_rtn:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: global_atomic_pk_add_bf16 v0, v[0:1], v2, off sc0
				; GFX940-NEXT: s_waitcnt vmcnt(0)
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = call <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)
				ret <2 x i16> %ret
				}

	define amdgpu_kernel void @local_atomic_fadd_v2f16_noret(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {			define amdgpu_kernel void @local_atomic_fadd_v2f16_noret(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {
	; GFX940-LABEL: local_atomic_fadd_v2f16_noret:			; GFX940-LABEL: local_atomic_fadd_v2f16_noret:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: v_mov_b32_e32 v0, s0			; GFX940-NEXT: v_mov_b32_e32 v0, s0
	; GFX940-NEXT: v_mov_b32_e32 v1, s1			; GFX940-NEXT: v_mov_b32_e32 v1, s1
	; GFX940-NEXT: ds_pk_add_f16 v0, v1			; GFX940-NEXT: ds_pk_add_f16 v0, v1
	; GFX940-NEXT: s_endpgm			; GFX940-NEXT: s_endpgm
	%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)			%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)
	ret void			ret void
	}			}

	define <2 x half> @local_atomic_fadd_v2f16_rtn(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {			define <2 x half> @local_atomic_fadd_v2f16_rtn(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {
	; GFX940-LABEL: local_atomic_fadd_v2f16_rtn:			; GFX940-LABEL: local_atomic_fadd_v2f16_rtn:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX940-NEXT: ds_pk_add_rtn_f16 v0, v0, v1			; GFX940-NEXT: ds_pk_add_rtn_f16 v0, v0, v1
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: s_setpc_b64 s[30:31]			; GFX940-NEXT: s_setpc_b64 s[30:31]
	%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)			%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

				define amdgpu_kernel void @local_atomic_fadd_v2bf16_noret(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: local_atomic_fadd_v2bf16_noret:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b32_e32 v0, s1
				; GFX940-NEXT: v_mov_b32_e32 v1, s0
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: ds_pk_add_bf16 v1, v0
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_endpgm
				%ret = call <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data)
				ret void
				}

				define <2 x i16> @local_atomic_fadd_v2bf16_rtn(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: local_atomic_fadd_v2bf16_rtn:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: ds_pk_add_rtn_bf16 v0, v0, v1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = call <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data)
				ret <2 x i16> %ret
				}

				attributes #0 = { "denormal-fp-math-f32"="ieee,ieee" }

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.fadd-with-ret.ll

	; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s			; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s
	; RUN: not --crash llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908			; RUN: not --crash llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908

	declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* nocapture, float)			declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* nocapture, float)
	declare <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* nocapture, <2 x half>)			declare <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* nocapture, <2 x half>)

	; GFX908: error: {{.*}} return versions of fp atomics not supported			; GFX908: LLVM ERROR: cannot select: %4:vgpr_32(s32) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.global.atomic.fadd), %0:vgpr(p1), %1:vgpr(s32) :: (volatile dereferenceable load store (s32) on %ir.ptr, addrspace 1) (in function: global_atomic_fadd_f32_rtn)
				arsenmUnsubmitted Not Done Reply Inline Actions Degrading the error is somewhat unfortunate, but we don't consistently do this anyway arsenm: Degrading the error is somewhat unfortunate, but we don't consistently do this anyway

	; GFX90A-LABEL: {{^}}global_atomic_fadd_f32_rtn:			; GFX90A-LABEL: {{^}}global_atomic_fadd_f32_rtn:
	; GFX90A: global_atomic_add_f32 v0, v[0:1], v2, off glc			; GFX90A: global_atomic_add_f32 v0, v[0:1], v2, off glc
	define float @global_atomic_fadd_f32_rtn(float addrspace(1)* %ptr, float %data) {			define float @global_atomic_fadd_f32_rtn(float addrspace(1)* %ptr, float %data) {
	%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)			%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	; GFX90A-LABEL: {{^}}global_atomic_fadd_v2f16_rtn:			; GFX90A-LABEL: {{^}}global_atomic_fadd_v2f16_rtn:
	; GFX90A: global_atomic_pk_add_f16 v0, v[0:1], v2, off glc			; GFX90A: global_atomic_pk_add_f16 v0, v[0:1], v2, off glc
	define <2 x half> @global_atomic_fadd_v2f16_rtn(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {			define <2 x half> @global_atomic_fadd_v2f16_rtn(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {
	%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

llvm/test/CodeGen/AMDGPU/global-atomics-fp.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX900 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX900 %s
	; RUN: llc -march=amdgcn -mcpu=gfx908 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX908 %s			; RUN: llc -march=amdgcn -mcpu=gfx908 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX908 %s
	; RUN: llc -march=amdgcn -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX90A %s			; RUN: llc -march=amdgcn -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX90A %s
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX10 %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX10 %s
	; RUN: llc -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX11 %s			; RUN: not --crash llc -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -verify-machineinstrs < %s 2>&1 \| FileCheck -enable-var-scope -check-prefixes=GFX11 %s

				; GFX11: LLVM ERROR: Cannot select: t15: f32,ch = AtomicLoadFAdd<(load store seq_cst (s32) on %ir.ptr.load, addrspace 1)> t0, t21, ConstantFP:f32<4.000000e+00>

	define amdgpu_kernel void @global_atomic_fadd_ret_f32(float addrspace(1)* %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32(float addrspace(1)* %ptr) #0 {
	; GFX900-LABEL: global_atomic_fadd_ret_f32:			; GFX900-LABEL: global_atomic_fadd_ret_f32:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX900-NEXT: s_mov_b64 s[2:3], 0			; GFX900-NEXT: s_mov_b64 s[2:3], 0
	; GFX900-NEXT: v_mov_b32_e32 v0, 0			; GFX900-NEXT: v_mov_b32_e32 v0, 0
	; GFX900-NEXT: s_waitcnt lgkmcnt(0)			; GFX900-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB0_1			; GFX10-NEXT: s_cbranch_execnz .LBB0_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_ret_f32:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB0_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB0_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_ret_f32_ieee(float addrspace(1)* %ptr) #2 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32_ieee(float addrspace(1)* %ptr) #2 {
	; GFX900-LABEL: global_atomic_fadd_ret_f32_ieee:			; GFX900-LABEL: global_atomic_fadd_ret_f32_ieee:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB1_1			; GFX10-NEXT: s_cbranch_execnz .LBB1_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_ret_f32_ieee:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB1_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB1_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_noret_f32(float addrspace(1)* %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_noret_f32(float addrspace(1)* %ptr) #0 {
	; GFX900-LABEL: global_atomic_fadd_noret_f32:			; GFX900-LABEL: global_atomic_fadd_noret_f32:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1
	; GFX10-NEXT: v_mov_b32_e32 v1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, v0
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB2_1			; GFX10-NEXT: s_cbranch_execnz .LBB2_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_noret_f32:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_noret_f32_ieee(float addrspace(1)* %ptr) #2 {			define amdgpu_kernel void @global_atomic_fadd_noret_f32_ieee(float addrspace(1)* %ptr) #2 {
	; GFX900-LABEL: global_atomic_fadd_noret_f32_ieee:			; GFX900-LABEL: global_atomic_fadd_noret_f32_ieee:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1
	; GFX10-NEXT: v_mov_b32_e32 v1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, v0
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB3_1			; GFX10-NEXT: s_cbranch_execnz .LBB3_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_noret_f32_ieee:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_ret_f32_agent(float addrspace(1)* %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32_agent(float addrspace(1)* %ptr) #0 {
	; GFX900-LABEL: global_atomic_fadd_ret_f32_agent:			; GFX900-LABEL: global_atomic_fadd_ret_f32_agent:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB4_1			; GFX10-NEXT: s_cbranch_execnz .LBB4_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_ret_f32_agent:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB4_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB4_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_ret_f32_system(float addrspace(1)* %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32_system(float addrspace(1)* %ptr) #0 {
	; GFX900-LABEL: global_atomic_fadd_ret_f32_system:			; GFX900-LABEL: global_atomic_fadd_ret_f32_system:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB5_1			; GFX10-NEXT: s_cbranch_execnz .LBB5_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_ret_f32_system:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB5_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB5_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("one-as") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("one-as") seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_ret_f32_wrong_subtarget(float addrspace(1)* %ptr) #1 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32_wrong_subtarget(float addrspace(1)* %ptr) #1 {
	; GCN-LABEL: global_atomic_fadd_ret_f32_wrong_subtarget:			; GCN-LABEL: global_atomic_fadd_ret_f32_wrong_subtarget:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; GFX900-NEXT: s_andn2_b64 exec, exec, s[2:3]			; GFX900-NEXT: s_andn2_b64 exec, exec, s[2:3]
	; GFX900-NEXT: s_cbranch_execnz .LBB8_1			; GFX900-NEXT: s_cbranch_execnz .LBB8_1
	; GFX900-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX900-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX900-NEXT: s_endpgm			; GFX900-NEXT: s_endpgm
	;			;
	; GFX908-LABEL: global_atomic_fadd_noret_f32_safe:			; GFX908-LABEL: global_atomic_fadd_noret_f32_safe:
	; GFX908: ; %bb.0:			; GFX908: ; %bb.0:
	; GFX908-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX908-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX908-NEXT: s_mov_b64 s[2:3], 0			; GFX908-NEXT: v_mov_b32_e32 v0, 0
	; GFX908-NEXT: v_mov_b32_e32 v2, 0			; GFX908-NEXT: v_mov_b32_e32 v1, 4.0
	; GFX908-NEXT: s_waitcnt lgkmcnt(0)
	; GFX908-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX908-NEXT: s_waitcnt lgkmcnt(0)
	; GFX908-NEXT: v_mov_b32_e32 v1, s4
	; GFX908-NEXT: .LBB8_1: ; %atomicrmw.start
	; GFX908-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX908-NEXT: v_add_f32_e32 v0, 4.0, v1
	; GFX908-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX908-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX908-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] glc			; GFX908-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
	; GFX908-NEXT: s_waitcnt vmcnt(0)			; GFX908-NEXT: s_waitcnt vmcnt(0)
	; GFX908-NEXT: buffer_wbinvl1_vol			; GFX908-NEXT: buffer_wbinvl1_vol
	; GFX908-NEXT: v_cmp_eq_u32_e32 vcc, v0, v1
	; GFX908-NEXT: s_or_b64 s[2:3], vcc, s[2:3]
	; GFX908-NEXT: v_mov_b32_e32 v1, v0
	; GFX908-NEXT: s_andn2_b64 exec, exec, s[2:3]
	; GFX908-NEXT: s_cbranch_execnz .LBB8_1
	; GFX908-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX908-NEXT: s_endpgm			; GFX908-NEXT: s_endpgm
	;			;
	; GFX90A-LABEL: global_atomic_fadd_noret_f32_safe:			; GFX90A-LABEL: global_atomic_fadd_noret_f32_safe:
	; GFX90A: ; %bb.0:			; GFX90A: ; %bb.0:
	; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX90A-NEXT: s_mov_b64 s[2:3], 0			; GFX90A-NEXT: s_mov_b64 s[2:3], 0
	; GFX90A-NEXT: v_mov_b32_e32 v2, 0			; GFX90A-NEXT: v_mov_b32_e32 v2, 0
	; GFX90A-NEXT: s_waitcnt lgkmcnt(0)			; GFX90A-NEXT: s_waitcnt lgkmcnt(0)
	Show All 35 Lines
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1
	; GFX10-NEXT: v_mov_b32_e32 v1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, v0
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB8_1			; GFX10-NEXT: s_cbranch_execnz .LBB8_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_noret_f32_safe:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v2, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB8_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_add_f32_e32 v0, 4.0, v1
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v0, v2, v[0:1], s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1
	; GFX11-NEXT: v_mov_b32_e32 v1, v0
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB8_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @infer_as_before_atomic(float* addrspace(4)* %arg) #0 {			define amdgpu_kernel void @infer_as_before_atomic(float* addrspace(4)* %arg) #0 {
	; GFX900-LABEL: infer_as_before_atomic:			; GFX900-LABEL: infer_as_before_atomic:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1
	; GFX10-NEXT: v_mov_b32_e32 v1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, v0
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB9_1			; GFX10-NEXT: s_cbranch_execnz .LBB9_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: infer_as_before_atomic:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 1.0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	%load = load float, float addrspace(4)* %arg			%load = load float, float addrspace(4)* %arg
	%v = atomicrmw fadd float* %load, float 1.0 syncscope("agent-one-as") monotonic, align 4			%v = atomicrmw fadd float* %load, float 1.0 syncscope("agent-one-as") monotonic, align 4
	ret void			ret void
	}			}

	attributes #0 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "amdgpu-unsafe-fp-atomics"="true" }			attributes #0 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "amdgpu-unsafe-fp-atomics"="true" }
	attributes #1 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "target-cpu"="gfx803" "target-features"="+atomic-fadd-no-rtn-insts" "amdgpu-unsafe-fp-atomics"="true" }			attributes #1 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "target-cpu"="gfx803" "target-features"="+atomic-fadd-no-rtn-insts" "amdgpu-unsafe-fp-atomics"="true" }
	attributes #2 = { "amdgpu-unsafe-fp-atomics"="true" }			attributes #2 = { "amdgpu-unsafe-fp-atomics"="true" }

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Improve atomicrmw fadd selection
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 451427

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-atomic-fadd-f32.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fp-atomics-gfx940.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.fadd-with-ret.ll

llvm/test/CodeGen/AMDGPU/global-atomics-fp.ll

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Improve atomicrmw fadd selectionClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 451427

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-atomic-fadd-f32.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fp-atomics-gfx940.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.fadd-with-ret.ll

llvm/test/CodeGen/AMDGPU/global-atomics-fp.ll

AMDGPU: Improve atomicrmw fadd selection
ClosedPublic