Diff 462025

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

Show First 20 Lines • Show All 1,335 Lines • ▼ Show 20 Lines	if (ST.hasLDSFPAtomicAdd()) {
Atomic.legalFor({{S32, LocalPtr}, {S32, RegionPtr}});		Atomic.legalFor({{S32, LocalPtr}, {S32, RegionPtr}});
if (ST.hasGFX90AInsts())		if (ST.hasGFX90AInsts())
Atomic.legalFor({{S64, LocalPtr}});		Atomic.legalFor({{S64, LocalPtr}});
if (ST.hasGFX940Insts())		if (ST.hasGFX940Insts())
Atomic.legalFor({{V2S16, LocalPtr}});		Atomic.legalFor({{V2S16, LocalPtr}});
}		}
if (ST.hasAtomicFaddInsts())		if (ST.hasAtomicFaddInsts())
Atomic.legalFor({{S32, GlobalPtr}});		Atomic.legalFor({{S32, GlobalPtr}});
		if (ST.hasGFX940Insts() \|\| ST.getGeneration() >= AMDGPUSubtarget::GFX11)
		arsenmUnsubmitted Not Done Reply Inline Actions Probably should factor this into a feature test arsenm: Probably should factor this into a feature test
		Atomic.legalFor({{S32, FlatPtr}});

		arsenmUnsubmitted Not Done Reply Inline Actions Using this predicate function instead of another ST method is inconsistent. Also can merge these two ifs into an or arsenm: Using this predicate function instead of another ST method is inconsistent. Also can merge…
if (ST.hasGFX90AInsts()) {		if (ST.hasGFX90AInsts()) {
// These are legal with some caveats, and should have undergone expansion in		// These are legal with some caveats, and should have undergone expansion in
// the IR in most situations		// the IR in most situations
// TODO: Move atomic expansion into legalizer		// TODO: Move atomic expansion into legalizer
// TODO: Also supports <2 x f16>
Atomic.legalFor({		Atomic.legalFor({
{S32, GlobalPtr},		{S32, GlobalPtr},
{S64, GlobalPtr},		{S64, GlobalPtr},
{S64, FlatPtr}		{S64, FlatPtr}
});		});
}		}

// BUFFER/FLAT_ATOMIC_CMP_SWAP on GCN GPUs needs input marshalling, and output		// BUFFER/FLAT_ATOMIC_CMP_SWAP on GCN GPUs needs input marshalling, and output
▲ Show 20 Lines • Show All 4,455 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

Show First 20 Lines • Show All 4,567 Lines • ▼ Show 20 Lines	case AMDGPU::G_INTRINSIC_W_SIDE_EFFECTS: {
case Intrinsic::amdgcn_global_atomic_fmax:		case Intrinsic::amdgcn_global_atomic_fmax:
case Intrinsic::amdgcn_flat_atomic_fadd:		case Intrinsic::amdgcn_flat_atomic_fadd:
case Intrinsic::amdgcn_flat_atomic_fmin:		case Intrinsic::amdgcn_flat_atomic_fmin:
case Intrinsic::amdgcn_flat_atomic_fmax:		case Intrinsic::amdgcn_flat_atomic_fmax:
case Intrinsic::amdgcn_global_atomic_fadd_v2bf16:		case Intrinsic::amdgcn_global_atomic_fadd_v2bf16:
case Intrinsic::amdgcn_flat_atomic_fadd_v2bf16:		case Intrinsic::amdgcn_flat_atomic_fadd_v2bf16:
return getDefaultMappingAllVGPR(MI);		return getDefaultMappingAllVGPR(MI);
case Intrinsic::amdgcn_ds_ordered_add:		case Intrinsic::amdgcn_ds_ordered_add:
case Intrinsic::amdgcn_ds_ordered_swap: {		case Intrinsic::amdgcn_ds_ordered_swap:
		case Intrinsic::amdgcn_ds_fadd_v2bf16: {
unsigned DstSize = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();		unsigned DstSize = MRI.getType(MI.getOperand(0).getReg()).getSizeInBits();
OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, DstSize);		OpdsMapping[0] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, DstSize);
unsigned M0Bank = getRegBankID(MI.getOperand(2).getReg(), MRI,		unsigned M0Bank = getRegBankID(MI.getOperand(2).getReg(), MRI,
AMDGPU::SGPRRegBankID);		AMDGPU::SGPRRegBankID);
OpdsMapping[2] = AMDGPU::getValueMapping(M0Bank, 32);		OpdsMapping[2] = AMDGPU::getValueMapping(M0Bank, 32);
OpdsMapping[3] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, 32);		OpdsMapping[3] = AMDGPU::getValueMapping(AMDGPU::VGPRRegBankID, 32);
break;		break;
}		}
▲ Show 20 Lines • Show All 290 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 12,774 Lines • ▼ Show 20 Lines	SITargetLowering::shouldExpandAtomicRMWInIR(AtomicRMWInst *RMW) const {
case AtomicRMWInst::FAdd: {		case AtomicRMWInst::FAdd: {
Type *Ty = RMW->getType();		Type *Ty = RMW->getType();

// We don't have a way to support 16-bit atomics now, so just leave them		// We don't have a way to support 16-bit atomics now, so just leave them
// as-is.		// as-is.
if (Ty->isHalfTy())		if (Ty->isHalfTy())
return AtomicExpansionKind::None;		return AtomicExpansionKind::None;

if (!Ty->isFloatTy() && (!Subtarget->hasGFX90AInsts() \|\| !Ty->isDoubleTy()))		if (!Ty->isFloatTy() && (!Subtarget->hasGFX90AInsts() \|\| !Ty->isDoubleTy()))
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;

if ((AS == AMDGPUAS::GLOBAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS) &&		if (AS == AMDGPUAS::GLOBAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS) {
		arsenmUnsubmitted Not Done Reply Inline Actions The flow of these options is getting too hard to follow. You're basically repeating all the same checks as above, so why not treat this as an independent case before the outer if? arsenm: The flow of these options is getting too hard to follow. You're basically repeating all the…
		rampitecUnsubmitted Not Done Reply Inline Actions The logic below seems correct to me, but why dropping `hasAtomicFaddNoRtnInsts` check? It is a fast way to skip the whole block for the targets which do not have it at all. rampitec: The logic below seems correct to me, but why dropping `hasAtomicFaddNoRtnInsts` check? It is a…
Subtarget->hasAtomicFaddNoRtnInsts()) {
if (Subtarget->hasGFX940Insts())
return AtomicExpansionKind::None;

// The amdgpu-unsafe-fp-atomics attribute enables generation of unsafe		// The amdgpu-unsafe-fp-atomics attribute enables generation of unsafe
		rampitecUnsubmitted Not Done Reply Inline Actions I think both are still unsafe even when supported, on both targets. rampitec: I think both are still unsafe even when supported, on both targets.
		b-sumnerUnsubmitted Not Done Reply Inline Actions I agree, these are unsafe. b-sumner: I agree, these are unsafe.
		Petar.AvramovicAuthorUnsubmitted Done Reply Inline Actions In order to simplify all these conditions: Obvious first requirement is that subtarget needs to have instruction. for gfx940 (MI300) having instruction is enough for all other subtargets fadd is unsafe and can be selected only when function has amdgpu-unsafe-fp-atomics=true and atomic rmw needs to be non-system scope and not "one-as" Second bullet is already implemented for gfx90a (MI200). If I understand this correctly, fadd atomic rmw for gfx908(MI100) and gfx11 is unsafe like for MI200 and can be selected under same conditions. summary of logic // mi300 if `subtarget == gfx940` and `subtarget has instruction` don't expand and return // mi100, mi200, gfx11+ if 'amdgpu-unsafe-fp-atomics=true' and 'scope is non-system' and `subtarget has instruction` don't expand and return expand Petar.Avramovic: In order to simplify all these conditions: Obvious first requirement is that subtarget needs to…
		b-sumnerUnsubmitted Not Done Reply Inline Actions There will be variants of gfx940 where atomics are still unsafe, so probably better to use the same approach as for gfx90a. b-sumner: There will be variants of gfx940 where atomics are still unsafe, so probably better to use the…
		rampitecUnsubmitted Not Done Reply Inline Actions I am not completely sure about system scope though, is that OK for gfx908 and gfx11? It is certainly unsafe in terms of denorm handling. rampitec: I am not completely sure about system scope though, is that OK for gfx908 and gfx11? It is…
// floating point atomic instructions. May generate more efficient code,		// floating point atomic instructions. May generate more efficient code,
// but may not respect rounding and denormal modes, and may give incorrect		// but may not respect rounding and denormal modes, and may give incorrect
// results for certain memory destinations.		// results for certain memory destinations.
if (RMW->getFunction()		if (RMW->getFunction()
->getFnAttribute("amdgpu-unsafe-fp-atomics")		->getFnAttribute("amdgpu-unsafe-fp-atomics")
.getValueAsString() != "true")		.getValueAsString() != "true")
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;

if (Subtarget->hasGFX90AInsts()) {		// Always expand system scope fp atomics.
if (Ty->isFloatTy() && AS == AMDGPUAS::FLAT_ADDRESS)
return AtomicExpansionKind::CmpXChg;

auto SSID = RMW->getSyncScopeID();		auto SSID = RMW->getSyncScopeID();
if (SSID == SyncScope::System \|\|		if (SSID == SyncScope::System \|\|
SSID == RMW->getContext().getOrInsertSyncScopeID("one-as"))		SSID == RMW->getContext().getOrInsertSyncScopeID("one-as"))
return AtomicExpansionKind::CmpXChg;		return AtomicExpansionKind::CmpXChg;

		if (AS == AMDGPUAS::GLOBAL_ADDRESS && Ty->isFloatTy()) {
		// global atomic fadd f32 no-rtn: gfx908, gfx90a, gfx940, gfx11+.
		if (RMW->use_empty() && Subtarget->hasAtomicFaddNoRtnInsts())
		tianshilei1992Unsubmitted Not Done Reply Inline Actions If I read it correctly, `Subtarget->hasAtomicFaddNoRtnInsts()` is always true here right? Because it is in the block: if ((AS == AMDGPUAS::GLOBAL_ADDRESS \|\| AS == AMDGPUAS::FLAT_ADDRESS) && Subtarget->hasAtomicFaddNoRtnInsts()) { tianshilei1992: If I read it correctly, `Subtarget->hasAtomicFaddNoRtnInsts()` is always true here right?
		return ReportUnsafeHWInst(AtomicExpansionKind::None);
		// global atomic fadd f32 rtn: gfx90a, gfx940, gfx11+.
		if (!RMW->use_empty() && Subtarget->hasAtomicFaddRtnInsts())
return ReportUnsafeHWInst(AtomicExpansionKind::None);		return ReportUnsafeHWInst(AtomicExpansionKind::None);
}		}

if (AS == AMDGPUAS::FLAT_ADDRESS)		// flat atomic fadd f32: gfx940, gfx11+.
return AtomicExpansionKind::CmpXChg;		if (AS == AMDGPUAS::FLAT_ADDRESS && Ty->isFloatTy() &&
		(Subtarget->hasGFX940Insts() \|\|
		Subtarget->getGeneration() >= AMDGPUSubtarget::GFX11))
		return ReportUnsafeHWInst(AtomicExpansionKind::None);

return RMW->use_empty() ? ReportUnsafeHWInst(AtomicExpansionKind::None)		// global and flat atomic fadd f64: gfx90a, gfx940.
: AtomicExpansionKind::CmpXChg;		if (Ty->isDoubleTy() && Subtarget->hasGFX90AInsts())
		return ReportUnsafeHWInst(AtomicExpansionKind::None);

		return AtomicExpansionKind::CmpXChg;
}		}

// DS FP atomics do respect the denormal mode, but the rounding mode is		// DS FP atomics do respect the denormal mode, but the rounding mode is
// fixed to round-to-nearest-even.		// fixed to round-to-nearest-even.
// The only exception is DS_ADD_F64 which never flushes regardless of mode.		// The only exception is DS_ADD_F64 which never flushes regardless of mode.
if (AS == AMDGPUAS::LOCAL_ADDRESS && Subtarget->hasLDSFPAtomicAdd()) {		if (AS == AMDGPUAS::LOCAL_ADDRESS && Subtarget->hasLDSFPAtomicAdd()) {
if (!Ty->isDoubleTy())		if (!Ty->isDoubleTy())
return AtomicExpansionKind::None;		return AtomicExpansionKind::None;
▲ Show 20 Lines • Show All 191 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-atomic-fadd.f32.ll

	; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=MI300 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx940 -verify-machineinstrs -stop-after=instruction-select < %s \| FileCheck -check-prefix=MI300 %s
	; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=GFX11 %s			; RUN: not --crash llc -global-isel -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs -stop-after=instruction-select < %s 2>&1 \| FileCheck -check-prefix=GFX11 %s

	; MI300: LLVM ERROR: unable to legalize instruction: %{{[0-9]+}}:_(s32) = G_ATOMICRMW_FADD
	; GFX11: LLVM ERROR: cannot select: %{{[0-9]+}}:vgpr(s32) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.flat.atomic.fadd)			; GFX11: LLVM ERROR: cannot select: %{{[0-9]+}}:vgpr(s32) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.flat.atomic.fadd)

	define amdgpu_ps void @flat_atomic_fadd_f32_no_rtn_intrinsic(float* %ptr, float %data) {			define amdgpu_ps void @flat_atomic_fadd_f32_no_rtn_intrinsic(float* %ptr, float %data) {
				; MI300-LABEL: name: flat_atomic_fadd_f32_no_rtn_intrinsic
				; MI300: bb.1 (%ir-block.0):
				; MI300-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; MI300-NEXT: {{ $}}
				; MI300-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; MI300-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; MI300-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; MI300-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; MI300-NEXT: FLAT_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr)
				; MI300-NEXT: S_ENDPGM 0
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float* %ptr, float %data)
	ret void			ret void
	}			}

	define amdgpu_ps float @flat_atomic_fadd_f32_rtn_intrinsic(float* %ptr, float %data) {			define amdgpu_ps float @flat_atomic_fadd_f32_rtn_intrinsic(float* %ptr, float %data) {
				; MI300-LABEL: name: flat_atomic_fadd_f32_rtn_intrinsic
				; MI300: bb.1 (%ir-block.0):
				; MI300-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; MI300-NEXT: {{ $}}
				; MI300-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; MI300-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; MI300-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; MI300-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; MI300-NEXT: [[FLAT_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec, implicit $flat_scr :: (volatile dereferenceable load store (s32) on %ir.ptr)
				; MI300-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_ADD_F32_RTN]]
				; MI300-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	define amdgpu_ps void @flat_atomic_fadd_f32_no_rtn_atomicrmw(float* %ptr, float %data) #0 {			define amdgpu_ps void @flat_atomic_fadd_f32_no_rtn_atomicrmw(float* %ptr, float %data) #0 {
				; MI300-LABEL: name: flat_atomic_fadd_f32_no_rtn_atomicrmw
				; MI300: bb.1 (%ir-block.0):
				; MI300-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; MI300-NEXT: {{ $}}
				; MI300-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; MI300-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; MI300-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; MI300-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; MI300-NEXT: FLAT_ATOMIC_ADD_F32 [[REG_SEQUENCE]], [[COPY2]], 0, 0, implicit $exec, implicit $flat_scr :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr)
				; MI300-NEXT: S_ENDPGM 0
	%ret = atomicrmw fadd float* %ptr, float %data syncscope("wavefront") monotonic			%ret = atomicrmw fadd float* %ptr, float %data syncscope("wavefront") monotonic
	ret void			ret void
	}			}

	define amdgpu_ps float @flat_atomic_fadd_f32_rtn_atomicrmw(float* %ptr, float %data) #0 {			define amdgpu_ps float @flat_atomic_fadd_f32_rtn_atomicrmw(float* %ptr, float %data) #0 {
				; MI300-LABEL: name: flat_atomic_fadd_f32_rtn_atomicrmw
				; MI300: bb.1 (%ir-block.0):
				; MI300-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; MI300-NEXT: {{ $}}
				; MI300-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; MI300-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; MI300-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64_align2 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; MI300-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; MI300-NEXT: [[FLAT_ATOMIC_ADD_F32_RTN:%[0-9]+]]:vgpr_32 = FLAT_ATOMIC_ADD_F32_RTN [[REG_SEQUENCE]], [[COPY2]], 0, 1, implicit $exec, implicit $flat_scr :: (load store syncscope("wavefront") monotonic (s32) on %ir.ptr)
				; MI300-NEXT: $vgpr0 = COPY [[FLAT_ATOMIC_ADD_F32_RTN]]
				; MI300-NEXT: SI_RETURN_TO_EPILOG implicit $vgpr0
	%ret = atomicrmw fadd float* %ptr, float %data syncscope("wavefront") monotonic			%ret = atomicrmw fadd float* %ptr, float %data syncscope("wavefront") monotonic
	ret float %ret			ret float %ret
	}			}

	declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float*, float)			declare float @llvm.amdgcn.flat.atomic.fadd.f32.p1f32.f32(float*, float)

	attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }			attributes #0 = {"amdgpu-unsafe-fp-atomics"="true" }

llvm/test/CodeGen/AMDGPU/GlobalISel/fp-atomics-gfx940.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -march=amdgcn -mcpu=gfx940 -verify-machineinstrs \| FileCheck %s -check-prefix=GFX940			; RUN: llc < %s -march=amdgcn -mcpu=gfx940 -global-isel -verify-machineinstrs \| FileCheck %s -check-prefix=GFX940

	declare float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)			declare float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)
	declare <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)			declare <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)

	; bf16 atomics use v2i16 argument since there is no bf16 data type in the llvm.			; bf16 atomics use v2i16 argument since there is no bf16 data type in the llvm.
	declare <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)			declare <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)
	declare <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)			declare <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)
	declare <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3) * %ptr, <2 x half> %data, i32, i32, i1)			declare <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3) * %ptr, <2 x half> %data, i32, i32, i1)
	declare <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3) * %ptr, <2 x i16> %data)			declare <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3) * %ptr, <2 x i16> %data)

	define amdgpu_kernel void @flat_atomic_fadd_f32_noret(float* %ptr, float %data) {			define amdgpu_kernel void @flat_atomic_fadd_f32_noret(float* %ptr, float %data) {
	; GFX940-LABEL: flat_atomic_fadd_f32_noret:			; GFX940-LABEL: flat_atomic_fadd_f32_noret:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]			; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]
	; GFX940-NEXT: v_mov_b32_e32 v2, s4			; GFX940-NEXT: v_mov_b32_e32 v2, s4
	; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2			; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2
	; GFX940-NEXT: s_endpgm			; GFX940-NEXT: s_endpgm
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)
	ret void			ret void
	}			}

				define amdgpu_kernel void @flat_atomic_fadd_f32_noret_pat(float* %ptr) {
				; GFX940-LABEL: flat_atomic_fadd_f32_noret_pat:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX940-NEXT: s_mov_b64 s[2:3], 0
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
				; GFX940-NEXT: flat_load_dword v1, v[0:1]
				; GFX940-NEXT: .LBB1_1: ; %atomicrmw.start
				; GFX940-NEXT: ; =>This Inner Loop Header: Depth=1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: v_add_f32_e32 v0, 4.0, v1
				; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[0:1]
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_cmpswap v0, v[2:3], v[0:1] sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: v_cmp_eq_u32_e32 vcc, v0, v1
				; GFX940-NEXT: s_or_b64 s[2:3], vcc, s[2:3]
				; GFX940-NEXT: v_mov_b32_e32 v1, v0
				; GFX940-NEXT: s_andn2_b64 exec, exec, s[2:3]
				; GFX940-NEXT: s_cbranch_execnz .LBB1_1
				; GFX940-NEXT: ; %bb.2: ; %atomicrmw.end
				; GFX940-NEXT: s_endpgm
				%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
				ret void
				}

				define amdgpu_kernel void @flat_atomic_fadd_f32_noret_pat_ieee(float* %ptr) #0 {
				; GFX940-LABEL: flat_atomic_fadd_f32_noret_pat_ieee:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX940-NEXT: s_mov_b64 s[2:3], 0
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
				; GFX940-NEXT: flat_load_dword v1, v[0:1]
				; GFX940-NEXT: .LBB2_1: ; %atomicrmw.start
				; GFX940-NEXT: ; =>This Inner Loop Header: Depth=1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: v_add_f32_e32 v0, 4.0, v1
				; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[0:1]
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_cmpswap v0, v[2:3], v[0:1] sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: v_cmp_eq_u32_e32 vcc, v0, v1
				; GFX940-NEXT: s_or_b64 s[2:3], vcc, s[2:3]
				; GFX940-NEXT: v_mov_b32_e32 v1, v0
				; GFX940-NEXT: s_andn2_b64 exec, exec, s[2:3]
				; GFX940-NEXT: s_cbranch_execnz .LBB2_1
				; GFX940-NEXT: ; %bb.2: ; %atomicrmw.end
				; GFX940-NEXT: s_endpgm
				%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
				ret void
				}

	define float @flat_atomic_fadd_f32_rtn(float* %ptr, float %data) {			define float @flat_atomic_fadd_f32_rtn(float* %ptr, float %data) {
	; GFX940-LABEL: flat_atomic_fadd_f32_rtn:			; GFX940-LABEL: flat_atomic_fadd_f32_rtn:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX940-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 sc0			; GFX940-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 sc0
	; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX940-NEXT: s_setpc_b64 s[30:31]			; GFX940-NEXT: s_setpc_b64 s[30:31]
	%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)			%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

				define float @flat_atomic_fadd_f32_rtn_pat(float* %ptr, float %data) {
				; GFX940-LABEL: flat_atomic_fadd_f32_rtn_pat:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_load_dword v2, v[0:1]
				; GFX940-NEXT: s_mov_b64 s[0:1], 0
				; GFX940-NEXT: .LBB4_1: ; %atomicrmw.start
				; GFX940-NEXT: ; =>This Inner Loop Header: Depth=1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: v_mov_b32_e32 v3, v2
				; GFX940-NEXT: v_add_f32_e32 v2, 4.0, v3
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: v_cmp_eq_u32_e32 vcc, v2, v3
				; GFX940-NEXT: s_or_b64 s[0:1], vcc, s[0:1]
				; GFX940-NEXT: s_andn2_b64 exec, exec, s[0:1]
				; GFX940-NEXT: s_cbranch_execnz .LBB4_1
				; GFX940-NEXT: ; %bb.2: ; %atomicrmw.end
				; GFX940-NEXT: s_or_b64 exec, exec, s[0:1]
				; GFX940-NEXT: v_mov_b32_e32 v0, v2
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
				ret float %ret
				}

	define amdgpu_kernel void @flat_atomic_fadd_v2f16_noret(<2 x half>* %ptr, <2 x half> %data) {			define amdgpu_kernel void @flat_atomic_fadd_v2f16_noret(<2 x half>* %ptr, <2 x half> %data) {
	; GFX940-LABEL: flat_atomic_fadd_v2f16_noret:			; GFX940-LABEL: flat_atomic_fadd_v2f16_noret:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]			; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]
	; GFX940-NEXT: v_mov_b32_e32 v2, s4			; GFX940-NEXT: v_mov_b32_e32 v2, s4
	Show All 9 Lines
	; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX940-NEXT: flat_atomic_pk_add_f16 v0, v[0:1], v2 sc0			; GFX940-NEXT: flat_atomic_pk_add_f16 v0, v[0:1], v2 sc0
	; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX940-NEXT: s_setpc_b64 s[30:31]			; GFX940-NEXT: s_setpc_b64 s[30:31]
	%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.flat.atomic.fadd.v2f16.p0v2f16.v2f16(<2 x half>* %ptr, <2 x half> %data)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

				define amdgpu_kernel void @flat_atomic_fadd_v2bf16_noret(<2 x i16>* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: flat_atomic_fadd_v2bf16_noret:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[2:3]
				; GFX940-NEXT: v_mov_b32_e32 v2, s4
				; GFX940-NEXT: flat_atomic_pk_add_bf16 v[0:1], v2
				; GFX940-NEXT: s_endpgm
				%ret = call <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)
				ret void
				}

				define <2 x i16> @flat_atomic_fadd_v2bf16_rtn(<2 x i16>* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: flat_atomic_fadd_v2bf16_rtn:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: flat_atomic_pk_add_bf16 v0, v[0:1], v2 sc0
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = call <2 x i16> @llvm.amdgcn.flat.atomic.fadd.v2bf16.p0v2i16(<2 x i16>* %ptr, <2 x i16> %data)
				ret <2 x i16> %ret
				}

				define amdgpu_kernel void @global_atomic_fadd_v2bf16_noret(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: global_atomic_fadd_v2bf16_noret:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dword s4, s[0:1], 0x2c
				; GFX940-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
				; GFX940-NEXT: v_mov_b32_e32 v1, 0
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b32_e32 v0, s4
				; GFX940-NEXT: global_atomic_pk_add_bf16 v1, v0, s[2:3]
				; GFX940-NEXT: s_endpgm
				%ret = call <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)
				ret void
				}

				define <2 x i16> @global_atomic_fadd_v2bf16_rtn(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: global_atomic_fadd_v2bf16_rtn:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: global_atomic_pk_add_bf16 v0, v[0:1], v2, off sc0
				; GFX940-NEXT: s_waitcnt vmcnt(0)
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = call <2 x i16> @llvm.amdgcn.global.atomic.fadd.v2bf16.p1v2i16(<2 x i16> addrspace(1)* %ptr, <2 x i16> %data)
				ret <2 x i16> %ret
				}

	define amdgpu_kernel void @local_atomic_fadd_v2f16_noret(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {			define amdgpu_kernel void @local_atomic_fadd_v2f16_noret(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {
	; GFX940-LABEL: local_atomic_fadd_v2f16_noret:			; GFX940-LABEL: local_atomic_fadd_v2f16_noret:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: v_mov_b32_e32 v0, s0			; GFX940-NEXT: v_mov_b32_e32 v0, s0
	; GFX940-NEXT: v_mov_b32_e32 v1, s1			; GFX940-NEXT: v_mov_b32_e32 v1, s1
	; GFX940-NEXT: ds_pk_add_f16 v0, v1			; GFX940-NEXT: ds_pk_add_f16 v0, v1
	; GFX940-NEXT: s_endpgm			; GFX940-NEXT: s_endpgm
	%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)			%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)
	ret void			ret void
	}			}

	define <2 x half> @local_atomic_fadd_v2f16_rtn(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {			define <2 x half> @local_atomic_fadd_v2f16_rtn(<2 x half> addrspace(3)* %ptr, <2 x half> %data) {
	; GFX940-LABEL: local_atomic_fadd_v2f16_rtn:			; GFX940-LABEL: local_atomic_fadd_v2f16_rtn:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX940-NEXT: ds_pk_add_rtn_f16 v0, v0, v1			; GFX940-NEXT: ds_pk_add_rtn_f16 v0, v0, v1
	; GFX940-NEXT: s_waitcnt lgkmcnt(0)			; GFX940-NEXT: s_waitcnt lgkmcnt(0)
	; GFX940-NEXT: s_setpc_b64 s[30:31]			; GFX940-NEXT: s_setpc_b64 s[30:31]
	%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)			%ret = call <2 x half> @llvm.amdgcn.ds.fadd.v2f16(<2 x half> addrspace(3)* %ptr, <2 x half> %data, i32 0, i32 0, i1 0)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

				define amdgpu_kernel void @local_atomic_fadd_v2bf16_noret(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: local_atomic_fadd_v2bf16_noret:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
				; GFX940-NEXT: s_waitcnt lgkmcnt(0)
				; GFX940-NEXT: v_mov_b32_e32 v0, s1
				; GFX940-NEXT: v_mov_b32_e32 v1, s0
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: ds_pk_add_bf16 v1, v0
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_endpgm
				%ret = call <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data)
				ret void
				}

				define <2 x i16> @local_atomic_fadd_v2bf16_rtn(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data) {
				; GFX940-LABEL: local_atomic_fadd_v2bf16_rtn:
				; GFX940: ; %bb.0:
				; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_wbl2 sc0 sc1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: ds_pk_add_rtn_bf16 v0, v0, v1
				; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX940-NEXT: buffer_inv sc0 sc1
				; GFX940-NEXT: s_setpc_b64 s[30:31]
				%ret = call <2 x i16> @llvm.amdgcn.ds.fadd.v2bf16(<2 x i16> addrspace(3)* %ptr, <2 x i16> %data)
				ret <2 x i16> %ret
				}

				attributes #0 = { "denormal-fp-math-f32"="ieee,ieee" }

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.fadd-with-ret.ll

	; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s			; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GFX90A %s
	; RUN: not --crash llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908			; RUN: not --crash llc -global-isel < %s -march=amdgcn -mcpu=gfx908 -verify-machineinstrs 2>&1 \| FileCheck %s -check-prefix=GFX908

	declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* nocapture, float)			declare float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* nocapture, float)
	declare <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* nocapture, <2 x half>)			declare <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* nocapture, <2 x half>)

	; GFX908: error: {{.*}} return versions of fp atomics not supported			; GFX908: LLVM ERROR: cannot select: %{{[0-9]+}}:vgpr_32(s32) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.global.atomic.fadd)
				arsenmUnsubmitted Not Done Reply Inline Actions Degrading the error is somewhat unfortunate, but we don't consistently do this anyway arsenm: Degrading the error is somewhat unfortunate, but we don't consistently do this anyway

	; GFX90A-LABEL: {{^}}global_atomic_fadd_f32_rtn:			; GFX90A-LABEL: {{^}}global_atomic_fadd_f32_rtn:
	; GFX90A: global_atomic_add_f32 v0, v[0:1], v2, off glc			; GFX90A: global_atomic_add_f32 v0, v[0:1], v2, off glc
	define float @global_atomic_fadd_f32_rtn(float addrspace(1)* %ptr, float %data) {			define float @global_atomic_fadd_f32_rtn(float addrspace(1)* %ptr, float %data) {
	%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)			%ret = call float @llvm.amdgcn.global.atomic.fadd.f32.p1f32.f32(float addrspace(1)* %ptr, float %data)
	ret float %ret			ret float %ret
	}			}

	; GFX90A-LABEL: {{^}}global_atomic_fadd_v2f16_rtn:			; GFX90A-LABEL: {{^}}global_atomic_fadd_v2f16_rtn:
	; GFX90A: global_atomic_pk_add_f16 v0, v[0:1], v2, off glc			; GFX90A: global_atomic_pk_add_f16 v0, v[0:1], v2, off glc
	define <2 x half> @global_atomic_fadd_v2f16_rtn(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {			define <2 x half> @global_atomic_fadd_v2f16_rtn(<2 x half> addrspace(1)* %ptr, <2 x half> %data) {
	%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)			%ret = call <2 x half> @llvm.amdgcn.global.atomic.fadd.f32.p1v2f16.v2f16(<2 x half> addrspace(1)* %ptr, <2 x half> %data)
	ret <2 x half> %ret			ret <2 x half> %ret
	}			}

llvm/test/CodeGen/AMDGPU/fp-atomics-gfx940.ll

Show All 22 Lines	; GFX940-NEXT: s_endpgm
%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)		%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)
ret void		ret void
}		}

define amdgpu_kernel void @flat_atomic_fadd_f32_noret_pat(float* %ptr) {		define amdgpu_kernel void @flat_atomic_fadd_f32_noret_pat(float* %ptr) {
; GFX940-LABEL: flat_atomic_fadd_f32_noret_pat:		; GFX940-LABEL: flat_atomic_fadd_f32_noret_pat:
; GFX940: ; %bb.0:		; GFX940: ; %bb.0:
; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX940-NEXT: v_mov_b32_e32 v2, 4.0		; GFX940-NEXT: s_mov_b64 s[2:3], 0
; GFX940-NEXT: s_waitcnt lgkmcnt(0)		; GFX940-NEXT: s_waitcnt lgkmcnt(0)
; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]		; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
		; GFX940-NEXT: flat_load_dword v1, v[0:1]
		; GFX940-NEXT: .LBB1_1: ; %atomicrmw.start
		; GFX940-NEXT: ; =>This Inner Loop Header: Depth=1
		; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
		; GFX940-NEXT: v_add_f32_e32 v0, 4.0, v1
		; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[0:1]
; GFX940-NEXT: buffer_wbl2 sc0 sc1		; GFX940-NEXT: buffer_wbl2 sc0 sc1
; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2 sc1		; GFX940-NEXT: flat_atomic_cmpswap v0, v[2:3], v[0:1] sc0 sc1
; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX940-NEXT: buffer_inv sc0 sc1		; GFX940-NEXT: buffer_inv sc0 sc1
		; GFX940-NEXT: v_cmp_eq_u32_e32 vcc, v0, v1
		; GFX940-NEXT: s_or_b64 s[2:3], vcc, s[2:3]
		; GFX940-NEXT: v_mov_b32_e32 v1, v0
		; GFX940-NEXT: s_andn2_b64 exec, exec, s[2:3]
		; GFX940-NEXT: s_cbranch_execnz .LBB1_1
		; GFX940-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX940-NEXT: s_endpgm		; GFX940-NEXT: s_endpgm
%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst		%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
ret void		ret void
}		}

define amdgpu_kernel void @flat_atomic_fadd_f32_noret_pat_ieee(float* %ptr) #0 {		define amdgpu_kernel void @flat_atomic_fadd_f32_noret_pat_ieee(float* %ptr) #0 {
; GFX940-LABEL: flat_atomic_fadd_f32_noret_pat_ieee:		; GFX940-LABEL: flat_atomic_fadd_f32_noret_pat_ieee:
; GFX940: ; %bb.0:		; GFX940: ; %bb.0:
; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX940-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX940-NEXT: v_mov_b32_e32 v2, 4.0		; GFX940-NEXT: s_mov_b64 s[2:3], 0
; GFX940-NEXT: s_waitcnt lgkmcnt(0)		; GFX940-NEXT: s_waitcnt lgkmcnt(0)
; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]		; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
		; GFX940-NEXT: flat_load_dword v1, v[0:1]
		; GFX940-NEXT: .LBB2_1: ; %atomicrmw.start
		; GFX940-NEXT: ; =>This Inner Loop Header: Depth=1
		; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
		; GFX940-NEXT: v_add_f32_e32 v0, 4.0, v1
		; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[0:1]
; GFX940-NEXT: buffer_wbl2 sc0 sc1		; GFX940-NEXT: buffer_wbl2 sc0 sc1
; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX940-NEXT: flat_atomic_add_f32 v[0:1], v2 sc1		; GFX940-NEXT: flat_atomic_cmpswap v0, v[2:3], v[0:1] sc0 sc1
; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX940-NEXT: buffer_inv sc0 sc1		; GFX940-NEXT: buffer_inv sc0 sc1
		; GFX940-NEXT: v_cmp_eq_u32_e32 vcc, v0, v1
		; GFX940-NEXT: s_or_b64 s[2:3], vcc, s[2:3]
		; GFX940-NEXT: v_mov_b32_e32 v1, v0
		; GFX940-NEXT: s_andn2_b64 exec, exec, s[2:3]
		; GFX940-NEXT: s_cbranch_execnz .LBB2_1
		; GFX940-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX940-NEXT: s_endpgm		; GFX940-NEXT: s_endpgm
%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst		%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
ret void		ret void
}		}

define float @flat_atomic_fadd_f32_rtn(float* %ptr, float %data) {		define float @flat_atomic_fadd_f32_rtn(float* %ptr, float %data) {
; GFX940-LABEL: flat_atomic_fadd_f32_rtn:		; GFX940-LABEL: flat_atomic_fadd_f32_rtn:
; GFX940: ; %bb.0:		; GFX940: ; %bb.0:
; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX940-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 sc0		; GFX940-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 sc0
; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX940-NEXT: s_setpc_b64 s[30:31]		; GFX940-NEXT: s_setpc_b64 s[30:31]
%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)		%ret = call float @llvm.amdgcn.flat.atomic.fadd.f32.p0f32.f32(float* %ptr, float %data)
ret float %ret		ret float %ret
}		}

define float @flat_atomic_fadd_f32_rtn_pat(float* %ptr, float %data) {		define float @flat_atomic_fadd_f32_rtn_pat(float* %ptr, float %data) {
; GFX940-LABEL: flat_atomic_fadd_f32_rtn_pat:		; GFX940-LABEL: flat_atomic_fadd_f32_rtn_pat:
; GFX940: ; %bb.0:		; GFX940: ; %bb.0:
; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX940-NEXT: v_mov_b32_e32 v2, 4.0		; GFX940-NEXT: flat_load_dword v2, v[0:1]
		; GFX940-NEXT: s_mov_b64 s[0:1], 0
		; GFX940-NEXT: .LBB4_1: ; %atomicrmw.start
		; GFX940-NEXT: ; =>This Inner Loop Header: Depth=1
		; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
		; GFX940-NEXT: v_mov_b32_e32 v3, v2
		; GFX940-NEXT: v_add_f32_e32 v2, 4.0, v3
; GFX940-NEXT: buffer_wbl2 sc0 sc1		; GFX940-NEXT: buffer_wbl2 sc0 sc1
; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX940-NEXT: flat_atomic_add_f32 v0, v[0:1], v2 sc0 sc1		; GFX940-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] sc0 sc1
; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX940-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX940-NEXT: buffer_inv sc0 sc1		; GFX940-NEXT: buffer_inv sc0 sc1
		; GFX940-NEXT: v_cmp_eq_u32_e32 vcc, v2, v3
		; GFX940-NEXT: s_or_b64 s[0:1], vcc, s[0:1]
		; GFX940-NEXT: s_andn2_b64 exec, exec, s[0:1]
		; GFX940-NEXT: s_cbranch_execnz .LBB4_1
		; GFX940-NEXT: ; %bb.2: ; %atomicrmw.end
		; GFX940-NEXT: s_or_b64 exec, exec, s[0:1]
		; GFX940-NEXT: v_mov_b32_e32 v0, v2
; GFX940-NEXT: s_setpc_b64 s[30:31]		; GFX940-NEXT: s_setpc_b64 s[30:31]
%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst		%ret = atomicrmw fadd float* %ptr, float 4.0 seq_cst
ret float %ret		ret float %ret
}		}

define amdgpu_kernel void @flat_atomic_fadd_v2f16_noret(<2 x half>* %ptr, <2 x half> %data) {		define amdgpu_kernel void @flat_atomic_fadd_v2f16_noret(<2 x half>* %ptr, <2 x half> %data) {
; GFX940-LABEL: flat_atomic_fadd_v2f16_noret:		; GFX940-LABEL: flat_atomic_fadd_v2f16_noret:
; GFX940: ; %bb.0:		; GFX940: ; %bb.0:
▲ Show 20 Lines • Show All 128 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/global-atomics-fp.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX900 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX900 %s
	; RUN: llc -march=amdgcn -mcpu=gfx908 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX908 %s			; RUN: llc -march=amdgcn -mcpu=gfx908 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX908 %s
	; RUN: llc -march=amdgcn -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX90A %s			; RUN: llc -march=amdgcn -mcpu=gfx90a -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX90A %s
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX10 %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX10 %s
	; RUN: llc -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX11 %s			; RUN: not --crash llc -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -verify-machineinstrs < %s 2>&1 \| FileCheck -enable-var-scope -check-prefixes=GFX11 %s

				; GFX11: LLVM ERROR: Cannot select: {{.+}}: f32,ch = AtomicLoadFAdd<(load store syncscope("agent") seq_cst

	define amdgpu_kernel void @global_atomic_fadd_ret_f32(float addrspace(1)* %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32(float addrspace(1)* %ptr) #0 {
	; GFX900-LABEL: global_atomic_fadd_ret_f32:			; GFX900-LABEL: global_atomic_fadd_ret_f32:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX900-NEXT: s_mov_b64 s[2:3], 0			; GFX900-NEXT: s_mov_b64 s[2:3], 0
	; GFX900-NEXT: v_mov_b32_e32 v0, 0			; GFX900-NEXT: v_mov_b32_e32 v0, 0
	; GFX900-NEXT: s_waitcnt lgkmcnt(0)			; GFX900-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB0_1			; GFX10-NEXT: s_cbranch_execnz .LBB0_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_ret_f32:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB0_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB0_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_ret_f32_ieee(float addrspace(1)* %ptr) #2 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32_ieee(float addrspace(1)* %ptr) #2 {
	; GFX900-LABEL: global_atomic_fadd_ret_f32_ieee:			; GFX900-LABEL: global_atomic_fadd_ret_f32_ieee:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB1_1			; GFX10-NEXT: s_cbranch_execnz .LBB1_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_ret_f32_ieee:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB1_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB1_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_noret_f32(float addrspace(1)* %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_noret_f32(float addrspace(1)* %ptr) #0 {
	; GFX900-LABEL: global_atomic_fadd_noret_f32:			; GFX900-LABEL: global_atomic_fadd_noret_f32:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1
	; GFX10-NEXT: v_mov_b32_e32 v1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, v0
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB2_1			; GFX10-NEXT: s_cbranch_execnz .LBB2_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_noret_f32:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_noret_f32_ieee(float addrspace(1)* %ptr) #2 {			define amdgpu_kernel void @global_atomic_fadd_noret_f32_ieee(float addrspace(1)* %ptr) #2 {
	; GFX900-LABEL: global_atomic_fadd_noret_f32_ieee:			; GFX900-LABEL: global_atomic_fadd_noret_f32_ieee:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1
	; GFX10-NEXT: v_mov_b32_e32 v1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, v0
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB3_1			; GFX10-NEXT: s_cbranch_execnz .LBB3_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_noret_f32_ieee:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 4.0
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_ret_f32_agent(float addrspace(1)* %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32_agent(float addrspace(1)* %ptr) #0 {
	; GFX900-LABEL: global_atomic_fadd_ret_f32_agent:			; GFX900-LABEL: global_atomic_fadd_ret_f32_agent:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB4_1			; GFX10-NEXT: s_cbranch_execnz .LBB4_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_ret_f32_agent:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB4_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB4_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_ret_f32_system(float addrspace(1)* %ptr) #0 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32_system(float addrspace(1)* %ptr) #0 {
	; GFX900-LABEL: global_atomic_fadd_ret_f32_system:			; GFX900-LABEL: global_atomic_fadd_ret_f32_system:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB5_1			; GFX10-NEXT: s_cbranch_execnz .LBB5_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_ret_f32_system:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB5_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_mov_b32_e32 v2, v1
	; GFX11-NEXT: v_add_f32_e32 v1, 4.0, v2
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v1, v0, v[1:2], s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v1, v2
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB5_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: global_store_b32 v[0:1], v1, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("one-as") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("one-as") seq_cst
	store float %result, float addrspace(1)* undef			store float %result, float addrspace(1)* undef
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_atomic_fadd_ret_f32_wrong_subtarget(float addrspace(1)* %ptr) #1 {			define amdgpu_kernel void @global_atomic_fadd_ret_f32_wrong_subtarget(float addrspace(1)* %ptr) #1 {
	; GCN-LABEL: global_atomic_fadd_ret_f32_wrong_subtarget:			; GCN-LABEL: global_atomic_fadd_ret_f32_wrong_subtarget:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1
	; GFX10-NEXT: v_mov_b32_e32 v1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, v0
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB8_1			; GFX10-NEXT: s_cbranch_execnz .LBB8_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: global_atomic_fadd_noret_f32_safe:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_mov_b32_e32 v2, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_mov_b32_e32 v1, s2
	; GFX11-NEXT: s_mov_b32 s2, 0
	; GFX11-NEXT: .LBB8_1: ; %atomicrmw.start
	; GFX11-NEXT: ; =>This Inner Loop Header: Depth=1
	; GFX11-NEXT: v_add_f32_e32 v0, 4.0, v1
	; GFX11-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: global_atomic_cmpswap_b32 v0, v2, v[0:1], s[0:1] glc
	; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: buffer_gl0_inv
	; GFX11-NEXT: buffer_gl1_inv
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1
	; GFX11-NEXT: v_mov_b32_e32 v1, v0
	; GFX11-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX11-NEXT: s_and_not1_b32 exec_lo, exec_lo, s2
	; GFX11-NEXT: s_cbranch_execnz .LBB8_1
	; GFX11-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX11-NEXT: s_endpgm
	%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst			%result = atomicrmw fadd float addrspace(1)* %ptr, float 4.0 syncscope("agent") seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @infer_as_before_atomic(float* addrspace(4)* %arg) #0 {			define amdgpu_kernel void @infer_as_before_atomic(float* addrspace(4)* %arg) #0 {
	; GFX900-LABEL: infer_as_before_atomic:			; GFX900-LABEL: infer_as_before_atomic:
	; GFX900: ; %bb.0:			; GFX900: ; %bb.0:
	; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX900-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, v0, v1
	; GFX10-NEXT: v_mov_b32_e32 v1, v0			; GFX10-NEXT: v_mov_b32_e32 v1, v0
	; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2			; GFX10-NEXT: s_or_b32 s2, vcc_lo, s2
	; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2			; GFX10-NEXT: s_andn2_b32 exec_lo, exec_lo, s2
	; GFX10-NEXT: s_cbranch_execnz .LBB9_1			; GFX10-NEXT: s_cbranch_execnz .LBB9_1
	; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end			; GFX10-NEXT: ; %bb.2: ; %atomicrmw.end
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;
	; GFX11-LABEL: infer_as_before_atomic:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x24
	; GFX11-NEXT: v_dual_mov_b32 v0, 0 :: v_dual_mov_b32 v1, 1.0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: global_atomic_add_f32 v0, v1, s[0:1]
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	%load = load float, float addrspace(4)* %arg			%load = load float, float addrspace(4)* %arg
	%v = atomicrmw fadd float* %load, float 1.0 syncscope("agent-one-as") monotonic, align 4			%v = atomicrmw fadd float* %load, float 1.0 syncscope("agent-one-as") monotonic, align 4
	ret void			ret void
	}			}

	attributes #0 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "amdgpu-unsafe-fp-atomics"="true" }			attributes #0 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "amdgpu-unsafe-fp-atomics"="true" }
	attributes #1 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "target-cpu"="gfx803" "target-features"="+atomic-fadd-no-rtn-insts" "amdgpu-unsafe-fp-atomics"="true" }			attributes #1 = { "denormal-fp-math-f32"="preserve-sign,preserve-sign" "target-cpu"="gfx803" "target-features"="+atomic-fadd-no-rtn-insts" "amdgpu-unsafe-fp-atomics"="true" }
	attributes #2 = { "amdgpu-unsafe-fp-atomics"="true" }			attributes #2 = { "amdgpu-unsafe-fp-atomics"="true" }

llvm/test/Transforms/AtomicExpand/AMDGPU/expand-atomic-rmw-fadd.ll

	Show First 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	; GFX90a-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] syncscope("wavefront") monotonic, align 4			; GFX90a-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] syncscope("wavefront") monotonic, align 4
	; GFX90a-NEXT: ret float [[RES]]			; GFX90a-NEXT: ret float [[RES]]
	;			;
	; GFX940-LABEL: @test_atomicrmw_fadd_f32_global_unsafe(			; GFX940-LABEL: @test_atomicrmw_fadd_f32_global_unsafe(
	; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] syncscope("wavefront") monotonic, align 4			; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] syncscope("wavefront") monotonic, align 4
	; GFX940-NEXT: ret float [[RES]]			; GFX940-NEXT: ret float [[RES]]
	;			;
	; GFX11-LABEL: @test_atomicrmw_fadd_f32_global_unsafe(			; GFX11-LABEL: @test_atomicrmw_fadd_f32_global_unsafe(
	; GFX11-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4			; GFX11-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] syncscope("wavefront") monotonic, align 4
	; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]			; GFX11-NEXT: ret float [[RES]]
	; GFX11: atomicrmw.start:
	; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
	; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
	; GFX11-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
	; GFX11-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32
	; GFX11-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32
	; GFX11-NEXT: [[TMP5:%.]] = cmpxchg i32 addrspace(1) [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] syncscope("wavefront") monotonic monotonic, align 4
	; GFX11-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
	; GFX11-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
	; GFX11-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
	; GFX11-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
	; GFX11: atomicrmw.end:
	; GFX11-NEXT: ret float [[TMP6]]
	;			;
	%res = atomicrmw fadd float addrspace(1)* %ptr, float %value syncscope("wavefront") monotonic			%res = atomicrmw fadd float addrspace(1)* %ptr, float %value syncscope("wavefront") monotonic
	ret float %res			ret float %res
	}			}

	define double @test_atomicrmw_fadd_f64_global_unsafe(double addrspace(1)* %ptr, double %value) #0 {			define double @test_atomicrmw_fadd_f64_global_unsafe(double addrspace(1)* %ptr, double %value) #0 {
	; CI-LABEL: @test_atomicrmw_fadd_f64_global_unsafe(			; CI-LABEL: @test_atomicrmw_fadd_f64_global_unsafe(
	; CI-NEXT: [[TMP1:%.]] = load double, double addrspace(1) [[PTR:%.*]], align 8			; CI-NEXT: [[TMP1:%.]] = load double, double addrspace(1) [[PTR:%.*]], align 8
	▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
	; GFX90a: atomicrmw.end:			; GFX90a: atomicrmw.end:
	; GFX90a-NEXT: ret float [[TMP6]]			; GFX90a-NEXT: ret float [[TMP6]]
	;			;
	; GFX940-LABEL: @test_atomicrmw_fadd_f32_flat_unsafe(			; GFX940-LABEL: @test_atomicrmw_fadd_f32_flat_unsafe(
	; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd float [[PTR:%.]], float [[VALUE:%.]] syncscope("wavefront") monotonic, align 4			; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd float [[PTR:%.]], float [[VALUE:%.]] syncscope("wavefront") monotonic, align 4
	; GFX940-NEXT: ret float [[RES]]			; GFX940-NEXT: ret float [[RES]]
	;			;
	; GFX11-LABEL: @test_atomicrmw_fadd_f32_flat_unsafe(			; GFX11-LABEL: @test_atomicrmw_fadd_f32_flat_unsafe(
	; GFX11-NEXT: [[TMP1:%.]] = load float, float [[PTR:%.*]], align 4			; GFX11-NEXT: [[RES:%.]] = atomicrmw fadd float [[PTR:%.]], float [[VALUE:%.]] syncscope("wavefront") monotonic, align 4
	; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]			; GFX11-NEXT: ret float [[RES]]
	; GFX11: atomicrmw.start:
	; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
	; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
	; GFX11-NEXT: [[TMP2:%.]] = bitcast float [[PTR]] to i32*
	; GFX11-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32
	; GFX11-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32
	; GFX11-NEXT: [[TMP5:%.]] = cmpxchg i32 [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] syncscope("wavefront") monotonic monotonic, align 4
	; GFX11-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
	; GFX11-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
	; GFX11-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
	; GFX11-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
	; GFX11: atomicrmw.end:
	; GFX11-NEXT: ret float [[TMP6]]
	;			;
	%res = atomicrmw fadd float* %ptr, float %value syncscope("wavefront") monotonic			%res = atomicrmw fadd float* %ptr, float %value syncscope("wavefront") monotonic
	ret float %res			ret float %res
	}			}

	define double @test_atomicrmw_fadd_f64_flat_unsafe(double* %ptr, double %value) #0 {			define double @test_atomicrmw_fadd_f64_flat_unsafe(double* %ptr, double %value) #0 {
	; CI-LABEL: @test_atomicrmw_fadd_f64_flat_unsafe(			; CI-LABEL: @test_atomicrmw_fadd_f64_flat_unsafe(
	; CI-NEXT: [[TMP1:%.]] = load double, double [[PTR:%.*]], align 8			; CI-NEXT: [[TMP1:%.]] = load double, double [[PTR:%.*]], align 8
	▲ Show 20 Lines • Show All 140 Lines • ▼ Show 20 Lines
	; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1			; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
	; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0			; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
	; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float			; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
	; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]			; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
	; GFX90a: atomicrmw.end:			; GFX90a: atomicrmw.end:
	; GFX90a-NEXT: ret float [[TMP6]]			; GFX90a-NEXT: ret float [[TMP6]]
	;			;
	; GFX940-LABEL: @test_atomicrmw_fadd_f32_flat(			; GFX940-LABEL: @test_atomicrmw_fadd_f32_flat(
	; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd float [[PTR:%.]], float [[VALUE:%.]] seq_cst, align 4			; GFX940-NEXT: [[TMP1:%.]] = load float, float [[PTR:%.*]], align 4
	; GFX940-NEXT: ret float [[RES]]			; GFX940-NEXT: br label [[ATOMICRMW_START:%.*]]
				; GFX940: atomicrmw.start:
				; GFX940-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
				; GFX940-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
				; GFX940-NEXT: [[TMP2:%.]] = bitcast float [[PTR]] to i32*
				; GFX940-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32
				; GFX940-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32
				; GFX940-NEXT: [[TMP5:%.]] = cmpxchg i32 [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] seq_cst seq_cst, align 4
				; GFX940-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
				; GFX940-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
				; GFX940-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
				; GFX940-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
				; GFX940: atomicrmw.end:
				; GFX940-NEXT: ret float [[TMP6]]
	;			;
	; GFX11-LABEL: @test_atomicrmw_fadd_f32_flat(			; GFX11-LABEL: @test_atomicrmw_fadd_f32_flat(
	; GFX11-NEXT: [[TMP1:%.]] = load float, float [[PTR:%.*]], align 4			; GFX11-NEXT: [[TMP1:%.]] = load float, float [[PTR:%.*]], align 4
	; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]			; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]
	; GFX11: atomicrmw.start:			; GFX11: atomicrmw.start:
	; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]			; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
	; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]			; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
	; GFX11-NEXT: [[TMP2:%.]] = bitcast float [[PTR]] to i32*			; GFX11-NEXT: [[TMP2:%.]] = bitcast float [[PTR]] to i32*
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1			; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
	; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0			; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
	; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float			; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
	; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]			; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
	; GFX90a: atomicrmw.end:			; GFX90a: atomicrmw.end:
	; GFX90a-NEXT: ret float [[TMP6]]			; GFX90a-NEXT: ret float [[TMP6]]
	;			;
	; GFX940-LABEL: @test_atomicrmw_fadd_f32_global(			; GFX940-LABEL: @test_atomicrmw_fadd_f32_global(
	; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] seq_cst, align 4			; GFX940-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
	; GFX940-NEXT: ret float [[RES]]			; GFX940-NEXT: br label [[ATOMICRMW_START:%.*]]
				; GFX940: atomicrmw.start:
				; GFX940-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
				; GFX940-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
				; GFX940-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
				; GFX940-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32
				; GFX940-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32
				; GFX940-NEXT: [[TMP5:%.]] = cmpxchg i32 addrspace(1) [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] seq_cst seq_cst, align 4
				; GFX940-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
				; GFX940-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
				; GFX940-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
				; GFX940-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
				; GFX940: atomicrmw.end:
				; GFX940-NEXT: ret float [[TMP6]]
	;			;
	; GFX11-LABEL: @test_atomicrmw_fadd_f32_global(			; GFX11-LABEL: @test_atomicrmw_fadd_f32_global(
	; GFX11-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4			; GFX11-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
	; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]			; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]
	; GFX11: atomicrmw.start:			; GFX11: atomicrmw.start:
	; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]			; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
	; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]			; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
	; GFX11-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*			; GFX11-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1			; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
	; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0			; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
	; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float			; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
	; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]			; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
	; GFX90a: atomicrmw.end:			; GFX90a: atomicrmw.end:
	; GFX90a-NEXT: ret void			; GFX90a-NEXT: ret void
	;			;
	; GFX940-LABEL: @test_atomicrmw_fadd_f32_global_no_use_ieee(			; GFX940-LABEL: @test_atomicrmw_fadd_f32_global_no_use_ieee(
	; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] seq_cst, align 4			; GFX940-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
				; GFX940-NEXT: br label [[ATOMICRMW_START:%.*]]
				; GFX940: atomicrmw.start:
				; GFX940-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
				; GFX940-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
				; GFX940-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
				; GFX940-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32
				; GFX940-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32
				; GFX940-NEXT: [[TMP5:%.]] = cmpxchg i32 addrspace(1) [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] seq_cst seq_cst, align 4
				; GFX940-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
				; GFX940-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
				; GFX940-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
				; GFX940-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
				; GFX940: atomicrmw.end:
	; GFX940-NEXT: ret void			; GFX940-NEXT: ret void
	;			;
	; GFX11-LABEL: @test_atomicrmw_fadd_f32_global_no_use_ieee(			; GFX11-LABEL: @test_atomicrmw_fadd_f32_global_no_use_ieee(
	; GFX11-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4			; GFX11-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
	; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]			; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]
	; GFX11: atomicrmw.start:			; GFX11: atomicrmw.start:
	; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]			; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
	; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]			; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1			; GFX9-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
	; GFX9-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0			; GFX9-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
	; GFX9-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float			; GFX9-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
	; GFX9-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]			; GFX9-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
	; GFX9: atomicrmw.end:			; GFX9: atomicrmw.end:
	; GFX9-NEXT: ret void			; GFX9-NEXT: ret void
	;			;
	; GFX908-LABEL: @test_atomicrmw_fadd_f32_global_no_use_denorm_flush(			; GFX908-LABEL: @test_atomicrmw_fadd_f32_global_no_use_denorm_flush(
	; GFX908-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] seq_cst, align 4			; GFX908-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
				; GFX908-NEXT: br label [[ATOMICRMW_START:%.*]]
				; GFX908: atomicrmw.start:
				; GFX908-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
				; GFX908-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
				; GFX908-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
				; GFX908-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32
				; GFX908-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32
				; GFX908-NEXT: [[TMP5:%.]] = cmpxchg i32 addrspace(1) [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] seq_cst seq_cst, align 4
				; GFX908-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
				; GFX908-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
				; GFX908-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
				; GFX908-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
				; GFX908: atomicrmw.end:
	; GFX908-NEXT: ret void			; GFX908-NEXT: ret void
	;			;
	; GFX90a-LABEL: @test_atomicrmw_fadd_f32_global_no_use_denorm_flush(			; GFX90a-LABEL: @test_atomicrmw_fadd_f32_global_no_use_denorm_flush(
	; GFX90a-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4			; GFX90a-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
	; GFX90a-NEXT: br label [[ATOMICRMW_START:%.*]]			; GFX90a-NEXT: br label [[ATOMICRMW_START:%.*]]
	; GFX90a: atomicrmw.start:			; GFX90a: atomicrmw.start:
	; GFX90a-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]			; GFX90a-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
	; GFX90a-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]			; GFX90a-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
	; GFX90a-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*			; GFX90a-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
	; GFX90a-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32			; GFX90a-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32
	; GFX90a-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32			; GFX90a-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32
	; GFX90a-NEXT: [[TMP5:%.]] = cmpxchg i32 addrspace(1) [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] seq_cst seq_cst, align 4			; GFX90a-NEXT: [[TMP5:%.]] = cmpxchg i32 addrspace(1) [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] seq_cst seq_cst, align 4
	; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1			; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
	; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0			; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
	; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float			; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
	; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]			; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
	; GFX90a: atomicrmw.end:			; GFX90a: atomicrmw.end:
	; GFX90a-NEXT: ret void			; GFX90a-NEXT: ret void
	;			;
	; GFX940-LABEL: @test_atomicrmw_fadd_f32_global_no_use_denorm_flush(			; GFX940-LABEL: @test_atomicrmw_fadd_f32_global_no_use_denorm_flush(
	; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] seq_cst, align 4			; GFX940-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
				; GFX940-NEXT: br label [[ATOMICRMW_START:%.*]]
				; GFX940: atomicrmw.start:
				; GFX940-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
				; GFX940-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
				; GFX940-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
				; GFX940-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32
				; GFX940-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32
				; GFX940-NEXT: [[TMP5:%.]] = cmpxchg i32 addrspace(1) [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] seq_cst seq_cst, align 4
				; GFX940-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
				; GFX940-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
				; GFX940-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
				; GFX940-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
				; GFX940: atomicrmw.end:
	; GFX940-NEXT: ret void			; GFX940-NEXT: ret void
	;			;
	; GFX11-LABEL: @test_atomicrmw_fadd_f32_global_no_use_denorm_flush(			; GFX11-LABEL: @test_atomicrmw_fadd_f32_global_no_use_denorm_flush(
	; GFX11-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] seq_cst, align 4			; GFX11-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
				; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]
				; GFX11: atomicrmw.start:
				; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
				; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
				; GFX11-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
				; GFX11-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32
				; GFX11-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32
				; GFX11-NEXT: [[TMP5:%.]] = cmpxchg i32 addrspace(1) [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] seq_cst seq_cst, align 4
				; GFX11-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
				; GFX11-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
				; GFX11-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
				; GFX11-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
				; GFX11: atomicrmw.end:
	; GFX11-NEXT: ret void			; GFX11-NEXT: ret void
	;			;
	%res = atomicrmw fadd float addrspace(1)* %ptr, float %value seq_cst			%res = atomicrmw fadd float addrspace(1)* %ptr, float %value seq_cst
	ret void			ret void
	}			}

	define float @test_atomicrmw_fadd_f32_local(float addrspace(3)* %ptr, float %value) {			define float @test_atomicrmw_fadd_f32_local(float addrspace(3)* %ptr, float %value) {
	; CI-LABEL: @test_atomicrmw_fadd_f32_local(			; CI-LABEL: @test_atomicrmw_fadd_f32_local(
	▲ Show 20 Lines • Show All 189 Lines • ▼ Show 20 Lines
	; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i64, i1 } [[TMP5]], 1			; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i64, i1 } [[TMP5]], 1
	; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i64, i1 } [[TMP5]], 0			; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i64, i1 } [[TMP5]], 0
	; GFX90a-NEXT: [[TMP6]] = bitcast i64 [[NEWLOADED]] to double			; GFX90a-NEXT: [[TMP6]] = bitcast i64 [[NEWLOADED]] to double
	; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]			; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
	; GFX90a: atomicrmw.end:			; GFX90a: atomicrmw.end:
	; GFX90a-NEXT: ret double [[TMP6]]			; GFX90a-NEXT: ret double [[TMP6]]
	;			;
	; GFX940-LABEL: @test_atomicrmw_fadd_f64_flat(			; GFX940-LABEL: @test_atomicrmw_fadd_f64_flat(
	; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd double [[PTR:%.]], double [[VALUE:%.]] seq_cst, align 8			; GFX940-NEXT: [[TMP1:%.]] = load double, double [[PTR:%.*]], align 8
	; GFX940-NEXT: ret double [[RES]]			; GFX940-NEXT: br label [[ATOMICRMW_START:%.*]]
				; GFX940: atomicrmw.start:
				; GFX940-NEXT: [[LOADED:%.]] = phi double [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
				; GFX940-NEXT: [[NEW:%.]] = fadd double [[LOADED]], [[VALUE:%.]]
				; GFX940-NEXT: [[TMP2:%.]] = bitcast double [[PTR]] to i64*
				; GFX940-NEXT: [[TMP3:%.*]] = bitcast double [[NEW]] to i64
				; GFX940-NEXT: [[TMP4:%.*]] = bitcast double [[LOADED]] to i64
				; GFX940-NEXT: [[TMP5:%.]] = cmpxchg i64 [[TMP2]], i64 [[TMP4]], i64 [[TMP3]] seq_cst seq_cst, align 8
				; GFX940-NEXT: [[SUCCESS:%.*]] = extractvalue { i64, i1 } [[TMP5]], 1
				; GFX940-NEXT: [[NEWLOADED:%.*]] = extractvalue { i64, i1 } [[TMP5]], 0
				; GFX940-NEXT: [[TMP6]] = bitcast i64 [[NEWLOADED]] to double
				; GFX940-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
				; GFX940: atomicrmw.end:
				; GFX940-NEXT: ret double [[TMP6]]
	;			;
	; GFX11-LABEL: @test_atomicrmw_fadd_f64_flat(			; GFX11-LABEL: @test_atomicrmw_fadd_f64_flat(
	; GFX11-NEXT: [[TMP1:%.]] = load double, double [[PTR:%.*]], align 8			; GFX11-NEXT: [[TMP1:%.]] = load double, double [[PTR:%.*]], align 8
	; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]			; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]
	; GFX11: atomicrmw.start:			; GFX11: atomicrmw.start:
	; GFX11-NEXT: [[LOADED:%.]] = phi double [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]			; GFX11-NEXT: [[LOADED:%.]] = phi double [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
	; GFX11-NEXT: [[NEW:%.]] = fadd double [[LOADED]], [[VALUE:%.]]			; GFX11-NEXT: [[NEW:%.]] = fadd double [[LOADED]], [[VALUE:%.]]
	; GFX11-NEXT: [[TMP2:%.]] = bitcast double [[PTR]] to i64*			; GFX11-NEXT: [[TMP2:%.]] = bitcast double [[PTR]] to i64*
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i64, i1 } [[TMP5]], 1			; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i64, i1 } [[TMP5]], 1
	; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i64, i1 } [[TMP5]], 0			; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i64, i1 } [[TMP5]], 0
	; GFX90a-NEXT: [[TMP6]] = bitcast i64 [[NEWLOADED]] to double			; GFX90a-NEXT: [[TMP6]] = bitcast i64 [[NEWLOADED]] to double
	; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]			; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
	; GFX90a: atomicrmw.end:			; GFX90a: atomicrmw.end:
	; GFX90a-NEXT: ret double [[TMP6]]			; GFX90a-NEXT: ret double [[TMP6]]
	;			;
	; GFX940-LABEL: @test_atomicrmw_fadd_f64_global(			; GFX940-LABEL: @test_atomicrmw_fadd_f64_global(
	; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd double addrspace(1) [[PTR:%.]], double [[VALUE:%.]] seq_cst, align 8			; GFX940-NEXT: [[TMP1:%.]] = load double, double addrspace(1) [[PTR:%.*]], align 8
	; GFX940-NEXT: ret double [[RES]]			; GFX940-NEXT: br label [[ATOMICRMW_START:%.*]]
				; GFX940: atomicrmw.start:
				; GFX940-NEXT: [[LOADED:%.]] = phi double [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
				; GFX940-NEXT: [[NEW:%.]] = fadd double [[LOADED]], [[VALUE:%.]]
				; GFX940-NEXT: [[TMP2:%.]] = bitcast double addrspace(1) [[PTR]] to i64 addrspace(1)*
				; GFX940-NEXT: [[TMP3:%.*]] = bitcast double [[NEW]] to i64
				; GFX940-NEXT: [[TMP4:%.*]] = bitcast double [[LOADED]] to i64
				; GFX940-NEXT: [[TMP5:%.]] = cmpxchg i64 addrspace(1) [[TMP2]], i64 [[TMP4]], i64 [[TMP3]] seq_cst seq_cst, align 8
				; GFX940-NEXT: [[SUCCESS:%.*]] = extractvalue { i64, i1 } [[TMP5]], 1
				; GFX940-NEXT: [[NEWLOADED:%.*]] = extractvalue { i64, i1 } [[TMP5]], 0
				; GFX940-NEXT: [[TMP6]] = bitcast i64 [[NEWLOADED]] to double
				; GFX940-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
				; GFX940: atomicrmw.end:
				; GFX940-NEXT: ret double [[TMP6]]
	;			;
	; GFX11-LABEL: @test_atomicrmw_fadd_f64_global(			; GFX11-LABEL: @test_atomicrmw_fadd_f64_global(
	; GFX11-NEXT: [[TMP1:%.]] = load double, double addrspace(1) [[PTR:%.*]], align 8			; GFX11-NEXT: [[TMP1:%.]] = load double, double addrspace(1) [[PTR:%.*]], align 8
	; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]			; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]
	; GFX11: atomicrmw.start:			; GFX11: atomicrmw.start:
	; GFX11-NEXT: [[LOADED:%.]] = phi double [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]			; GFX11-NEXT: [[LOADED:%.]] = phi double [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
	; GFX11-NEXT: [[NEW:%.]] = fadd double [[LOADED]], [[VALUE:%.]]			; GFX11-NEXT: [[NEW:%.]] = fadd double [[LOADED]], [[VALUE:%.]]
	; GFX11-NEXT: [[TMP2:%.]] = bitcast double addrspace(1) [[PTR]] to i64 addrspace(1)*			; GFX11-NEXT: [[TMP2:%.]] = bitcast double addrspace(1) [[PTR]] to i64 addrspace(1)*
	▲ Show 20 Lines • Show All 157 Lines • ▼ Show 20 Lines
	; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1			; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
	; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0			; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
	; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float			; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
	; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]			; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
	; GFX90a: atomicrmw.end:			; GFX90a: atomicrmw.end:
	; GFX90a-NEXT: ret float [[TMP6]]			; GFX90a-NEXT: ret float [[TMP6]]
	;			;
	; GFX940-LABEL: @test_atomicrmw_fadd_f32_global_agent(			; GFX940-LABEL: @test_atomicrmw_fadd_f32_global_agent(
	; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] syncscope("agent") monotonic, align 4			; GFX940-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
	; GFX940-NEXT: ret float [[RES]]			; GFX940-NEXT: br label [[ATOMICRMW_START:%.*]]
				; GFX940: atomicrmw.start:
				; GFX940-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
				; GFX940-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
				; GFX940-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
				; GFX940-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32
				; GFX940-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32
				; GFX940-NEXT: [[TMP5:%.]] = cmpxchg i32 addrspace(1) [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] syncscope("agent") monotonic monotonic, align 4
				; GFX940-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
				; GFX940-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
				; GFX940-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
				; GFX940-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
				; GFX940: atomicrmw.end:
				; GFX940-NEXT: ret float [[TMP6]]
	;			;
	; GFX11-LABEL: @test_atomicrmw_fadd_f32_global_agent(			; GFX11-LABEL: @test_atomicrmw_fadd_f32_global_agent(
	; GFX11-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4			; GFX11-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
	; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]			; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]
	; GFX11: atomicrmw.start:			; GFX11: atomicrmw.start:
	; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]			; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
	; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]			; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
	; GFX11-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*			; GFX11-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1			; GFX90a-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
	; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0			; GFX90a-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
	; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float			; GFX90a-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
	; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]			; GFX90a-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
	; GFX90a: atomicrmw.end:			; GFX90a: atomicrmw.end:
	; GFX90a-NEXT: ret float [[TMP6]]			; GFX90a-NEXT: ret float [[TMP6]]
	;			;
	; GFX940-LABEL: @test_atomicrmw_fadd_f32_global_one_as(			; GFX940-LABEL: @test_atomicrmw_fadd_f32_global_one_as(
	; GFX940-NEXT: [[RES:%.]] = atomicrmw fadd float addrspace(1) [[PTR:%.]], float [[VALUE:%.]] syncscope("one-as") monotonic, align 4			; GFX940-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
	; GFX940-NEXT: ret float [[RES]]			; GFX940-NEXT: br label [[ATOMICRMW_START:%.*]]
				; GFX940: atomicrmw.start:
				; GFX940-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
				; GFX940-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
				; GFX940-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
				; GFX940-NEXT: [[TMP3:%.*]] = bitcast float [[NEW]] to i32
				; GFX940-NEXT: [[TMP4:%.*]] = bitcast float [[LOADED]] to i32
				; GFX940-NEXT: [[TMP5:%.]] = cmpxchg i32 addrspace(1) [[TMP2]], i32 [[TMP4]], i32 [[TMP3]] syncscope("one-as") monotonic monotonic, align 4
				; GFX940-NEXT: [[SUCCESS:%.*]] = extractvalue { i32, i1 } [[TMP5]], 1
				; GFX940-NEXT: [[NEWLOADED:%.*]] = extractvalue { i32, i1 } [[TMP5]], 0
				; GFX940-NEXT: [[TMP6]] = bitcast i32 [[NEWLOADED]] to float
				; GFX940-NEXT: br i1 [[SUCCESS]], label [[ATOMICRMW_END:%.*]], label [[ATOMICRMW_START]]
				; GFX940: atomicrmw.end:
				; GFX940-NEXT: ret float [[TMP6]]
	;			;
	; GFX11-LABEL: @test_atomicrmw_fadd_f32_global_one_as(			; GFX11-LABEL: @test_atomicrmw_fadd_f32_global_one_as(
	; GFX11-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4			; GFX11-NEXT: [[TMP1:%.]] = load float, float addrspace(1) [[PTR:%.*]], align 4
	; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]			; GFX11-NEXT: br label [[ATOMICRMW_START:%.*]]
	; GFX11: atomicrmw.start:			; GFX11: atomicrmw.start:
	; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]			; GFX11-NEXT: [[LOADED:%.]] = phi float [ [[TMP1]], [[TMP0:%.]] ], [ [[TMP6:%.*]], [[ATOMICRMW_START]] ]
	; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]			; GFX11-NEXT: [[NEW:%.]] = fadd float [[LOADED]], [[VALUE:%.]]
	; GFX11-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*			; GFX11-NEXT: [[TMP2:%.]] = bitcast float addrspace(1) [[PTR]] to i32 addrspace(1)*
	Show All 15 Lines

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Improve atomicrmw fadd selection
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 462025

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-atomic-fadd.f32.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fp-atomics-gfx940.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.fadd-with-ret.ll

llvm/test/CodeGen/AMDGPU/fp-atomics-gfx940.ll

llvm/test/CodeGen/AMDGPU/global-atomics-fp.ll

llvm/test/Transforms/AtomicExpand/AMDGPU/expand-atomic-rmw-fadd.ll

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Improve atomicrmw fadd selectionClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 462025

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-atomic-fadd.f32.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fp-atomics-gfx940.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.fadd-with-ret.ll

llvm/test/CodeGen/AMDGPU/fp-atomics-gfx940.ll

llvm/test/CodeGen/AMDGPU/global-atomics-fp.ll

llvm/test/Transforms/AtomicExpand/AMDGPU/expand-atomic-rmw-fadd.ll

AMDGPU: Improve atomicrmw fadd selection
ClosedPublic