This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
-
AMDGPU.h
-
AMDGPUReleaseVGPRs.cpp
-
AMDGPUTargetMachine.cpp
-
CMakeLists.txt
-
SIInsertWaitcnts.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
1/1
llvm.amdgcn.global.atomic.csub.ll
-
llvm.amdgcn.image.atomic.dim.ll
1/1
call-argument-types.ll
-
cc-update.ll
-
llc-pipeline.ll
1/2
llvm.amdgcn.s.buffer.load.ll
-
release-vgprs.mir
1/1
waitcnt-preexisting-vscnt.mir

Differential D153279

[AMDGPU] Reimplement the GFX11 early release VGPRs optimization
ClosedPublic

Authored by foad on Jun 19 2023, 7:49 AM.

Download Raw Diff

Details

Reviewers

nhaehnle
rampitec
stepthomas
rovka

Group Reviewers

Restricted Project

Commits

rGeb7491769a51: [AMDGPU] Reimplement the GFX11 early release VGPRs optimization

Summary

Implement this optimization in SIInsertWaitcnts, where we already have
information about whether there might be outstanding VMEM store
instructions. This has the following advantages:

Correctly handles atomics-with-return.
Correctly handles call instructions.
Should be faster because it does not require running a separate pass.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

foad created this revision.Jun 19 2023, 7:49 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 19 2023, 7:49 AM

Herald added subscribers: StephenFan, kerbowa, hiraditya and 6 others. · View Herald Transcript

foad requested review of this revision.Jun 19 2023, 7:49 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 19 2023, 7:49 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

foad added inline comments.Jun 19 2023, 7:54 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.csub.ll
162	`global_atomic_csub_u32 ... glc` is an atomic-with-return which uses VMcnt. The hardware will wait until VMcnt==0 before sending the MSG_DEALLOC_VGPRS message, so there is no point sending it.
llvm/test/CodeGen/AMDGPU/call-argument-types.ll
4385	`s_swappc_b64` is a call. The ABI says that the callee should wait for memory counters like VScnt to be 0 before returning, so there should be no outstanding stores at this point.
llvm/test/CodeGen/AMDGPU/llvm.amdgcn.s.buffer.load.ll
594	The old AMDGPUReleaseVGPRs pass did not send the message here because the `global_store_b32` above was not the last VGPR-using instruction before the `s_endpgm`. I don't understand why it was implemented that way. I think we do want to send the message, because VScnt might be non-zero here.
llvm/test/CodeGen/AMDGPU/waitcnt-preexisting-vscnt.mir
34	This is only different because we insert these instructions during the SIInsertWaitcnts pass, instead of in a separate pass.

This looks so much simpler.

This revision is now accepted and ready to land.Jun 19 2023, 8:32 AM

Harbormaster completed remote builds in B239806: Diff 532654.Jun 19 2023, 8:54 AM

nhaehnle added inline comments.Jun 19 2023, 8:57 AM

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.s.buffer.load.ll
594	Yes, makes sense to me.

Closed by commit rGeb7491769a51: [AMDGPU] Reimplement the GFX11 early release VGPRs optimization (authored by foad). · Explain WhyJun 19 2023, 9:13 AM

This revision was automatically updated to reflect the committed changes.

foad added a commit: rGeb7491769a51: [AMDGPU] Reimplement the GFX11 early release VGPRs optimization.

foad mentioned this in D157599: [AMDGPU] Do not release VGPRs at -O0.Aug 10 2023, 3:37 AM

foad mentioned this in rG3091bdb86d55: [AMDGPU] Do not release VGPRs at -O0.Aug 10 2023, 6:58 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPU.h

3 lines

AMDGPUReleaseVGPRs.cpp

AMDGPUTargetMachine.cpp

4 lines

CMakeLists.txt

1 line

SIInsertWaitcnts.cpp

22 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

llvm.amdgcn.global.atomic.csub.ll

1 line

llvm.amdgcn.image.atomic.dim.ll

80 lines

call-argument-types.ll

3 lines

cc-update.ll

2 lines

llc-pipeline.ll

2 lines

llvm.amdgcn.s.buffer.load.ll

1 line

release-vgprs.mir

waitcnt-preexisting-vscnt.mir

5 lines

Diff 532691

llvm/lib/Target/AMDGPU/AMDGPU.h

	Show First 20 Lines • Show All 310 Lines • ▼ Show 20 Lines
	extern char &SIAnnotateControlFlowPassID;			extern char &SIAnnotateControlFlowPassID;

	void initializeSIMemoryLegalizerPass(PassRegistry&);			void initializeSIMemoryLegalizerPass(PassRegistry&);
	extern char &SIMemoryLegalizerID;			extern char &SIMemoryLegalizerID;

	void initializeSIModeRegisterPass(PassRegistry&);			void initializeSIModeRegisterPass(PassRegistry&);
	extern char &SIModeRegisterID;			extern char &SIModeRegisterID;

	void initializeAMDGPUReleaseVGPRsPass(PassRegistry &);
	extern char &AMDGPUReleaseVGPRsID;

	void initializeAMDGPUInsertDelayAluPass(PassRegistry &);			void initializeAMDGPUInsertDelayAluPass(PassRegistry &);
	extern char &AMDGPUInsertDelayAluID;			extern char &AMDGPUInsertDelayAluID;

	void initializeSIInsertHardClausesPass(PassRegistry &);			void initializeSIInsertHardClausesPass(PassRegistry &);
	extern char &SIInsertHardClausesID;			extern char &SIInsertHardClausesID;

	void initializeSIInsertWaitcntsPass(PassRegistry&);			void initializeSIInsertWaitcntsPass(PassRegistry&);
	extern char &SIInsertWaitcntsID;			extern char &SIInsertWaitcntsID;
	▲ Show 20 Lines • Show All 155 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUReleaseVGPRs.cpp

This file was deleted.

	//===- AMDGPUReleaseVGPRs.cpp - Automatically release vgprs on GFX11+ -----===//
	//
	// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
	// See https://llvm.org/LICENSE.txt for license information.
	// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
	//
	//===----------------------------------------------------------------------===//
	//
	/// \file
	/// Insert S_SENDMSG instructions to release vgprs on GFX11+.
	//
	//===----------------------------------------------------------------------===//

	#include "AMDGPU.h"
	#include "AMDGPUSubtarget.h"
	#include "GCNSubtarget.h"
	#include "MCTargetDesc/AMDGPUMCTargetDesc.h"
	#include "SIDefines.h"
	#include "llvm/ADT/DepthFirstIterator.h"
	#include "llvm/CodeGen/MachineBasicBlock.h"
	#include "llvm/CodeGen/MachineOperand.h"
	#include <optional>
	using namespace llvm;

	#define DEBUG_TYPE "release-vgprs"

	namespace {

	class AMDGPUReleaseVGPRs : public MachineFunctionPass {
	public:
	static char ID;

	AMDGPUReleaseVGPRs() : MachineFunctionPass(ID) {}

	void getAnalysisUsage(AnalysisUsage &AU) const override {
	AU.setPreservesAll();
	MachineFunctionPass::getAnalysisUsage(AU);
	}

	// Track if the last instruction referencing a vgpr in a MBB is a VMEM
	// store. Because this pass is late in the pipeline, it is expected that the
	// last vgpr use will likely be one of vmem store, ds, exp.
	// Loads and others vgpr operations would have been
	// deleted by this point, except for complex control flow involving loops.
	// This is why we are just testing the type of instructions rather
	// than the operands.
	class LastVGPRUseIsVMEMStore {
	BitVector BlockVMEMStore;

	static std::optional<bool>
	lastVGPRUseIsStore(const MachineBasicBlock &MBB) {
	for (auto &MI : reverse(MBB.instrs())) {
	// If it's a VMEM store, a VGPR will be used, return true.
	if ((SIInstrInfo::isVMEM(MI) \|\| SIInstrInfo::isFLAT(MI)) &&
	MI.mayStore())
	return true;

	// If it's referencing a VGPR but is not a VMEM store, return false.
	if (SIInstrInfo::isDS(MI) \|\| SIInstrInfo::isEXP(MI) \|\|
	SIInstrInfo::isVMEM(MI) \|\| SIInstrInfo::isFLAT(MI) \|\|
	SIInstrInfo::isVALU(MI))
	return false;
	}
	// Wait until the values are propagated from the predecessors
	return std::nullopt;
	}

	public:
	LastVGPRUseIsVMEMStore(const MachineFunction &MF)
	: BlockVMEMStore(MF.getNumBlockIDs()) {

	df_iterator_default_set<const MachineBasicBlock *> Visited;
	SmallVector<const MachineBasicBlock *> EndWithVMEMStoreBlocks;

	for (const auto &MBB : MF) {
	auto LastUseIsStore = lastVGPRUseIsStore(MBB);
	if (!LastUseIsStore.has_value())
	continue;

	if (*LastUseIsStore) {
	EndWithVMEMStoreBlocks.push_back(&MBB);
	} else {
	Visited.insert(&MBB);
	}
	}

	for (const auto *MBB : EndWithVMEMStoreBlocks) {
	for (const auto *Succ : depth_first_ext(MBB, Visited)) {
	BlockVMEMStore[Succ->getNumber()] = true;
	}
	}
	}

	// Return true if the last instruction referencing a vgpr in this MBB
	// is a VMEM store, otherwise return false.
	bool isLastVGPRUseVMEMStore(const MachineBasicBlock &MBB) const {
	return BlockVMEMStore[MBB.getNumber()];
	}
	};

	static bool
	runOnMachineBasicBlock(MachineBasicBlock &MBB, const SIInstrInfo *SII,
	const LastVGPRUseIsVMEMStore &BlockVMEMStore) {

	bool Changed = false;

	for (auto &MI : MBB.terminators()) {
	// Look for S_ENDPGM instructions
	if (MI.getOpcode() == AMDGPU::S_ENDPGM \|\|
	MI.getOpcode() == AMDGPU::S_ENDPGM_SAVED) {
	// If the last instruction using a VGPR in the block is a VMEM store,
	// release VGPRs. The VGPRs release will be placed just before ending
	// the program
	if (BlockVMEMStore.isLastVGPRUseVMEMStore(MBB)) {
	BuildMI(MBB, MI, DebugLoc(), SII->get(AMDGPU::S_SENDMSG))
	.addImm(AMDGPU::SendMsg::ID_DEALLOC_VGPRS_GFX11Plus);
	Changed = true;
	}
	}
	}

	return Changed;
	}

	bool runOnMachineFunction(MachineFunction &MF) override {
	Function &F = MF.getFunction();
	if (skipFunction(F) \|\| !AMDGPU::isEntryFunctionCC(F.getCallingConv()))
	return false;

	// This pass only runs on GFX11+
	const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();
	if (ST.getGeneration() < AMDGPUSubtarget::GFX11)
	return false;

	LLVM_DEBUG(dbgs() << "AMDGPUReleaseVGPRs running on " << MF.getName()
	<< "\n");

	const SIInstrInfo *SII = ST.getInstrInfo();
	LastVGPRUseIsVMEMStore BlockVMEMStore(MF);

	bool Changed = false;
	for (auto &MBB : MF) {
	Changed \|= runOnMachineBasicBlock(MBB, SII, BlockVMEMStore);
	}

	return Changed;
	}
	};

	} // namespace

	char AMDGPUReleaseVGPRs::ID = 0;

	char &llvm::AMDGPUReleaseVGPRsID = AMDGPUReleaseVGPRs::ID;

	INITIALIZE_PASS(AMDGPUReleaseVGPRs, DEBUG_TYPE, "Release VGPRs", false, false)

llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

Show First 20 Lines • Show All 399 Lines • ▼ Show 20 Lines	extern "C" LLVM_EXTERNAL_VISIBILITY void LLVMInitializeAMDGPUTarget() {
initializeAMDGPUPropagateAttributesEarlyPass(*PR);		initializeAMDGPUPropagateAttributesEarlyPass(*PR);
initializeAMDGPUPropagateAttributesLatePass(*PR);		initializeAMDGPUPropagateAttributesLatePass(*PR);
initializeAMDGPURemoveIncompatibleFunctionsPass(*PR);		initializeAMDGPURemoveIncompatibleFunctionsPass(*PR);
initializeAMDGPULowerModuleLDSPass(*PR);		initializeAMDGPULowerModuleLDSPass(*PR);
initializeAMDGPURewriteOutArgumentsPass(*PR);		initializeAMDGPURewriteOutArgumentsPass(*PR);
initializeAMDGPURewriteUndefForPHIPass(*PR);		initializeAMDGPURewriteUndefForPHIPass(*PR);
initializeAMDGPUUnifyMetadataPass(*PR);		initializeAMDGPUUnifyMetadataPass(*PR);
initializeSIAnnotateControlFlowPass(*PR);		initializeSIAnnotateControlFlowPass(*PR);
initializeAMDGPUReleaseVGPRsPass(*PR);
initializeAMDGPUInsertDelayAluPass(*PR);		initializeAMDGPUInsertDelayAluPass(*PR);
initializeSIInsertHardClausesPass(*PR);		initializeSIInsertHardClausesPass(*PR);
initializeSIInsertWaitcntsPass(*PR);		initializeSIInsertWaitcntsPass(*PR);
initializeSIModeRegisterPass(*PR);		initializeSIModeRegisterPass(*PR);
initializeSIWholeQuadModePass(*PR);		initializeSIWholeQuadModePass(*PR);
initializeSILowerControlFlowPass(*PR);		initializeSILowerControlFlowPass(*PR);
initializeSIPreEmitPeepholePass(*PR);		initializeSIPreEmitPeepholePass(*PR);
initializeSILateBranchLoweringPass(*PR);		initializeSILateBranchLoweringPass(*PR);
▲ Show 20 Lines • Show All 1,009 Lines • ▼ Show 20 Lines	void GCNPassConfig::addPreEmitPass() {
// are multiple scheduling regions in a basic block, the regions are scheduled		// are multiple scheduling regions in a basic block, the regions are scheduled
// bottom up, so when we begin to schedule a region we don't know what		// bottom up, so when we begin to schedule a region we don't know what
// instructions were emitted directly before it.		// instructions were emitted directly before it.
//		//
// Here we add a stand-alone hazard recognizer pass which can handle all		// Here we add a stand-alone hazard recognizer pass which can handle all
// cases.		// cases.
addPass(&PostRAHazardRecognizerID);		addPass(&PostRAHazardRecognizerID);

if (getOptLevel() > CodeGenOpt::Less)
addPass(&AMDGPUReleaseVGPRsID);

if (isPassEnabled(EnableInsertDelayAlu, CodeGenOpt::Less))		if (isPassEnabled(EnableInsertDelayAlu, CodeGenOpt::Less))
addPass(&AMDGPUInsertDelayAluID);		addPass(&AMDGPUInsertDelayAluID);

addPass(&BranchRelaxationPassID);		addPass(&BranchRelaxationPassID);
}		}

TargetPassConfig *GCNTargetMachine::createPassConfig(PassManagerBase &PM) {		TargetPassConfig *GCNTargetMachine::createPassConfig(PassManagerBase &PM) {
return new GCNPassConfig(*this, PM);		return new GCNPassConfig(*this, PM);
▲ Show 20 Lines • Show All 200 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/CMakeLists.txt

Show First 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	add_llvm_target(AMDGPUCodeGen
AMDGPUPreLegalizerCombiner.cpp		AMDGPUPreLegalizerCombiner.cpp
AMDGPUPrintfRuntimeBinding.cpp		AMDGPUPrintfRuntimeBinding.cpp
AMDGPUPromoteAlloca.cpp		AMDGPUPromoteAlloca.cpp
AMDGPUPropagateAttributes.cpp		AMDGPUPropagateAttributes.cpp
AMDGPUPromoteKernelArguments.cpp		AMDGPUPromoteKernelArguments.cpp
AMDGPURegBankCombiner.cpp		AMDGPURegBankCombiner.cpp
AMDGPURegBankSelect.cpp		AMDGPURegBankSelect.cpp
AMDGPURegisterBankInfo.cpp		AMDGPURegisterBankInfo.cpp
AMDGPUReleaseVGPRs.cpp
AMDGPURemoveIncompatibleFunctions.cpp		AMDGPURemoveIncompatibleFunctions.cpp
AMDGPUResourceUsageAnalysis.cpp		AMDGPUResourceUsageAnalysis.cpp
AMDGPURewriteOutArguments.cpp		AMDGPURewriteOutArguments.cpp
AMDGPURewriteUndefForPHI.cpp		AMDGPURewriteUndefForPHI.cpp
AMDGPUSetWavePriority.cpp		AMDGPUSetWavePriority.cpp
AMDGPUSubtarget.cpp		AMDGPUSubtarget.cpp
AMDGPUTargetMachine.cpp		AMDGPUTargetMachine.cpp
AMDGPUTargetObjectFile.cpp		AMDGPUTargetObjectFile.cpp
▲ Show 20 Lines • Show All 100 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp

Show First 20 Lines • Show All 380 Lines • ▼ Show 20 Lines	private:

MapVector<MachineBasicBlock *, BlockInfo> BlockInfos;		MapVector<MachineBasicBlock *, BlockInfo> BlockInfos;

// ForceEmitZeroWaitcnts: force all waitcnts insts to be s_waitcnt 0		// ForceEmitZeroWaitcnts: force all waitcnts insts to be s_waitcnt 0
// because of amdgpu-waitcnt-forcezero flag		// because of amdgpu-waitcnt-forcezero flag
bool ForceEmitZeroWaitcnts;		bool ForceEmitZeroWaitcnts;
bool ForceEmitWaitcnt[NUM_INST_CNTS];		bool ForceEmitWaitcnt[NUM_INST_CNTS];

		// S_ENDPGM instructions before which we should insert a DEALLOC_VGPRS
		// message.
		DenseSet<MachineInstr *> ReleaseVGPRInsts;

public:		public:
static char ID;		static char ID;

SIInsertWaitcnts() : MachineFunctionPass(ID) {		SIInsertWaitcnts() : MachineFunctionPass(ID) {
(void)ForceExpCounter;		(void)ForceExpCounter;
(void)ForceLgkmCounter;		(void)ForceLgkmCounter;
(void)ForceVMCounter;		(void)ForceVMCounter;
}		}
▲ Show 20 Lines • Show All 630 Lines • ▼ Show 20 Lines	bool SIInsertWaitcnts::generateWaitcntInstBefore(MachineInstr &MI,
// NOTE: this could be improved with knowledge of all call sites or		// NOTE: this could be improved with knowledge of all call sites or
// with knowledge of the called routines.		// with knowledge of the called routines.
if (MI.getOpcode() == AMDGPU::SI_RETURN_TO_EPILOG \|\|		if (MI.getOpcode() == AMDGPU::SI_RETURN_TO_EPILOG \|\|
MI.getOpcode() == AMDGPU::SI_RETURN \|\|		MI.getOpcode() == AMDGPU::SI_RETURN \|\|
MI.getOpcode() == AMDGPU::S_SETPC_B64_return \|\|		MI.getOpcode() == AMDGPU::S_SETPC_B64_return \|\|
(MI.isReturn() && MI.isCall() && !callWaitsOnFunctionEntry(MI))) {		(MI.isReturn() && MI.isCall() && !callWaitsOnFunctionEntry(MI))) {
Wait = Wait.combined(allZeroWaitcnt());		Wait = Wait.combined(allZeroWaitcnt());
}		}
		// Identify S_ENDPGM instructions which may have to wait for outstanding VMEM
		// stores. In this case it can be useful to send a message to explicitly
		// release all VGPRs before the stores have completed.
		else if (MI.getOpcode() == AMDGPU::S_ENDPGM \|\|
		MI.getOpcode() == AMDGPU::S_ENDPGM_SAVED) {
		if (ST->getGeneration() >= AMDGPUSubtarget::GFX11 &&
		ScoreBrackets.getScoreRange(VS_CNT) != 0)
		ReleaseVGPRInsts.insert(&MI);
		}
// Resolve vm waits before gs-done.		// Resolve vm waits before gs-done.
else if ((MI.getOpcode() == AMDGPU::S_SENDMSG \|\|		else if ((MI.getOpcode() == AMDGPU::S_SENDMSG \|\|
MI.getOpcode() == AMDGPU::S_SENDMSGHALT) &&		MI.getOpcode() == AMDGPU::S_SENDMSGHALT) &&
ST->hasLegacyGeometry() &&		ST->hasLegacyGeometry() &&
((MI.getOperand(0).getImm() & AMDGPU::SendMsg::ID_MASK_PreGFX11_) ==		((MI.getOperand(0).getImm() & AMDGPU::SendMsg::ID_MASK_PreGFX11_) ==
AMDGPU::SendMsg::ID_GS_DONE_PreGFX11)) {		AMDGPU::SendMsg::ID_GS_DONE_PreGFX11)) {
Wait.VmCnt = 0;		Wait.VmCnt = 0;
}		}
▲ Show 20 Lines • Show All 882 Lines • ▼ Show 20 Lines	if (HaveScalarStores) {
Modified = true;		Modified = true;
BuildMI(*MBB, I, I->getDebugLoc(), TII->get(AMDGPU::S_DCACHE_WB));		BuildMI(*MBB, I, I->getDebugLoc(), TII->get(AMDGPU::S_DCACHE_WB));
}		}
}		}
}		}
}		}
}		}

		// Insert DEALLOC_VGPR messages before previously identified S_ENDPGM
		// instructions.
		for (MachineInstr *MI : ReleaseVGPRInsts) {
		BuildMI(*MI->getParent(), MI, DebugLoc(), TII->get(AMDGPU::S_SENDMSG))
		.addImm(AMDGPU::SendMsg::ID_DEALLOC_VGPRS_GFX11Plus);
		Modified = true;
		}
		ReleaseVGPRInsts.clear();

return Modified;		return Modified;
}		}

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.csub.ll

	Show First 20 Lines • Show All 153 Lines • ▼ Show 20 Lines
	; GFX11-LABEL: global_atomic_csub_sgpr_base_offset_nortn:			; GFX11-LABEL: global_atomic_csub_sgpr_base_offset_nortn:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x8			; GFX11-NEXT: s_load_b32 s2, s[0:1], 0x8
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: v_dual_mov_b32 v1, 0x1000 :: v_dual_mov_b32 v0, s2			; GFX11-NEXT: v_dual_mov_b32 v1, 0x1000 :: v_dual_mov_b32 v0, s2
	; GFX11-NEXT: global_atomic_csub_u32 v0, v1, v0, s[0:1] glc			; GFX11-NEXT: global_atomic_csub_u32 v0, v1, v0, s[0:1] glc
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	foadAuthorUnsubmitted Done Reply Inline Actions `global_atomic_csub_u32 ... glc` is an atomic-with-return which uses VMcnt. The hardware will wait until VMcnt==0 before sending the MSG_DEALLOC_VGPRS message, so there is no point sending it. foad: `global_atomic_csub_u32 ... glc` is an atomic-with-return which uses VMcnt. The hardware will…
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%gep = getelementptr i32, ptr addrspace(1) %ptr, i64 1024			%gep = getelementptr i32, ptr addrspace(1) %ptr, i64 1024
	%ret = call i32 @llvm.amdgcn.global.atomic.csub.p1(ptr addrspace(1) %gep, i32 %data)			%ret = call i32 @llvm.amdgcn.global.atomic.csub.p1(ptr addrspace(1) %gep, i32 %data)
	ret void			ret void
	}			}

	declare i32 @llvm.amdgcn.global.atomic.csub.p1(ptr addrspace(1) nocapture, i32) #1			declare i32 @llvm.amdgcn.global.atomic.csub.p1(ptr addrspace(1) nocapture, i32) #1

	attributes #0 = { nounwind willreturn }			attributes #0 = { nounwind willreturn }
	attributes #1 = { argmemonly nounwind }			attributes #1 = { argmemonly nounwind }

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=tahiti -o - %s \| FileCheck -check-prefix=GFX6 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=tahiti -o - %s \| FileCheck -check-prefix=GFX6 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -o - %s \| FileCheck -check-prefix=GFX8 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -o - %s \| FileCheck -check-prefix=GFX8 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -o - %s \| FileCheck -check-prefix=GFX900 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -o - %s \| FileCheck -check-prefix=GFX900 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx90a -o - %s \| FileCheck -check-prefix=GFX90A %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx90a -o - %s \| FileCheck -check-prefix=GFX90A %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -o - %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -o - %s \| FileCheck -check-prefix=GFX10PLUS %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1100 -o - %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1100 -o - %s \| FileCheck -check-prefix=GFX10PLUS %s

	define amdgpu_ps float @atomic_swap_i32_1d(<8 x i32> inreg %rsrc, i32 %data, i32 %s) {			define amdgpu_ps float @atomic_swap_i32_1d(<8 x i32> inreg %rsrc, i32 %data, i32 %s) {
	; GFX6-LABEL: atomic_swap_i32_1d:			; GFX6-LABEL: atomic_swap_i32_1d:
	; GFX6: ; %bb.0: ; %main_body			; GFX6: ; %bb.0: ; %main_body
	; GFX6-NEXT: s_mov_b32 s0, s2			; GFX6-NEXT: s_mov_b32 s0, s2
	; GFX6-NEXT: s_mov_b32 s1, s3			; GFX6-NEXT: s_mov_b32 s1, s3
	; GFX6-NEXT: s_mov_b32 s2, s4			; GFX6-NEXT: s_mov_b32 s2, s4
	; GFX6-NEXT: s_mov_b32 s3, s5			; GFX6-NEXT: s_mov_b32 s3, s5
	▲ Show 20 Lines • Show All 1,038 Lines • ▼ Show 20 Lines
	; GFX90A-NEXT: s_mov_b32 s3, s5			; GFX90A-NEXT: s_mov_b32 s3, s5
	; GFX90A-NEXT: s_mov_b32 s4, s6			; GFX90A-NEXT: s_mov_b32 s4, s6
	; GFX90A-NEXT: s_mov_b32 s5, s7			; GFX90A-NEXT: s_mov_b32 s5, s7
	; GFX90A-NEXT: s_mov_b32 s6, s8			; GFX90A-NEXT: s_mov_b32 s6, s8
	; GFX90A-NEXT: s_mov_b32 s7, s9			; GFX90A-NEXT: s_mov_b32 s7, s9
	; GFX90A-NEXT: image_atomic_cmpswap v[0:1], v2, s[0:7] dmask:0x3 unorm glc			; GFX90A-NEXT: image_atomic_cmpswap v[0:1], v2, s[0:7] dmask:0x3 unorm glc
	; GFX90A-NEXT: s_endpgm			; GFX90A-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: atomic_cmpswap_i32_1d_no_return:			; GFX10PLUS-LABEL: atomic_cmpswap_i32_1d_no_return:
	; GFX10: ; %bb.0: ; %main_body			; GFX10PLUS: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10PLUS-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10PLUS-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10PLUS-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10PLUS-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10PLUS-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10PLUS-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10PLUS-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10PLUS-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: image_atomic_cmpswap v[0:1], v2, s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_1D unorm glc			; GFX10PLUS-NEXT: image_atomic_cmpswap v[0:1], v2, s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_1D unorm glc
	; GFX10-NEXT: s_endpgm			; GFX10PLUS-NEXT: s_endpgm
	;
	; GFX11-LABEL: atomic_cmpswap_i32_1d_no_return:
	; GFX11: ; %bb.0: ; %main_body
	; GFX11-NEXT: s_mov_b32 s0, s2
	; GFX11-NEXT: s_mov_b32 s1, s3
	; GFX11-NEXT: s_mov_b32 s2, s4
	; GFX11-NEXT: s_mov_b32 s3, s5
	; GFX11-NEXT: s_mov_b32 s4, s6
	; GFX11-NEXT: s_mov_b32 s5, s7
	; GFX11-NEXT: s_mov_b32 s6, s8
	; GFX11-NEXT: s_mov_b32 s7, s9
	; GFX11-NEXT: image_atomic_cmpswap v[0:1], v2, s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_1D unorm glc
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	main_body:			main_body:
	%v = call i32 @llvm.amdgcn.image.atomic.cmpswap.1d.i32.i32(i32 %cmp, i32 %swap, i32 %s, <8 x i32> %rsrc, i32 0, i32 0)			%v = call i32 @llvm.amdgcn.image.atomic.cmpswap.1d.i32.i32(i32 %cmp, i32 %swap, i32 %s, <8 x i32> %rsrc, i32 0, i32 0)
	ret void			ret void
	}			}

	define amdgpu_ps float @atomic_add_i32_2d(<8 x i32> inreg %rsrc, i32 %data, i32 %s, i32 %t) {			define amdgpu_ps float @atomic_add_i32_2d(<8 x i32> inreg %rsrc, i32 %data, i32 %s, i32 %t) {
	; GFX6-LABEL: atomic_add_i32_2d:			; GFX6-LABEL: atomic_add_i32_2d:
	; GFX6: ; %bb.0: ; %main_body			; GFX6: ; %bb.0: ; %main_body
	▲ Show 20 Lines • Show All 1,659 Lines • ▼ Show 20 Lines
	; GFX90A-NEXT: s_mov_b32 s3, s5			; GFX90A-NEXT: s_mov_b32 s3, s5
	; GFX90A-NEXT: s_mov_b32 s4, s6			; GFX90A-NEXT: s_mov_b32 s4, s6
	; GFX90A-NEXT: s_mov_b32 s5, s7			; GFX90A-NEXT: s_mov_b32 s5, s7
	; GFX90A-NEXT: s_mov_b32 s6, s8			; GFX90A-NEXT: s_mov_b32 s6, s8
	; GFX90A-NEXT: s_mov_b32 s7, s9			; GFX90A-NEXT: s_mov_b32 s7, s9
	; GFX90A-NEXT: image_atomic_cmpswap v[0:3], v4, s[0:7] dmask:0xf unorm glc			; GFX90A-NEXT: image_atomic_cmpswap v[0:3], v4, s[0:7] dmask:0xf unorm glc
	; GFX90A-NEXT: s_endpgm			; GFX90A-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: atomic_cmpswap_i64_1d_no_return:			; GFX10PLUS-LABEL: atomic_cmpswap_i64_1d_no_return:
	; GFX10: ; %bb.0: ; %main_body			; GFX10PLUS: ; %bb.0: ; %main_body
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10PLUS-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10PLUS-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10PLUS-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10PLUS-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10PLUS-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10PLUS-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10PLUS-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10PLUS-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: image_atomic_cmpswap v[0:3], v4, s[0:7] dmask:0xf dim:SQ_RSRC_IMG_1D unorm glc			; GFX10PLUS-NEXT: image_atomic_cmpswap v[0:3], v4, s[0:7] dmask:0xf dim:SQ_RSRC_IMG_1D unorm glc
	; GFX10-NEXT: s_endpgm			; GFX10PLUS-NEXT: s_endpgm
	;
	; GFX11-LABEL: atomic_cmpswap_i64_1d_no_return:
	; GFX11: ; %bb.0: ; %main_body
	; GFX11-NEXT: s_mov_b32 s0, s2
	; GFX11-NEXT: s_mov_b32 s1, s3
	; GFX11-NEXT: s_mov_b32 s2, s4
	; GFX11-NEXT: s_mov_b32 s3, s5
	; GFX11-NEXT: s_mov_b32 s4, s6
	; GFX11-NEXT: s_mov_b32 s5, s7
	; GFX11-NEXT: s_mov_b32 s6, s8
	; GFX11-NEXT: s_mov_b32 s7, s9
	; GFX11-NEXT: image_atomic_cmpswap v[0:3], v4, s[0:7] dmask:0xf dim:SQ_RSRC_IMG_1D unorm glc
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm
	main_body:			main_body:
	%v = call i64 @llvm.amdgcn.image.atomic.cmpswap.1d.i64.i32(i64 %cmp, i64 %swap, i32 %s, <8 x i32> %rsrc, i32 0, i32 0)			%v = call i64 @llvm.amdgcn.image.atomic.cmpswap.1d.i64.i32(i64 %cmp, i64 %swap, i32 %s, <8 x i32> %rsrc, i32 0, i32 0)
	ret void			ret void
	}			}

	define amdgpu_ps <2 x float> @atomic_add_i64_2d(<8 x i32> inreg %rsrc, i64 %data, i32 %s, i32 %t) {			define amdgpu_ps <2 x float> @atomic_add_i64_2d(<8 x i32> inreg %rsrc, i64 %data, i32 %s, i32 %t) {
	; GFX6-LABEL: atomic_add_i64_2d:			; GFX6-LABEL: atomic_add_i64_2d:
	; GFX6: ; %bb.0: ; %main_body			; GFX6: ; %bb.0: ; %main_body
	▲ Show 20 Lines • Show All 648 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/call-argument-types.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 4,376 Lines • ▼ Show 20 Lines
	; GFX11-NEXT: buffer_load_b128 v[12:15], off, s[4:7], 0 offset:48			; GFX11-NEXT: buffer_load_b128 v[12:15], off, s[4:7], 0 offset:48
	; GFX11-NEXT: buffer_load_b128 v[16:19], off, s[4:7], 0 offset:64			; GFX11-NEXT: buffer_load_b128 v[16:19], off, s[4:7], 0 offset:64
	; GFX11-NEXT: buffer_load_b128 v[20:23], off, s[4:7], 0 offset:80			; GFX11-NEXT: buffer_load_b128 v[20:23], off, s[4:7], 0 offset:80
	; GFX11-NEXT: buffer_load_b128 v[24:27], off, s[4:7], 0 offset:96			; GFX11-NEXT: buffer_load_b128 v[24:27], off, s[4:7], 0 offset:96
	; GFX11-NEXT: s_mov_b64 s[6:7], s[0:1]			; GFX11-NEXT: s_mov_b64 s[6:7], s[0:1]
	; GFX11-NEXT: s_waitcnt vmcnt(7)			; GFX11-NEXT: s_waitcnt vmcnt(7)
	; GFX11-NEXT: scratch_store_b32 off, v31, s32			; GFX11-NEXT: scratch_store_b32 off, v31, s32
	; GFX11-NEXT: s_swappc_b64 s[30:31], s[2:3]			; GFX11-NEXT: s_swappc_b64 s[30:31], s[2:3]
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	foadAuthorUnsubmitted Done Reply Inline Actions `s_swappc_b64` is a call. The ABI says that the callee should wait for memory counters like VScnt to be 0 before returning, so there should be no outstanding stores at this point. foad: `s_swappc_b64` is a call. The ABI says that the callee should wait for memory counters like…
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	;			;
	; HSA-LABEL: test_call_external_void_func_v32i32:			; HSA-LABEL: test_call_external_void_func_v32i32:
	; HSA: ; %bb.0:			; HSA: ; %bb.0:
	; HSA-NEXT: s_add_i32 s6, s6, s9			; HSA-NEXT: s_add_i32 s6, s6, s9
	; HSA-NEXT: s_lshr_b32 flat_scratch_hi, s6, 8			; HSA-NEXT: s_lshr_b32 flat_scratch_hi, s6, 8
	; HSA-NEXT: s_add_u32 s0, s0, s9			; HSA-NEXT: s_add_u32 s0, s0, s9
	; HSA-NEXT: s_load_dwordx2 s[8:9], s[4:5], 0x0			; HSA-NEXT: s_load_dwordx2 s[8:9], s[4:5], 0x0
	▲ Show 20 Lines • Show All 153 Lines • ▼ Show 20 Lines
	; GFX11-NEXT: buffer_load_b128 v[24:27], off, s[4:7], 0 offset:96			; GFX11-NEXT: buffer_load_b128 v[24:27], off, s[4:7], 0 offset:96
	; GFX11-NEXT: s_mov_b64 s[6:7], s[0:1]			; GFX11-NEXT: s_mov_b64 s[6:7], s[0:1]
	; GFX11-NEXT: s_add_i32 s4, s32, 4			; GFX11-NEXT: s_add_i32 s4, s32, 4
	; GFX11-NEXT: s_waitcnt vmcnt(8)			; GFX11-NEXT: s_waitcnt vmcnt(8)
	; GFX11-NEXT: scratch_store_b32 off, v31, s32			; GFX11-NEXT: scratch_store_b32 off, v31, s32
	; GFX11-NEXT: s_waitcnt vmcnt(7)			; GFX11-NEXT: s_waitcnt vmcnt(7)
	; GFX11-NEXT: scratch_store_b32 off, v32, s4			; GFX11-NEXT: scratch_store_b32 off, v32, s4
	; GFX11-NEXT: s_swappc_b64 s[30:31], s[2:3]			; GFX11-NEXT: s_swappc_b64 s[30:31], s[2:3]
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	;			;
	; HSA-LABEL: test_call_external_void_func_v32i32_i32:			; HSA-LABEL: test_call_external_void_func_v32i32_i32:
	; HSA: ; %bb.0:			; HSA: ; %bb.0:
	; HSA-NEXT: s_add_i32 s8, s8, s11			; HSA-NEXT: s_add_i32 s8, s8, s11
	; HSA-NEXT: s_mov_b32 flat_scratch_lo, s9			; HSA-NEXT: s_mov_b32 flat_scratch_lo, s9
	; HSA-NEXT: s_lshr_b32 flat_scratch_hi, s8, 8			; HSA-NEXT: s_lshr_b32 flat_scratch_hi, s8, 8
	; HSA-NEXT: s_load_dwordx2 s[8:9], s[4:5], 0x0			; HSA-NEXT: s_load_dwordx2 s[8:9], s[4:5], 0x0
	▲ Show 20 Lines • Show All 357 Lines • ▼ Show 20 Lines
	; GFX11-NEXT: s_addc_u32 s3, s3, external_void_func_byval_struct_i8_i32@rel32@hi+12			; GFX11-NEXT: s_addc_u32 s3, s3, external_void_func_byval_struct_i8_i32@rel32@hi+12
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: scratch_store_b8 off, v0, off offset:8			; GFX11-NEXT: scratch_store_b8 off, v0, off offset:8
	; GFX11-NEXT: scratch_store_b32 off, v1, off offset:12			; GFX11-NEXT: scratch_store_b32 off, v1, off offset:12
	; GFX11-NEXT: scratch_load_b64 v[0:1], off, off offset:8			; GFX11-NEXT: scratch_load_b64 v[0:1], off, off offset:8
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: scratch_store_b64 off, v[0:1], s32			; GFX11-NEXT: scratch_store_b64 off, v[0:1], s32
	; GFX11-NEXT: s_swappc_b64 s[30:31], s[2:3]			; GFX11-NEXT: s_swappc_b64 s[30:31], s[2:3]
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	;			;
	; HSA-LABEL: test_call_external_void_func_byval_struct_i8_i32:			; HSA-LABEL: test_call_external_void_func_byval_struct_i8_i32:
	; HSA: ; %bb.0:			; HSA: ; %bb.0:
	; HSA-NEXT: s_add_i32 s6, s6, s9			; HSA-NEXT: s_add_i32 s6, s6, s9
	; HSA-NEXT: s_lshr_b32 flat_scratch_hi, s6, 8			; HSA-NEXT: s_lshr_b32 flat_scratch_hi, s6, 8
	; HSA-NEXT: s_add_u32 s0, s0, s9			; HSA-NEXT: s_add_u32 s0, s0, s9
	; HSA-NEXT: s_addc_u32 s1, s1, 0			; HSA-NEXT: s_addc_u32 s1, s1, 0
	▲ Show 20 Lines • Show All 2,378 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/cc-update.ll

	Show First 20 Lines • Show All 232 Lines • ▼ Show 20 Lines
	; GFX1100-NEXT: s_mov_b32 s14, s15			; GFX1100-NEXT: s_mov_b32 s14, s15
	; GFX1100-NEXT: s_mov_b32 s32, 16			; GFX1100-NEXT: s_mov_b32 s32, 16
	; GFX1100-NEXT: scratch_store_b32 off, v1, off offset:4 dlc			; GFX1100-NEXT: scratch_store_b32 off, v1, off offset:4 dlc
	; GFX1100-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1100-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1100-NEXT: s_getpc_b64 s[16:17]			; GFX1100-NEXT: s_getpc_b64 s[16:17]
	; GFX1100-NEXT: s_add_u32 s16, s16, ex@rel32@lo+4			; GFX1100-NEXT: s_add_u32 s16, s16, ex@rel32@lo+4
	; GFX1100-NEXT: s_addc_u32 s17, s17, ex@rel32@hi+12			; GFX1100-NEXT: s_addc_u32 s17, s17, ex@rel32@hi+12
	; GFX1100-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1100-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1100-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1100-NEXT: s_endpgm			; GFX1100-NEXT: s_endpgm

	entry:			entry:
	%x = alloca i32, align 4, addrspace(5)			%x = alloca i32, align 4, addrspace(5)
	store volatile i32 0, ptr addrspace(5) %x, align 4			store volatile i32 0, ptr addrspace(5) %x, align 4
	tail call void @ex() #0			tail call void @ex() #0
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 262 Lines • ▼ Show 20 Lines
	; GFX1100-NEXT: s_mov_b32 s14, s15			; GFX1100-NEXT: s_mov_b32 s14, s15
	; GFX1100-NEXT: s_mov_b32 s32, 16			; GFX1100-NEXT: s_mov_b32 s32, 16
	; GFX1100-NEXT: scratch_store_b32 off, v1, s33 offset:4 dlc			; GFX1100-NEXT: scratch_store_b32 off, v1, s33 offset:4 dlc
	; GFX1100-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1100-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1100-NEXT: s_getpc_b64 s[16:17]			; GFX1100-NEXT: s_getpc_b64 s[16:17]
	; GFX1100-NEXT: s_add_u32 s16, s16, ex@rel32@lo+4			; GFX1100-NEXT: s_add_u32 s16, s16, ex@rel32@lo+4
	; GFX1100-NEXT: s_addc_u32 s17, s17, ex@rel32@hi+12			; GFX1100-NEXT: s_addc_u32 s17, s17, ex@rel32@hi+12
	; GFX1100-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GFX1100-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GFX1100-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX1100-NEXT: s_endpgm			; GFX1100-NEXT: s_endpgm
	entry:			entry:
	%x = alloca i32, align 4, addrspace(5)			%x = alloca i32, align 4, addrspace(5)
	store volatile i32 0, ptr addrspace(5) %x, align 4			store volatile i32 0, ptr addrspace(5) %x, align 4
	tail call void @ex() #2			tail call void @ex() #2
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 88 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llc-pipeline.ll

	Show First 20 Lines • Show All 1,020 Lines • ▼ Show 20 Lines
	; GCN-O2-NEXT: Machine Natural Loop Construction			; GCN-O2-NEXT: Machine Natural Loop Construction
	; GCN-O2-NEXT: MachinePostDominator Tree Construction			; GCN-O2-NEXT: MachinePostDominator Tree Construction
	; GCN-O2-NEXT: SI insert wait instructions			; GCN-O2-NEXT: SI insert wait instructions
	; GCN-O2-NEXT: Insert required mode register values			; GCN-O2-NEXT: Insert required mode register values
	; GCN-O2-NEXT: SI Insert Hard Clauses			; GCN-O2-NEXT: SI Insert Hard Clauses
	; GCN-O2-NEXT: SI Final Branch Preparation			; GCN-O2-NEXT: SI Final Branch Preparation
	; GCN-O2-NEXT: SI peephole optimizations			; GCN-O2-NEXT: SI peephole optimizations
	; GCN-O2-NEXT: Post RA hazard recognizer			; GCN-O2-NEXT: Post RA hazard recognizer
	; GCN-O2-NEXT: Release VGPRs
	; GCN-O2-NEXT: AMDGPU Insert Delay ALU			; GCN-O2-NEXT: AMDGPU Insert Delay ALU
	; GCN-O2-NEXT: Branch relaxation pass			; GCN-O2-NEXT: Branch relaxation pass
	; GCN-O2-NEXT: Register Usage Information Collector Pass			; GCN-O2-NEXT: Register Usage Information Collector Pass
	; GCN-O2-NEXT: Live DEBUG_VALUE analysis			; GCN-O2-NEXT: Live DEBUG_VALUE analysis
	; GCN-O2-NEXT: Machine Sanitizer Binary Metadata			; GCN-O2-NEXT: Machine Sanitizer Binary Metadata
	; GCN-O2-NEXT: Lazy Machine Block Frequency Analysis			; GCN-O2-NEXT: Lazy Machine Block Frequency Analysis
	; GCN-O2-NEXT: Machine Optimization Remark Emitter			; GCN-O2-NEXT: Machine Optimization Remark Emitter
	; GCN-O2-NEXT: Stack Frame Layout Analysis			; GCN-O2-NEXT: Stack Frame Layout Analysis
	▲ Show 20 Lines • Show All 307 Lines • ▼ Show 20 Lines
	; GCN-O3-NEXT: Machine Natural Loop Construction			; GCN-O3-NEXT: Machine Natural Loop Construction
	; GCN-O3-NEXT: MachinePostDominator Tree Construction			; GCN-O3-NEXT: MachinePostDominator Tree Construction
	; GCN-O3-NEXT: SI insert wait instructions			; GCN-O3-NEXT: SI insert wait instructions
	; GCN-O3-NEXT: Insert required mode register values			; GCN-O3-NEXT: Insert required mode register values
	; GCN-O3-NEXT: SI Insert Hard Clauses			; GCN-O3-NEXT: SI Insert Hard Clauses
	; GCN-O3-NEXT: SI Final Branch Preparation			; GCN-O3-NEXT: SI Final Branch Preparation
	; GCN-O3-NEXT: SI peephole optimizations			; GCN-O3-NEXT: SI peephole optimizations
	; GCN-O3-NEXT: Post RA hazard recognizer			; GCN-O3-NEXT: Post RA hazard recognizer
	; GCN-O3-NEXT: Release VGPRs
	; GCN-O3-NEXT: AMDGPU Insert Delay ALU			; GCN-O3-NEXT: AMDGPU Insert Delay ALU
	; GCN-O3-NEXT: Branch relaxation pass			; GCN-O3-NEXT: Branch relaxation pass
	; GCN-O3-NEXT: Register Usage Information Collector Pass			; GCN-O3-NEXT: Register Usage Information Collector Pass
	; GCN-O3-NEXT: Live DEBUG_VALUE analysis			; GCN-O3-NEXT: Live DEBUG_VALUE analysis
	; GCN-O3-NEXT: Machine Sanitizer Binary Metadata			; GCN-O3-NEXT: Machine Sanitizer Binary Metadata
	; GCN-O3-NEXT: Lazy Machine Block Frequency Analysis			; GCN-O3-NEXT: Lazy Machine Block Frequency Analysis
	; GCN-O3-NEXT: Machine Optimization Remark Emitter			; GCN-O3-NEXT: Machine Optimization Remark Emitter
	; GCN-O3-NEXT: Stack Frame Layout Analysis			; GCN-O3-NEXT: Stack Frame Layout Analysis
	Show All 13 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.s.buffer.load.ll

	Show First 20 Lines • Show All 585 Lines • ▼ Show 20 Lines
	; GFX11-NEXT: s_load_b64 s[4:5], s[4:5], 0x0			; GFX11-NEXT: s_load_b64 s[4:5], s[4:5], 0x0
	; GFX11-NEXT: v_mov_b32_e32 v1, 0			; GFX11-NEXT: v_mov_b32_e32 v1, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: global_store_b32 v1, v0, s[4:5]			; GFX11-NEXT: global_store_b32 v1, v0, s[4:5]
	; GFX11-NEXT: v_or_b32_e32 v0, 8, v0			; GFX11-NEXT: v_or_b32_e32 v0, 8, v0
	; GFX11-NEXT: buffer_load_b32 v0, v0, s[0:3], 0 offen			; GFX11-NEXT: buffer_load_b32 v0, v0, s[0:3], 0 offen
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: exp mrt0 v0, v0, v0, v0 done			; GFX11-NEXT: exp mrt0 v0, v0, v0, v0 done
				; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
				foadAuthorUnsubmitted Done Reply Inline Actions The old AMDGPUReleaseVGPRs pass did not send the message here because the `global_store_b32` above was not the last VGPR-using instruction before the `s_endpgm`. I don't understand why it was implemented that way. I think we do want to send the message, because VScnt might be non-zero here. foad: The old AMDGPUReleaseVGPRs pass did not send the message here because the `global_store_b32`…
				nhaehnleUnsubmitted Not Done Reply Inline Actions Yes, makes sense to me. nhaehnle: Yes, makes sense to me.
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	main_body:			main_body:
	%tmp = shl i32 %index, 4			%tmp = shl i32 %index, 4
	store i32 %tmp, ptr addrspace(1) @gv			store i32 %tmp, ptr addrspace(1) @gv
	br label %bb1			br label %bb1

	bb1: ; preds = %main_body			bb1: ; preds = %main_body
	%tmp1 = or i32 %tmp, 8			%tmp1 = or i32 %tmp, 8
	▲ Show 20 Lines • Show All 680 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/release-vgprs.mir

This file was deleted.

	# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py

	# RUN: llc -march=amdgcn -mcpu=gfx1100 -run-pass=release-vgprs -verify-machineinstrs -o - %s \| FileCheck %s

	--- \|
	define amdgpu_ps void @tbuffer_store1() { ret void }
	define amdgpu_ps void @tbuffer_store2() { ret void }
	define amdgpu_ps void @flat_store() { ret void }
	define amdgpu_ps void @global_store() { ret void }
	define amdgpu_ps void @buffer_store_format() { ret void }
	define amdgpu_ps void @ds_write_b32() { ret void }
	define amdgpu_ps void @global_store_dword() { ret void }
	define amdgpu_ps void @multiple_basic_blocks1() { ret void }
	define amdgpu_ps void @multiple_basic_blocks2() { ret void }
	define amdgpu_ps void @multiple_basic_blocks3() { ret void }
	define amdgpu_ps void @recursive_loop() { ret void }
	define amdgpu_ps void @recursive_loop_vmem() { ret void }
	define amdgpu_ps void @image_store() { ret void }
	define amdgpu_ps void @scratch_store() { ret void }
	define amdgpu_ps void @buffer_atomic() { ret void }
	define amdgpu_ps void @flat_atomic() { ret void }
	define amdgpu_ps void @global_atomic() { ret void }
	define amdgpu_ps void @image_atomic() { ret void }
	...

	---
	name: tbuffer_store1
	body: \|
	bb.0:
	; CHECK-LABEL: name: tbuffer_store1
	; CHECK: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed renamable $vgpr0_vgpr1_vgpr2_vgpr3, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, killed renamable $sgpr4, 42, 117, 0, 0, implicit $exec
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed renamable $vgpr0_vgpr1_vgpr2_vgpr3, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, killed renamable $sgpr4, 42, 117, 0, 0, implicit $exec
	S_ENDPGM 0
	...

	---
	name: tbuffer_store2
	body: \|
	bb.0:
	; CHECK-LABEL: name: tbuffer_store2
	; CHECK: TBUFFER_STORE_FORMAT_XYZW_OFFEN_exact killed renamable $vgpr0_vgpr1_vgpr2_vgpr3, killed renamable $vgpr4, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 115, 0, 0, implicit $exec :: (dereferenceable store (s128), align 1, addrspace 7)
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	TBUFFER_STORE_FORMAT_XYZW_OFFEN_exact killed renamable $vgpr0_vgpr1_vgpr2_vgpr3, killed renamable $vgpr4, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 115, 0, 0, implicit $exec :: (dereferenceable store (s128), align 1, addrspace 7)
	S_ENDPGM 0
	...

	---
	name: flat_store
	body: \|
	bb.0:
	; CHECK-LABEL: name: flat_store
	; CHECK: FLAT_STORE_DWORDX4 $vgpr49_vgpr50, $vgpr26_vgpr27_vgpr28_vgpr29, 0, 0, implicit $exec, implicit $flat_scr
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	FLAT_STORE_DWORDX4 $vgpr49_vgpr50, $vgpr26_vgpr27_vgpr28_vgpr29, 0, 0, implicit $exec, implicit $flat_scr
	S_ENDPGM 0
	...

	---
	name: global_store
	body: \|
	bb.0:
	; CHECK-LABEL: name: global_store
	; CHECK: GLOBAL_STORE_DWORD undef renamable $vgpr0_vgpr1, killed renamable $vgpr1, 0, 4, implicit $exec
	; CHECK-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	GLOBAL_STORE_DWORD undef renamable $vgpr0_vgpr1, killed renamable $vgpr1, 0, 4, implicit $exec
	S_WAITCNT_VSCNT undef $sgpr_null, 0
	S_ENDPGM 0
	...

	---
	name: buffer_store_format
	body: \|
	bb.0:
	; CHECK-LABEL: name: buffer_store_format
	; CHECK: BUFFER_STORE_FORMAT_D16_X_OFFEN_exact killed renamable $vgpr0, killed renamable $vgpr1, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, killed renamable $sgpr4, 0, 0, 0, implicit $exec
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	BUFFER_STORE_FORMAT_D16_X_OFFEN_exact killed renamable $vgpr0, killed renamable $vgpr1, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, killed renamable $sgpr4, 0, 0, 0, implicit $exec
	S_ENDPGM 0
	...

	---
	name: ds_write_b32
	body: \|
	bb.0:
	; CHECK-LABEL: name: ds_write_b32
	; CHECK: renamable $vgpr0 = IMPLICIT_DEF
	; CHECK-NEXT: renamable $vgpr1 = IMPLICIT_DEF
	; CHECK-NEXT: DS_WRITE_B32_gfx9 killed renamable $vgpr0, killed renamable $vgpr1, 12, 0, implicit $exec
	; CHECK-NEXT: S_ENDPGM 0
	renamable $vgpr0 = IMPLICIT_DEF
	renamable $vgpr1 = IMPLICIT_DEF
	DS_WRITE_B32_gfx9 killed renamable $vgpr0, killed renamable $vgpr1, 12, 0, implicit $exec
	S_ENDPGM 0

	...
	---
	name: global_store_dword
	body: \|
	bb.0:
	liveins: $vgpr0, $sgpr0_sgpr1

	; CHECK-LABEL: name: global_store_dword
	; CHECK: liveins: $vgpr0, $sgpr0_sgpr1
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: renamable $vgpr0 = V_MAD_I32_I24_e64 killed $vgpr1, killed $vgpr0, killed $sgpr2, 0, implicit $exec
	; CHECK-NEXT: GLOBAL_STORE_DWORD_SADDR killed renamable $vgpr2, killed renamable $vgpr0, killed renamable $sgpr0_sgpr1, 0, 0, implicit $exec
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	renamable $vgpr0 = V_MAD_I32_I24_e64 killed $vgpr1, killed $vgpr0, killed $sgpr2, 0, implicit $exec
	GLOBAL_STORE_DWORD_SADDR killed renamable $vgpr2, killed renamable $vgpr0, killed renamable $sgpr0_sgpr1, 0, 0, implicit $exec
	S_ENDPGM 0
	...

	---
	name: multiple_basic_blocks1
	body: \|
	; CHECK-LABEL: name: multiple_basic_blocks1
	; CHECK: bb.0:
	; CHECK-NEXT: successors: %bb.1(0x80000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: renamable $vgpr0 = BUFFER_LOAD_FORMAT_X_IDXEN killed renamable $vgpr0, renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 0, 0, implicit $exec
	; CHECK-NEXT: S_BRANCH %bb.1
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.1:
	; CHECK-NEXT: successors: %bb.1(0x40000000), %bb.2(0x40000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: $vgpr1 = V_ADD_U32_e32 $vgpr0, $vgpr2, implicit $exec
	; CHECK-NEXT: S_CMP_LG_U32 killed renamable $sgpr3, renamable $sgpr4, implicit-def $scc
	; CHECK-NEXT: S_CBRANCH_SCC1 %bb.1, implicit killed $scc
	; CHECK-NEXT: S_BRANCH %bb.2
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.2:
	; CHECK-NEXT: S_ENDPGM 0
	bb.0:
	successors: %bb.1

	renamable $vgpr0 = BUFFER_LOAD_FORMAT_X_IDXEN killed renamable $vgpr0, renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 0, 0, implicit $exec
	S_BRANCH %bb.1

	bb.1:
	successors: %bb.1, %bb.2

	$vgpr1 = V_ADD_U32_e32 renamable $vgpr0, renamable $vgpr2, implicit $exec
	S_CMP_LG_U32 killed renamable $sgpr3, renamable $sgpr4, implicit-def $scc
	S_CBRANCH_SCC1 %bb.1, implicit killed $scc
	S_BRANCH %bb.2

	bb.2:
	S_ENDPGM 0

	...


	# One block has a VMEM store as the last instruction, we should release the VGPRS
	...
	---
	name: multiple_basic_blocks2
	body: \|
	; CHECK-LABEL: name: multiple_basic_blocks2
	; CHECK: bb.0:
	; CHECK-NEXT: successors: %bb.2(0x80000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: TBUFFER_STORE_FORMAT_X_OFFSET_exact killed renamable $vgpr0, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 125, 0, 0, implicit $exec
	; CHECK-NEXT: $vgpr1 = V_ADD_U32_e32 $vgpr0, $vgpr2, implicit $exec
	; CHECK-NEXT: S_BRANCH %bb.2
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.1:
	; CHECK-NEXT: successors: %bb.2(0x80000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: $vgpr1 = V_ADD_U32_e32 $vgpr0, $vgpr2, implicit $exec
	; CHECK-NEXT: TBUFFER_STORE_FORMAT_X_OFFSET_exact killed renamable $vgpr0, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 125, 0, 0, implicit $exec
	; CHECK-NEXT: S_BRANCH %bb.2
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.2:
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	bb.0:
	successors: %bb.2

	TBUFFER_STORE_FORMAT_X_OFFSET_exact killed renamable $vgpr0, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 125, 0, 0, implicit $exec
	$vgpr1 = V_ADD_U32_e32 renamable $vgpr0, renamable $vgpr2, implicit $exec
	S_BRANCH %bb.2

	bb.1:
	successors: %bb.2

	$vgpr1 = V_ADD_U32_e32 renamable $vgpr0, renamable $vgpr2, implicit $exec
	TBUFFER_STORE_FORMAT_X_OFFSET_exact killed renamable $vgpr0, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 125, 0, 0, implicit $exec
	S_BRANCH %bb.2

	bb.2:
	S_ENDPGM 0
	...


	# One parent block has a VMEM store, release VGPRs
	---
	name: multiple_basic_blocks3
	body: \|
	; CHECK-LABEL: name: multiple_basic_blocks3
	; CHECK: bb.0:
	; CHECK-NEXT: successors: %bb.2(0x80000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: $vgpr1 = V_ADD_U32_e32 $vgpr0, $vgpr2, implicit $exec
	; CHECK-NEXT: TBUFFER_STORE_FORMAT_X_OFFSET_exact killed renamable $vgpr0, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 125, 0, 0, implicit $exec
	; CHECK-NEXT: S_BRANCH %bb.2
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.1:
	; CHECK-NEXT: successors: %bb.2(0x80000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: $vgpr1 = V_ADD_U32_e32 $vgpr0, $vgpr2, implicit $exec
	; CHECK-NEXT: S_BRANCH %bb.2
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.2:
	; CHECK-NEXT: successors: %bb.4(0x80000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: S_BRANCH %bb.4
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.3:
	; CHECK-NEXT: successors: %bb.4(0x80000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: $vgpr1 = V_ADD_U32_e32 $vgpr0, $vgpr2, implicit $exec
	; CHECK-NEXT: S_BRANCH %bb.4
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.4:
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	bb.0:
	successors: %bb.2

	$vgpr1 = V_ADD_U32_e32 renamable $vgpr0, renamable $vgpr2, implicit $exec
	TBUFFER_STORE_FORMAT_X_OFFSET_exact killed renamable $vgpr0, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 125, 0, 0, implicit $exec
	S_BRANCH %bb.2

	bb.1:
	successors: %bb.2

	$vgpr1 = V_ADD_U32_e32 renamable $vgpr0, renamable $vgpr2, implicit $exec
	S_BRANCH %bb.2

	bb.2:
	successors: %bb.4

	S_BRANCH %bb.4

	bb.3:
	successors: %bb.4

	$vgpr1 = V_ADD_U32_e32 renamable $vgpr0, renamable $vgpr2, implicit $exec
	S_BRANCH %bb.4

	bb.4:
	S_ENDPGM 0
	...

	---
	name: recursive_loop
	body: \|
	; CHECK-LABEL: name: recursive_loop
	; CHECK: bb.0:
	; CHECK-NEXT: successors: %bb.1(0x80000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: renamable $vgpr0 = BUFFER_LOAD_FORMAT_X_IDXEN killed renamable $vgpr0, renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 0, 0, implicit $exec
	; CHECK-NEXT: S_BRANCH %bb.1
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.1:
	; CHECK-NEXT: successors: %bb.1(0x40000000), %bb.2(0x40000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: S_CMP_LG_U32 killed renamable $sgpr3, renamable $sgpr4, implicit-def $scc
	; CHECK-NEXT: S_CBRANCH_SCC1 %bb.1, implicit killed $scc
	; CHECK-NEXT: S_BRANCH %bb.2
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.2:
	; CHECK-NEXT: S_ENDPGM 0
	bb.0:
	successors: %bb.1

	renamable $vgpr0 = BUFFER_LOAD_FORMAT_X_IDXEN killed renamable $vgpr0, renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 0, 0, implicit $exec
	S_BRANCH %bb.1

	bb.1:
	successors: %bb.1, %bb.2

	S_CMP_LG_U32 killed renamable $sgpr3, renamable $sgpr4, implicit-def $scc
	S_CBRANCH_SCC1 %bb.1, implicit killed $scc
	S_BRANCH %bb.2

	bb.2:
	S_ENDPGM 0
	...

	---
	name: recursive_loop_vmem
	body: \|
	; CHECK-LABEL: name: recursive_loop_vmem
	; CHECK: bb.0:
	; CHECK-NEXT: successors: %bb.1(0x80000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: renamable $vgpr0 = BUFFER_LOAD_FORMAT_X_IDXEN killed renamable $vgpr0, renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 0, 0, implicit $exec
	; CHECK-NEXT: S_BRANCH %bb.1
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.1:
	; CHECK-NEXT: successors: %bb.1(0x40000000), %bb.2(0x40000000)
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: TBUFFER_STORE_FORMAT_XYZW_OFFEN_exact killed renamable $vgpr0_vgpr1_vgpr2_vgpr3, killed renamable $vgpr4, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 115, 0, 0, implicit $exec
	; CHECK-NEXT: S_CMP_LG_U32 killed renamable $sgpr3, renamable $sgpr4, implicit-def $scc
	; CHECK-NEXT: S_CBRANCH_SCC1 %bb.1, implicit killed $scc
	; CHECK-NEXT: S_BRANCH %bb.2
	; CHECK-NEXT: {{ $}}
	; CHECK-NEXT: bb.2:
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	bb.0:
	successors: %bb.1

	renamable $vgpr0 = BUFFER_LOAD_FORMAT_X_IDXEN killed renamable $vgpr0, renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 0, 0, implicit $exec
	S_BRANCH %bb.1

	bb.1:
	successors: %bb.1, %bb.2

	TBUFFER_STORE_FORMAT_XYZW_OFFEN_exact killed renamable $vgpr0_vgpr1_vgpr2_vgpr3, killed renamable $vgpr4, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 115, 0, 0, implicit $exec
	S_CMP_LG_U32 killed renamable $sgpr3, renamable $sgpr4, implicit-def $scc
	S_CBRANCH_SCC1 %bb.1, implicit killed $scc
	S_BRANCH %bb.2

	bb.2:
	S_ENDPGM 0
	...

	---
	name: image_store
	body: \|
	bb.0:
	; CHECK-LABEL: name: image_store
	; CHECK: IMAGE_STORE_V2_V1_gfx11 killed renamable $vgpr0_vgpr1, killed renamable $vgpr2, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3_sgpr4_sgpr5_sgpr6_sgpr7, 12, 0, 1, 0, 0, -1, 0, 0, 0, implicit $exec :: (dereferenceable store (<2 x s32>), addrspace 7)
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	IMAGE_STORE_V2_V1_gfx11 killed renamable $vgpr0_vgpr1, killed renamable $vgpr2, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3_sgpr4_sgpr5_sgpr6_sgpr7, 12, 0, 1, 0, 0, -1, 0, 0, 0, implicit $exec :: (dereferenceable store (<2 x s32>), addrspace 7)
	S_ENDPGM 0
	...

	---
	name: scratch_store
	body: \|
	bb.0:
	; CHECK-LABEL: name: scratch_store
	; CHECK: renamable $sgpr0 = S_AND_B32 killed renamable $sgpr0, -16, implicit-def dead $scc
	; CHECK-NEXT: SCRATCH_STORE_DWORD_SADDR killed renamable $vgpr0, killed renamable $sgpr0, 0, 0, implicit $exec, implicit $flat_scr
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	renamable $sgpr0 = S_AND_B32 killed renamable $sgpr0, -16, implicit-def dead $scc
	SCRATCH_STORE_DWORD_SADDR killed renamable $vgpr0, killed renamable $sgpr0, 0, 0, implicit $exec, implicit $flat_scr
	S_ENDPGM 0
	...

	---
	name: buffer_atomic
	body: \|
	bb.0:
	; CHECK-LABEL: name: buffer_atomic
	; CHECK: BUFFER_ATOMIC_ADD_F32_OFFEN killed renamable $vgpr0, killed renamable $vgpr2, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 0, implicit $exec :: (volatile dereferenceable load store (s64), align 1, addrspace 7)
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	BUFFER_ATOMIC_ADD_F32_OFFEN killed renamable $vgpr0, killed renamable $vgpr2, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3, 0, 0, 0, implicit $exec :: (volatile dereferenceable load store (s64), align 1, addrspace 7)
	S_ENDPGM 0
	...

	---
	name: flat_atomic
	body: \|
	bb.0:
	; CHECK-LABEL: name: flat_atomic
	; CHECK: renamable $vgpr0_vgpr1 = FLAT_ATOMIC_DEC_X2_RTN killed renamable $vgpr0_vgpr1, killed renamable $vgpr2_vgpr3, 40, 1, implicit $exec, implicit $flat_scr
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	renamable $vgpr0_vgpr1 = FLAT_ATOMIC_DEC_X2_RTN killed renamable $vgpr0_vgpr1, killed renamable $vgpr2_vgpr3, 40, 1, implicit $exec, implicit $flat_scr
	S_ENDPGM 0
	...


	---
	name: global_atomic
	body: \|
	bb.0:
	; CHECK-LABEL: name: global_atomic
	; CHECK: renamable $vgpr0_vgpr1 = GLOBAL_ATOMIC_INC_X2_SADDR_RTN killed renamable $vgpr0, killed renamable $vgpr1_vgpr2, killed renamable $sgpr0_sgpr1, 40, 1, implicit $exec
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	renamable $vgpr0_vgpr1 = GLOBAL_ATOMIC_INC_X2_SADDR_RTN killed renamable $vgpr0, killed renamable $vgpr1_vgpr2, killed renamable $sgpr0_sgpr1, 40, 1, implicit $exec
	S_ENDPGM 0
	...

	---
	name: image_atomic
	body: \|
	bb.0:
	; CHECK-LABEL: name: image_atomic
	; CHECK: renamable $vgpr0_vgpr1_vgpr2_vgpr3 = IMAGE_ATOMIC_CMPSWAP_V2_V1_gfx11 killed renamable $vgpr0_vgpr1_vgpr2_vgpr3, killed renamable $vgpr4, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3_sgpr4_sgpr5_sgpr6_sgpr7, 15, 0, 1, 1, 0, 0, 0, 0, implicit $exec :: (volatile dereferenceable load store (s64), addrspace 7)
	; CHECK-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
	; CHECK-NEXT: S_ENDPGM 0
	renamable $vgpr0_vgpr1_vgpr2_vgpr3 = IMAGE_ATOMIC_CMPSWAP_V2_V1_gfx11 killed renamable $vgpr0_vgpr1_vgpr2_vgpr3, killed renamable $vgpr4, killed renamable $sgpr0_sgpr1_sgpr2_sgpr3_sgpr4_sgpr5_sgpr6_sgpr7, 15, 0, 1, 1, 0, 0, 0, 0, implicit $exec :: (volatile dereferenceable load store (s64), addrspace 7)
	S_ENDPGM 0
	...

llvm/test/CodeGen/AMDGPU/waitcnt-preexisting-vscnt.mir

Show All 25 Lines	bb.0:
; GFX11-NEXT: S_WAITCNT 0		; GFX11-NEXT: S_WAITCNT 0
; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0		; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0
; GFX11-NEXT: GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec		; GFX11-NEXT: GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec
; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0		; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0
; GFX11-NEXT: S_BARRIER		; GFX11-NEXT: S_BARRIER
; GFX11-NEXT: $vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr		; GFX11-NEXT: $vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr
; GFX11-NEXT: S_WAITCNT 7		; GFX11-NEXT: S_WAITCNT 7
; GFX11-NEXT: FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr		; GFX11-NEXT: FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr
		; GFX11-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
		foadAuthorUnsubmitted Done Reply Inline Actions This is only different because we insert these instructions during the SIInsertWaitcnts pass, instead of in a separate pass. foad: This is only different because we insert these instructions during the SIInsertWaitcnts pass…
; GFX11-NEXT: S_ENDPGM 0		; GFX11-NEXT: S_ENDPGM 0
GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec		GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec
S_WAITCNT_VSCNT undef $sgpr_null, 0		S_WAITCNT_VSCNT undef $sgpr_null, 0
S_BARRIER		S_BARRIER
$vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr		$vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr
FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr		FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr
S_ENDPGM 0		S_ENDPGM 0
...		...
Show All 22 Lines	bb.0:
; GFX11-NEXT: S_WAITCNT 0		; GFX11-NEXT: S_WAITCNT 0
; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0		; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0
; GFX11-NEXT: GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec		; GFX11-NEXT: GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec
; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0		; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0
; GFX11-NEXT: S_BARRIER		; GFX11-NEXT: S_BARRIER
; GFX11-NEXT: $vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr		; GFX11-NEXT: $vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr
; GFX11-NEXT: S_WAITCNT 7		; GFX11-NEXT: S_WAITCNT 7
; GFX11-NEXT: FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr		; GFX11-NEXT: FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr
		; GFX11-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
; GFX11-NEXT: S_ENDPGM 0		; GFX11-NEXT: S_ENDPGM 0
GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec		GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec
S_WAITCNT_VSCNT undef $sgpr_null, 1		S_WAITCNT_VSCNT undef $sgpr_null, 1
S_BARRIER		S_BARRIER
$vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr		$vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr
FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr		FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr
S_ENDPGM 0		S_ENDPGM 0
...		...
Show All 24 Lines	bb.0:
; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0		; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0
; GFX11-NEXT: GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec		; GFX11-NEXT: GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec
; GFX11-NEXT: S_WAITCNT 112		; GFX11-NEXT: S_WAITCNT 112
; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0		; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0
; GFX11-NEXT: S_BARRIER		; GFX11-NEXT: S_BARRIER
; GFX11-NEXT: $vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr		; GFX11-NEXT: $vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr
; GFX11-NEXT: S_WAITCNT 7		; GFX11-NEXT: S_WAITCNT 7
; GFX11-NEXT: FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr		; GFX11-NEXT: FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr
		; GFX11-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
; GFX11-NEXT: S_ENDPGM 0		; GFX11-NEXT: S_ENDPGM 0
GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec		GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec
S_WAITCNT 112		S_WAITCNT 112
S_WAITCNT_VSCNT undef $sgpr_null, 0		S_WAITCNT_VSCNT undef $sgpr_null, 0
S_BARRIER		S_BARRIER
$vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr		$vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr
FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr		FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr
S_ENDPGM 0		S_ENDPGM 0
Show All 23 Lines	bb.0:
; GFX11-NEXT: S_WAITCNT 0		; GFX11-NEXT: S_WAITCNT 0
; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0		; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0
; GFX11-NEXT: GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec		; GFX11-NEXT: GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec
; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0		; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0
; GFX11-NEXT: S_BARRIER		; GFX11-NEXT: S_BARRIER
; GFX11-NEXT: $vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr		; GFX11-NEXT: $vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr
; GFX11-NEXT: S_WAITCNT 7		; GFX11-NEXT: S_WAITCNT 7
; GFX11-NEXT: FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr		; GFX11-NEXT: FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr
		; GFX11-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
; GFX11-NEXT: S_ENDPGM 0		; GFX11-NEXT: S_ENDPGM 0
GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec		GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec
S_WAITCNT_VSCNT undef $sgpr_null, 0		S_WAITCNT_VSCNT undef $sgpr_null, 0
S_WAITCNT_VSCNT undef $sgpr_null, 1		S_WAITCNT_VSCNT undef $sgpr_null, 1
S_WAITCNT_VSCNT undef $sgpr_null, 2		S_WAITCNT_VSCNT undef $sgpr_null, 2
S_BARRIER		S_BARRIER
$vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr		$vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr
FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr		FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr
Show All 26 Lines	bb.0:
; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0		; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0
; GFX11-NEXT: GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec		; GFX11-NEXT: GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec
; GFX11-NEXT: S_WAITCNT 0		; GFX11-NEXT: S_WAITCNT 0
; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0		; GFX11-NEXT: S_WAITCNT_VSCNT undef $sgpr_null, 0
; GFX11-NEXT: S_BARRIER		; GFX11-NEXT: S_BARRIER
; GFX11-NEXT: $vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr		; GFX11-NEXT: $vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr
; GFX11-NEXT: S_WAITCNT 7		; GFX11-NEXT: S_WAITCNT 7
; GFX11-NEXT: FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr		; GFX11-NEXT: FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr
		; GFX11-NEXT: S_SENDMSG 3, implicit $exec, implicit $m0
; GFX11-NEXT: S_ENDPGM 0		; GFX11-NEXT: S_ENDPGM 0
GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec		GLOBAL_STORE_DWORD $vgpr0_vgpr1, $vgpr2, 0, 0, implicit $exec
S_WAITCNT 0		S_WAITCNT 0
S_WAITCNT_VSCNT undef $sgpr_null, 1		S_WAITCNT_VSCNT undef $sgpr_null, 1
S_WAITCNT 0		S_WAITCNT 0
S_WAITCNT_VSCNT undef $sgpr_null, 2		S_WAITCNT_VSCNT undef $sgpr_null, 2
S_WAITCNT 0		S_WAITCNT 0
S_BARRIER		S_BARRIER
$vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr		$vgpr0 = FLAT_LOAD_DWORD $vgpr0_vgpr1, 0, 0, implicit $exec, implicit $flat_scr
FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr		FLAT_STORE_DWORD $vgpr0_vgpr1, $vgpr0, 0, 0, implicit $exec, implicit $flat_scr
S_ENDPGM 0		S_ENDPGM 0
...		...

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Reimplement the GFX11 early release VGPRs optimizationClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 532691

llvm/lib/Target/AMDGPU/AMDGPU.h

llvm/lib/Target/AMDGPU/AMDGPUReleaseVGPRs.cpp

llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

llvm/lib/Target/AMDGPU/CMakeLists.txt

llvm/lib/Target/AMDGPU/SIInsertWaitcnts.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.global.atomic.csub.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.ll

llvm/test/CodeGen/AMDGPU/call-argument-types.ll

llvm/test/CodeGen/AMDGPU/cc-update.ll

llvm/test/CodeGen/AMDGPU/llc-pipeline.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.s.buffer.load.ll

llvm/test/CodeGen/AMDGPU/release-vgprs.mir

llvm/test/CodeGen/AMDGPU/waitcnt-preexisting-vscnt.mir

[AMDGPU] Reimplement the GFX11 early release VGPRs optimization
ClosedPublic