This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
7/9
SILoadStoreOptimizer.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
ds_read2_offset_order.ll
-
merge-load-store.mir
-
merge-tbuffer.mir

Differential D65966

AMDGPU/SILoadStoreOptimizer: Improve merging of out of order offsets
ClosedPublic

Authored by tstellar on Aug 8 2019, 12:50 PM.

Download Raw Diff

Details

Reviewers

arsenm
pendingchaos
rampitec
nhaehnle
vpykhtin

Commits

rG86c944d79072: AMDGPU/SILoadStoreOptimizer: Improve merging of out of order offsets

Summary

This improves merging of sequences like:

store a, ptr + 4
store b, ptr + 8
store c, ptr + 12
store d, ptr + 16
store e, ptr + 20
store f, ptr

Prior to this patch the basic block was scanned in order to find instructions
to merge and the above sequence would be transformed to:

store4 <a, b, c, d>, ptr + 4
store e, ptr + 20
store r, ptr

With this change, we now sort all the candidate merge instructions by their offset,
so instructions are visited in offset order rather than in the order they appear
in the basic block. We now transform this sequnce into:

store4 <f, a, b, c>, ptr
store2 <d, e>, ptr + 16

Another benefit of this change is that since we have sorted the mergeable lists
by offset, we can easily check if an instruction is mergeable by checking the
offset of the instruction that becomes before or after it in the sorted list.
Once we determine an instruction is not mergeable we can remove it from the list
and avoid having to do the more expensive mergeablilty checks.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

tstellar created this revision.Aug 8 2019, 12:50 PM

Herald added a project: Restricted Project. · View Herald TranscriptAug 8 2019, 12:50 PM

Herald added subscribers: hiraditya, t-tye, tpr and 5 others. · View Herald Transcript

Harbormaster completed remote builds in B36456: Diff 214214.Aug 8 2019, 12:50 PM

tstellar added a parent revision: D65961: AMDGPU/SILoadStoreOptimizer: Optimize scanning for mergeable instructions.Aug 8 2019, 12:51 PM

arsenm added inline comments.Aug 12 2019, 1:09 PM

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp
228	Why std::list?
278–279	Weird format
1936–1940	Don't you know which is first from which was encountered first?

I think the code would benefit from the refactoring I've mentioned on the other patch, where the lists only hold a structure with information on a single instruction. Maybe call it CandidateInfo (information of one instruction, persistent in lists) vs. CombineInfo (information on a pair, only temporary).

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp
567–572	Can that really happen? Only instructions with the same InstClass should be added to the same list.
1936	Wasn't there some talk about ordered basic blocks? They exist for IR apparently, but not for MIR unless we're tracking live ranges, which we don't do here, so... This pass could perhaps number the CombineInfo instructions in order as they're collected at the start? It'd have to be kept uptodate as instructions are merged.

foad mentioned this in D65961: AMDGPU/SILoadStoreOptimizer: Optimize scanning for mergeable instructions.Dec 3 2019, 3:36 AM

Rebase on master and update for a recent refactoring.

Build result: FAILURE - Could not check out parent git hash "8d7b8123bba35d4092d66750a83f9d0980bd169c". It was not found in the repository. Did you configure the "Parent Revision" in Phabricator properly? Trying to apply the patch to the master branch instead...

ERROR: arc patch failed with error code 1. Check build log for details.
Log files: console-log.txt, CMakeCache.txt

Harbormaster failed remote builds in B42051: Diff 232684!Dec 6 2019, 6:52 PM

tstellar added parent revisions: D71044: AMDGPU/SILoadStoreOptimizer: Simplify function, D71045: AMDGPU/SILoadStoreOptimillzer: Refactor CombineInfo struct.Dec 6 2019, 6:54 PM

In D65966#1701129, @nhaehnle wrote:

I think the code would benefit from the refactoring I've mentioned on the other patch, where the lists only hold a structure with information on a single instruction. Maybe call it CandidateInfo (information of one instruction, persistent in lists) vs. CombineInfo (information on a pair, only temporary).

See D71045 .

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp
1936	I added an Order field to keep track of the ordering.

Thanks. This basically looks good to me, some minor nitpicks.

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp
786	Should be "Handle DS instructions."
849–850	This method should probably be renamed now since its meaning has shifted by quite a lot. Not sure what name is best, maybe `checkAndPrepareMerge`? The "prepare" part refers to collecting the InstsToMove. Come to think of it, maybe the InstsToMove could be moved out of the CombineInfo struct? Then the CombineInfo arguments here could almost be passed as const, except for the fixup by the final offsetsCanBeCombined.
2010–2011	Maybe move this check into `optimizeInstsWithSameBaseAddr`? That function is already responsible for handling the case where the size is 1...

This revision is now accepted and ready to land.Dec 8 2019, 10:12 AM

+ Remove InstsToMove from CombineInfo struct
+ Address other review comments.

Herald added a subscriber: kerbowa. · View Herald TranscriptJan 15 2020, 3:54 PM

tstellar marked an inline comment as done.Jan 15 2020, 3:54 PM

LGTM

Unit tests: pass. 61849 tests passed, 0 failed and 781 were skipped.

clang-tidy: unknown.

clang-format: fail. Please format your changes with clang-format by running git-clang-format HEAD^ or applying this patch.

Build artifacts: diff.json, clang-format.patch, CMakeCache.txt, console-log.txt, test-results.xml

Harbormaster failed remote builds in B44105: Diff 238383!Jan 15 2020, 4:32 PM

Closed by commit rG86c944d79072: AMDGPU/SILoadStoreOptimizer: Improve merging of out of order offsets (authored by tstellar). · Explain WhyJan 24 2020, 8:20 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SILoadStoreOptimizer.cpp

310 lines

test/

CodeGen/

AMDGPU/

ds_read2_offset_order.ll

4 lines

merge-load-store.mir

24 lines

merge-tbuffer.mir

120 lines

Diff 238383

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp

Show First 20 Lines • Show All 120 Lines • ▼ Show 20 Lines	struct CombineInfo {
unsigned Format;		unsigned Format;
unsigned BaseOff;		unsigned BaseOff;
unsigned DMask;		unsigned DMask;
InstClassEnum InstClass;		InstClassEnum InstClass;
bool GLC;		bool GLC;
bool SLC;		bool SLC;
bool DLC;		bool DLC;
bool UseST64;		bool UseST64;
SmallVector<MachineInstr *, 8> InstsToMove;
int AddrIdx[5];		int AddrIdx[5];
const MachineOperand *AddrReg[5];		const MachineOperand *AddrReg[5];
unsigned NumAddresses;		unsigned NumAddresses;
		unsigned Order;

bool hasSameBaseAddress(const MachineInstr &MI) {		bool hasSameBaseAddress(const MachineInstr &MI) {
for (unsigned i = 0; i < NumAddresses; i++) {		for (unsigned i = 0; i < NumAddresses; i++) {
const MachineOperand &AddrRegNext = MI.getOperand(AddrIdx[i]);		const MachineOperand &AddrRegNext = MI.getOperand(AddrIdx[i]);

if (AddrReg[i]->isImm() \|\| AddrRegNext.isImm()) {		if (AddrReg[i]->isImm() \|\| AddrRegNext.isImm()) {
if (AddrReg[i]->isImm() != AddrRegNext.isImm() \|\|		if (AddrReg[i]->isImm() != AddrRegNext.isImm() \|\|
AddrReg[i]->getImm() != AddrRegNext.getImm()) {		AddrReg[i]->getImm() != AddrRegNext.getImm()) {
▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines	private:
MachineRegisterInfo *MRI = nullptr;		MachineRegisterInfo *MRI = nullptr;
AliasAnalysis *AA = nullptr;		AliasAnalysis *AA = nullptr;
bool OptimizeAgain;		bool OptimizeAgain;

static bool dmasksCanBeCombined(const CombineInfo &CI,		static bool dmasksCanBeCombined(const CombineInfo &CI,
const SIInstrInfo &TII,		const SIInstrInfo &TII,
const CombineInfo &Paired);		const CombineInfo &Paired);
static bool offsetsCanBeCombined(CombineInfo &CI, const MCSubtargetInfo &STI,		static bool offsetsCanBeCombined(CombineInfo &CI, const MCSubtargetInfo &STI,
CombineInfo &Paired);		CombineInfo &Paired, bool Modify = false);
static bool widthsFit(const GCNSubtarget &STM, const CombineInfo &CI,		static bool widthsFit(const GCNSubtarget &STM, const CombineInfo &CI,
const CombineInfo &Paired);		const CombineInfo &Paired);
static unsigned getNewOpcode(const CombineInfo &CI, const CombineInfo &Paired);		static unsigned getNewOpcode(const CombineInfo &CI, const CombineInfo &Paired);
static std::pair<unsigned, unsigned> getSubRegIdxs(const CombineInfo &CI,		static std::pair<unsigned, unsigned> getSubRegIdxs(const CombineInfo &CI,
const CombineInfo &Paired);		const CombineInfo &Paired);
const TargetRegisterClass *getTargetRegisterClass(const CombineInfo &CI,		const TargetRegisterClass *getTargetRegisterClass(const CombineInfo &CI,
const CombineInfo &Paired);		const CombineInfo &Paired);

bool findMatchingInst(CombineInfo &CI, CombineInfo &Paired);		bool checkAndPrepareMerge(CombineInfo &CI, CombineInfo &Paired,
		SmallVectorImpl<MachineInstr *> &InstsToMove);

unsigned read2Opcode(unsigned EltSize) const;		unsigned read2Opcode(unsigned EltSize) const;
unsigned read2ST64Opcode(unsigned EltSize) const;		unsigned read2ST64Opcode(unsigned EltSize) const;
MachineBasicBlock::iterator mergeRead2Pair(CombineInfo &CI, CombineInfo &Paired);		MachineBasicBlock::iterator mergeRead2Pair(CombineInfo &CI,
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - MachineBasicBlock::iterator mergeRead2Pair(CombineInfo &CI, - CombineInfo &Paired, - const SmallVectorImpl<MachineInstr > &InstsToMove); + MachineBasicBlock::iterator + mergeRead2Pair(CombineInfo &CI, CombineInfo &Paired, + const SmallVectorImpl<MachineInstr > &InstsToMove); Lint: Pre-merge checks: clang-format: please reformat the code ``` - MachineBasicBlock::iterator mergeRead2Pair…
		CombineInfo &Paired,
		arsenmUnsubmitted Not Done Reply Inline Actions Why std::list? arsenm: Why std::list?
		const SmallVectorImpl<MachineInstr *> &InstsToMove);

unsigned write2Opcode(unsigned EltSize) const;		unsigned write2Opcode(unsigned EltSize) const;
unsigned write2ST64Opcode(unsigned EltSize) const;		unsigned write2ST64Opcode(unsigned EltSize) const;
MachineBasicBlock::iterator mergeWrite2Pair(CombineInfo &CI, CombineInfo &Paired);		MachineBasicBlock::iterator
MachineBasicBlock::iterator mergeImagePair(CombineInfo &CI, CombineInfo &Paired);		mergeWrite2Pair(CombineInfo &CI, CombineInfo &Paired,
MachineBasicBlock::iterator mergeSBufferLoadImmPair(CombineInfo &CI, CombineInfo &Paired);		const SmallVectorImpl<MachineInstr *> &InstsToMove);
MachineBasicBlock::iterator mergeBufferLoadPair(CombineInfo &CI, CombineInfo &Paired);		MachineBasicBlock::iterator
MachineBasicBlock::iterator mergeBufferStorePair(CombineInfo &CI, CombineInfo &Paired);		mergeImagePair(CombineInfo &CI, CombineInfo &Paired,
MachineBasicBlock::iterator mergeTBufferLoadPair(CombineInfo &CI, CombineInfo &Paired);		const SmallVectorImpl<MachineInstr *> &InstsToMove);
MachineBasicBlock::iterator mergeTBufferStorePair(CombineInfo &CI, CombineInfo &Paired);		MachineBasicBlock::iterator
		mergeSBufferLoadImmPair(CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove);
		MachineBasicBlock::iterator
		mergeBufferLoadPair(CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove);
		MachineBasicBlock::iterator
		mergeBufferStorePair(CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove);
		MachineBasicBlock::iterator
		mergeTBufferLoadPair(CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove);
		MachineBasicBlock::iterator
		mergeTBufferStorePair(CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove);

void updateBaseAndOffset(MachineInstr &I, unsigned NewBase,		void updateBaseAndOffset(MachineInstr &I, unsigned NewBase,
int32_t NewOffset) const;		int32_t NewOffset) const;
unsigned computeBase(MachineInstr &MI, const MemAddress &Addr) const;		unsigned computeBase(MachineInstr &MI, const MemAddress &Addr) const;
MachineOperand createRegOrImm(int32_t Val, MachineInstr &MI) const;		MachineOperand createRegOrImm(int32_t Val, MachineInstr &MI) const;
Optional<int32_t> extractConstOffset(const MachineOperand &Op) const;		Optional<int32_t> extractConstOffset(const MachineOperand &Op) const;
void processBaseWithConstOffset(const MachineOperand &Base, MemAddress &Addr) const;		void processBaseWithConstOffset(const MachineOperand &Base, MemAddress &Addr) const;
/// Promotes constant offset to the immediate by adjusting the base. It		/// Promotes constant offset to the immediate by adjusting the base. It
/// tries to use a base from the nearby instructions that allows it to have		/// tries to use a base from the nearby instructions that allows it to have
/// a 13bit constant offset which gets promoted to the immediate.		/// a 13bit constant offset which gets promoted to the immediate.
bool promoteConstantOffsetToImm(MachineInstr &CI,		bool promoteConstantOffsetToImm(MachineInstr &CI,
MemInfoMap &Visited,		MemInfoMap &Visited,
SmallPtrSet<MachineInstr *, 4> &Promoted) const;		SmallPtrSet<MachineInstr *, 4> &Promoted) const;
void addInstToMergeableList(const CombineInfo &CI,		void addInstToMergeableList(const CombineInfo &CI,
std::list<std::list<CombineInfo> > &MergeableInsts) const;		std::list<std::list<CombineInfo> > &MergeableInsts) const;
bool collectMergeableInsts(MachineBasicBlock &MBB,		bool collectMergeableInsts(MachineBasicBlock &MBB,
std::list<std::list<CombineInfo> > &MergeableInsts) const;		std::list<std::list<CombineInfo> > &MergeableInsts) const;

public:		public:
static char ID;		static char ID;

SILoadStoreOptimizer() : MachineFunctionPass(ID) {		SILoadStoreOptimizer() : MachineFunctionPass(ID) {
initializeSILoadStoreOptimizerPass(*PassRegistry::getPassRegistry());		initializeSILoadStoreOptimizerPass(*PassRegistry::getPassRegistry());
}		}

void removeCombinedInst(std::list<CombineInfo> &MergeList,
const MachineInstr &MI);
bool optimizeInstsWithSameBaseAddr(std::list<CombineInfo> &MergeList,		bool optimizeInstsWithSameBaseAddr(std::list<CombineInfo> &MergeList,
		arsenmUnsubmitted Done Reply Inline Actions Weird format arsenm: Weird format
bool &OptimizeListAgain);		bool &OptimizeListAgain);
bool optimizeBlock(std::list<std::list<CombineInfo> > &MergeableInsts);		bool optimizeBlock(std::list<std::list<CombineInfo> > &MergeableInsts);

bool runOnMachineFunction(MachineFunction &MF) override;		bool runOnMachineFunction(MachineFunction &MF) override;

StringRef getPassName() const override { return "SI Load Store Optimizer"; }		StringRef getPassName() const override { return "SI Load Store Optimizer"; }

void getAnalysisUsage(AnalysisUsage &AU) const override {		void getAnalysisUsage(AnalysisUsage &AU) const override {
▲ Show 20 Lines • Show All 269 Lines • ▼ Show 20 Lines	void SILoadStoreOptimizer::CombineInfo::setMI(MachineBasicBlock::iterator MI,
if (Regs & SSAMP) {		if (Regs & SSAMP) {
AddrOpName[NumAddresses++] = AMDGPU::OpName::ssamp;		AddrOpName[NumAddresses++] = AMDGPU::OpName::ssamp;
}		}

for (unsigned i = 0; i < NumAddresses; i++) {		for (unsigned i = 0; i < NumAddresses; i++) {
AddrIdx[i] = AMDGPU::getNamedOperandIdx(I->getOpcode(), AddrOpName[i]);		AddrIdx[i] = AMDGPU::getNamedOperandIdx(I->getOpcode(), AddrOpName[i]);
AddrReg[i] = &I->getOperand(AddrIdx[i]);		AddrReg[i] = &I->getOperand(AddrIdx[i]);
}		}

InstsToMove.clear();
}		}

} // end anonymous namespace.		} // end anonymous namespace.

INITIALIZE_PASS_BEGIN(SILoadStoreOptimizer, DEBUG_TYPE,		INITIALIZE_PASS_BEGIN(SILoadStoreOptimizer, DEBUG_TYPE,
"SI Load Store Optimizer", false, false)		"SI Load Store Optimizer", false, false)
INITIALIZE_PASS_DEPENDENCY(AAResultsWrapperPass)		INITIALIZE_PASS_DEPENDENCY(AAResultsWrapperPass)
INITIALIZE_PASS_END(SILoadStoreOptimizer, DEBUG_TYPE, "SI Load Store Optimizer",		INITIALIZE_PASS_END(SILoadStoreOptimizer, DEBUG_TYPE, "SI Load Store Optimizer",
		nhaehnleUnsubmitted Not Done Reply Inline Actions Can that really happen? Only instructions with the same InstClass should be added to the same list. nhaehnle: Can that really happen? Only instructions with the same InstClass should be added to the same…
false, false)		false, false)

char SILoadStoreOptimizer::ID = 0;		char SILoadStoreOptimizer::ID = 0;

char &llvm::SILoadStoreOptimizerID = SILoadStoreOptimizer::ID;		char &llvm::SILoadStoreOptimizerID = SILoadStoreOptimizer::ID;

FunctionPass *llvm::createSILoadStoreOptimizerPass() {		FunctionPass *llvm::createSILoadStoreOptimizerPass() {
return new SILoadStoreOptimizer();		return new SILoadStoreOptimizer();
▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines	static unsigned getBufferFormatWithCompCount(unsigned OldFormat,
assert(NewFormatInfo->NumFormat == OldFormatInfo->NumFormat &&		assert(NewFormatInfo->NumFormat == OldFormatInfo->NumFormat &&
NewFormatInfo->BitsPerComp == OldFormatInfo->BitsPerComp);		NewFormatInfo->BitsPerComp == OldFormatInfo->BitsPerComp);

return NewFormatInfo->Format;		return NewFormatInfo->Format;
}		}

bool SILoadStoreOptimizer::offsetsCanBeCombined(CombineInfo &CI,		bool SILoadStoreOptimizer::offsetsCanBeCombined(CombineInfo &CI,
const MCSubtargetInfo &STI,		const MCSubtargetInfo &STI,
CombineInfo &Paired) {		CombineInfo &Paired,
		bool Modify) {
assert(CI.InstClass != MIMG);		assert(CI.InstClass != MIMG);

// XXX - Would the same offset be OK? Is there any reason this would happen or		// XXX - Would the same offset be OK? Is there any reason this would happen or
// be useful?		// be useful?
if (CI.Offset == Paired.Offset)		if (CI.Offset == Paired.Offset)
return false;		return false;

// This won't be valid if the offset isn't aligned.		// This won't be valid if the offset isn't aligned.
Show All 24 Lines	if (getBufferFormatWithCompCount(CI.Format, CI.Width + Paired.Width, STI) == 0)
return false;		return false;
}		}

unsigned EltOffset0 = CI.Offset / CI.EltSize;		unsigned EltOffset0 = CI.Offset / CI.EltSize;
unsigned EltOffset1 = Paired.Offset / CI.EltSize;		unsigned EltOffset1 = Paired.Offset / CI.EltSize;
CI.UseST64 = false;		CI.UseST64 = false;
CI.BaseOff = 0;		CI.BaseOff = 0;

// Handle SMEM and VMEM instructions.		// Handle DS instructions.
if ((CI.InstClass != DS_READ) && (CI.InstClass != DS_WRITE)) {		if ((CI.InstClass != DS_READ) && (CI.InstClass != DS_WRITE)) {
return (EltOffset0 + CI.Width == EltOffset1 \|\|		return (EltOffset0 + CI.Width == EltOffset1 \|\|
EltOffset1 + Paired.Width == EltOffset0) &&		EltOffset1 + Paired.Width == EltOffset0) &&
CI.GLC == Paired.GLC && CI.DLC == Paired.DLC &&		CI.GLC == Paired.GLC && CI.DLC == Paired.DLC &&
(CI.InstClass == S_BUFFER_LOAD_IMM \|\| CI.SLC == Paired.SLC);		(CI.InstClass == S_BUFFER_LOAD_IMM \|\| CI.SLC == Paired.SLC);
}		}

		// Handle SMEM and VMEM instructions.
		nhaehnleUnsubmitted Done Reply Inline Actions Should be "Handle DS instructions." nhaehnle: Should be "Handle DS instructions."
// If the offset in elements doesn't fit in 8-bits, we might be able to use		// If the offset in elements doesn't fit in 8-bits, we might be able to use
// the stride 64 versions.		// the stride 64 versions.
if ((EltOffset0 % 64 == 0) && (EltOffset1 % 64) == 0 &&		if ((EltOffset0 % 64 == 0) && (EltOffset1 % 64) == 0 &&
isUInt<8>(EltOffset0 / 64) && isUInt<8>(EltOffset1 / 64)) {		isUInt<8>(EltOffset0 / 64) && isUInt<8>(EltOffset1 / 64)) {
		if (Modify) {
CI.Offset = EltOffset0 / 64;		CI.Offset = EltOffset0 / 64;
Paired.Offset = EltOffset1 / 64;		Paired.Offset = EltOffset1 / 64;
CI.UseST64 = true;		CI.UseST64 = true;
		}
return true;		return true;
}		}

// Check if the new offsets fit in the reduced 8-bit range.		// Check if the new offsets fit in the reduced 8-bit range.
if (isUInt<8>(EltOffset0) && isUInt<8>(EltOffset1)) {		if (isUInt<8>(EltOffset0) && isUInt<8>(EltOffset1)) {
		if (Modify) {
CI.Offset = EltOffset0;		CI.Offset = EltOffset0;
Paired.Offset = EltOffset1;		Paired.Offset = EltOffset1;
		}
return true;		return true;
}		}

// Try to shift base address to decrease offsets.		// Try to shift base address to decrease offsets.
unsigned OffsetDiff = std::abs((int)EltOffset1 - (int)EltOffset0);		unsigned OffsetDiff = std::abs((int)EltOffset1 - (int)EltOffset0);
CI.BaseOff = std::min(CI.Offset, Paired.Offset);		CI.BaseOff = std::min(CI.Offset, Paired.Offset);

if ((OffsetDiff % 64 == 0) && isUInt<8>(OffsetDiff / 64)) {		if ((OffsetDiff % 64 == 0) && isUInt<8>(OffsetDiff / 64)) {
		if (Modify) {
CI.Offset = (EltOffset0 - CI.BaseOff / CI.EltSize) / 64;		CI.Offset = (EltOffset0 - CI.BaseOff / CI.EltSize) / 64;
Paired.Offset = (EltOffset1 - CI.BaseOff / CI.EltSize) / 64;		Paired.Offset = (EltOffset1 - CI.BaseOff / CI.EltSize) / 64;
CI.UseST64 = true;		CI.UseST64 = true;
		}
return true;		return true;
}		}

if (isUInt<8>(OffsetDiff)) {		if (isUInt<8>(OffsetDiff)) {
		if (Modify) {
CI.Offset = EltOffset0 - CI.BaseOff / CI.EltSize;		CI.Offset = EltOffset0 - CI.BaseOff / CI.EltSize;
Paired.Offset = EltOffset1 - CI.BaseOff / CI.EltSize;		Paired.Offset = EltOffset1 - CI.BaseOff / CI.EltSize;
		}
return true;		return true;
}		}

return false;		return false;
}		}

bool SILoadStoreOptimizer::widthsFit(const GCNSubtarget &STM,		bool SILoadStoreOptimizer::widthsFit(const GCNSubtarget &STM,
const CombineInfo &CI,		const CombineInfo &CI,
const CombineInfo &Paired) {		const CombineInfo &Paired) {
const unsigned Width = (CI.Width + Paired.Width);		const unsigned Width = (CI.Width + Paired.Width);
switch (CI.InstClass) {		switch (CI.InstClass) {
default:		default:
return (Width <= 4) && (STM.hasDwordx3LoadStores() \|\| (Width != 3));		return (Width <= 4) && (STM.hasDwordx3LoadStores() \|\| (Width != 3));
case S_BUFFER_LOAD_IMM:		case S_BUFFER_LOAD_IMM:
switch (Width) {		switch (Width) {
default:		default:
return false;		return false;
case 2:		case 2:
case 4:		case 4:
return true;		return true;
}		}
}		}
}		}

bool SILoadStoreOptimizer::findMatchingInst(CombineInfo &CI,		/// This function assumes that CI comes before Paired in a basic block.
		nhaehnleUnsubmitted Done Reply Inline Actions This method should probably be renamed now since its meaning has shifted by quite a lot. Not sure what name is best, maybe `checkAndPrepareMerge`? The "prepare" part refers to collecting the InstsToMove. Come to think of it, maybe the InstsToMove could be moved out of the CombineInfo struct? Then the CombineInfo arguments here could almost be passed as const, except for the fixup by the final offsetsCanBeCombined. nhaehnle: This method should probably be renamed now since its meaning has shifted by quite a lot. Not…
CombineInfo &Paired) {		bool SILoadStoreOptimizer::checkAndPrepareMerge(
MachineBasicBlock *MBB = CI.I->getParent();		CombineInfo &CI, CombineInfo &Paired,
MachineBasicBlock::iterator E = MBB->end();		SmallVectorImpl<MachineInstr *> &InstsToMove) {
MachineBasicBlock::iterator MBBI = CI.I;
		// Check both offsets (or masks for MIMG) can be combined and fit in the
		// reduced range.
		if (CI.InstClass == MIMG && !dmasksCanBeCombined(CI, *TII, Paired))
		return false;

		if (CI.InstClass != MIMG &&
		(!widthsFit(STM, CI, Paired) \|\| !offsetsCanBeCombined(CI, STI, Paired)))
		return false;

const unsigned Opc = CI.I->getOpcode();		const unsigned Opc = CI.I->getOpcode();
const InstClassEnum InstClass = getInstClass(Opc, *TII);		const InstClassEnum InstClass = getInstClass(Opc, *TII);

if (InstClass == UNKNOWN) {		if (InstClass == UNKNOWN) {
return false;		return false;
}		}
const unsigned InstSubclass = getInstSubclass(Opc, *TII);		const unsigned InstSubclass = getInstSubclass(Opc, *TII);

// Do not merge VMEM buffer instructions with "swizzled" bit set.		// Do not merge VMEM buffer instructions with "swizzled" bit set.
int Swizzled =		int Swizzled =
AMDGPU::getNamedOperandIdx(CI.I->getOpcode(), AMDGPU::OpName::swz);		AMDGPU::getNamedOperandIdx(CI.I->getOpcode(), AMDGPU::OpName::swz);
if (Swizzled != -1 && CI.I->getOperand(Swizzled).getImm())		if (Swizzled != -1 && CI.I->getOperand(Swizzled).getImm())
return false;		return false;

++MBBI;

DenseSet<unsigned> RegDefsToMove;		DenseSet<unsigned> RegDefsToMove;
DenseSet<unsigned> PhysRegUsesToMove;		DenseSet<unsigned> PhysRegUsesToMove;
addDefsUsesToList(*CI.I, RegDefsToMove, PhysRegUsesToMove);		addDefsUsesToList(*CI.I, RegDefsToMove, PhysRegUsesToMove);

		MachineBasicBlock::iterator E = std::next(Paired.I);
		MachineBasicBlock::iterator MBBI = std::next(CI.I);
for (; MBBI != E; ++MBBI) {		for (; MBBI != E; ++MBBI) {

if ((getInstClass(MBBI->getOpcode(), *TII) != InstClass) \|\|		if ((getInstClass(MBBI->getOpcode(), *TII) != InstClass) \|\|
(getInstSubclass(MBBI->getOpcode(), *TII) != InstSubclass)) {		(getInstSubclass(MBBI->getOpcode(), *TII) != InstSubclass)) {
// This is not a matching instruction, but we can keep looking as		// This is not a matching instruction, but we can keep looking as
// long as one of these conditions are met:		// long as one of these conditions are met:
// 1. It is safe to move I down past MBBI.		// 1. It is safe to move I down past MBBI.
// 2. It is safe to move MBBI down past the instruction that I will		// 2. It is safe to move MBBI down past the instruction that I will
// be merged into.		// be merged into.

if (MBBI->hasUnmodeledSideEffects()) {		if (MBBI->hasUnmodeledSideEffects()) {
// We can't re-order this instruction with respect to other memory		// We can't re-order this instruction with respect to other memory
// operations, so we fail both conditions mentioned above.		// operations, so we fail both conditions mentioned above.
return false;		return false;
}		}

if (MBBI->mayLoadOrStore() &&		if (MBBI->mayLoadOrStore() &&
(!memAccessesCanBeReordered(CI.I, MBBI, AA) \|\|		(!memAccessesCanBeReordered(CI.I, MBBI, AA) \|\|
!canMoveInstsAcrossMemOp(*MBBI, CI.InstsToMove, AA))) {		!canMoveInstsAcrossMemOp(*MBBI, InstsToMove, AA))) {
// We fail condition #1, but we may still be able to satisfy condition		// We fail condition #1, but we may still be able to satisfy condition
// #2. Add this instruction to the move list and then we will check		// #2. Add this instruction to the move list and then we will check
// if condition #2 holds once we have selected the matching instruction.		// if condition #2 holds once we have selected the matching instruction.
CI.InstsToMove.push_back(&*MBBI);		InstsToMove.push_back(&*MBBI);
addDefsUsesToList(*MBBI, RegDefsToMove, PhysRegUsesToMove);		addDefsUsesToList(*MBBI, RegDefsToMove, PhysRegUsesToMove);
continue;		continue;
}		}

// When we match I with another DS instruction we will be moving I down		// When we match I with another DS instruction we will be moving I down
// to the location of the matched instruction any uses of I will need to		// to the location of the matched instruction any uses of I will need to
// be moved down as well.		// be moved down as well.
addToListsIfDependent(*MBBI, RegDefsToMove, PhysRegUsesToMove,		addToListsIfDependent(*MBBI, RegDefsToMove, PhysRegUsesToMove,
CI.InstsToMove);		InstsToMove);
continue;		continue;
}		}

// Don't merge volatiles.		// Don't merge volatiles.
if (MBBI->hasOrderedMemoryRef())		if (MBBI->hasOrderedMemoryRef())
return false;		return false;

int Swizzled =		int Swizzled =
AMDGPU::getNamedOperandIdx(MBBI->getOpcode(), AMDGPU::OpName::swz);		AMDGPU::getNamedOperandIdx(MBBI->getOpcode(), AMDGPU::OpName::swz);
if (Swizzled != -1 && MBBI->getOperand(Swizzled).getImm())		if (Swizzled != -1 && MBBI->getOperand(Swizzled).getImm())
return false;		return false;

// Handle a case like		// Handle a case like
// DS_WRITE_B32 addr, v, idx0		// DS_WRITE_B32 addr, v, idx0
// w = DS_READ_B32 addr, idx0		// w = DS_READ_B32 addr, idx0
// DS_WRITE_B32 addr, f(w), idx1		// DS_WRITE_B32 addr, f(w), idx1
// where the DS_READ_B32 ends up in InstsToMove and therefore prevents		// where the DS_READ_B32 ends up in InstsToMove and therefore prevents
// merging of the two writes.		// merging of the two writes.
if (addToListsIfDependent(*MBBI, RegDefsToMove, PhysRegUsesToMove,		if (addToListsIfDependent(*MBBI, RegDefsToMove, PhysRegUsesToMove,
CI.InstsToMove))		InstsToMove))
continue;		continue;

bool Match = CI.hasSameBaseAddress(*MBBI);		if (&MBBI == &Paired.I) {
		// We need to go through the list of instructions that we plan to
if (Match) {
Paired.setMI(MBBI, TII, STM);

// Check both offsets (or masks for MIMG) can be combined and fit in the
// reduced range.
bool canBeCombined =
CI.InstClass == MIMG
? dmasksCanBeCombined(CI, *TII, Paired)
: widthsFit(STM, CI, Paired) && offsetsCanBeCombined(CI, STI, Paired);

// We also need to go through the list of instructions that we plan to
// move and make sure they are all safe to move down past the merged		// move and make sure they are all safe to move down past the merged
// instruction.		// instruction.
if (canBeCombined && canMoveInstsAcrossMemOp(*MBBI, CI.InstsToMove, AA))		if (canMoveInstsAcrossMemOp(*MBBI, InstsToMove, AA)) {

		// Call offsetsCanBeCombined with modify = true so that the offsets are
		// correct for the new instruction. This should return true, because
		// this function should only be called on CombineInfo objects that
		// have already been confirmed to be mergeable.
		if (CI.InstClass != MIMG)
		offsetsCanBeCombined(CI, *STI, Paired, true);
return true;		return true;
}		}
		return false;
		}

// We've found a load/store that we couldn't merge for some reason.		// We've found a load/store that we couldn't merge for some reason.
// We could potentially keep looking, but we'd need to make sure that		// We could potentially keep looking, but we'd need to make sure that
// it was safe to move I and also all the instruction in InstsToMove		// it was safe to move I and also all the instruction in InstsToMove
// down past this instruction.		// down past this instruction.
// check if we can move I across MBBI and if we can move all I's users		// check if we can move I across MBBI and if we can move all I's users
if (!memAccessesCanBeReordered(CI.I, MBBI, AA) \|\|		if (!memAccessesCanBeReordered(CI.I, MBBI, AA) \|\|
!canMoveInstsAcrossMemOp(*MBBI, CI.InstsToMove, AA))		!canMoveInstsAcrossMemOp(*MBBI, InstsToMove, AA))
break;		break;
}		}
return false;		return false;
}		}

unsigned SILoadStoreOptimizer::read2Opcode(unsigned EltSize) const {		unsigned SILoadStoreOptimizer::read2Opcode(unsigned EltSize) const {
if (STM->ldsRequiresM0Init())		if (STM->ldsRequiresM0Init())
return (EltSize == 4) ? AMDGPU::DS_READ2_B32 : AMDGPU::DS_READ2_B64;		return (EltSize == 4) ? AMDGPU::DS_READ2_B32 : AMDGPU::DS_READ2_B64;
return (EltSize == 4) ? AMDGPU::DS_READ2_B32_gfx9 : AMDGPU::DS_READ2_B64_gfx9;		return (EltSize == 4) ? AMDGPU::DS_READ2_B32_gfx9 : AMDGPU::DS_READ2_B64_gfx9;
}		}

unsigned SILoadStoreOptimizer::read2ST64Opcode(unsigned EltSize) const {		unsigned SILoadStoreOptimizer::read2ST64Opcode(unsigned EltSize) const {
if (STM->ldsRequiresM0Init())		if (STM->ldsRequiresM0Init())
return (EltSize == 4) ? AMDGPU::DS_READ2ST64_B32 : AMDGPU::DS_READ2ST64_B64;		return (EltSize == 4) ? AMDGPU::DS_READ2ST64_B32 : AMDGPU::DS_READ2ST64_B64;

return (EltSize == 4) ? AMDGPU::DS_READ2ST64_B32_gfx9		return (EltSize == 4) ? AMDGPU::DS_READ2ST64_B32_gfx9
: AMDGPU::DS_READ2ST64_B64_gfx9;		: AMDGPU::DS_READ2ST64_B64_gfx9;
}		}

MachineBasicBlock::iterator		MachineBasicBlock::iterator
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code -MachineBasicBlock::iterator -SILoadStoreOptimizer::mergeRead2Pair(CombineInfo &CI, CombineInfo &Paired, +MachineBasicBlock::iterator SILoadStoreOptimizer::mergeRead2Pair( + CombineInfo &CI, CombineInfo &Paired, Lint: Pre-merge checks: clang-format: please reformat the code ``` -MachineBasicBlock::iterator -SILoadStoreOptimizer…
SILoadStoreOptimizer::mergeRead2Pair(CombineInfo &CI, CombineInfo &Paired) {		SILoadStoreOptimizer::mergeRead2Pair(CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove) {
MachineBasicBlock *MBB = CI.I->getParent();		MachineBasicBlock *MBB = CI.I->getParent();

// Be careful, since the addresses could be subregisters themselves in weird		// Be careful, since the addresses could be subregisters themselves in weird
// cases, like vectors of pointers.		// cases, like vectors of pointers.
const auto AddrReg = TII->getNamedOperand(CI.I, AMDGPU::OpName::addr);		const auto AddrReg = TII->getNamedOperand(CI.I, AMDGPU::OpName::addr);

const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdst);		const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdst);
const auto Dest1 = TII->getNamedOperand(Paired.I, AMDGPU::OpName::vdst);		const auto Dest1 = TII->getNamedOperand(Paired.I, AMDGPU::OpName::vdst);
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	SILoadStoreOptimizer::mergeRead2Pair(CombineInfo &CI, CombineInfo &Paired,
// Copy to the old destination registers.		// Copy to the old destination registers.
BuildMI(*MBB, Paired.I, DL, CopyDesc)		BuildMI(*MBB, Paired.I, DL, CopyDesc)
.add(*Dest0) // Copy to same destination including flags and sub reg.		.add(*Dest0) // Copy to same destination including flags and sub reg.
.addReg(DestReg, 0, SubRegIdx0);		.addReg(DestReg, 0, SubRegIdx0);
MachineInstr Copy1 = BuildMI(MBB, Paired.I, DL, CopyDesc)		MachineInstr Copy1 = BuildMI(MBB, Paired.I, DL, CopyDesc)
.add(*Dest1)		.add(*Dest1)
.addReg(DestReg, RegState::Kill, SubRegIdx1);		.addReg(DestReg, RegState::Kill, SubRegIdx1);

moveInstsAfter(Copy1, CI.InstsToMove);		moveInstsAfter(Copy1, InstsToMove);

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();

LLVM_DEBUG(dbgs() << "Inserted read2: " << *Read2 << '\n');		LLVM_DEBUG(dbgs() << "Inserted read2: " << *Read2 << '\n');
return Read2;		return Read2;
}		}

unsigned SILoadStoreOptimizer::write2Opcode(unsigned EltSize) const {		unsigned SILoadStoreOptimizer::write2Opcode(unsigned EltSize) const {
if (STM->ldsRequiresM0Init())		if (STM->ldsRequiresM0Init())
return (EltSize == 4) ? AMDGPU::DS_WRITE2_B32 : AMDGPU::DS_WRITE2_B64;		return (EltSize == 4) ? AMDGPU::DS_WRITE2_B32 : AMDGPU::DS_WRITE2_B64;
return (EltSize == 4) ? AMDGPU::DS_WRITE2_B32_gfx9		return (EltSize == 4) ? AMDGPU::DS_WRITE2_B32_gfx9
: AMDGPU::DS_WRITE2_B64_gfx9;		: AMDGPU::DS_WRITE2_B64_gfx9;
}		}

unsigned SILoadStoreOptimizer::write2ST64Opcode(unsigned EltSize) const {		unsigned SILoadStoreOptimizer::write2ST64Opcode(unsigned EltSize) const {
if (STM->ldsRequiresM0Init())		if (STM->ldsRequiresM0Init())
return (EltSize == 4) ? AMDGPU::DS_WRITE2ST64_B32		return (EltSize == 4) ? AMDGPU::DS_WRITE2ST64_B32
: AMDGPU::DS_WRITE2ST64_B64;		: AMDGPU::DS_WRITE2ST64_B64;

return (EltSize == 4) ? AMDGPU::DS_WRITE2ST64_B32_gfx9		return (EltSize == 4) ? AMDGPU::DS_WRITE2ST64_B32_gfx9
: AMDGPU::DS_WRITE2ST64_B64_gfx9;		: AMDGPU::DS_WRITE2ST64_B64_gfx9;
}		}

MachineBasicBlock::iterator		MachineBasicBlock::iterator
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code -MachineBasicBlock::iterator -SILoadStoreOptimizer::mergeWrite2Pair(CombineInfo &CI, CombineInfo &Paired, - const SmallVectorImpl<MachineInstr > &InstsToMove) { +MachineBasicBlock::iterator SILoadStoreOptimizer::mergeWrite2Pair( + CombineInfo &CI, CombineInfo &Paired, + const SmallVectorImpl<MachineInstr > &InstsToMove) { Lint: Pre-merge checks: clang-format: please reformat the code ``` -MachineBasicBlock::iterator -SILoadStoreOptimizer…
SILoadStoreOptimizer::mergeWrite2Pair(CombineInfo &CI, CombineInfo &Paired) {		SILoadStoreOptimizer::mergeWrite2Pair(CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove) {
MachineBasicBlock *MBB = CI.I->getParent();		MachineBasicBlock *MBB = CI.I->getParent();

// Be sure to use .addOperand(), and not .addReg() with these. We want to be		// Be sure to use .addOperand(), and not .addReg() with these. We want to be
// sure we preserve the subregister index and any register flags set on them.		// sure we preserve the subregister index and any register flags set on them.
const MachineOperand *AddrReg =		const MachineOperand *AddrReg =
TII->getNamedOperand(*CI.I, AMDGPU::OpName::addr);		TII->getNamedOperand(*CI.I, AMDGPU::OpName::addr);
const MachineOperand *Data0 =		const MachineOperand *Data0 =
TII->getNamedOperand(*CI.I, AMDGPU::OpName::data0);		TII->getNamedOperand(*CI.I, AMDGPU::OpName::data0);
Show All 40 Lines	MachineInstrBuilder Write2 =
.addReg(BaseReg, BaseRegFlags, BaseSubReg) // addr		.addReg(BaseReg, BaseRegFlags, BaseSubReg) // addr
.add(*Data0) // data0		.add(*Data0) // data0
.add(*Data1) // data1		.add(*Data1) // data1
.addImm(NewOffset0) // offset0		.addImm(NewOffset0) // offset0
.addImm(NewOffset1) // offset1		.addImm(NewOffset1) // offset1
.addImm(0) // gds		.addImm(0) // gds
.cloneMergedMemRefs({&CI.I, &Paired.I});		.cloneMergedMemRefs({&CI.I, &Paired.I});

moveInstsAfter(Write2, CI.InstsToMove);		moveInstsAfter(Write2, InstsToMove);

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();

LLVM_DEBUG(dbgs() << "Inserted write2 inst: " << *Write2 << '\n');		LLVM_DEBUG(dbgs() << "Inserted write2 inst: " << *Write2 << '\n');
return Write2;		return Write2;
}		}

MachineBasicBlock::iterator		MachineBasicBlock::iterator
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code -MachineBasicBlock::iterator -SILoadStoreOptimizer::mergeImagePair(CombineInfo &CI, CombineInfo &Paired, - const SmallVectorImpl<MachineInstr > &InstsToMove) { +MachineBasicBlock::iterator SILoadStoreOptimizer::mergeImagePair( + CombineInfo &CI, CombineInfo &Paired, + const SmallVectorImpl<MachineInstr > &InstsToMove) { Lint: Pre-merge checks: clang-format: please reformat the code ``` -MachineBasicBlock::iterator -SILoadStoreOptimizer…
SILoadStoreOptimizer::mergeImagePair(CombineInfo &CI, CombineInfo &Paired) {		SILoadStoreOptimizer::mergeImagePair(CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove) {
MachineBasicBlock *MBB = CI.I->getParent();		MachineBasicBlock *MBB = CI.I->getParent();
DebugLoc DL = CI.I->getDebugLoc();		DebugLoc DL = CI.I->getDebugLoc();
const unsigned Opcode = getNewOpcode(CI, Paired);		const unsigned Opcode = getNewOpcode(CI, Paired);

const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);		const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);

Register DestReg = MRI->createVirtualRegister(SuperRC);		Register DestReg = MRI->createVirtualRegister(SuperRC);
unsigned MergedDMask = CI.DMask \| Paired.DMask;		unsigned MergedDMask = CI.DMask \| Paired.DMask;
Show All 28 Lines	SILoadStoreOptimizer::mergeImagePair(CombineInfo &CI, CombineInfo &Paired,

BuildMI(*MBB, Paired.I, DL, CopyDesc)		BuildMI(*MBB, Paired.I, DL, CopyDesc)
.add(*Dest0) // Copy to same destination including flags and sub reg.		.add(*Dest0) // Copy to same destination including flags and sub reg.
.addReg(DestReg, 0, SubRegIdx0);		.addReg(DestReg, 0, SubRegIdx0);
MachineInstr Copy1 = BuildMI(MBB, Paired.I, DL, CopyDesc)		MachineInstr Copy1 = BuildMI(MBB, Paired.I, DL, CopyDesc)
.add(*Dest1)		.add(*Dest1)
.addReg(DestReg, RegState::Kill, SubRegIdx1);		.addReg(DestReg, RegState::Kill, SubRegIdx1);

moveInstsAfter(Copy1, CI.InstsToMove);		moveInstsAfter(Copy1, InstsToMove);

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();
return New;		return New;
}		}

MachineBasicBlock::iterator		MachineBasicBlock::iterator SILoadStoreOptimizer::mergeSBufferLoadImmPair(
SILoadStoreOptimizer::mergeSBufferLoadImmPair(CombineInfo &CI, CombineInfo &Paired) {		CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove) {
MachineBasicBlock *MBB = CI.I->getParent();		MachineBasicBlock *MBB = CI.I->getParent();
DebugLoc DL = CI.I->getDebugLoc();		DebugLoc DL = CI.I->getDebugLoc();
const unsigned Opcode = getNewOpcode(CI, Paired);		const unsigned Opcode = getNewOpcode(CI, Paired);

const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);		const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);

Register DestReg = MRI->createVirtualRegister(SuperRC);		Register DestReg = MRI->createVirtualRegister(SuperRC);
unsigned MergedOffset = std::min(CI.Offset, Paired.Offset);		unsigned MergedOffset = std::min(CI.Offset, Paired.Offset);
Show All 25 Lines	MachineBasicBlock::iterator SILoadStoreOptimizer::mergeSBufferLoadImmPair(

BuildMI(*MBB, Paired.I, DL, CopyDesc)		BuildMI(*MBB, Paired.I, DL, CopyDesc)
.add(*Dest0) // Copy to same destination including flags and sub reg.		.add(*Dest0) // Copy to same destination including flags and sub reg.
.addReg(DestReg, 0, SubRegIdx0);		.addReg(DestReg, 0, SubRegIdx0);
MachineInstr Copy1 = BuildMI(MBB, Paired.I, DL, CopyDesc)		MachineInstr Copy1 = BuildMI(MBB, Paired.I, DL, CopyDesc)
.add(*Dest1)		.add(*Dest1)
.addReg(DestReg, RegState::Kill, SubRegIdx1);		.addReg(DestReg, RegState::Kill, SubRegIdx1);

moveInstsAfter(Copy1, CI.InstsToMove);		moveInstsAfter(Copy1, InstsToMove);

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();
return New;		return New;
}		}

MachineBasicBlock::iterator		MachineBasicBlock::iterator SILoadStoreOptimizer::mergeBufferLoadPair(
SILoadStoreOptimizer::mergeBufferLoadPair(CombineInfo &CI, CombineInfo &Paired) {		CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove) {
MachineBasicBlock *MBB = CI.I->getParent();		MachineBasicBlock *MBB = CI.I->getParent();
DebugLoc DL = CI.I->getDebugLoc();		DebugLoc DL = CI.I->getDebugLoc();

const unsigned Opcode = getNewOpcode(CI, Paired);		const unsigned Opcode = getNewOpcode(CI, Paired);

const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);		const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);

// Copy to the new source register.		// Copy to the new source register.
Show All 37 Lines	MachineBasicBlock::iterator SILoadStoreOptimizer::mergeBufferLoadPair(

BuildMI(*MBB, Paired.I, DL, CopyDesc)		BuildMI(*MBB, Paired.I, DL, CopyDesc)
.add(*Dest0) // Copy to same destination including flags and sub reg.		.add(*Dest0) // Copy to same destination including flags and sub reg.
.addReg(DestReg, 0, SubRegIdx0);		.addReg(DestReg, 0, SubRegIdx0);
MachineInstr Copy1 = BuildMI(MBB, Paired.I, DL, CopyDesc)		MachineInstr Copy1 = BuildMI(MBB, Paired.I, DL, CopyDesc)
.add(*Dest1)		.add(*Dest1)
.addReg(DestReg, RegState::Kill, SubRegIdx1);		.addReg(DestReg, RegState::Kill, SubRegIdx1);

moveInstsAfter(Copy1, CI.InstsToMove);		moveInstsAfter(Copy1, InstsToMove);

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();
return New;		return New;
}		}

MachineBasicBlock::iterator		MachineBasicBlock::iterator SILoadStoreOptimizer::mergeTBufferLoadPair(
SILoadStoreOptimizer::mergeTBufferLoadPair(CombineInfo &CI, CombineInfo &Paired) {		CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove) {
MachineBasicBlock *MBB = CI.I->getParent();		MachineBasicBlock *MBB = CI.I->getParent();
DebugLoc DL = CI.I->getDebugLoc();		DebugLoc DL = CI.I->getDebugLoc();

const unsigned Opcode = getNewOpcode(CI, Paired);		const unsigned Opcode = getNewOpcode(CI, Paired);

const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);		const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);

// Copy to the new source register.		// Copy to the new source register.
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	MachineBasicBlock::iterator SILoadStoreOptimizer::mergeTBufferLoadPair(

BuildMI(*MBB, Paired.I, DL, CopyDesc)		BuildMI(*MBB, Paired.I, DL, CopyDesc)
.add(*Dest0) // Copy to same destination including flags and sub reg.		.add(*Dest0) // Copy to same destination including flags and sub reg.
.addReg(DestReg, 0, SubRegIdx0);		.addReg(DestReg, 0, SubRegIdx0);
MachineInstr Copy1 = BuildMI(MBB, Paired.I, DL, CopyDesc)		MachineInstr Copy1 = BuildMI(MBB, Paired.I, DL, CopyDesc)
.add(*Dest1)		.add(*Dest1)
.addReg(DestReg, RegState::Kill, SubRegIdx1);		.addReg(DestReg, RegState::Kill, SubRegIdx1);

moveInstsAfter(Copy1, CI.InstsToMove);		moveInstsAfter(Copy1, InstsToMove);

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();
return New;		return New;
}		}

MachineBasicBlock::iterator		MachineBasicBlock::iterator SILoadStoreOptimizer::mergeTBufferStorePair(
SILoadStoreOptimizer::mergeTBufferStorePair(CombineInfo &CI, CombineInfo &Paired) {		CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove) {
MachineBasicBlock *MBB = CI.I->getParent();		MachineBasicBlock *MBB = CI.I->getParent();
DebugLoc DL = CI.I->getDebugLoc();		DebugLoc DL = CI.I->getDebugLoc();

const unsigned Opcode = getNewOpcode(CI, Paired);		const unsigned Opcode = getNewOpcode(CI, Paired);

std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);		std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);
const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);		const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);		const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);
Show All 38 Lines	MachineInstr *New =
.addImm(CI.GLC) // glc		.addImm(CI.GLC) // glc
.addImm(CI.SLC) // slc		.addImm(CI.SLC) // slc
.addImm(0) // tfe		.addImm(0) // tfe
.addImm(CI.DLC) // dlc		.addImm(CI.DLC) // dlc
.addImm(0) // swz		.addImm(0) // swz
.addMemOperand(		.addMemOperand(
combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));		combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));

moveInstsAfter(MIB, CI.InstsToMove);		moveInstsAfter(MIB, InstsToMove);

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();
return New;		return New;
}		}

unsigned SILoadStoreOptimizer::getNewOpcode(const CombineInfo &CI,		unsigned SILoadStoreOptimizer::getNewOpcode(const CombineInfo &CI,
const CombineInfo &Paired) {		const CombineInfo &Paired) {
▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines	if (CI.InstClass == S_BUFFER_LOAD_IMM) {
case 3:		case 3:
return &AMDGPU::VReg_96RegClass;		return &AMDGPU::VReg_96RegClass;
case 4:		case 4:
return &AMDGPU::VReg_128RegClass;		return &AMDGPU::VReg_128RegClass;
}		}
}		}
}		}

MachineBasicBlock::iterator		MachineBasicBlock::iterator SILoadStoreOptimizer::mergeBufferStorePair(
SILoadStoreOptimizer::mergeBufferStorePair(CombineInfo &CI, CombineInfo &Paired) {		CombineInfo &CI, CombineInfo &Paired,
		const SmallVectorImpl<MachineInstr *> &InstsToMove) {
MachineBasicBlock *MBB = CI.I->getParent();		MachineBasicBlock *MBB = CI.I->getParent();
DebugLoc DL = CI.I->getDebugLoc();		DebugLoc DL = CI.I->getDebugLoc();

const unsigned Opcode = getNewOpcode(CI, Paired);		const unsigned Opcode = getNewOpcode(CI, Paired);

std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);		std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);
const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);		const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);		const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);
Show All 34 Lines	MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))
.addImm(std::min(CI.Offset, Paired.Offset)) // offset		.addImm(std::min(CI.Offset, Paired.Offset)) // offset
.addImm(CI.GLC) // glc		.addImm(CI.GLC) // glc
.addImm(CI.SLC) // slc		.addImm(CI.SLC) // slc
.addImm(0) // tfe		.addImm(0) // tfe
.addImm(CI.DLC) // dlc		.addImm(CI.DLC) // dlc
.addImm(0) // swz		.addImm(0) // swz
.addMemOperand(combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));		.addMemOperand(combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));

moveInstsAfter(MIB, CI.InstsToMove);		moveInstsAfter(MIB, InstsToMove);

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();
return New;		return New;
}		}

MachineOperand		MachineOperand
SILoadStoreOptimizer::createRegOrImm(int32_t Val, MachineInstr &MI) const {		SILoadStoreOptimizer::createRegOrImm(int32_t Val, MachineInstr &MI) const {
▲ Show 20 Lines • Show All 318 Lines • ▼ Show 20 Lines	void SILoadStoreOptimizer::addInstToMergeableList(const CombineInfo &CI,
}		}

// Base address not found, so add a new list.		// Base address not found, so add a new list.
MergeableInsts.emplace_back(1, CI);		MergeableInsts.emplace_back(1, CI);
}		}

bool SILoadStoreOptimizer::collectMergeableInsts(MachineBasicBlock &MBB,		bool SILoadStoreOptimizer::collectMergeableInsts(MachineBasicBlock &MBB,
std::list<std::list<CombineInfo> > &MergeableInsts) const {		std::list<std::list<CombineInfo> > &MergeableInsts) const {
bool Modified = false;		bool Modified = false;
		nhaehnleUnsubmitted Done Reply Inline Actions Wasn't there some talk about ordered basic blocks? They exist for IR apparently, but not for MIR unless we're tracking live ranges, which we don't do here, so... This pass could perhaps number the CombineInfo instructions in order as they're collected at the start? It'd have to be kept uptodate as instructions are merged. nhaehnle: Wasn't there some talk about ordered basic blocks? They exist for IR apparently, but not for…
		tstellarAuthorUnsubmitted Done Reply Inline Actions I added an Order field to keep track of the ordering. tstellar: I added an Order field to keep track of the ordering.
// Contain the list		// Contain the list
MemInfoMap Visited;		MemInfoMap Visited;
// Contains the list of instructions for which constant offsets are being		// Contains the list of instructions for which constant offsets are being
// promoted to the IMM.		// promoted to the IMM.
		arsenmUnsubmitted Done Reply Inline Actions Don't you know which is first from which was encountered first? arsenm: Don't you know which is first from which was encountered first?
SmallPtrSet<MachineInstr *, 4> AnchorList;		SmallPtrSet<MachineInstr *, 4> AnchorList;

// Sort potential mergeable instructions into lists. One list per base address.		// Sort potential mergeable instructions into lists. One list per base address.
		unsigned Order = 0;
for (MachineInstr &MI : MBB.instrs()) {		for (MachineInstr &MI : MBB.instrs()) {
// We run this before checking if an address is mergeable, because it can produce		// We run this before checking if an address is mergeable, because it can produce
// better code even if the instructions aren't mergeable.		// better code even if the instructions aren't mergeable.
if (promoteConstantOffsetToImm(MI, Visited, AnchorList))		if (promoteConstantOffsetToImm(MI, Visited, AnchorList))
Modified = true;		Modified = true;

const InstClassEnum InstClass = getInstClass(MI.getOpcode(), *TII);		const InstClassEnum InstClass = getInstClass(MI.getOpcode(), *TII);
if (InstClass == UNKNOWN)		if (InstClass == UNKNOWN)
continue;		continue;

// Don't combine if volatile.		// Don't combine if volatile.
if (MI.hasOrderedMemoryRef())		if (MI.hasOrderedMemoryRef())
continue;		continue;

CombineInfo CI;		CombineInfo CI;
CI.setMI(MI, TII, STM);		CI.setMI(MI, TII, STM);
		CI.Order = Order++;

if (!CI.hasMergeableAddress(*MRI))		if (!CI.hasMergeableAddress(*MRI))
continue;		continue;

addInstToMergeableList(CI, MergeableInsts);		addInstToMergeableList(CI, MergeableInsts);
}		}

		// At this point we have lists of Mergeable instructions.
		//
		// Part 2: Sort lists by offset and then for each CombineInfo object in the
		// list try to find an instruction that can be merged with I. If an instruction
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - // list try to find an instruction that can be merged with I. If an instruction - // is found, it is stored in the Paired field. If no instructions are found, then - // the CombineInfo object is deleted from the list. - + // list try to find an instruction that can be merged with I. If an + // instruction is found, it is stored in the Paired field. If no instructions + // are found, then the CombineInfo object is deleted from the list. + Lint: Pre-merge checks: clang-format: please reformat the code ``` - // list try to find an instruction that can be…
		// is found, it is stored in the Paired field. If no instructions are found, then
		// the CombineInfo object is deleted from the list.

		for (std::list<std::list<CombineInfo>>::iterator I = MergeableInsts.begin(),
		E = MergeableInsts.end(); I != E;) {
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - E = MergeableInsts.end(); I != E;) { + E = MergeableInsts.end(); + I != E;) { Lint: Pre-merge checks: clang-format: please reformat the code ``` - …

		std::list<CombineInfo> &MergeList = *I;
		if (MergeList.size() <= 1) {
		// This means we have found only one instruction with a given address
		// that can be merged, and we need at least 2 instructions to do a merge,
		// so this list can be discarded.
		I = MergeableInsts.erase(I);
		continue;
		}

		// Sort the lists by offsets, this way mergeable instructions will be
		// adjacent to each other in the list, which will make it easier to find
		// matches.
		MergeList.sort(
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - MergeList.sort( - [] (const CombineInfo &A, CombineInfo &B) { - return A.Offset < B.Offset; - }); + MergeList.sort([](const CombineInfo &A, CombineInfo &B) { + return A.Offset < B.Offset; + }); Lint: Pre-merge checks: clang-format: please reformat the code ``` - MergeList.sort( - [] (const CombineInfo…
		[] (const CombineInfo &A, CombineInfo &B) {
		return A.Offset < B.Offset;
		});
		++I;
		}

return Modified;		return Modified;
}		}

// Scan through looking for adjacent LDS operations with constant offsets from		// Scan through looking for adjacent LDS operations with constant offsets from
// the same base register. We rely on the scheduler to do the hard work of		// the same base register. We rely on the scheduler to do the hard work of
// clustering nearby loads, and assume these are all adjacent.		// clustering nearby loads, and assume these are all adjacent.
bool SILoadStoreOptimizer::optimizeBlock(		bool SILoadStoreOptimizer::optimizeBlock(
std::list<std::list<CombineInfo> > &MergeableInsts) {		std::list<std::list<CombineInfo> > &MergeableInsts) {
bool Modified = false;		bool Modified = false;

for (std::list<CombineInfo> &MergeList : MergeableInsts) {		for (std::list<std::list<CombineInfo>>::iterator I = MergeableInsts.begin(),
if (MergeList.size() < 2)		E = MergeableInsts.end(); I != E;) {
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - E = MergeableInsts.end(); I != E;) { + E = MergeableInsts.end(); + I != E;) { Lint: Pre-merge checks: clang-format: please reformat the code ``` - …
continue;		std::list<CombineInfo> &MergeList = *I;

		nhaehnleUnsubmitted Done Reply Inline Actions Maybe move this check into `optimizeInstsWithSameBaseAddr`? That function is already responsible for handling the case where the size is 1... nhaehnle: Maybe move this check into `optimizeInstsWithSameBaseAddr`? That function is already…
bool OptimizeListAgain = false;		bool OptimizeListAgain = false;
if (!optimizeInstsWithSameBaseAddr(MergeList, OptimizeListAgain)) {		if (!optimizeInstsWithSameBaseAddr(MergeList, OptimizeListAgain)) {
// We weren't able to make any changes, so clear the list so we don't		// We weren't able to make any changes, so delete the list so we don't
// process the same instructions the next time we try to optimize this		// process the same instructions the next time we try to optimize this
// block.		// block.
MergeList.clear();		I = MergeableInsts.erase(I);
continue;		continue;
}		}

// We made changes, but also determined that there were no more optimization
// opportunities, so we don't need to reprocess the list
if (!OptimizeListAgain)
MergeList.clear();

OptimizeAgain \|= OptimizeListAgain;
Modified = true;		Modified = true;
}
return Modified;
}

void		// We made changes, but also determined that there were no more optimization
SILoadStoreOptimizer::removeCombinedInst(std::list<CombineInfo> &MergeList,		// opportunities, so we don't need to reprocess the list
const MachineInstr &MI) {		if (!OptimizeListAgain) {
		I = MergeableInsts.erase(I);
for (auto CI = MergeList.begin(), E = MergeList.end(); CI != E; ++CI) {		continue;
if (&*CI->I == &MI) {
MergeList.erase(CI);
return;
}		}
		OptimizeAgain = true;
}		}
		return Modified;
}		}

bool		bool
SILoadStoreOptimizer::optimizeInstsWithSameBaseAddr(		SILoadStoreOptimizer::optimizeInstsWithSameBaseAddr(
std::list<CombineInfo> &MergeList,		std::list<CombineInfo> &MergeList,
bool &OptimizeListAgain) {		bool &OptimizeListAgain) {
		if (MergeList.empty())
		return false;

bool Modified = false;		bool Modified = false;
for (auto I = MergeList.begin(); I != MergeList.end(); ++I) {
CombineInfo &CI = *I;
CombineInfo Paired;

if (CI.InstClass == UNKNOWN)		for (auto I = MergeList.begin(), Next = std::next(I); Next != MergeList.end();
continue;		Next = std::next(I)) {

		auto First = I;
		auto Second = Next;

		if ((First).Order > (Second).Order)
		std::swap(First, Second);
		CombineInfo &CI = *First;
		CombineInfo &Paired = *Second;

if (!findMatchingInst(CI, Paired))		SmallVector<MachineInstr *, 8> InstsToMove;
goto done;		if (!checkAndPrepareMerge(CI, Paired, InstsToMove)) {
		++I;
		continue;
		}

Modified = true;		Modified = true;
removeCombinedInst(MergeList, *Paired.I);

switch (CI.InstClass) {		switch (CI.InstClass) {
default:		default:
llvm_unreachable("unknown InstClass");		llvm_unreachable("unknown InstClass");
break;		break;
case DS_READ: {		case DS_READ: {
MachineBasicBlock::iterator NewMI = mergeRead2Pair(CI, Paired);		MachineBasicBlock::iterator NewMI =
		mergeRead2Pair(CI, Paired, InstsToMove);
CI.setMI(NewMI, TII, STM);		CI.setMI(NewMI, TII, STM);
break;		break;
}		}
case DS_WRITE: {		case DS_WRITE: {
MachineBasicBlock::iterator NewMI = mergeWrite2Pair(CI, Paired);		MachineBasicBlock::iterator NewMI =
		mergeWrite2Pair(CI, Paired, InstsToMove);
CI.setMI(NewMI, TII, STM);		CI.setMI(NewMI, TII, STM);
break;		break;
}		}
case S_BUFFER_LOAD_IMM: {		case S_BUFFER_LOAD_IMM: {
MachineBasicBlock::iterator NewMI = mergeSBufferLoadImmPair(CI, Paired);		MachineBasicBlock::iterator NewMI =
		mergeSBufferLoadImmPair(CI, Paired, InstsToMove);
CI.setMI(NewMI, TII, STM);		CI.setMI(NewMI, TII, STM);
OptimizeListAgain \|= (CI.Width + Paired.Width) < 16;		OptimizeListAgain \|= (CI.Width + Paired.Width) < 16;
break;		break;
}		}
case BUFFER_LOAD: {		case BUFFER_LOAD: {
MachineBasicBlock::iterator NewMI = mergeBufferLoadPair(CI, Paired);		MachineBasicBlock::iterator NewMI =
		mergeBufferLoadPair(CI, Paired, InstsToMove);
CI.setMI(NewMI, TII, STM);		CI.setMI(NewMI, TII, STM);
OptimizeListAgain \|= (CI.Width + Paired.Width) < 4;		OptimizeListAgain \|= (CI.Width + Paired.Width) < 4;
break;		break;
}		}
case BUFFER_STORE: {		case BUFFER_STORE: {
MachineBasicBlock::iterator NewMI = mergeBufferStorePair(CI, Paired);		MachineBasicBlock::iterator NewMI =
		mergeBufferStorePair(CI, Paired, InstsToMove);
CI.setMI(NewMI, TII, STM);		CI.setMI(NewMI, TII, STM);
OptimizeListAgain \|= (CI.Width + Paired.Width) < 4;		OptimizeListAgain \|= (CI.Width + Paired.Width) < 4;
break;		break;
}		}
case MIMG: {		case MIMG: {
MachineBasicBlock::iterator NewMI = mergeImagePair(CI, Paired);		MachineBasicBlock::iterator NewMI =
		mergeImagePair(CI, Paired, InstsToMove);
CI.setMI(NewMI, TII, STM);		CI.setMI(NewMI, TII, STM);
OptimizeListAgain \|= (CI.Width + Paired.Width) < 4;		OptimizeListAgain \|= (CI.Width + Paired.Width) < 4;
break;		break;
}		}
case TBUFFER_LOAD: {		case TBUFFER_LOAD: {
MachineBasicBlock::iterator NewMI = mergeTBufferLoadPair(CI, Paired);		MachineBasicBlock::iterator NewMI =
		mergeTBufferLoadPair(CI, Paired, InstsToMove);
CI.setMI(NewMI, TII, STM);		CI.setMI(NewMI, TII, STM);
OptimizeListAgain \|= (CI.Width + Paired.Width) < 4;		OptimizeListAgain \|= (CI.Width + Paired.Width) < 4;
break;		break;
}		}
case TBUFFER_STORE: {		case TBUFFER_STORE: {
MachineBasicBlock::iterator NewMI = mergeTBufferStorePair(CI, Paired);		MachineBasicBlock::iterator NewMI =
		mergeTBufferStorePair(CI, Paired, InstsToMove);
CI.setMI(NewMI, TII, STM);		CI.setMI(NewMI, TII, STM);
OptimizeListAgain \|= (CI.Width + Paired.Width) < 4;		OptimizeListAgain \|= (CI.Width + Paired.Width) < 4;
break;		break;
}		}
}		}
		CI.Order = Paired.Order;
		if (I == Second)
		I = Next;

done:		MergeList.erase(Second);
// Clear the InstsToMove after we have finished searching so we don't have
// stale values left over if we search for this CI again in another pass
// over the block.
CI.InstsToMove.clear();
}		}

return Modified;		return Modified;
}		}

bool SILoadStoreOptimizer::runOnMachineFunction(MachineFunction &MF) {		bool SILoadStoreOptimizer::runOnMachineFunction(MachineFunction &MF) {
if (skipFunction(MF.getFunction()))		if (skipFunction(MF.getFunction()))
return false;		return false;
Show All 31 Lines

llvm/test/CodeGen/AMDGPU/ds_read2_offset_order.ll

	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -strict-whitespace -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -strict-whitespace -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -strict-whitespace -check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -strict-whitespace -check-prefix=SI %s

	@lds = addrspace(3) global [512 x float] undef, align 4			@lds = addrspace(3) global [512 x float] undef, align 4

	; offset0 is larger than offset1			; offset0 is larger than offset1

	; SI-LABEL: {{^}}offset_order:			; SI-LABEL: {{^}}offset_order:
	; SI-DAG: ds_read2st64_b32 v[{{[0-9]+}}:{{[0-9]+}}], v{{[0-9]+}} offset1:4{{$}}			; SI-DAG: ds_read2_b32 v[{{[0-9]+}}:{{[0-9]+}}], v{{[0-9]+}} offset1:14{{$}}
	; SI-DAG: ds_read2_b32 v[{{[0-9]+}}:{{[0-9]+}}], v{{[0-9]+}} offset0:2 offset1:3			; SI-DAG: ds_read2_b32 v[{{[0-9]+}}:{{[0-9]+}}], v{{[0-9]+}} offset0:2 offset1:3
	; SI-DAG: ds_read_b32 v{{[0-9]+}}, v{{[0-9]+}} offset:56			; SI-DAG: ds_read_b32 v{{[0-9]+}}, v{{[0-9]+}} offset:1024
	; SI-DAG: ds_read2_b32 v[{{[0-9]+}}:{{[0-9]+}}], v{{[0-9]+}} offset0:11 offset1:12			; SI-DAG: ds_read2_b32 v[{{[0-9]+}}:{{[0-9]+}}], v{{[0-9]+}} offset0:11 offset1:12
	define amdgpu_kernel void @offset_order(float addrspace(1)* %out) {			define amdgpu_kernel void @offset_order(float addrspace(1)* %out) {
	entry:			entry:
	%ptr0 = getelementptr inbounds [512 x float], [512 x float] addrspace(3)* @lds, i32 0, i32 0			%ptr0 = getelementptr inbounds [512 x float], [512 x float] addrspace(3)* @lds, i32 0, i32 0
	%val0 = load float, float addrspace(3)* %ptr0			%val0 = load float, float addrspace(3)* %ptr0

	%ptr1 = getelementptr inbounds [512 x float], [512 x float] addrspace(3)* @lds, i32 0, i32 256			%ptr1 = getelementptr inbounds [512 x float], [512 x float] addrspace(3)* @lds, i32 0, i32 256
	%val1 = load float, float addrspace(3)* %ptr1			%val1 = load float, float addrspace(3)* %ptr1
	Show All 24 Lines

llvm/test/CodeGen/AMDGPU/merge-load-store.mir

Show First 20 Lines • Show All 60 Lines • ▼ Show 20 Lines	--- \|

define amdgpu_kernel void @move_waw_hazards() #0 {		define amdgpu_kernel void @move_waw_hazards() #0 {
ret void		ret void
}		}

attributes #0 = { convergent nounwind }		attributes #0 = { convergent nounwind }

define amdgpu_kernel void @merge_mmos(i32 addrspace(1)* %ptr_addr1) { ret void }		define amdgpu_kernel void @merge_mmos(i32 addrspace(1)* %ptr_addr1) { ret void }
		define amdgpu_kernel void @reorder_offsets(i32 addrspace(1)* %reorder_addr1) { ret void }

...		...
---		---
name: mem_dependency		name: mem_dependency
alignment: 1		alignment: 1
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines	bb.0:
%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %0, 0, 64, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 4 from %ir.ptr_addr1 + 64)		%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %0, 0, 64, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 4 from %ir.ptr_addr1 + 64)
%6:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %0, 0, 68, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 4 from %ir.ptr_addr1 + 68)		%6:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %0, 0, 68, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 4 from %ir.ptr_addr1 + 68)
BUFFER_STORE_DWORD_OFFSET_exact %5, %0, 0, 64, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 4 into %ir.ptr_addr1 + 64)		BUFFER_STORE_DWORD_OFFSET_exact %5, %0, 0, 64, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 4 into %ir.ptr_addr1 + 64)
BUFFER_STORE_DWORD_OFFSET_exact %6, %0, 0, 68, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 4 into %ir.ptr_addr1 + 68)		BUFFER_STORE_DWORD_OFFSET_exact %6, %0, 0, 68, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 4 into %ir.ptr_addr1 + 68)

S_ENDPGM 0		S_ENDPGM 0

...		...
		---
		# CHECK-LABEL: reorder_offsets
		# CHECK-DAG: BUFFER_STORE_DWORDX2_OFFSET_exact killed %{{[0-9]+}}, %0, 0, 16, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8 into %ir.reorder_addr1 + 16, align 4, addrspace 1)
		# CHECK-DAG: BUFFER_STORE_DWORDX4_OFFSET_exact killed %{{[0-9]+}}, %0, 0, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16 into %ir.reorder_addr1, align 4, addrspace 1)

		name: reorder_offsets
		tracksRegLiveness: true
		body: \|
		bb.0:
		liveins: $sgpr0_sgpr1_sgpr2_sgpr3

		%0:sgpr_128 = COPY $sgpr0_sgpr1_sgpr2_sgpr3
		%1:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
		BUFFER_STORE_DWORD_OFFSET_exact %1, %0, 0, 4, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 4 into %ir.reorder_addr1 + 4)
		BUFFER_STORE_DWORD_OFFSET_exact %1, %0, 0, 8, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 4 into %ir.reorder_addr1 + 8)
		BUFFER_STORE_DWORD_OFFSET_exact %1, %0, 0, 12, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 4 into %ir.reorder_addr1 + 12)
		BUFFER_STORE_DWORD_OFFSET_exact %1, %0, 0, 16, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 4 into %ir.reorder_addr1 + 16)
		BUFFER_STORE_DWORD_OFFSET_exact %1, %0, 0, 20, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 4 into %ir.reorder_addr1 + 20)
		BUFFER_STORE_DWORD_OFFSET_exact %1, %0, 0, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 4 into %ir.reorder_addr1)
		S_ENDPGM 0


		...

llvm/test/CodeGen/AMDGPU/merge-tbuffer.mir

	Show First 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	---			---


	# GFX9-LABEL: name: gfx9_tbuffer_load_float_32			# GFX9-LABEL: name: gfx9_tbuffer_load_float_32
	# GFX9: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 123, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)			# GFX9: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 123, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1
	# GFX9: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 126, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)			# GFX9: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 126, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = COPY %18.sub0_sub1			# GFX9: %{{[0-9]+}}:vreg_96 = COPY %17.sub0_sub1_sub2
	# GFX9: %{{[0-9]+}}:vreg_64 = COPY killed %18.sub2_sub3			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub3
				# GFX9: %{{[0-9]+}}:vreg_64 = COPY %16.sub0_sub1
				# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub2
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %16.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub1
	# GFX9: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 125, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)			# GFX9: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 125, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1			# GFX9: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %17.sub0			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %18.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub1			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %18.sub1

	name: gfx9_tbuffer_load_float_32			name: gfx9_tbuffer_load_float_32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	%0:sgpr_32 = COPY $sgpr0			%0:sgpr_32 = COPY $sgpr0
	%1:sgpr_32 = COPY $sgpr1			%1:sgpr_32 = COPY $sgpr1
	%2:sgpr_32 = COPY $sgpr2			%2:sgpr_32 = COPY $sgpr2
	%3:sgpr_32 = COPY $sgpr3			%3:sgpr_32 = COPY $sgpr3
	Show All 10 Lines
	...			...
	---			---

	# GFX9-LABEL: name: gfx9_tbuffer_load_sint_32			# GFX9-LABEL: name: gfx9_tbuffer_load_sint_32
	# GFX9: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 91, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)			# GFX9: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 91, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1
	# GFX9: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 94, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)			# GFX9: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 94, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = COPY %18.sub0_sub1			# GFX9: %{{[0-9]+}}:vreg_96 = COPY %17.sub0_sub1_sub2
	# GFX9: %{{[0-9]+}}:vreg_64 = COPY killed %18.sub2_sub3			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub3
				# GFX9: %{{[0-9]+}}:vreg_64 = COPY %16.sub0_sub1
				# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub2
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %16.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub1
	# GFX9: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 93, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)			# GFX9: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 93, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1			# GFX9: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %17.sub0			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %18.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub1			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %18.sub1

	name: gfx9_tbuffer_load_sint_32			name: gfx9_tbuffer_load_sint_32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	%0:sgpr_32 = COPY $sgpr0			%0:sgpr_32 = COPY $sgpr0
	%1:sgpr_32 = COPY $sgpr1			%1:sgpr_32 = COPY $sgpr1
	%2:sgpr_32 = COPY $sgpr2			%2:sgpr_32 = COPY $sgpr2
	%3:sgpr_32 = COPY $sgpr3			%3:sgpr_32 = COPY $sgpr3
	Show All 10 Lines
	...			...
	---			---

	# GFX9-LABEL: name: gfx9_tbuffer_load_uint_32			# GFX9-LABEL: name: gfx9_tbuffer_load_uint_32
	# GFX9: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 75, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)			# GFX9: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 75, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1
	# GFX9: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 78, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)			# GFX9: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 78, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = COPY %18.sub0_sub1			# GFX9: %{{[0-9]+}}:vreg_96 = COPY %17.sub0_sub1_sub2
	# GFX9: %{{[0-9]+}}:vreg_64 = COPY killed %18.sub2_sub3			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub3
				# GFX9: %{{[0-9]+}}:vreg_64 = COPY %16.sub0_sub1
				# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub2
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %16.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub1
	# GFX9: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 77, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)			# GFX9: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 77, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1			# GFX9: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %17.sub0			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %18.sub0
	# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub1			# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %18.sub1

	name: gfx9_tbuffer_load_uint_32			name: gfx9_tbuffer_load_uint_32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	%0:sgpr_32 = COPY $sgpr0			%0:sgpr_32 = COPY $sgpr0
	%1:sgpr_32 = COPY $sgpr1			%1:sgpr_32 = COPY $sgpr1
	%2:sgpr_32 = COPY $sgpr2			%2:sgpr_32 = COPY $sgpr2
	%3:sgpr_32 = COPY $sgpr3			%3:sgpr_32 = COPY $sgpr3
	▲ Show 20 Lines • Show All 258 Lines • ▼ Show 20 Lines
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0
	# GFX9: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3			# GFX9: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1
	# GFX9: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 123, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)			# GFX9: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 123, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %4, %subreg.sub0, %3, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, %4, %subreg.sub2
	# GFX9: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, killed %16, %subreg.sub2_sub3			# GFX9: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %16, %subreg.sub0_sub1_sub2, %3, %subreg.sub3
	# GFX9: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %18, %13, 0, 16, 126, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)			# GFX9: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %17, %13, 0, 16, 126, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1
	# GFX9: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %17, %subreg.sub0_sub1, %0, %subreg.sub2			# GFX9: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %18, %subreg.sub0_sub1, %0, %subreg.sub2
	# GFX9: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 125, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)			# GFX9: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 125, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)
	name: gfx9_tbuffer_store_float32			name: gfx9_tbuffer_store_float32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8			liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8
	%12:vgpr_32 = COPY $vgpr8			%12:vgpr_32 = COPY $vgpr8
	%11:vgpr_32 = COPY $vgpr7			%11:vgpr_32 = COPY $vgpr7
	%10:vgpr_32 = COPY $vgpr6			%10:vgpr_32 = COPY $vgpr6
	Show All 33 Lines
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0
	# GFX9: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3			# GFX9: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1
	# GFX9: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 91, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)			# GFX9: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 91, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %4, %subreg.sub0, %3, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, %4, %subreg.sub2
	# GFX9: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, killed %16, %subreg.sub2_sub3			# GFX9: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %16, %subreg.sub0_sub1_sub2, %3, %subreg.sub3
	# GFX9: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %18, %13, 0, 16, 94, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)			# GFX9: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %17, %13, 0, 16, 94, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1
	# GFX9: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %17, %subreg.sub0_sub1, %0, %subreg.sub2			# GFX9: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %18, %subreg.sub0_sub1, %0, %subreg.sub2
	# GFX9: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 93, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)			# GFX9: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 93, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)
	name: gfx9_tbuffer_store_sint32			name: gfx9_tbuffer_store_sint32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8			liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8
	%12:vgpr_32 = COPY $vgpr8			%12:vgpr_32 = COPY $vgpr8
	%11:vgpr_32 = COPY $vgpr7			%11:vgpr_32 = COPY $vgpr7
	%10:vgpr_32 = COPY $vgpr6			%10:vgpr_32 = COPY $vgpr6
	Show All 33 Lines
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1
	# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0			# GFX9: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0
	# GFX9: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3			# GFX9: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1
	# GFX9: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 75, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)			# GFX9: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 75, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %4, %subreg.sub0, %3, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, %4, %subreg.sub2
	# GFX9: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, killed %16, %subreg.sub2_sub3			# GFX9: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %16, %subreg.sub0_sub1_sub2, %3, %subreg.sub3
	# GFX9: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %18, %13, 0, 16, 78, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)			# GFX9: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %17, %13, 0, 16, 78, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)
	# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1			# GFX9: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1
	# GFX9: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %17, %subreg.sub0_sub1, %0, %subreg.sub2			# GFX9: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %18, %subreg.sub0_sub1, %0, %subreg.sub2
	# GFX9: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 77, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)			# GFX9: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 77, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)
	name: gfx9_tbuffer_store_uint32			name: gfx9_tbuffer_store_uint32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8			liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8
	%12:vgpr_32 = COPY $vgpr8			%12:vgpr_32 = COPY $vgpr8
	%11:vgpr_32 = COPY $vgpr7			%11:vgpr_32 = COPY $vgpr7
	%10:vgpr_32 = COPY $vgpr6			%10:vgpr_32 = COPY $vgpr6
	▲ Show 20 Lines • Show All 290 Lines • ▼ Show 20 Lines
	---			---


	# GFX10-LABEL: name: gfx10_tbuffer_load_float_32			# GFX10-LABEL: name: gfx10_tbuffer_load_float_32
	# GFX10: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 64, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)			# GFX10: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 64, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1
	# GFX10: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 77, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)			# GFX10: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 77, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = COPY %18.sub0_sub1			# GFX10: %{{[0-9]+}}:vreg_96 = COPY %17.sub0_sub1_sub2
	# GFX10: %{{[0-9]+}}:vreg_64 = COPY killed %18.sub2_sub3			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub3
				# GFX10: %{{[0-9]+}}:vreg_64 = COPY %16.sub0_sub1
				# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub2
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %16.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub1
	# GFX10: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 74, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)			# GFX10: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 74, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1			# GFX10: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %17.sub0			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %18.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub1			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %18.sub1

	name: gfx10_tbuffer_load_float_32			name: gfx10_tbuffer_load_float_32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	%0:sgpr_32 = COPY $sgpr0			%0:sgpr_32 = COPY $sgpr0
	%1:sgpr_32 = COPY $sgpr1			%1:sgpr_32 = COPY $sgpr1
	%2:sgpr_32 = COPY $sgpr2			%2:sgpr_32 = COPY $sgpr2
	%3:sgpr_32 = COPY $sgpr3			%3:sgpr_32 = COPY $sgpr3
	Show All 10 Lines
	...			...
	---			---

	# GFX10-LABEL: name: gfx10_tbuffer_load_sint_32			# GFX10-LABEL: name: gfx10_tbuffer_load_sint_32
	# GFX10: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 63, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)			# GFX10: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 63, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1
	# GFX10: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 76, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)			# GFX10: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 76, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = COPY %18.sub0_sub1			# GFX10: %{{[0-9]+}}:vreg_96 = COPY %17.sub0_sub1_sub2
	# GFX10: %{{[0-9]+}}:vreg_64 = COPY killed %18.sub2_sub3			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub3
				# GFX10: %{{[0-9]+}}:vreg_64 = COPY %16.sub0_sub1
				# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub2
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %16.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub1
	# GFX10: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 73, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)			# GFX10: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 73, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1			# GFX10: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %17.sub0			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %18.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub1			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %18.sub1

	name: gfx10_tbuffer_load_sint_32			name: gfx10_tbuffer_load_sint_32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	%0:sgpr_32 = COPY $sgpr0			%0:sgpr_32 = COPY $sgpr0
	%1:sgpr_32 = COPY $sgpr1			%1:sgpr_32 = COPY $sgpr1
	%2:sgpr_32 = COPY $sgpr2			%2:sgpr_32 = COPY $sgpr2
	%3:sgpr_32 = COPY $sgpr3			%3:sgpr_32 = COPY $sgpr3
	Show All 10 Lines
	...			...
	---			---

	# GFX10-LABEL: name: gfx10_tbuffer_load_uint_32			# GFX10-LABEL: name: gfx10_tbuffer_load_uint_32
	# GFX10: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 62, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)			# GFX10: %{{[0-9]+}}:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFSET %4, 0, 4, 62, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 8, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %14.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %14.sub1
	# GFX10: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 75, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)			# GFX10: %{{[0-9]+}}:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFSET %4, 0, 16, 75, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 16, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = COPY %18.sub0_sub1			# GFX10: %{{[0-9]+}}:vreg_96 = COPY %17.sub0_sub1_sub2
	# GFX10: %{{[0-9]+}}:vreg_64 = COPY killed %18.sub2_sub3			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub3
				# GFX10: %{{[0-9]+}}:vreg_64 = COPY %16.sub0_sub1
				# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub2
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %15.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %15.sub1
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %16.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %16.sub1
	# GFX10: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 72, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)			# GFX10: %{{[0-9]+}}:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFSET %4, 0, 36, 72, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load 12, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1			# GFX10: %{{[0-9]+}}:vreg_64 = COPY %19.sub0_sub1
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %19.sub2
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %17.sub0			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %18.sub0
	# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %17.sub1			# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %18.sub1

	name: gfx10_tbuffer_load_uint_32			name: gfx10_tbuffer_load_uint_32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	%0:sgpr_32 = COPY $sgpr0			%0:sgpr_32 = COPY $sgpr0
	%1:sgpr_32 = COPY $sgpr1			%1:sgpr_32 = COPY $sgpr1
	%2:sgpr_32 = COPY $sgpr2			%2:sgpr_32 = COPY $sgpr2
	%3:sgpr_32 = COPY $sgpr3			%3:sgpr_32 = COPY $sgpr3
	▲ Show 20 Lines • Show All 259 Lines • ▼ Show 20 Lines
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0
	# GFX10: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3			# GFX10: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1
	# GFX10: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 64, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)			# GFX10: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 64, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %4, %subreg.sub0, %3, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, %4, %subreg.sub2
	# GFX10: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, killed %16, %subreg.sub2_sub3			# GFX10: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %16, %subreg.sub0_sub1_sub2, %3, %subreg.sub3
	# GFX10: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %18, %13, 0, 16, 77, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)			# GFX10: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %17, %13, 0, 16, 77, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1
	# GFX10: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %17, %subreg.sub0_sub1, %0, %subreg.sub2			# GFX10: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %18, %subreg.sub0_sub1, %0, %subreg.sub2
	# GFX10: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 74, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)			# GFX10: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 74, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)
	name: gfx10_tbuffer_store_float32			name: gfx10_tbuffer_store_float32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8			liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8
	%12:vgpr_32 = COPY $vgpr8			%12:vgpr_32 = COPY $vgpr8
	%11:vgpr_32 = COPY $vgpr7			%11:vgpr_32 = COPY $vgpr7
	%10:vgpr_32 = COPY $vgpr6			%10:vgpr_32 = COPY $vgpr6
	Show All 33 Lines
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0
	# GFX10: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3			# GFX10: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1
	# GFX10: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 63, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)			# GFX10: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 63, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %4, %subreg.sub0, %3, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, %4, %subreg.sub2
	# GFX10: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, killed %16, %subreg.sub2_sub3			# GFX10: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %16, %subreg.sub0_sub1_sub2, %3, %subreg.sub3
	# GFX10: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %18, %13, 0, 16, 76, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)			# GFX10: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %17, %13, 0, 16, 76, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1
	# GFX10: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %17, %subreg.sub0_sub1, %0, %subreg.sub2			# GFX10: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %18, %subreg.sub0_sub1, %0, %subreg.sub2
	# GFX10: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 73, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)			# GFX10: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 73, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)
	name: gfx10_tbuffer_store_sint32			name: gfx10_tbuffer_store_sint32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8			liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8
	%12:vgpr_32 = COPY $vgpr8			%12:vgpr_32 = COPY $vgpr8
	%11:vgpr_32 = COPY $vgpr7			%11:vgpr_32 = COPY $vgpr7
	%10:vgpr_32 = COPY $vgpr6			%10:vgpr_32 = COPY $vgpr6
	Show All 33 Lines
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr3
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr2
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr1
	# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0			# GFX10: %{{[0-9]+}}:sgpr_32 = COPY $sgpr0
	# GFX10: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3			# GFX10: %{{[0-9]+}}:sgpr_128 = REG_SEQUENCE %12, %subreg.sub0, %11, %subreg.sub1, %10, %subreg.sub2, %9, %subreg.sub3
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %8, %subreg.sub0, %7, %subreg.sub1
	# GFX10: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 62, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)			# GFX10: TBUFFER_STORE_FORMAT_XY_OFFSET_exact killed %14, %13, 0, 4, 62, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 8, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %6, %subreg.sub0, %5, %subreg.sub1
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %4, %subreg.sub0, %3, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, %4, %subreg.sub2
	# GFX10: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %15, %subreg.sub0_sub1, killed %16, %subreg.sub2_sub3			# GFX10: %{{[0-9]+}}:vreg_128 = REG_SEQUENCE killed %16, %subreg.sub0_sub1_sub2, %3, %subreg.sub3
	# GFX10: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %18, %13, 0, 16, 75, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)			# GFX10: TBUFFER_STORE_FORMAT_XYZW_OFFSET_exact killed %17, %13, 0, 16, 75, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 16, align 1, addrspace 4)
	# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1			# GFX10: %{{[0-9]+}}:vreg_64 = REG_SEQUENCE %2, %subreg.sub0, %1, %subreg.sub1
	# GFX10: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %17, %subreg.sub0_sub1, %0, %subreg.sub2			# GFX10: %{{[0-9]+}}:vreg_96 = REG_SEQUENCE killed %18, %subreg.sub0_sub1, %0, %subreg.sub2
	# GFX10: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 72, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)			# GFX10: TBUFFER_STORE_FORMAT_XYZ_OFFSET_exact killed %19, %13, 0, 36, 72, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable store 12, align 1, addrspace 4)
	name: gfx10_tbuffer_store_uint32			name: gfx10_tbuffer_store_uint32
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8			liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5, $vgpr6, $vgpr7, $vgpr8
	%12:vgpr_32 = COPY $vgpr8			%12:vgpr_32 = COPY $vgpr8
	%11:vgpr_32 = COPY $vgpr7			%11:vgpr_32 = COPY $vgpr7
	%10:vgpr_32 = COPY $vgpr6			%10:vgpr_32 = COPY $vgpr6
	▲ Show 20 Lines • Show All 165 Lines • Show Last 20 Lines