Diff 410875

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp

Show First 20 Lines • Show All 254 Lines • ▼ Show 20 Lines	private:
void addInstToMergeableList(const CombineInfo &CI,		void addInstToMergeableList(const CombineInfo &CI,
std::list<std::list<CombineInfo> > &MergeableInsts) const;		std::list<std::list<CombineInfo> > &MergeableInsts) const;

std::pair<MachineBasicBlock::iterator, bool> collectMergeableInsts(		std::pair<MachineBasicBlock::iterator, bool> collectMergeableInsts(
MachineBasicBlock::iterator Begin, MachineBasicBlock::iterator End,		MachineBasicBlock::iterator Begin, MachineBasicBlock::iterator End,
MemInfoMap &Visited, SmallPtrSet<MachineInstr *, 4> &AnchorList,		MemInfoMap &Visited, SmallPtrSet<MachineInstr *, 4> &AnchorList,
std::list<std::list<CombineInfo>> &MergeableInsts) const;		std::list<std::list<CombineInfo>> &MergeableInsts) const;

		static MachineMemOperand *combineKnownAdjacentMMOs(const CombineInfo &CI,
		const CombineInfo &Paired);

public:		public:
static char ID;		static char ID;

SILoadStoreOptimizer() : MachineFunctionPass(ID) {		SILoadStoreOptimizer() : MachineFunctionPass(ID) {
initializeSILoadStoreOptimizerPass(*PassRegistry::getPassRegistry());		initializeSILoadStoreOptimizerPass(*PassRegistry::getPassRegistry());
}		}

bool optimizeInstsWithSameBaseAddr(std::list<CombineInfo> &MergeList,		bool optimizeInstsWithSameBaseAddr(std::list<CombineInfo> &MergeList,
▲ Show 20 Lines • Show All 385 Lines • ▼ Show 20 Lines	if (!BOp.isReg())
continue;		continue;
if ((BOp.isDef() \|\| BOp.readsReg()) && ARegDefs.contains(BOp.getReg()))		if ((BOp.isDef() \|\| BOp.readsReg()) && ARegDefs.contains(BOp.getReg()))
return false;		return false;
if (BOp.isDef() && ARegUses.contains(BOp.getReg()))		if (BOp.isDef() && ARegUses.contains(BOp.getReg()))
return false;		return false;
}		}
return true;		return true;
}		}

// This function assumes that \p A and \p B have are identical except for		// Given that \p CI and \p Paired are adjacent memory operations produce a new
		foadUnsubmitted Done Reply Inline Actions If this comment was true ("A and B are identical except for size and offset") then your patch would not be necessary. foad: If this comment was true ("A and B are identical except for size and offset") then your patch…
		rampitecAuthorUnsubmitted Done Reply Inline Actions In fact I think this comment is generally incorrect. I'd probably better remove it al all. This is the point of the patch, use the MMO of the leading operation, this is why I have changed one of the pointers in the test to float, to spot that. rampitec: In fact I think this comment is generally incorrect. I'd probably better remove it al all. This…
		foadUnsubmitted Not Done Reply Inline Actions In fact I think this comment is generally incorrect. I'd probably better remove it al all. Agreed. foad: > In fact I think this comment is generally incorrect. I'd probably better remove it al all.
// size and offset, and they reference adjacent memory.		// MMO for the combined operation with a new access size.
static MachineMemOperand *combineKnownAdjacentMMOs(MachineFunction &MF,		MachineMemOperand *
const MachineMemOperand *A,		SILoadStoreOptimizer::combineKnownAdjacentMMOs(const CombineInfo &CI,
const MachineMemOperand *B) {		const CombineInfo &Paired) {
unsigned MinOffset = std::min(A->getOffset(), B->getOffset());		const MachineMemOperand MMOa = CI.I->memoperands_begin();
unsigned Size = A->getSize() + B->getSize();		const MachineMemOperand MMOb = Paired.I->memoperands_begin();
// This function adds the offset parameter to the existing offset for A,
// so we pass 0 here as the offset and then manually set it to the correct		unsigned Size = MMOa->getSize() + MMOb->getSize();
// value after the call.
MachineMemOperand *MMO = MF.getMachineMemOperand(A, 0, Size);		// A base pointer for the combined operation is the same as a leading
		foadUnsubmitted Done Reply Inline Actions Typo "the leading operations's pointer". foad: Typo "the leading operations's pointer".
MMO->setOffset(MinOffset);		// operation's pointer.
return MMO;		if ((CI.InstClass == MIMG && CI.DMask > Paired.DMask) \|\|
		(CI.InstClass != MIMG && CI.Offset > Paired.Offset))
		MMOa = MMOb;

		MachineFunction *MF = CI.I->getMF();
		return MF->getMachineMemOperand(MMOa, MMOa->getPointerInfo(), Size);
}		}

bool SILoadStoreOptimizer::dmasksCanBeCombined(const CombineInfo &CI,		bool SILoadStoreOptimizer::dmasksCanBeCombined(const CombineInfo &CI,
const SIInstrInfo &TII,		const SIInstrInfo &TII,
const CombineInfo &Paired) {		const CombineInfo &Paired) {
assert(CI.InstClass == MIMG);		assert(CI.InstClass == MIMG);

// Ignore instructions with tfe/lwe set.		// Ignore instructions with tfe/lwe set.
▲ Show 20 Lines • Show All 466 Lines • ▼ Show 20 Lines	else
MIB.add((*CI.I).getOperand(I));		MIB.add((*CI.I).getOperand(I));
}		}

// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();		MachineInstr *New = MIB.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr New = MIB.addMemOperand(combineKnownAdjacentMMOs(MBB->getParent(), MMOa, MMOb));

unsigned SubRegIdx0, SubRegIdx1;		unsigned SubRegIdx0, SubRegIdx1;
std::tie(SubRegIdx0, SubRegIdx1) = getSubRegIdxs(CI, Paired);		std::tie(SubRegIdx0, SubRegIdx1) = getSubRegIdxs(CI, Paired);

// Copy to the old destination registers.		// Copy to the old destination registers.
const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);		const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);		const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);
const auto Dest1 = TII->getNamedOperand(Paired.I, AMDGPU::OpName::vdata);		const auto Dest1 = TII->getNamedOperand(Paired.I, AMDGPU::OpName::vdata);
Show All 22 Lines	MachineBasicBlock::iterator SILoadStoreOptimizer::mergeSBufferLoadImmPair(
Register DestReg = MRI->createVirtualRegister(SuperRC);		Register DestReg = MRI->createVirtualRegister(SuperRC);
unsigned MergedOffset = std::min(CI.Offset, Paired.Offset);		unsigned MergedOffset = std::min(CI.Offset, Paired.Offset);

// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
BuildMI(*MBB, InsertBefore, DL, TII->get(Opcode), DestReg)		BuildMI(*MBB, InsertBefore, DL, TII->get(Opcode), DestReg)
.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::sbase))		.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::sbase))
.addImm(MergedOffset) // offset		.addImm(MergedOffset) // offset
.addImm(CI.CPol) // cpol		.addImm(CI.CPol) // cpol
.addMemOperand(		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));
combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));

std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);		std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);
const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);		const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);		const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);

// Copy to the old destination registers.		// Copy to the old destination registers.
const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);		const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::sdst);		const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::sdst);
Show All 32 Lines	MachineBasicBlock::iterator SILoadStoreOptimizer::mergeBufferLoadPair(
if (Regs.VAddr)		if (Regs.VAddr)
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr));		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr));

// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc)) - .add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset)) - .addImm(MergedOffset) // offset - .addImm(CI.CPol) // cpol - .addImm(0) // tfe - .addImm(0) // swz - .addMemOperand(combineKnownAdjacentMMOs(CI, Paired)); + MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc)) + .add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset)) + .addImm(MergedOffset) // offset 4 diff lines are omitted. See full path. Lint: Pre-merge checks: clang-format: please reformat the code ``` - MIB.add(TII->getNamedOperand(CI.I, AMDGPU…
.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))		.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))
.addImm(MergedOffset) // offset		.addImm(MergedOffset) // offset
.addImm(CI.CPol) // cpol		.addImm(CI.CPol) // cpol
.addImm(0) // tfe		.addImm(0) // tfe
.addImm(0) // swz		.addImm(0) // swz
.addMemOperand(combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));

std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);		std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);
const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);		const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);		const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);

// Copy to the old destination registers.		// Copy to the old destination registers.
const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);		const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);		const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);
Show All 35 Lines	MachineBasicBlock::iterator SILoadStoreOptimizer::mergeTBufferLoadPair(
unsigned JoinedFormat =		unsigned JoinedFormat =
getBufferFormatWithCompCount(CI.Format, CI.Width + Paired.Width, *STM);		getBufferFormatWithCompCount(CI.Format, CI.Width + Paired.Width, *STM);

// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))
.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))		.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))
.addImm(MergedOffset) // offset		.addImm(MergedOffset) // offset
.addImm(JoinedFormat) // format		.addImm(JoinedFormat) // format
.addImm(CI.CPol) // cpol		.addImm(CI.CPol) // cpol
.addImm(0) // tfe		.addImm(0) // tfe
.addImm(0) // swz		.addImm(0) // swz
.addMemOperand(		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));
combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));

std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);		std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);
const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);		const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);		const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);

// Copy to the old destination registers.		// Copy to the old destination registers.
const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);		const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);		const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines	MachineBasicBlock::iterator SILoadStoreOptimizer::mergeTBufferStorePair(
unsigned JoinedFormat =		unsigned JoinedFormat =
getBufferFormatWithCompCount(CI.Format, CI.Width + Paired.Width, *STM);		getBufferFormatWithCompCount(CI.Format, CI.Width + Paired.Width, *STM);

// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))
.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))		.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))
.addImm(std::min(CI.Offset, Paired.Offset)) // offset		.addImm(std::min(CI.Offset, Paired.Offset)) // offset
.addImm(JoinedFormat) // format		.addImm(JoinedFormat) // format
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - .addImm(JoinedFormat) // format - .addImm(CI.CPol) // cpol - .addImm(0) // tfe - .addImm(0) // swz + .addImm(JoinedFormat) // format + .addImm(CI.CPol) // cpol + .addImm(0) // tfe + .addImm(0) // swz Lint: Pre-merge checks: clang-format: please reformat the code ``` - .addImm(JoinedFormat)…
.addImm(CI.CPol) // cpol		.addImm(CI.CPol) // cpol
.addImm(0) // tfe		.addImm(0) // tfe
.addImm(0) // swz		.addImm(0) // swz
.addMemOperand(		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));
combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();
return New;		return New;
}		}

MachineBasicBlock::iterator SILoadStoreOptimizer::mergeGlobalLoadPair(		MachineBasicBlock::iterator SILoadStoreOptimizer::mergeGlobalLoadPair(
CombineInfo &CI, CombineInfo &Paired,		CombineInfo &CI, CombineInfo &Paired,
MachineBasicBlock::iterator InsertBefore) {		MachineBasicBlock::iterator InsertBefore) {
MachineBasicBlock *MBB = CI.I->getParent();		MachineBasicBlock *MBB = CI.I->getParent();
DebugLoc DL = CI.I->getDebugLoc();		DebugLoc DL = CI.I->getDebugLoc();

const unsigned Opcode = getNewOpcode(CI, Paired);		const unsigned Opcode = getNewOpcode(CI, Paired);

const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);		const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);
Register DestReg = MRI->createVirtualRegister(SuperRC);		Register DestReg = MRI->createVirtualRegister(SuperRC);

auto MIB = BuildMI(*MBB, InsertBefore, DL, TII->get(Opcode), DestReg);		auto MIB = BuildMI(*MBB, InsertBefore, DL, TII->get(Opcode), DestReg);

if (auto SAddr = TII->getNamedOperand(CI.I, AMDGPU::OpName::saddr))		if (auto SAddr = TII->getNamedOperand(CI.I, AMDGPU::OpName::saddr))
MIB.add(*SAddr);		MIB.add(*SAddr);

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr))		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr))
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr)) - .addImm(std::min(CI.Offset, Paired.Offset)) - .addImm(CI.CPol) - .addMemOperand(combineKnownAdjacentMMOs(CI, Paired)); + MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr)) + .addImm(std::min(CI.Offset, Paired.Offset)) + .addImm(CI.CPol) + .addMemOperand(combineKnownAdjacentMMOs(CI, Paired)); Lint: Pre-merge checks: clang-format: please reformat the code ``` - MIB.add(TII->getNamedOperand(CI.I, AMDGPU…
.addImm(std::min(CI.Offset, Paired.Offset))		.addImm(std::min(CI.Offset, Paired.Offset))
.addImm(CI.CPol)		.addImm(CI.CPol)
.addMemOperand(combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));

std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);		std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);
const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);		const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);		const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);

// Copy to the old destination registers.		// Copy to the old destination registers.
const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);		const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdst);		const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdst);
▲ Show 20 Lines • Show All 164 Lines • ▼ Show 20 Lines	if (Regs.VAddr)
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr));		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr));


// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc)) - .add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset)) - .addImm(std::min(CI.Offset, Paired.Offset)) // offset - .addImm(CI.CPol) // cpol - .addImm(0) // tfe - .addImm(0) // swz - .addMemOperand(combineKnownAdjacentMMOs(CI, Paired)); + MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc)) + .add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset)) + .addImm(std::min(CI.Offset, Paired.Offset)) // offset 4 diff lines are omitted. See full path. Lint: Pre-merge checks: clang-format: please reformat the code ``` - MIB.add(TII->getNamedOperand(CI.I, AMDGPU…
.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))		.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))
.addImm(std::min(CI.Offset, Paired.Offset)) // offset		.addImm(std::min(CI.Offset, Paired.Offset)) // offset
.addImm(CI.CPol) // cpol		.addImm(CI.CPol) // cpol
.addImm(0) // tfe		.addImm(0) // tfe
.addImm(0) // swz		.addImm(0) // swz
.addMemOperand(combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();
return New;		return New;
}		}

MachineOperand		MachineOperand
SILoadStoreOptimizer::createRegOrImm(int32_t Val, MachineInstr &MI) const {		SILoadStoreOptimizer::createRegOrImm(int32_t Val, MachineInstr &MI) const {
▲ Show 20 Lines • Show All 582 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-global-load-store.mir

	Show First 20 Lines • Show All 399 Lines • ▼ Show 20 Lines

	---			---
	name: merge_global_load_dword_2_out_of_order			name: merge_global_load_dword_2_out_of_order
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:

	; GCN-LABEL: name: merge_global_load_dword_2_out_of_order			; GCN-LABEL: name: merge_global_load_dword_2_out_of_order
	; GCN: [[DEF:%[0-9]+]]:vreg_64_align2 = IMPLICIT_DEF			; GCN: [[DEF:%[0-9]+]]:vreg_64_align2 = IMPLICIT_DEF
	; GCN-NEXT: [[GLOBAL_LOAD_DWORDX2_:%[0-9]+]]:vreg_64_align2 = GLOBAL_LOAD_DWORDX2 [[DEF]], 0, 0, implicit $exec :: (load (s64) from `i32 addrspace(1)* undef`, addrspace 1)			; GCN-NEXT: [[GLOBAL_LOAD_DWORDX2_:%[0-9]+]]:vreg_64_align2 = GLOBAL_LOAD_DWORDX2 [[DEF]], 0, 0, implicit $exec :: (load (s64) from `float addrspace(1)* undef`, align 4, addrspace 1)
	; GCN-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY [[GLOBAL_LOAD_DWORDX2_]].sub1			; GCN-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY [[GLOBAL_LOAD_DWORDX2_]].sub1
	; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY killed [[GLOBAL_LOAD_DWORDX2_]].sub0			; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY killed [[GLOBAL_LOAD_DWORDX2_]].sub0
	; GCN-NEXT: S_NOP 0, implicit [[COPY]], implicit [[COPY1]]			; GCN-NEXT: S_NOP 0, implicit [[COPY]], implicit [[COPY1]]
	%0:vreg_64_align2 = IMPLICIT_DEF			%0:vreg_64_align2 = IMPLICIT_DEF
	%1:vgpr_32 = GLOBAL_LOAD_DWORD %0, 4, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 4, align 8, addrspace 1)			%1:vgpr_32 = GLOBAL_LOAD_DWORD %0, 4, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 4, align 8, addrspace 1)
	%2:vgpr_32 = GLOBAL_LOAD_DWORD %0, 0, 0, implicit $exec :: (load (s32) from `float addrspace(1)* undef`, align 4, addrspace 1)			%2:vgpr_32 = GLOBAL_LOAD_DWORD %0, 0, 0, implicit $exec :: (load (s32) from `float addrspace(1)* undef`, align 4, addrspace 1)
	S_NOP 0, implicit %1, implicit %2			S_NOP 0, implicit %1, implicit %2
	...			...

	---			---
	name: merge_global_load_dword_3_out_of_order			name: merge_global_load_dword_3_out_of_order
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:

	; GCN-LABEL: name: merge_global_load_dword_3_out_of_order			; GCN-LABEL: name: merge_global_load_dword_3_out_of_order
	; GCN: [[DEF:%[0-9]+]]:vreg_64_align2 = IMPLICIT_DEF			; GCN: [[DEF:%[0-9]+]]:vreg_64_align2 = IMPLICIT_DEF
	; GCN-NEXT: [[GLOBAL_LOAD_DWORDX3_:%[0-9]+]]:vreg_96_align2 = GLOBAL_LOAD_DWORDX3 [[DEF]], 0, 0, implicit $exec :: (load (s96) from `i32 addrspace(1)* undef`, align 4, addrspace 1)			; GCN-NEXT: [[GLOBAL_LOAD_DWORDX3_:%[0-9]+]]:vreg_96_align2 = GLOBAL_LOAD_DWORDX3 [[DEF]], 0, 0, implicit $exec :: (load (s96) from `float addrspace(1)* undef`, align 16, addrspace 1)
	; GCN-NEXT: [[COPY:%[0-9]+]]:vreg_64_align2 = COPY [[GLOBAL_LOAD_DWORDX3_]].sub0_sub1			; GCN-NEXT: [[COPY:%[0-9]+]]:vreg_64_align2 = COPY [[GLOBAL_LOAD_DWORDX3_]].sub0_sub1
	; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY killed [[GLOBAL_LOAD_DWORDX3_]].sub2			; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY killed [[GLOBAL_LOAD_DWORDX3_]].sub2
	; GCN-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[COPY]].sub1			; GCN-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[COPY]].sub1
	; GCN-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY killed [[COPY]].sub0			; GCN-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY killed [[COPY]].sub0
	; GCN-NEXT: S_NOP 0, implicit [[COPY2]], implicit [[COPY3]]			; GCN-NEXT: S_NOP 0, implicit [[COPY2]], implicit [[COPY3]]
	%0:vreg_64_align2 = IMPLICIT_DEF			%0:vreg_64_align2 = IMPLICIT_DEF
	%1:vgpr_32 = GLOBAL_LOAD_DWORD %0, 4, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 4, align 4, addrspace 1)			%1:vgpr_32 = GLOBAL_LOAD_DWORD %0, 4, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 4, align 4, addrspace 1)
	%2:vgpr_32 = GLOBAL_LOAD_DWORD %0, 0, 0, implicit $exec :: (load (s32) from `float addrspace(1)* undef`, align 16, addrspace 1)			%2:vgpr_32 = GLOBAL_LOAD_DWORD %0, 0, 0, implicit $exec :: (load (s32) from `float addrspace(1)* undef`, align 16, addrspace 1)
	%3:vgpr_32 = GLOBAL_LOAD_DWORD %0, 8, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 8, align 8, addrspace 1)			%3:vgpr_32 = GLOBAL_LOAD_DWORD %0, 8, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 8, align 8, addrspace 1)
	S_NOP 0, implicit %1, implicit %2			S_NOP 0, implicit %1, implicit %2
	...			...

llvm/test/CodeGen/AMDGPU/merge-image-load-gfx10.mir

Show All 13 Lines	bb.0.entry:
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%6:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
%7:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%7:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
...		...
---		---
# GFX10-LABEL: name: image_load_merged_v1v3_reversed		# GFX10-LABEL: name: image_load_merged_v1v3_reversed
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)
# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3		# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3
# GFX10: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2		# GFX10: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2

name: image_load_merged_v1v3_reversed		name: image_load_merged_v1v3_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 7, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 7, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 8, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 8, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX10-LABEL: name: image_load_merged_v3v1_reversed		# GFX10-LABEL: name: image_load_merged_v3v1_reversed
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)
# GFX10: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3		# GFX10: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3
# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0		# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0

name: image_load_merged_v3v1_reversed		name: image_load_merged_v3v1_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX10-LABEL: name: image_load_divided_merged		# GFX10-LABEL: name: image_load_divided_merged
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)

name: image_load_divided_merged		name: image_load_divided_merged
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
▲ Show 20 Lines • Show All 365 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-image-load.mir

Show All 14 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%6:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
%7:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%7:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_load_merged_v1v3_reversed		# GFX9-LABEL: name: image_load_merged_v1v3_reversed
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)
# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3		# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3
# GFX9: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2		# GFX9: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2

name: image_load_merged_v1v3_reversed		name: image_load_merged_v1v3_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 7, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 7, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 8, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 8, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_load_merged_v3v1_reversed		# GFX9-LABEL: name: image_load_merged_v3v1_reversed
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)
# GFX9: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3		# GFX9: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3
# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0		# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0

name: image_load_merged_v3v1_reversed		name: image_load_merged_v3v1_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_load_divided_merged		# GFX9-LABEL: name: image_load_divided_merged
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)

name: image_load_divided_merged		name: image_load_divided_merged
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
▲ Show 20 Lines • Show All 343 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-image-sample-gfx10.mir

Show All 13 Lines	bb.0.entry:
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%6:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
%7:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%7:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
...		...
---		---
# GFX10-LABEL: name: image_sample_l_merged_v1v3_reversed		# GFX10-LABEL: name: image_sample_l_merged_v1v3_reversed
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)
# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3		# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3
# GFX10: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2		# GFX10: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2

name: image_sample_l_merged_v1v3_reversed		name: image_sample_l_merged_v1v3_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 7, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 7, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 8, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 8, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX10-LABEL: name: image_sample_l_merged_v3v1_reversed		# GFX10-LABEL: name: image_sample_l_merged_v3v1_reversed
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)
# GFX10: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3		# GFX10: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3
# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0		# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0

name: image_sample_l_merged_v3v1_reversed		name: image_sample_l_merged_v3v1_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX10-LABEL: name: image_sample_l_divided_merged		# GFX10-LABEL: name: image_sample_l_divided_merged
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)

name: image_sample_l_divided_merged		name: image_sample_l_divided_merged
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
▲ Show 20 Lines • Show All 1,048 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-image-sample.mir

Show All 14 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%6:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
%7:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%7:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_sample_l_merged_v1v3_reversed		# GFX9-LABEL: name: image_sample_l_merged_v1v3_reversed
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)
# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3		# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3
# GFX9: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2		# GFX9: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2

name: image_sample_l_merged_v1v3_reversed		name: image_sample_l_merged_v1v3_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 7, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 7, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 8, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 8, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_sample_l_merged_v3v1_reversed		# GFX9-LABEL: name: image_sample_l_merged_v3v1_reversed
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)
# GFX9: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3		# GFX9: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3
# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0		# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0

name: image_sample_l_merged_v3v1_reversed		name: image_sample_l_merged_v3v1_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_sample_l_divided_merged		# GFX9-LABEL: name: image_sample_l_divided_merged
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)

name: image_sample_l_divided_merged		name: image_sample_l_divided_merged
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
▲ Show 20 Lines • Show All 1,007 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Fix combined MMO in load-store merge
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 410875

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp

llvm/test/CodeGen/AMDGPU/merge-global-load-store.mir

llvm/test/CodeGen/AMDGPU/merge-image-load-gfx10.mir

llvm/test/CodeGen/AMDGPU/merge-image-load.mir

llvm/test/CodeGen/AMDGPU/merge-image-sample-gfx10.mir

llvm/test/CodeGen/AMDGPU/merge-image-sample.mir

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Fix combined MMO in load-store mergeClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 410875

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp

llvm/test/CodeGen/AMDGPU/merge-global-load-store.mir

llvm/test/CodeGen/AMDGPU/merge-image-load-gfx10.mir

llvm/test/CodeGen/AMDGPU/merge-image-load.mir

llvm/test/CodeGen/AMDGPU/merge-image-sample-gfx10.mir

llvm/test/CodeGen/AMDGPU/merge-image-sample.mir

[AMDGPU] Fix combined MMO in load-store merge
ClosedPublic