Diff 411181

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp

Show First 20 Lines • Show All 157 Lines • ▼ Show 20 Lines	bool hasMergeableAddress(const MachineRegisterInfo &MRI) {
// instructions with the same address, so we can't merge this one.		// instructions with the same address, so we can't merge this one.
if (MRI.hasOneNonDBGUse(AddrOp->getReg()))		if (MRI.hasOneNonDBGUse(AddrOp->getReg()))
return false;		return false;
}		}
return true;		return true;
}		}

void setMI(MachineBasicBlock::iterator MI, const SILoadStoreOptimizer &LSO);		void setMI(MachineBasicBlock::iterator MI, const SILoadStoreOptimizer &LSO);

		// Compare by pointer order.
		bool operator<(const CombineInfo& Other) const {
		return (InstClass == MIMG) ? DMask < Other.DMask : Offset < Other.Offset;
		}
};		};

struct BaseRegisters {		struct BaseRegisters {
Register LoReg;		Register LoReg;
Register HiReg;		Register HiReg;

unsigned LoSubReg = 0;		unsigned LoSubReg = 0;
unsigned HiSubReg = 0;		unsigned HiSubReg = 0;
▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines	private:
void addInstToMergeableList(const CombineInfo &CI,		void addInstToMergeableList(const CombineInfo &CI,
std::list<std::list<CombineInfo> > &MergeableInsts) const;		std::list<std::list<CombineInfo> > &MergeableInsts) const;

std::pair<MachineBasicBlock::iterator, bool> collectMergeableInsts(		std::pair<MachineBasicBlock::iterator, bool> collectMergeableInsts(
MachineBasicBlock::iterator Begin, MachineBasicBlock::iterator End,		MachineBasicBlock::iterator Begin, MachineBasicBlock::iterator End,
MemInfoMap &Visited, SmallPtrSet<MachineInstr *, 4> &AnchorList,		MemInfoMap &Visited, SmallPtrSet<MachineInstr *, 4> &AnchorList,
std::list<std::list<CombineInfo>> &MergeableInsts) const;		std::list<std::list<CombineInfo>> &MergeableInsts) const;

		static MachineMemOperand *combineKnownAdjacentMMOs(const CombineInfo &CI,
		const CombineInfo &Paired);

public:		public:
static char ID;		static char ID;

SILoadStoreOptimizer() : MachineFunctionPass(ID) {		SILoadStoreOptimizer() : MachineFunctionPass(ID) {
initializeSILoadStoreOptimizerPass(*PassRegistry::getPassRegistry());		initializeSILoadStoreOptimizerPass(*PassRegistry::getPassRegistry());
}		}

bool optimizeInstsWithSameBaseAddr(std::list<CombineInfo> &MergeList,		bool optimizeInstsWithSameBaseAddr(std::list<CombineInfo> &MergeList,
▲ Show 20 Lines • Show All 385 Lines • ▼ Show 20 Lines	if (!BOp.isReg())
continue;		continue;
if ((BOp.isDef() \|\| BOp.readsReg()) && ARegDefs.contains(BOp.getReg()))		if ((BOp.isDef() \|\| BOp.readsReg()) && ARegDefs.contains(BOp.getReg()))
return false;		return false;
if (BOp.isDef() && ARegUses.contains(BOp.getReg()))		if (BOp.isDef() && ARegUses.contains(BOp.getReg()))
return false;		return false;
}		}
return true;		return true;
}		}

// This function assumes that \p A and \p B have are identical except for		// Given that \p CI and \p Paired are adjacent memory operations produce a new
		foadUnsubmitted Done Reply Inline Actions If this comment was true ("A and B are identical except for size and offset") then your patch would not be necessary. foad: If this comment was true ("A and B are identical except for size and offset") then your patch…
		rampitecAuthorUnsubmitted Done Reply Inline Actions In fact I think this comment is generally incorrect. I'd probably better remove it al all. This is the point of the patch, use the MMO of the leading operation, this is why I have changed one of the pointers in the test to float, to spot that. rampitec: In fact I think this comment is generally incorrect. I'd probably better remove it al all. This…
		foadUnsubmitted Not Done Reply Inline Actions In fact I think this comment is generally incorrect. I'd probably better remove it al all. Agreed. foad: > In fact I think this comment is generally incorrect. I'd probably better remove it al all.
// size and offset, and they reference adjacent memory.		// MMO for the combined operation with a new access size.
static MachineMemOperand *combineKnownAdjacentMMOs(MachineFunction &MF,		MachineMemOperand *
const MachineMemOperand *A,		SILoadStoreOptimizer::combineKnownAdjacentMMOs(const CombineInfo &CI,
const MachineMemOperand *B) {		const CombineInfo &Paired) {
unsigned MinOffset = std::min(A->getOffset(), B->getOffset());		const MachineMemOperand MMOa = CI.I->memoperands_begin();
unsigned Size = A->getSize() + B->getSize();		const MachineMemOperand MMOb = Paired.I->memoperands_begin();
// This function adds the offset parameter to the existing offset for A,
// so we pass 0 here as the offset and then manually set it to the correct		unsigned Size = MMOa->getSize() + MMOb->getSize();
// value after the call.
MachineMemOperand *MMO = MF.getMachineMemOperand(A, 0, Size);		// A base pointer for the combined operation is the same as the leading
		foadUnsubmitted Done Reply Inline Actions Typo "the leading operations's pointer". foad: Typo "the leading operations's pointer".
MMO->setOffset(MinOffset);		// operation's pointer.
return MMO;		if (Paired < CI)
		MMOa = MMOb;

		MachineFunction *MF = CI.I->getMF();
		return MF->getMachineMemOperand(MMOa, MMOa->getPointerInfo(), Size);
}		}

bool SILoadStoreOptimizer::dmasksCanBeCombined(const CombineInfo &CI,		bool SILoadStoreOptimizer::dmasksCanBeCombined(const CombineInfo &CI,
const SIInstrInfo &TII,		const SIInstrInfo &TII,
const CombineInfo &Paired) {		const CombineInfo &Paired) {
assert(CI.InstClass == MIMG);		assert(CI.InstClass == MIMG);

// Ignore instructions with tfe/lwe set.		// Ignore instructions with tfe/lwe set.
▲ Show 20 Lines • Show All 466 Lines • ▼ Show 20 Lines	else
MIB.add((*CI.I).getOperand(I));		MIB.add((*CI.I).getOperand(I));
}		}

// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();		MachineInstr *New = MIB.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr New = MIB.addMemOperand(combineKnownAdjacentMMOs(MBB->getParent(), MMOa, MMOb));

unsigned SubRegIdx0, SubRegIdx1;		unsigned SubRegIdx0, SubRegIdx1;
std::tie(SubRegIdx0, SubRegIdx1) = getSubRegIdxs(CI, Paired);		std::tie(SubRegIdx0, SubRegIdx1) = getSubRegIdxs(CI, Paired);

// Copy to the old destination registers.		// Copy to the old destination registers.
const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);		const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);		const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);
const auto Dest1 = TII->getNamedOperand(Paired.I, AMDGPU::OpName::vdata);		const auto Dest1 = TII->getNamedOperand(Paired.I, AMDGPU::OpName::vdata);
Show All 22 Lines	MachineBasicBlock::iterator SILoadStoreOptimizer::mergeSBufferLoadImmPair(
Register DestReg = MRI->createVirtualRegister(SuperRC);		Register DestReg = MRI->createVirtualRegister(SuperRC);
unsigned MergedOffset = std::min(CI.Offset, Paired.Offset);		unsigned MergedOffset = std::min(CI.Offset, Paired.Offset);

// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
BuildMI(*MBB, InsertBefore, DL, TII->get(Opcode), DestReg)		BuildMI(*MBB, InsertBefore, DL, TII->get(Opcode), DestReg)
.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::sbase))		.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::sbase))
.addImm(MergedOffset) // offset		.addImm(MergedOffset) // offset
.addImm(CI.CPol) // cpol		.addImm(CI.CPol) // cpol
.addMemOperand(		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));
combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));

std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);		std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);
const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);		const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);		const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);

// Copy to the old destination registers.		// Copy to the old destination registers.
const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);		const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::sdst);		const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::sdst);
Show All 32 Lines	MachineBasicBlock::iterator SILoadStoreOptimizer::mergeBufferLoadPair(
if (Regs.VAddr)		if (Regs.VAddr)
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr));		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr));

// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))
.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))		.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))
.addImm(MergedOffset) // offset		.addImm(MergedOffset) // offset
.addImm(CI.CPol) // cpol		.addImm(CI.CPol) // cpol
.addImm(0) // tfe		.addImm(0) // tfe
.addImm(0) // swz		.addImm(0) // swz
.addMemOperand(combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));

std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);		std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);
const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);		const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);		const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);

// Copy to the old destination registers.		// Copy to the old destination registers.
const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);		const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);		const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);
Show All 35 Lines	MachineBasicBlock::iterator SILoadStoreOptimizer::mergeTBufferLoadPair(
unsigned JoinedFormat =		unsigned JoinedFormat =
getBufferFormatWithCompCount(CI.Format, CI.Width + Paired.Width, *STM);		getBufferFormatWithCompCount(CI.Format, CI.Width + Paired.Width, *STM);

// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))
.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))		.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))
.addImm(MergedOffset) // offset		.addImm(MergedOffset) // offset
.addImm(JoinedFormat) // format		.addImm(JoinedFormat) // format
.addImm(CI.CPol) // cpol		.addImm(CI.CPol) // cpol
.addImm(0) // tfe		.addImm(0) // tfe
.addImm(0) // swz		.addImm(0) // swz
.addMemOperand(		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));
combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));

std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);		std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);
const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);		const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);		const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);

// Copy to the old destination registers.		// Copy to the old destination registers.
const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);		const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);		const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines	MachineBasicBlock::iterator SILoadStoreOptimizer::mergeTBufferStorePair(
unsigned JoinedFormat =		unsigned JoinedFormat =
getBufferFormatWithCompCount(CI.Format, CI.Width + Paired.Width, *STM);		getBufferFormatWithCompCount(CI.Format, CI.Width + Paired.Width, *STM);

// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))
.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))		.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))
.addImm(std::min(CI.Offset, Paired.Offset)) // offset		.addImm(std::min(CI.Offset, Paired.Offset)) // offset
.addImm(JoinedFormat) // format		.addImm(JoinedFormat) // format
.addImm(CI.CPol) // cpol		.addImm(CI.CPol) // cpol
.addImm(0) // tfe		.addImm(0) // tfe
.addImm(0) // swz		.addImm(0) // swz
.addMemOperand(		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));
combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();
return New;		return New;
}		}

MachineBasicBlock::iterator SILoadStoreOptimizer::mergeGlobalLoadPair(		MachineBasicBlock::iterator SILoadStoreOptimizer::mergeGlobalLoadPair(
CombineInfo &CI, CombineInfo &Paired,		CombineInfo &CI, CombineInfo &Paired,
MachineBasicBlock::iterator InsertBefore) {		MachineBasicBlock::iterator InsertBefore) {
MachineBasicBlock *MBB = CI.I->getParent();		MachineBasicBlock *MBB = CI.I->getParent();
DebugLoc DL = CI.I->getDebugLoc();		DebugLoc DL = CI.I->getDebugLoc();

const unsigned Opcode = getNewOpcode(CI, Paired);		const unsigned Opcode = getNewOpcode(CI, Paired);

const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);		const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);
Register DestReg = MRI->createVirtualRegister(SuperRC);		Register DestReg = MRI->createVirtualRegister(SuperRC);

auto MIB = BuildMI(*MBB, InsertBefore, DL, TII->get(Opcode), DestReg);		auto MIB = BuildMI(*MBB, InsertBefore, DL, TII->get(Opcode), DestReg);

if (auto SAddr = TII->getNamedOperand(CI.I, AMDGPU::OpName::saddr))		if (auto SAddr = TII->getNamedOperand(CI.I, AMDGPU::OpName::saddr))
MIB.add(*SAddr);		MIB.add(*SAddr);

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr))		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr))
.addImm(std::min(CI.Offset, Paired.Offset))		.addImm(std::min(CI.Offset, Paired.Offset))
.addImm(CI.CPol)		.addImm(CI.CPol)
.addMemOperand(combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));

std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);		std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI, Paired);
const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);		const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);		const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);

// Copy to the old destination registers.		// Copy to the old destination registers.
const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);		const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdst);		const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdst);
▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines	assert((countPopulation(CI.DMask \| Paired.DMask) == Width) &&
"No overlaps");		"No overlaps");
return AMDGPU::getMaskedMIMGOp(CI.I->getOpcode(), Width);		return AMDGPU::getMaskedMIMGOp(CI.I->getOpcode(), Width);
}		}
}		}

std::pair<unsigned, unsigned>		std::pair<unsigned, unsigned>
SILoadStoreOptimizer::getSubRegIdxs(const CombineInfo &CI,		SILoadStoreOptimizer::getSubRegIdxs(const CombineInfo &CI,
const CombineInfo &Paired) {		const CombineInfo &Paired) {
bool ReverseOrder;		assert((CI.InstClass != MIMG \|\| (countPopulation(CI.DMask \| Paired.DMask) ==
if (CI.InstClass == MIMG) {		CI.Width + Paired.Width)) &&
assert(
(countPopulation(CI.DMask \| Paired.DMask) == CI.Width + Paired.Width) &&
"No overlaps");		"No overlaps");
ReverseOrder = CI.DMask > Paired.DMask;
} else {
ReverseOrder = CI.Offset > Paired.Offset;
}

unsigned Idx0;		unsigned Idx0;
unsigned Idx1;		unsigned Idx1;

static const unsigned Idxs[5][4] = {		static const unsigned Idxs[5][4] = {
{AMDGPU::sub0, AMDGPU::sub0_sub1, AMDGPU::sub0_sub1_sub2, AMDGPU::sub0_sub1_sub2_sub3},		{AMDGPU::sub0, AMDGPU::sub0_sub1, AMDGPU::sub0_sub1_sub2, AMDGPU::sub0_sub1_sub2_sub3},
{AMDGPU::sub1, AMDGPU::sub1_sub2, AMDGPU::sub1_sub2_sub3, AMDGPU::sub1_sub2_sub3_sub4},		{AMDGPU::sub1, AMDGPU::sub1_sub2, AMDGPU::sub1_sub2_sub3, AMDGPU::sub1_sub2_sub3_sub4},
{AMDGPU::sub2, AMDGPU::sub2_sub3, AMDGPU::sub2_sub3_sub4, AMDGPU::sub2_sub3_sub4_sub5},		{AMDGPU::sub2, AMDGPU::sub2_sub3, AMDGPU::sub2_sub3_sub4, AMDGPU::sub2_sub3_sub4_sub5},
{AMDGPU::sub3, AMDGPU::sub3_sub4, AMDGPU::sub3_sub4_sub5, AMDGPU::sub3_sub4_sub5_sub6},		{AMDGPU::sub3, AMDGPU::sub3_sub4, AMDGPU::sub3_sub4_sub5, AMDGPU::sub3_sub4_sub5_sub6},
{AMDGPU::sub4, AMDGPU::sub4_sub5, AMDGPU::sub4_sub5_sub6, AMDGPU::sub4_sub5_sub6_sub7},		{AMDGPU::sub4, AMDGPU::sub4_sub5, AMDGPU::sub4_sub5_sub6, AMDGPU::sub4_sub5_sub6_sub7},
};		};

assert(CI.Width >= 1 && CI.Width <= 4);		assert(CI.Width >= 1 && CI.Width <= 4);
assert(Paired.Width >= 1 && Paired.Width <= 4);		assert(Paired.Width >= 1 && Paired.Width <= 4);

if (ReverseOrder) {		if (Paired < CI) {
Idx1 = Idxs[0][Paired.Width - 1];		Idx1 = Idxs[0][Paired.Width - 1];
Idx0 = Idxs[Paired.Width][CI.Width - 1];		Idx0 = Idxs[Paired.Width][CI.Width - 1];
} else {		} else {
Idx0 = Idxs[0][CI.Width - 1];		Idx0 = Idxs[0][CI.Width - 1];
Idx1 = Idxs[CI.Width][Paired.Width - 1];		Idx1 = Idxs[CI.Width][Paired.Width - 1];
}		}

return std::make_pair(Idx0, Idx1);		return std::make_pair(Idx0, Idx1);
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	if (Regs.VAddr)
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr));		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr));


// It shouldn't be possible to get this far if the two instructions		// It shouldn't be possible to get this far if the two instructions
// don't have a single memoperand, because MachineInstr::mayAlias()		// don't have a single memoperand, because MachineInstr::mayAlias()
// will return true if this is the case.		// will return true if this is the case.
assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());		assert(CI.I->hasOneMemOperand() && Paired.I->hasOneMemOperand());

const MachineMemOperand MMOa = CI.I->memoperands_begin();
const MachineMemOperand MMOb = Paired.I->memoperands_begin();

MachineInstr *New =		MachineInstr *New =
MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))		MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))
.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))		.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))
.addImm(std::min(CI.Offset, Paired.Offset)) // offset		.addImm(std::min(CI.Offset, Paired.Offset)) // offset
.addImm(CI.CPol) // cpol		.addImm(CI.CPol) // cpol
.addImm(0) // tfe		.addImm(0) // tfe
.addImm(0) // swz		.addImm(0) // swz
.addMemOperand(combineKnownAdjacentMMOs(*MBB->getParent(), MMOa, MMOb));		.addMemOperand(combineKnownAdjacentMMOs(CI, Paired));

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();
return New;		return New;
}		}

MachineOperand		MachineOperand
SILoadStoreOptimizer::createRegOrImm(int32_t Val, MachineInstr &MI) const {		SILoadStoreOptimizer::createRegOrImm(int32_t Val, MachineInstr &MI) const {
▲ Show 20 Lines • Show All 582 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-global-load-store.mir

	Show First 20 Lines • Show All 399 Lines • ▼ Show 20 Lines

	---			---
	name: merge_global_load_dword_2_out_of_order			name: merge_global_load_dword_2_out_of_order
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:

	; GCN-LABEL: name: merge_global_load_dword_2_out_of_order			; GCN-LABEL: name: merge_global_load_dword_2_out_of_order
	; GCN: [[DEF:%[0-9]+]]:vreg_64_align2 = IMPLICIT_DEF			; GCN: [[DEF:%[0-9]+]]:vreg_64_align2 = IMPLICIT_DEF
	; GCN-NEXT: [[GLOBAL_LOAD_DWORDX2_:%[0-9]+]]:vreg_64_align2 = GLOBAL_LOAD_DWORDX2 [[DEF]], 0, 0, implicit $exec :: (load (s64) from `i32 addrspace(1)* undef`, addrspace 1)			; GCN-NEXT: [[GLOBAL_LOAD_DWORDX2_:%[0-9]+]]:vreg_64_align2 = GLOBAL_LOAD_DWORDX2 [[DEF]], 0, 0, implicit $exec :: (load (s64) from `float addrspace(1)* undef`, align 4, addrspace 1)
	; GCN-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY [[GLOBAL_LOAD_DWORDX2_]].sub1			; GCN-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY [[GLOBAL_LOAD_DWORDX2_]].sub1
	; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY killed [[GLOBAL_LOAD_DWORDX2_]].sub0			; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY killed [[GLOBAL_LOAD_DWORDX2_]].sub0
	; GCN-NEXT: S_NOP 0, implicit [[COPY]], implicit [[COPY1]]			; GCN-NEXT: S_NOP 0, implicit [[COPY]], implicit [[COPY1]]
	%0:vreg_64_align2 = IMPLICIT_DEF			%0:vreg_64_align2 = IMPLICIT_DEF
	%1:vgpr_32 = GLOBAL_LOAD_DWORD %0, 4, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 4, basealign 8, addrspace 1)			%1:vgpr_32 = GLOBAL_LOAD_DWORD %0, 4, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 4, basealign 8, addrspace 1)
	%2:vgpr_32 = GLOBAL_LOAD_DWORD %0, 0, 0, implicit $exec :: (load (s32) from `float addrspace(1)* undef`, align 4, addrspace 1)			%2:vgpr_32 = GLOBAL_LOAD_DWORD %0, 0, 0, implicit $exec :: (load (s32) from `float addrspace(1)* undef`, align 4, addrspace 1)
	S_NOP 0, implicit %1, implicit %2			S_NOP 0, implicit %1, implicit %2
	...			...

	---			---
	name: merge_global_load_dword_3_out_of_order			name: merge_global_load_dword_3_out_of_order
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:

	; GCN-LABEL: name: merge_global_load_dword_3_out_of_order			; GCN-LABEL: name: merge_global_load_dword_3_out_of_order
	; GCN: [[DEF:%[0-9]+]]:vreg_64_align2 = IMPLICIT_DEF			; GCN: [[DEF:%[0-9]+]]:vreg_64_align2 = IMPLICIT_DEF
	; GCN-NEXT: [[GLOBAL_LOAD_DWORDX3_:%[0-9]+]]:vreg_96_align2 = GLOBAL_LOAD_DWORDX3 [[DEF]], 0, 0, implicit $exec :: (load (s96) from `i32 addrspace(1)* undef`, align 4, addrspace 1)			; GCN-NEXT: [[GLOBAL_LOAD_DWORDX3_:%[0-9]+]]:vreg_96_align2 = GLOBAL_LOAD_DWORDX3 [[DEF]], 0, 0, implicit $exec :: (load (s96) from `float addrspace(1)* undef`, align 16, addrspace 1)
	; GCN-NEXT: [[COPY:%[0-9]+]]:vreg_64_align2 = COPY [[GLOBAL_LOAD_DWORDX3_]].sub0_sub1			; GCN-NEXT: [[COPY:%[0-9]+]]:vreg_64_align2 = COPY [[GLOBAL_LOAD_DWORDX3_]].sub0_sub1
	; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY killed [[GLOBAL_LOAD_DWORDX3_]].sub2			; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY killed [[GLOBAL_LOAD_DWORDX3_]].sub2
	; GCN-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[COPY]].sub1			; GCN-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[COPY]].sub1
	; GCN-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY killed [[COPY]].sub0			; GCN-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY killed [[COPY]].sub0
	; GCN-NEXT: S_NOP 0, implicit [[COPY2]], implicit [[COPY3]]			; GCN-NEXT: S_NOP 0, implicit [[COPY2]], implicit [[COPY3]]
	%0:vreg_64_align2 = IMPLICIT_DEF			%0:vreg_64_align2 = IMPLICIT_DEF
	%1:vgpr_32 = GLOBAL_LOAD_DWORD %0, 4, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 4, align 4, addrspace 1)			%1:vgpr_32 = GLOBAL_LOAD_DWORD %0, 4, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 4, align 4, addrspace 1)
	%2:vgpr_32 = GLOBAL_LOAD_DWORD %0, 0, 0, implicit $exec :: (load (s32) from `float addrspace(1)* undef`, align 16, addrspace 1)			%2:vgpr_32 = GLOBAL_LOAD_DWORD %0, 0, 0, implicit $exec :: (load (s32) from `float addrspace(1)* undef`, align 16, addrspace 1)
	%3:vgpr_32 = GLOBAL_LOAD_DWORD %0, 8, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 8, align 8, addrspace 1)			%3:vgpr_32 = GLOBAL_LOAD_DWORD %0, 8, 0, implicit $exec :: (load (s32) from `i32 addrspace(1)* undef` + 8, align 8, addrspace 1)
	S_NOP 0, implicit %1, implicit %2			S_NOP 0, implicit %1, implicit %2
	...			...

llvm/test/CodeGen/AMDGPU/merge-image-load-gfx10.mir

Show All 13 Lines	bb.0.entry:
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%6:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
%7:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%7:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
...		...
---		---
# GFX10-LABEL: name: image_load_merged_v1v3_reversed		# GFX10-LABEL: name: image_load_merged_v1v3_reversed
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)
# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3		# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3
# GFX10: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2		# GFX10: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2

name: image_load_merged_v1v3_reversed		name: image_load_merged_v1v3_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 7, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 7, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 8, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 8, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX10-LABEL: name: image_load_merged_v3v1_reversed		# GFX10-LABEL: name: image_load_merged_v3v1_reversed
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)
# GFX10: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3		# GFX10: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3
# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0		# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0

name: image_load_merged_v3v1_reversed		name: image_load_merged_v3v1_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_64 = BUFFER_LOAD_DWORDX2_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_LOAD_V3_V2_gfx10 %5:vreg_64, %3:sgpr_256, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_LOAD_V1_V2_gfx10 %5:vreg_64, %3:sgpr_256, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX10-LABEL: name: image_load_divided_merged		# GFX10-LABEL: name: image_load_divided_merged
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V2_gfx10 %5, %3, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)

name: image_load_divided_merged		name: image_load_divided_merged
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
▲ Show 20 Lines • Show All 365 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-image-load.mir

Show All 14 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%6:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
%7:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%7:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_load_merged_v1v3_reversed		# GFX9-LABEL: name: image_load_merged_v1v3_reversed
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)
# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3		# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3
# GFX9: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2		# GFX9: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2

name: image_load_merged_v1v3_reversed		name: image_load_merged_v1v3_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 7, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 7, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 8, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 8, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_load_merged_v3v1_reversed		# GFX9-LABEL: name: image_load_merged_v3v1_reversed
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)
# GFX9: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3		# GFX9: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3
# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0		# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0

name: image_load_merged_v3v1_reversed		name: image_load_merged_v3v1_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_LOAD_V3_V4 %5:vreg_128, %3:sgpr_256, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_LOAD_V1_V4 %5:vreg_128, %3:sgpr_256, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_load_divided_merged		# GFX9-LABEL: name: image_load_divided_merged
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_LOAD_V4_V4 %5, %3, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)

name: image_load_divided_merged		name: image_load_divided_merged
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
▲ Show 20 Lines • Show All 343 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-image-sample-gfx10.mir

Show All 13 Lines	bb.0.entry:
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%6:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
%7:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%7:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
...		...
---		---
# GFX10-LABEL: name: image_sample_l_merged_v1v3_reversed		# GFX10-LABEL: name: image_sample_l_merged_v1v3_reversed
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)
# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3		# GFX10: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3
# GFX10: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2		# GFX10: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2

name: image_sample_l_merged_v1v3_reversed		name: image_sample_l_merged_v1v3_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 7, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 7, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 8, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 8, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX10-LABEL: name: image_sample_l_merged_v3v1_reversed		# GFX10-LABEL: name: image_sample_l_merged_v3v1_reversed
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)
# GFX10: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3		# GFX10: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3
# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0		# GFX10: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0

name: image_sample_l_merged_v3v1_reversed		name: image_sample_l_merged_v3v1_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_SAMPLE_L_V3_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 14, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V3_nsa_gfx10 %5:vgpr_32, %5:vgpr_32, %5:vgpr_32, %3:sgpr_256, %2:sgpr_128, 1, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX10-LABEL: name: image_sample_l_divided_merged		# GFX10-LABEL: name: image_sample_l_divided_merged
# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX10: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V3_nsa_gfx10 %5, %5, %5, %3, %2, 15, 1, -1, 0, 0, 0, 0, 0, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)

name: image_sample_l_divided_merged		name: image_sample_l_divided_merged
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
▲ Show 20 Lines • Show All 1,048 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-image-sample.mir

Show All 14 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%6:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
%7:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%7:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_sample_l_merged_v1v3_reversed		# GFX9-LABEL: name: image_sample_l_merged_v1v3_reversed
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)
# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3		# GFX9: %{{[0-9]+}}:vgpr_32 = COPY %8.sub3
# GFX9: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2		# GFX9: %{{[0-9]+}}:vreg_96 = COPY killed %8.sub0_sub1_sub2

name: image_sample_l_merged_v1v3_reversed		name: image_sample_l_merged_v1v3_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	bb.0.entry:
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 7, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 7, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 8, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 8, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_sample_l_merged_v3v1_reversed		# GFX9-LABEL: name: image_sample_l_merged_v3v1_reversed
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)
# GFX9: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3		# GFX9: %{{[0-9]+}}:vreg_96 = COPY %8.sub1_sub2_sub3
# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0		# GFX9: %{{[0-9]+}}:vgpr_32 = COPY killed %8.sub0

name: image_sample_l_merged_v3v1_reversed		name: image_sample_l_merged_v3v1_reversed
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
%4:vgpr_32 = COPY %2.sub3		%4:vgpr_32 = COPY %2.sub3
%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))		%5:vreg_128 = BUFFER_LOAD_DWORDX4_OFFSET %2:sgpr_128, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable invariant load (s128))
%6:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)		%6:vreg_96 = IMAGE_SAMPLE_L_V3_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 14, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s96), align 16, addrspace 4)
%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)		%7:vgpr_32 = IMAGE_SAMPLE_L_V1_V4 %5:vreg_128, %3:sgpr_256, %2:sgpr_128, 1, 0, 0, 0, 0, 0, -1, 0, implicit $exec :: (dereferenceable load (s32), addrspace 4)
...		...
---		---

# GFX9-LABEL: name: image_sample_l_divided_merged		# GFX9-LABEL: name: image_sample_l_divided_merged
# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), align 4, addrspace 4)		# GFX9: %{{[0-9]+}}:vreg_128 = IMAGE_SAMPLE_L_V4_V4 %5, %3, %2, 15, 0, 0, 0, 0, 0, -1, 0, implicit $exec, implicit $exec :: (dereferenceable load (s128), addrspace 4)

name: image_sample_l_divided_merged		name: image_sample_l_divided_merged
body: \|		body: \|
bb.0.entry:		bb.0.entry:
%0:sgpr_64 = COPY $sgpr0_sgpr1		%0:sgpr_64 = COPY $sgpr0_sgpr1
%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0		%1:sreg_64_xexec = S_LOAD_DWORDX2_IMM %0, 36, 0
%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99		%2:sgpr_128 = COPY $sgpr96_sgpr97_sgpr98_sgpr99
%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0		%3:sgpr_256 = S_LOAD_DWORDX8_IMM %1, 208, 0
▲ Show 20 Lines • Show All 1,007 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Fix combined MMO in load-store merge
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 411181

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp

llvm/test/CodeGen/AMDGPU/merge-global-load-store.mir

llvm/test/CodeGen/AMDGPU/merge-image-load-gfx10.mir

llvm/test/CodeGen/AMDGPU/merge-image-load.mir

llvm/test/CodeGen/AMDGPU/merge-image-sample-gfx10.mir

llvm/test/CodeGen/AMDGPU/merge-image-sample.mir

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Fix combined MMO in load-store mergeClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 411181

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp

llvm/test/CodeGen/AMDGPU/merge-global-load-store.mir

llvm/test/CodeGen/AMDGPU/merge-image-load-gfx10.mir

llvm/test/CodeGen/AMDGPU/merge-image-load.mir

llvm/test/CodeGen/AMDGPU/merge-image-sample-gfx10.mir

llvm/test/CodeGen/AMDGPU/merge-image-sample.mir

[AMDGPU] Fix combined MMO in load-store merge
ClosedPublic