This is an archive of the discontinued LLVM Phabricator instance.

~15% reduction in s_load_dword instructions.
~1% reduction in s_waitcnt instructions.
~1% increase in s_mov instructions.
~0.75% overall decrease in instructions.

VGPR usage increase in ~400 pipelines (mostly 1-2 VGPRs).
VGPR usage decrease in ~500 pipelines.
Mean VGPR usage change: -0.02 VGPRs.

SGPR usage increase in ~3000 pipelines.
SGPR usage decrease in ~1000 pipelines.
Mean SGPR usage change: 0.62 SGPRs.

No changes in scratch usage.

Occupancy (executable wavefronts based on VGPR count) increased in 234 pipelines, decreased in 125 pipelines.

LGTM, thanks! The SILoadStoreOptimizer.cpp diff is impressively small.

In future perhaps we should also handle the *_SGPR_IMM forms of various SMEM loads.

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp
2335–2336	Maybe rename to something like `mergeSMEMLoadImmPair`?

This revision is now accepted and ready to land.Jul 29 2022, 7:19 AM

critson marked an inline comment as done.Jul 29 2022, 7:41 PM

This revision was landed with ongoing or failed builds.Jul 29 2022, 7:41 PM

Closed by commit rG4c4db81630e2: [AMDGPU] Extend SILoadStoreOptimizer to s_load instructions (authored by critson). · Explain Why

This revision was automatically updated to reflect the committed changes.

critson added a commit: rG4c4db81630e2: [AMDGPU] Extend SILoadStoreOptimizer to s_load instructions.

Large Diff

This large diff affects 108 files. Files without inline comments have been collapsed. Expand All Files

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SILoadStoreOptimizer.cpp

43 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

cvt_f32_ubyte.ll

110 lines

fp-atomics-gfx940.ll

7 lines

implicit-kernarg-backend-usage-global-isel.ll

50 lines

llvm.amdgcn.intersect_ray.ll

168 lines

llvm.amdgcn.sbfe.ll

145 lines

llvm.amdgcn.ubfe.ll

152 lines

llvm.amdgcn.update.dpp.ll

13 lines

sdivrem.ll

213 lines

udivrem.ll

91 lines

abi-attribute-hints-undefined-behavior.ll

16 lines

agpr-copy-no-free-registers.ll

134 lines

always-uniform.ll

2 lines

amdgpu-codegenprepare-idiv.ll

779 lines

amdgpu.private-memory.ll

2 lines

any_extend_vector_inreg.ll

3 lines

24 lines

253 lines

18 lines

229 lines

132 lines

combine-cond-add-sub.ll

38 lines

491 lines

361 lines

392 lines

446 lines

383 lines

641 lines

disable_form_clauses.ll

9 lines

divergence-driven-sext-inreg.ll

64 lines

ds_read2.ll

12 lines

extract_vector_elt-f16.ll

9 lines

extract_vector_elt-i16.ll

11 lines

43 lines

20 lines

8 lines

22 lines

14 lines

fp-min-max-buffer-atomics.ll

124 lines

fp64-min-max-buffer-atomics.ll

78 lines

74 lines

52 lines

122 lines

88 lines

384 lines

implicit-kernarg-backend-usage.ll

23 lines

insert_vector_dynelt.ll

95 lines

insert_vector_elt.ll

292 lines

kernel-args.ll

330 lines

kernel-argument-dag-lowering.ll

27 lines

lds-atomic-fmin-fmax.ll

194 lines

llvm.amdgcn.buffer.store.format.d16.ll

6 lines

llvm.amdgcn.cvt.pk.i16.ll

8 lines

llvm.amdgcn.cvt.pk.u16.ll

8 lines

llvm.amdgcn.cvt.pknorm.i16.ll

8 lines

llvm.amdgcn.cvt.pknorm.u16.ll

8 lines

llvm.amdgcn.cvt.pkrtz.ll

33 lines

llvm.amdgcn.icmp.ll

2 lines

llvm.amdgcn.intersect_ray.ll

82 lines

llvm.amdgcn.raw.buffer.store.format.d16.ll

6 lines

llvm.amdgcn.sched.group.barrier.ll

35 lines

llvm.amdgcn.struct.buffer.store.format.d16.ll

6 lines

llvm.amdgcn.struct.tbuffer.store.d16.ll

6 lines

llvm.amdgcn.tbuffer.store.d16.ll

6 lines

llvm.amdgcn.ubfe.ll

162 lines

llvm.amdgcn.update.dpp.ll

8 lines

llvm.r600.read.local.size.ll

30 lines

lshr.v2i16.ll

45 lines

mad_64_32.ll

78 lines

memory-legalizer-flat-agent.ll

3720 lines

memory-legalizer-flat-singlethread.ll

3720 lines

memory-legalizer-flat-system.ll

3720 lines

memory-legalizer-flat-wavefront.ll

3662 lines

memory-legalizer-flat-workgroup.ll

3472 lines

memory-legalizer-global-agent.ll

5479 lines

memory-legalizer-global-singlethread.ll

5584 lines

memory-legalizer-global-system.ll

5143 lines

memory-legalizer-global-wavefront.ll

5584 lines

memory-legalizer-global-workgroup.ll

5584 lines

memory-legalizer-local-agent.ll

128 lines

memory-legalizer-local-singlethread.ll

128 lines

memory-legalizer-local-system.ll

128 lines

memory-legalizer-local-volatile.ll

12 lines

memory-legalizer-local-wavefront.ll

128 lines

memory-legalizer-local-workgroup.ll

128 lines

65 lines

3 lines

78 lines

133 lines

3 lines

scalar_to_vector.v8i16.ll

158 lines

sdiv64.ll

78 lines

select-constant-cttz.ll

5 lines

select-vectors.ll

4 lines

sext-divergence-driven-isel.ll

17 lines

77 lines

146 lines

10 lines

96 lines

116 lines

5 lines

50 lines

subreg-coalescer-undef-use.ll

33 lines

udiv.ll

71 lines

udiv64.ll

115 lines

use-sgpr-multiple-times.ll

62 lines

wait.ll

7 lines

zext-divergence-driven-isel.ll

17 lines

Diff 448763

llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp

Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
#define DEBUG_TYPE "si-load-store-opt"		#define DEBUG_TYPE "si-load-store-opt"

namespace {		namespace {
enum InstClassEnum {		enum InstClassEnum {
UNKNOWN,		UNKNOWN,
DS_READ,		DS_READ,
DS_WRITE,		DS_WRITE,
S_BUFFER_LOAD_IMM,		S_BUFFER_LOAD_IMM,
		S_LOAD_IMM,
BUFFER_LOAD,		BUFFER_LOAD,
BUFFER_STORE,		BUFFER_STORE,
MIMG,		MIMG,
TBUFFER_LOAD,		TBUFFER_LOAD,
TBUFFER_STORE,		TBUFFER_STORE,
GLOBAL_LOAD_SADDR,		GLOBAL_LOAD_SADDR,
GLOBAL_STORE_SADDR,		GLOBAL_STORE_SADDR,
FLAT_LOAD,		FLAT_LOAD,
▲ Show 20 Lines • Show All 142 Lines • ▼ Show 20 Lines	private:
unsigned write2ST64Opcode(unsigned EltSize) const;		unsigned write2ST64Opcode(unsigned EltSize) const;
MachineBasicBlock::iterator		MachineBasicBlock::iterator
mergeWrite2Pair(CombineInfo &CI, CombineInfo &Paired,		mergeWrite2Pair(CombineInfo &CI, CombineInfo &Paired,
MachineBasicBlock::iterator InsertBefore);		MachineBasicBlock::iterator InsertBefore);
MachineBasicBlock::iterator		MachineBasicBlock::iterator
mergeImagePair(CombineInfo &CI, CombineInfo &Paired,		mergeImagePair(CombineInfo &CI, CombineInfo &Paired,
MachineBasicBlock::iterator InsertBefore);		MachineBasicBlock::iterator InsertBefore);
MachineBasicBlock::iterator		MachineBasicBlock::iterator
mergeSBufferLoadImmPair(CombineInfo &CI, CombineInfo &Paired,		mergeSMemLoadImmPair(CombineInfo &CI, CombineInfo &Paired,
MachineBasicBlock::iterator InsertBefore);		MachineBasicBlock::iterator InsertBefore);
MachineBasicBlock::iterator		MachineBasicBlock::iterator
mergeBufferLoadPair(CombineInfo &CI, CombineInfo &Paired,		mergeBufferLoadPair(CombineInfo &CI, CombineInfo &Paired,
MachineBasicBlock::iterator InsertBefore);		MachineBasicBlock::iterator InsertBefore);
MachineBasicBlock::iterator		MachineBasicBlock::iterator
mergeBufferStorePair(CombineInfo &CI, CombineInfo &Paired,		mergeBufferStorePair(CombineInfo &CI, CombineInfo &Paired,
MachineBasicBlock::iterator InsertBefore);		MachineBasicBlock::iterator InsertBefore);
MachineBasicBlock::iterator		MachineBasicBlock::iterator
mergeTBufferLoadPair(CombineInfo &CI, CombineInfo &Paired,		mergeTBufferLoadPair(CombineInfo &CI, CombineInfo &Paired,
▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines	if (TII.isMIMG(MI)) {
return countPopulation(DMaskImm);		return countPopulation(DMaskImm);
}		}
if (TII.isMTBUF(Opc)) {		if (TII.isMTBUF(Opc)) {
return AMDGPU::getMTBUFElements(Opc);		return AMDGPU::getMTBUFElements(Opc);
}		}

switch (Opc) {		switch (Opc) {
case AMDGPU::S_BUFFER_LOAD_DWORD_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORD_IMM:
		case AMDGPU::S_LOAD_DWORD_IMM:
case AMDGPU::GLOBAL_LOAD_DWORD:		case AMDGPU::GLOBAL_LOAD_DWORD:
case AMDGPU::GLOBAL_LOAD_DWORD_SADDR:		case AMDGPU::GLOBAL_LOAD_DWORD_SADDR:
case AMDGPU::GLOBAL_STORE_DWORD:		case AMDGPU::GLOBAL_STORE_DWORD:
case AMDGPU::GLOBAL_STORE_DWORD_SADDR:		case AMDGPU::GLOBAL_STORE_DWORD_SADDR:
case AMDGPU::FLAT_LOAD_DWORD:		case AMDGPU::FLAT_LOAD_DWORD:
case AMDGPU::FLAT_STORE_DWORD:		case AMDGPU::FLAT_STORE_DWORD:
return 1;		return 1;
case AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM:
		case AMDGPU::S_LOAD_DWORDX2_IMM:
case AMDGPU::GLOBAL_LOAD_DWORDX2:		case AMDGPU::GLOBAL_LOAD_DWORDX2:
case AMDGPU::GLOBAL_LOAD_DWORDX2_SADDR:		case AMDGPU::GLOBAL_LOAD_DWORDX2_SADDR:
case AMDGPU::GLOBAL_STORE_DWORDX2:		case AMDGPU::GLOBAL_STORE_DWORDX2:
case AMDGPU::GLOBAL_STORE_DWORDX2_SADDR:		case AMDGPU::GLOBAL_STORE_DWORDX2_SADDR:
case AMDGPU::FLAT_LOAD_DWORDX2:		case AMDGPU::FLAT_LOAD_DWORDX2:
case AMDGPU::FLAT_STORE_DWORDX2:		case AMDGPU::FLAT_STORE_DWORDX2:
return 2;		return 2;
case AMDGPU::GLOBAL_LOAD_DWORDX3:		case AMDGPU::GLOBAL_LOAD_DWORDX3:
case AMDGPU::GLOBAL_LOAD_DWORDX3_SADDR:		case AMDGPU::GLOBAL_LOAD_DWORDX3_SADDR:
case AMDGPU::GLOBAL_STORE_DWORDX3:		case AMDGPU::GLOBAL_STORE_DWORDX3:
case AMDGPU::GLOBAL_STORE_DWORDX3_SADDR:		case AMDGPU::GLOBAL_STORE_DWORDX3_SADDR:
case AMDGPU::FLAT_LOAD_DWORDX3:		case AMDGPU::FLAT_LOAD_DWORDX3:
case AMDGPU::FLAT_STORE_DWORDX3:		case AMDGPU::FLAT_STORE_DWORDX3:
return 3;		return 3;
case AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM:
		case AMDGPU::S_LOAD_DWORDX4_IMM:
case AMDGPU::GLOBAL_LOAD_DWORDX4:		case AMDGPU::GLOBAL_LOAD_DWORDX4:
case AMDGPU::GLOBAL_LOAD_DWORDX4_SADDR:		case AMDGPU::GLOBAL_LOAD_DWORDX4_SADDR:
case AMDGPU::GLOBAL_STORE_DWORDX4:		case AMDGPU::GLOBAL_STORE_DWORDX4:
case AMDGPU::GLOBAL_STORE_DWORDX4_SADDR:		case AMDGPU::GLOBAL_STORE_DWORDX4_SADDR:
case AMDGPU::FLAT_LOAD_DWORDX4:		case AMDGPU::FLAT_LOAD_DWORDX4:
case AMDGPU::FLAT_STORE_DWORDX4:		case AMDGPU::FLAT_STORE_DWORDX4:
return 4;		return 4;
case AMDGPU::S_BUFFER_LOAD_DWORDX8_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX8_IMM:
		case AMDGPU::S_LOAD_DWORDX8_IMM:
return 8;		return 8;
case AMDGPU::DS_READ_B32: LLVM_FALLTHROUGH;		case AMDGPU::DS_READ_B32: LLVM_FALLTHROUGH;
case AMDGPU::DS_READ_B32_gfx9: LLVM_FALLTHROUGH;		case AMDGPU::DS_READ_B32_gfx9: LLVM_FALLTHROUGH;
case AMDGPU::DS_WRITE_B32: LLVM_FALLTHROUGH;		case AMDGPU::DS_WRITE_B32: LLVM_FALLTHROUGH;
case AMDGPU::DS_WRITE_B32_gfx9:		case AMDGPU::DS_WRITE_B32_gfx9:
return 1;		return 1;
case AMDGPU::DS_READ_B64: LLVM_FALLTHROUGH;		case AMDGPU::DS_READ_B64: LLVM_FALLTHROUGH;
case AMDGPU::DS_READ_B64_gfx9: LLVM_FALLTHROUGH;		case AMDGPU::DS_READ_B64_gfx9: LLVM_FALLTHROUGH;
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	if (TII.isMTBUF(Opc)) {
}		}
}		}
return UNKNOWN;		return UNKNOWN;
case AMDGPU::S_BUFFER_LOAD_DWORD_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORD_IMM:
case AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM:
case AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM:
case AMDGPU::S_BUFFER_LOAD_DWORDX8_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX8_IMM:
return S_BUFFER_LOAD_IMM;		return S_BUFFER_LOAD_IMM;
		case AMDGPU::S_LOAD_DWORD_IMM:
		case AMDGPU::S_LOAD_DWORDX2_IMM:
		case AMDGPU::S_LOAD_DWORDX4_IMM:
		case AMDGPU::S_LOAD_DWORDX8_IMM:
		return S_LOAD_IMM;
case AMDGPU::DS_READ_B32:		case AMDGPU::DS_READ_B32:
case AMDGPU::DS_READ_B32_gfx9:		case AMDGPU::DS_READ_B32_gfx9:
case AMDGPU::DS_READ_B64:		case AMDGPU::DS_READ_B64:
case AMDGPU::DS_READ_B64_gfx9:		case AMDGPU::DS_READ_B64_gfx9:
return DS_READ;		return DS_READ;
case AMDGPU::DS_WRITE_B32:		case AMDGPU::DS_WRITE_B32:
case AMDGPU::DS_WRITE_B32_gfx9:		case AMDGPU::DS_WRITE_B32_gfx9:
case AMDGPU::DS_WRITE_B64:		case AMDGPU::DS_WRITE_B64:
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines	static unsigned getInstSubclass(unsigned Opc, const SIInstrInfo &TII) {
case AMDGPU::DS_WRITE_B64:		case AMDGPU::DS_WRITE_B64:
case AMDGPU::DS_WRITE_B64_gfx9:		case AMDGPU::DS_WRITE_B64_gfx9:
return Opc;		return Opc;
case AMDGPU::S_BUFFER_LOAD_DWORD_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORD_IMM:
case AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM:
case AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM:
case AMDGPU::S_BUFFER_LOAD_DWORDX8_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX8_IMM:
return AMDGPU::S_BUFFER_LOAD_DWORD_IMM;		return AMDGPU::S_BUFFER_LOAD_DWORD_IMM;
		case AMDGPU::S_LOAD_DWORD_IMM:
		case AMDGPU::S_LOAD_DWORDX2_IMM:
		case AMDGPU::S_LOAD_DWORDX4_IMM:
		case AMDGPU::S_LOAD_DWORDX8_IMM:
		return AMDGPU::S_LOAD_DWORD_IMM;
case AMDGPU::GLOBAL_LOAD_DWORD:		case AMDGPU::GLOBAL_LOAD_DWORD:
case AMDGPU::GLOBAL_LOAD_DWORDX2:		case AMDGPU::GLOBAL_LOAD_DWORDX2:
case AMDGPU::GLOBAL_LOAD_DWORDX3:		case AMDGPU::GLOBAL_LOAD_DWORDX3:
case AMDGPU::GLOBAL_LOAD_DWORDX4:		case AMDGPU::GLOBAL_LOAD_DWORDX4:
case AMDGPU::FLAT_LOAD_DWORD:		case AMDGPU::FLAT_LOAD_DWORD:
case AMDGPU::FLAT_LOAD_DWORDX2:		case AMDGPU::FLAT_LOAD_DWORDX2:
case AMDGPU::FLAT_LOAD_DWORDX3:		case AMDGPU::FLAT_LOAD_DWORDX3:
case AMDGPU::FLAT_LOAD_DWORDX4:		case AMDGPU::FLAT_LOAD_DWORDX4:
▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines	static AddressRegs getRegs(unsigned Opc, const SIInstrInfo &TII) {

switch (Opc) {		switch (Opc) {
default:		default:
return Result;		return Result;
case AMDGPU::S_BUFFER_LOAD_DWORD_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORD_IMM:
case AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM:
case AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM:
case AMDGPU::S_BUFFER_LOAD_DWORDX8_IMM:		case AMDGPU::S_BUFFER_LOAD_DWORDX8_IMM:
		case AMDGPU::S_LOAD_DWORD_IMM:
		case AMDGPU::S_LOAD_DWORDX2_IMM:
		case AMDGPU::S_LOAD_DWORDX4_IMM:
		case AMDGPU::S_LOAD_DWORDX8_IMM:
Result.SBase = true;		Result.SBase = true;
return Result;		return Result;
case AMDGPU::DS_READ_B32:		case AMDGPU::DS_READ_B32:
case AMDGPU::DS_READ_B64:		case AMDGPU::DS_READ_B64:
case AMDGPU::DS_READ_B32_gfx9:		case AMDGPU::DS_READ_B32_gfx9:
case AMDGPU::DS_READ_B64_gfx9:		case AMDGPU::DS_READ_B64_gfx9:
case AMDGPU::DS_WRITE_B32:		case AMDGPU::DS_WRITE_B32:
case AMDGPU::DS_WRITE_B64:		case AMDGPU::DS_WRITE_B64:
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines	EltSize =
: 4;		: 4;
break;		break;
case DS_WRITE:		case DS_WRITE:
EltSize =		EltSize =
(Opc == AMDGPU::DS_WRITE_B64 \|\| Opc == AMDGPU::DS_WRITE_B64_gfx9) ? 8		(Opc == AMDGPU::DS_WRITE_B64 \|\| Opc == AMDGPU::DS_WRITE_B64_gfx9) ? 8
: 4;		: 4;
break;		break;
case S_BUFFER_LOAD_IMM:		case S_BUFFER_LOAD_IMM:
		case S_LOAD_IMM:
EltSize = AMDGPU::convertSMRDOffsetUnits(*LSO.STM, 4);		EltSize = AMDGPU::convertSMRDOffsetUnits(*LSO.STM, 4);
break;		break;
default:		default:
EltSize = 4;		EltSize = 4;
break;		break;
}		}

if (InstClass == MIMG) {		if (InstClass == MIMG) {
▲ Show 20 Lines • Show All 304 Lines • ▼ Show 20 Lines
bool SILoadStoreOptimizer::widthsFit(const GCNSubtarget &STM,		bool SILoadStoreOptimizer::widthsFit(const GCNSubtarget &STM,
const CombineInfo &CI,		const CombineInfo &CI,
const CombineInfo &Paired) {		const CombineInfo &Paired) {
const unsigned Width = (CI.Width + Paired.Width);		const unsigned Width = (CI.Width + Paired.Width);
switch (CI.InstClass) {		switch (CI.InstClass) {
default:		default:
return (Width <= 4) && (STM.hasDwordx3LoadStores() \|\| (Width != 3));		return (Width <= 4) && (STM.hasDwordx3LoadStores() \|\| (Width != 3));
case S_BUFFER_LOAD_IMM:		case S_BUFFER_LOAD_IMM:
		case S_LOAD_IMM:
switch (Width) {		switch (Width) {
default:		default:
return false;		return false;
case 2:		case 2:
case 4:		case 4:
case 8:		case 8:
return true;		return true;
}		}
▲ Show 20 Lines • Show All 296 Lines • ▼ Show 20 Lines	BuildMI(*MBB, InsertBefore, DL, CopyDesc)
.add(*Dest1)		.add(*Dest1)
.addReg(DestReg, RegState::Kill, SubRegIdx1);		.addReg(DestReg, RegState::Kill, SubRegIdx1);

CI.I->eraseFromParent();		CI.I->eraseFromParent();
Paired.I->eraseFromParent();		Paired.I->eraseFromParent();
return New;		return New;
}		}

MachineBasicBlock::iterator SILoadStoreOptimizer::mergeSBufferLoadImmPair(		MachineBasicBlock::iterator SILoadStoreOptimizer::mergeSMemLoadImmPair(
CombineInfo &CI, CombineInfo &Paired,		CombineInfo &CI, CombineInfo &Paired,
MachineBasicBlock::iterator InsertBefore) {		MachineBasicBlock::iterator InsertBefore) {
MachineBasicBlock *MBB = CI.I->getParent();		MachineBasicBlock *MBB = CI.I->getParent();
DebugLoc DL = CI.I->getDebugLoc();		DebugLoc DL = CI.I->getDebugLoc();
const unsigned Opcode = getNewOpcode(CI, Paired);		const unsigned Opcode = getNewOpcode(CI, Paired);

const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);		const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI, Paired);

▲ Show 20 Lines • Show All 313 Lines • ▼ Show 20 Lines	default:
return 0;		return 0;
case 2:		case 2:
return AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM;		return AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM;
case 4:		case 4:
return AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM;		return AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM;
case 8:		case 8:
return AMDGPU::S_BUFFER_LOAD_DWORDX8_IMM;		return AMDGPU::S_BUFFER_LOAD_DWORDX8_IMM;
}		}
		case S_LOAD_IMM:
		switch (Width) {
		default:
		return 0;
		case 2:
		return AMDGPU::S_LOAD_DWORDX2_IMM;
		case 4:
		return AMDGPU::S_LOAD_DWORDX4_IMM;
		case 8:
		return AMDGPU::S_LOAD_DWORDX8_IMM;
		}
case GLOBAL_LOAD:		case GLOBAL_LOAD:
switch (Width) {		switch (Width) {
default:		default:
return 0;		return 0;
case 2:		case 2:
return AMDGPU::GLOBAL_LOAD_DWORDX2;		return AMDGPU::GLOBAL_LOAD_DWORDX2;
case 3:		case 3:
return AMDGPU::GLOBAL_LOAD_DWORDX3;		return AMDGPU::GLOBAL_LOAD_DWORDX3;
▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines	SILoadStoreOptimizer::getSubRegIdxs(const CombineInfo &CI,
}		}

return std::make_pair(Idx0, Idx1);		return std::make_pair(Idx0, Idx1);
}		}

const TargetRegisterClass *		const TargetRegisterClass *
SILoadStoreOptimizer::getTargetRegisterClass(const CombineInfo &CI,		SILoadStoreOptimizer::getTargetRegisterClass(const CombineInfo &CI,
const CombineInfo &Paired) {		const CombineInfo &Paired) {
if (CI.InstClass == S_BUFFER_LOAD_IMM) {		if (CI.InstClass == S_BUFFER_LOAD_IMM \|\| CI.InstClass == S_LOAD_IMM) {
switch (CI.Width + Paired.Width) {		switch (CI.Width + Paired.Width) {
default:		default:
return nullptr;		return nullptr;
case 2:		case 2:
return &AMDGPU::SReg_64_XEXECRegClass;		return &AMDGPU::SReg_64_XEXECRegClass;
case 4:		case 4:
return &AMDGPU::SGPR_128RegClass;		return &AMDGPU::SGPR_128RegClass;
case 8:		case 8:
▲ Show 20 Lines • Show All 552 Lines • ▼ Show 20 Lines	default:
break;		break;
case DS_READ:		case DS_READ:
NewMI = mergeRead2Pair(CI, Paired, Where->I);		NewMI = mergeRead2Pair(CI, Paired, Where->I);
break;		break;
case DS_WRITE:		case DS_WRITE:
NewMI = mergeWrite2Pair(CI, Paired, Where->I);		NewMI = mergeWrite2Pair(CI, Paired, Where->I);
break;		break;
case S_BUFFER_LOAD_IMM:		case S_BUFFER_LOAD_IMM:
NewMI = mergeSBufferLoadImmPair(CI, Paired, Where->I);		case S_LOAD_IMM:
		NewMI = mergeSMemLoadImmPair(CI, Paired, Where->I);
		foadUnsubmitted Done Reply Inline Actions Maybe rename to something like `mergeSMEMLoadImmPair`? foad: Maybe rename to something like `mergeSMEMLoadImmPair`?
OptimizeListAgain \|= CI.Width + Paired.Width < 8;		OptimizeListAgain \|= CI.Width + Paired.Width < 8;
break;		break;
case BUFFER_LOAD:		case BUFFER_LOAD:
NewMI = mergeBufferLoadPair(CI, Paired, Where->I);		NewMI = mergeBufferLoadPair(CI, Paired, Where->I);
OptimizeListAgain \|= CI.Width + Paired.Width < 4;		OptimizeListAgain \|= CI.Width + Paired.Width < 4;
break;		break;
case BUFFER_STORE:		case BUFFER_STORE:
NewMI = mergeBufferStorePair(CI, Paired, Where->I);		NewMI = mergeBufferStorePair(CI, Paired, Where->I);
▲ Show 20 Lines • Show All 87 Lines • Show Last 20 Lines