This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Use wider scalar spills for SGPR spilling
ClosedPublic

Authored by arsenm on Oct 28 2016, 4:11 PM.

Download Raw Diff

Details

Reviewers

Summary

Since the spill is for the whole wave, these
don't have the swizzling problems that vector stores do
and a single 4-byte allocation is enough to spill a 64 element
register. This should reduce the number of spill instructions and
put all the spills for a register in the same cacheline.

This should save allocated private size, but for now it doesn't.
The extra slots are allocated for each component, but never used
because the frame layout is essentially finalized before frame
indices are replaced. For always using the scalar store path,
this should probably be moved into processFunctionBeforeFrameFinalized.

Diff Detail

Event Timeline

arsenm updated this revision to Diff 76269.Oct 28 2016, 4:11 PM

arsenm retitled this revision from to AMDGPU: Use wider scalar spills for SGPR spilling.

arsenm updated this object.

arsenm added a subscriber: llvm-commits.

Herald added a reviewer: • tstellarAMD. · View Herald TranscriptOct 28 2016, 4:11 PM

Herald added subscribers: tony-tye, yaxunl, nhaehnle and 3 others. · View Herald Transcript

LGTM. It would be good if we could turn some of these spilling tests into MIR tests.

This revision is now accepted and ready to land.Nov 1 2016, 2:23 PM

arsenm mentioned this in D25551: AMDGPU: Implement SGPR spilling with scalar stores.Nov 10 2016, 9:07 AM

r288445

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

SIRegisterInfo.cpp

86 lines

test/

CodeGen/

AMDGPU/

si-spill-sgpr-stack.ll

20 lines

spill-wide-sgpr.ll

176 lines

Diff 76269

lib/Target/AMDGPU/SIRegisterInfo.cpp

Show First 20 Lines • Show All 472 Lines • ▼ Show 20 Lines	void SIRegisterInfo::buildSpillLoadStore(MachineBasicBlock::iterator MI,
if (RanOutOfSGPRs) {		if (RanOutOfSGPRs) {
// Subtract the offset we added to the ScratchOffset register.		// Subtract the offset we added to the ScratchOffset register.
BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_SUB_U32), ScratchOffset)		BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_SUB_U32), ScratchOffset)
.addReg(ScratchOffset)		.addReg(ScratchOffset)
.addImm(OriginalImmOffset);		.addImm(OriginalImmOffset);
}		}
}		}

		static std::pair<unsigned, unsigned> getSpillEltSize(unsigned SuperRegSize,
		bool Store) {
		if (SuperRegSize % 16 == 0)
		return { 16, Store ? AMDGPU::S_BUFFER_STORE_DWORDX4_SGPR :
		AMDGPU::S_BUFFER_LOAD_DWORDX4_SGPR };

		if (SuperRegSize % 8 == 0)
		return { 8, Store ? AMDGPU::S_BUFFER_STORE_DWORDX2_SGPR :
		AMDGPU::S_BUFFER_LOAD_DWORDX2_SGPR };

		return { 4, Store ? AMDGPU::S_BUFFER_STORE_DWORD_SGPR :
		AMDGPU::S_BUFFER_LOAD_DWORD_SGPR};
		}

bool SIRegisterInfo::spillSGPR(MachineBasicBlock::iterator MI,		bool SIRegisterInfo::spillSGPR(MachineBasicBlock::iterator MI,
int Index,		int Index,
RegScavenger *RS,		RegScavenger *RS,
bool OnlyToVGPR) const {		bool OnlyToVGPR) const {
MachineBasicBlock *MBB = MI->getParent();		MachineBasicBlock *MBB = MI->getParent();
MachineFunction *MF = MBB->getParent();		MachineFunction *MF = MBB->getParent();
MachineRegisterInfo &MRI = MF->getRegInfo();		MachineRegisterInfo &MRI = MF->getRegInfo();
const SISubtarget &ST = MF->getSubtarget<SISubtarget>();		const SISubtarget &ST = MF->getSubtarget<SISubtarget>();
const SIInstrInfo *TII = ST.getInstrInfo();		const SIInstrInfo *TII = ST.getInstrInfo();

unsigned NumSubRegs = getNumSubRegsForSpillOp(MI->getOpcode());
unsigned SuperReg = MI->getOperand(0).getReg();		unsigned SuperReg = MI->getOperand(0).getReg();
bool IsKill = MI->getOperand(0).isKill();		bool IsKill = MI->getOperand(0).isKill();
const DebugLoc &DL = MI->getDebugLoc();		const DebugLoc &DL = MI->getDebugLoc();

SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();		SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();
MachineFrameInfo &FrameInfo = MF->getFrameInfo();		MachineFrameInfo &FrameInfo = MF->getFrameInfo();

bool SpillToSMEM = ST.hasScalarStores() && EnableSpillSGPRToSMEM;		bool SpillToSMEM = ST.hasScalarStores() && EnableSpillSGPRToSMEM;
if (SpillToSMEM && OnlyToVGPR)		if (SpillToSMEM && OnlyToVGPR)
return false;		return false;

		unsigned EltSize = 4;
		unsigned ScalarStoreOp;

		const TargetRegisterClass *RC = getPhysRegClass(SuperReg);
		if (SpillToSMEM && isSGPRClass(RC)) {
		// XXX - if private_element_size is larger than 4 it might be useful to be
		// able to spill wider vmem spills.
		std::tie(EltSize, ScalarStoreOp) = getSpillEltSize(RC->getSize(), true);
		}

		const TargetRegisterClass *SubRC = nullptr;
		unsigned NumSubRegs = 1;
		ArrayRef<int16_t> SplitParts = getRegSplitParts(RC, EltSize);

		if (!SplitParts.empty()) {
		NumSubRegs = SplitParts.size();
		SubRC = getSubRegClass(RC, SplitParts[0]);
		}

// SubReg carries the "Kill" flag when SubReg == SuperReg.		// SubReg carries the "Kill" flag when SubReg == SuperReg.
unsigned SubKillState = getKillRegState((NumSubRegs == 1) && IsKill);		unsigned SubKillState = getKillRegState((NumSubRegs == 1) && IsKill);
for (unsigned i = 0, e = NumSubRegs; i < e; ++i) {		for (unsigned i = 0, e = NumSubRegs; i < e; ++i) {
unsigned SubReg = NumSubRegs == 1 ?		unsigned SubReg = NumSubRegs == 1 ?
SuperReg : getSubReg(SuperReg, getSubRegFromChannel(i));		SuperReg : getSubReg(SuperReg, SplitParts[i]);

if (SpillToSMEM) {		if (SpillToSMEM) {
if (SuperReg == AMDGPU::M0) {		if (SuperReg == AMDGPU::M0) {
assert(NumSubRegs == 1);		assert(NumSubRegs == 1);
unsigned CopyM0		unsigned CopyM0
= MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);		= MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);

BuildMI(*MBB, MI, DL, TII->get(AMDGPU::COPY), CopyM0)		BuildMI(*MBB, MI, DL, TII->get(AMDGPU::COPY), CopyM0)
.addReg(AMDGPU::M0, getKillRegState(IsKill));		.addReg(AMDGPU::M0, getKillRegState(IsKill));

// The real spill now kills the temp copy.		// The real spill now kills the temp copy.
SubReg = SuperReg = CopyM0;		SubReg = SuperReg = CopyM0;
IsKill = true;		IsKill = true;
}		}

int64_t FrOffset = FrameInfo.getObjectOffset(Index);		int64_t FrOffset = FrameInfo.getObjectOffset(Index);
unsigned Size = FrameInfo.getObjectSize(Index);
		// The allocated memory size is really the wavefront size * the frame
		// index size. The widest register class is 64 bytes, so a 4-byte scratch
		// allocation is enough to spill this in a single stack object.
		//
		// FIXME: Frame size/offsets are computed earlier than this, so the extra
		// space is still unnecessarily allocated.
		unsigned Size = 4;

unsigned Align = FrameInfo.getObjectAlignment(Index);		unsigned Align = FrameInfo.getObjectAlignment(Index);
MachinePointerInfo PtrInfo		MachinePointerInfo PtrInfo
= MachinePointerInfo::getFixedStack(*MF, Index);		= MachinePointerInfo::getFixedStack(*MF, Index);
MachineMemOperand *MMO		MachineMemOperand *MMO
= MF->getMachineMemOperand(PtrInfo, MachineMemOperand::MOStore,		= MF->getMachineMemOperand(PtrInfo, MachineMemOperand::MOStore,
Size, Align);		Size, Align);

unsigned OffsetReg = AMDGPU::M0;		unsigned OffsetReg = AMDGPU::M0;
// Add i * 4 wave offset.
//
// SMEM instructions only support a single offset, so increment the wave		// SMEM instructions only support a single offset, so increment the wave
// offset.		// offset.

int64_t Offset = ST.getWavefrontSize() * (FrOffset + 4 * i);		int64_t Offset = (ST.getWavefrontSize() * FrOffset) + (EltSize * i);
if (Offset != 0) {		if (Offset != 0) {
BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_ADD_U32), OffsetReg)		BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_ADD_U32), OffsetReg)
.addReg(MFI->getScratchWaveOffsetReg())		.addReg(MFI->getScratchWaveOffsetReg())
.addImm(Offset);		.addImm(Offset);
} else {		} else {
BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_MOV_B32), OffsetReg)		BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_MOV_B32), OffsetReg)
.addReg(MFI->getScratchWaveOffsetReg());		.addReg(MFI->getScratchWaveOffsetReg());
}		}

BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_BUFFER_STORE_DWORD_SGPR))		BuildMI(*MBB, MI, DL, TII->get(ScalarStoreOp))
.addReg(SubReg, getKillRegState(IsKill)) // sdata		.addReg(SubReg, getKillRegState(IsKill)) // sdata
.addReg(MFI->getScratchRSrcReg()) // sbase		.addReg(MFI->getScratchRSrcReg()) // sbase
.addReg(OffsetReg) // soff		.addReg(OffsetReg) // soff
.addImm(0) // glc		.addImm(0) // glc
.addMemOperand(MMO);		.addMemOperand(MMO);

continue;		continue;
}		}
▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines	bool SIRegisterInfo::restoreSGPR(MachineBasicBlock::iterator MI,
MachineRegisterInfo &MRI = MF->getRegInfo();		MachineRegisterInfo &MRI = MF->getRegInfo();
MachineBasicBlock *MBB = MI->getParent();		MachineBasicBlock *MBB = MI->getParent();
SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();		SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();
MachineFrameInfo &FrameInfo = MF->getFrameInfo();		MachineFrameInfo &FrameInfo = MF->getFrameInfo();
const SISubtarget &ST = MF->getSubtarget<SISubtarget>();		const SISubtarget &ST = MF->getSubtarget<SISubtarget>();
const SIInstrInfo *TII = ST.getInstrInfo();		const SIInstrInfo *TII = ST.getInstrInfo();
const DebugLoc &DL = MI->getDebugLoc();		const DebugLoc &DL = MI->getDebugLoc();

unsigned NumSubRegs = getNumSubRegsForSpillOp(MI->getOpcode());
unsigned SuperReg = MI->getOperand(0).getReg();		unsigned SuperReg = MI->getOperand(0).getReg();
bool SpillToSMEM = ST.hasScalarStores() && EnableSpillSGPRToSMEM;		bool SpillToSMEM = ST.hasScalarStores() && EnableSpillSGPRToSMEM;
if (SpillToSMEM && OnlyToVGPR)		if (SpillToSMEM && OnlyToVGPR)
return false;		return false;

		unsigned EltSize = 4;
		unsigned ScalarLoadOp;

		const TargetRegisterClass *RC = getPhysRegClass(SuperReg);
		if (SpillToSMEM && isSGPRClass(RC)) {
		// XXX - if private_element_size is larger than 4 it might be useful to be
		// able to spill wider vmem spills.
		std::tie(EltSize, ScalarLoadOp) = getSpillEltSize(RC->getSize(), false);
		}

		const TargetRegisterClass *SubRC = nullptr;
		unsigned NumSubRegs = 1;
		ArrayRef<int16_t> SplitParts = getRegSplitParts(RC, EltSize);

		if (!SplitParts.empty()) {
		NumSubRegs = SplitParts.size();
		SubRC = getSubRegClass(RC, SplitParts[0]);
		}

// m0 is not allowed as with readlane/writelane, so a temporary SGPR and		// m0 is not allowed as with readlane/writelane, so a temporary SGPR and
// extra copy is needed.		// extra copy is needed.
bool IsM0 = (SuperReg == AMDGPU::M0);		bool IsM0 = (SuperReg == AMDGPU::M0);
if (IsM0) {		if (IsM0) {
assert(NumSubRegs == 1);		assert(NumSubRegs == 1);
SuperReg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);		SuperReg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
}		}

int64_t FrOffset = FrameInfo.getObjectOffset(Index);		int64_t FrOffset = FrameInfo.getObjectOffset(Index);

for (unsigned i = 0, e = NumSubRegs; i < e; ++i) {		for (unsigned i = 0, e = NumSubRegs; i < e; ++i) {
unsigned SubReg = NumSubRegs == 1 ?		unsigned SubReg = NumSubRegs == 1 ?
SuperReg : getSubReg(SuperReg, getSubRegFromChannel(i));		SuperReg : getSubReg(SuperReg, SplitParts[i]);

if (SpillToSMEM) {		if (SpillToSMEM) {
unsigned Size = FrameInfo.getObjectSize(Index);		// FIXME: Size may be > 4 but extra bytes wasted.
		unsigned Size = 4;
unsigned Align = FrameInfo.getObjectAlignment(Index);		unsigned Align = FrameInfo.getObjectAlignment(Index);
MachinePointerInfo PtrInfo		MachinePointerInfo PtrInfo
= MachinePointerInfo::getFixedStack(*MF, Index);		= MachinePointerInfo::getFixedStack(*MF, Index);
MachineMemOperand *MMO		MachineMemOperand *MMO
= MF->getMachineMemOperand(PtrInfo, MachineMemOperand::MOLoad,		= MF->getMachineMemOperand(PtrInfo, MachineMemOperand::MOLoad,
Size, Align);		Size, Align);

unsigned OffsetReg = AMDGPU::M0;		unsigned OffsetReg = AMDGPU::M0;

// Add i * 4 offset		// Add i * 4 offset
int64_t Offset = ST.getWavefrontSize() * (FrOffset + 4 * i);		int64_t Offset = (ST.getWavefrontSize() * FrOffset) + (EltSize * i);
if (Offset != 0) {		if (Offset != 0) {
BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_ADD_U32), OffsetReg)		BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_ADD_U32), OffsetReg)
.addReg(MFI->getScratchWaveOffsetReg())		.addReg(MFI->getScratchWaveOffsetReg())
.addImm(Offset);		.addImm(Offset);
} else {		} else {
BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_MOV_B32), OffsetReg)		BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_MOV_B32), OffsetReg)
.addReg(MFI->getScratchWaveOffsetReg());		.addReg(MFI->getScratchWaveOffsetReg());
}		}

BuildMI(*MBB, MI, DL, TII->get(AMDGPU::S_BUFFER_LOAD_DWORD_SGPR), SubReg)		BuildMI(*MBB, MI, DL, TII->get(ScalarLoadOp), SubReg)
.addReg(MFI->getScratchRSrcReg()) // sbase		.addReg(MFI->getScratchRSrcReg()) // sbase
.addReg(OffsetReg) // soff		.addReg(OffsetReg) // soff
.addImm(0) // glc		.addImm(0) // glc
.addMemOperand(MMO)		.addMemOperand(MMO)
.addReg(MI->getOperand(0).getReg(), RegState::ImplicitDefine);		.addReg(SuperReg, RegState::ImplicitDefine);

continue;		continue;
}		}

SIMachineFunctionInfo::SpilledReg Spill		SIMachineFunctionInfo::SpilledReg Spill
= MFI->getSpilledReg(MF, Index, i);		= MFI->getSpilledReg(MF, Index, i);

if (Spill.hasReg()) {		if (Spill.hasReg()) {
BuildMI(*MBB, MI, DL,		BuildMI(*MBB, MI, DL,
TII->getMCOpcodeFromPseudo(AMDGPU::V_READLANE_B32),		TII->getMCOpcodeFromPseudo(AMDGPU::V_READLANE_B32),
SubReg)		SubReg)
.addReg(Spill.VGPR)		.addReg(Spill.VGPR)
.addImm(Spill.Lane)		.addImm(Spill.Lane)
.addReg(MI->getOperand(0).getReg(), RegState::ImplicitDefine);		.addReg(SuperReg, RegState::ImplicitDefine);
} else {		} else {
if (OnlyToVGPR)		if (OnlyToVGPR)
return false;		return false;

// Restore SGPR from a stack slot.		// Restore SGPR from a stack slot.
// FIXME: We should use S_LOAD_DWORD here for VI.		// FIXME: We should use S_LOAD_DWORD here for VI.

unsigned TmpReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);		unsigned TmpReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
▲ Show 20 Lines • Show All 700 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/si-spill-sgpr-stack.ll

	Show All 9 Lines
	; SGPR-NEXT: v_readfirstlane_b32 s[[HI:[0-9]+]], [[VHI]]			; SGPR-NEXT: v_readfirstlane_b32 s[[HI:[0-9]+]], [[VHI]]
	; SGPR-NEXT: s_nop 4			; SGPR-NEXT: s_nop 4
	; SGPR-NEXT: buffer_store_dword v0, off, s[0:[[HI]]{{\]}}, 0			; SGPR-NEXT: buffer_store_dword v0, off, s[0:[[HI]]{{\]}}, 0


	; Make sure scratch wave offset register is correctly incremented and			; Make sure scratch wave offset register is correctly incremented and
	; then restored.			; then restored.
	; SMEM: s_mov_b32 m0, s97{{$}}			; SMEM: s_mov_b32 m0, s97{{$}}
	; SMEM: s_buffer_store_dword s{{[0-9]+}}, s[92:95], m0 ; 16-byte Folded Spill			; SMEM: s_buffer_store_dwordx4 s{{\[[0-9]+:[0-9]\]}}, s[92:95], m0 ; 4-byte Folded Spill
	; SMEM: s_add_u32 m0, s97, 0x100{{$}}
	; SMEM: s_buffer_store_dword s{{[0-9]+}}, s[92:95], m0 ; 16-byte Folded Spill
	; SMEM: s_add_u32 m0, s97, 0x200{{$}}
	; SMEM: s_buffer_store_dword s{{[0-9]+}}, s[92:95], m0 ; 16-byte Folded Spill
	; SMEM: s_add_u32 m0, s97, 0x300{{$}}
	; SMEM: s_buffer_store_dword s{{[0-9]+}}, s[92:95], m0 ; 16-byte Folded Spill


	; SMEM: s_mov_b32 m0, s97{{$}}			; SMEM: s_mov_b32 m0, s97{{$}}
	; SMEM: s_buffer_load_dword s{{[0-9]+}}, s[92:95], m0 ; 16-byte Folded Reload			; SMEM: s_buffer_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[92:95], m0 ; 4-byte Folded Reload
	; SMEM: s_add_u32 m0, s97, 0x100{{$}}
	; SMEM: s_waitcnt lgkmcnt(0)
	; SMEM: s_buffer_load_dword s{{[0-9]+}}, s[92:95], m0 ; 16-byte Folded Reload
	; SMEM: s_add_u32 m0, s97, 0x200{{$}}
	; SMEM: s_waitcnt lgkmcnt(0)
	; SMEM: s_buffer_load_dword s{{[0-9]+}}, s[92:95], m0 ; 16-byte Folded Reload
	; SMEM: s_add_u32 m0, s97, 0x300{{$}}
	; SMEM: s_waitcnt lgkmcnt(0)
	; SMEM: s_buffer_load_dword s{{[0-9]+}}, s[92:95], m0 ; 16-byte Folded Reload

	; ALL: s_endpgm			; ALL: s_endpgm
	define void @test(i32 addrspace(1)* %out, i32 %in) {			define void @test(i32 addrspace(1)* %out, i32 %in) {
	call void asm sideeffect "", "~{SGPR0_SGPR1_SGPR2_SGPR3_SGPR4_SGPR5_SGPR6_SGPR7}" ()			call void asm sideeffect "", "~{SGPR0_SGPR1_SGPR2_SGPR3_SGPR4_SGPR5_SGPR6_SGPR7}" ()
	call void asm sideeffect "", "~{SGPR8_SGPR9_SGPR10_SGPR11_SGPR12_SGPR13_SGPR14_SGPR15}" ()			call void asm sideeffect "", "~{SGPR8_SGPR9_SGPR10_SGPR11_SGPR12_SGPR13_SGPR14_SGPR15}" ()
	call void asm sideeffect "", "~{SGPR16_SGPR17_SGPR18_SGPR19_SGPR20_SGPR21_SGPR22_SGPR23}" ()			call void asm sideeffect "", "~{SGPR16_SGPR17_SGPR18_SGPR19_SGPR20_SGPR21_SGPR22_SGPR23}" ()
	call void asm sideeffect "", "~{SGPR24_SGPR25_SGPR26_SGPR27_SGPR28_SGPR29_SGPR30_SGPR31}" ()			call void asm sideeffect "", "~{SGPR24_SGPR25_SGPR26_SGPR27_SGPR28_SGPR29_SGPR30_SGPR31}" ()
	call void asm sideeffect "", "~{SGPR32_SGPR33_SGPR34_SGPR35_SGPR36_SGPR37_SGPR38_SGPR39}" ()			call void asm sideeffect "", "~{SGPR32_SGPR33_SGPR34_SGPR35_SGPR36_SGPR37_SGPR38_SGPR39}" ()
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/spill-wide-sgpr.ll

This file was added.

				; RUN: llc -O0 -march=amdgcn -mcpu=fiji -amdgpu-spill-sgpr-to-smem=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=ALL -check-prefix=VGPR %s
				; RUN: llc -O0 -march=amdgcn -mcpu=fiji -amdgpu-spill-sgpr-to-smem=1 -verify-machineinstrs < %s \| FileCheck -check-prefix=ALL -check-prefix=SMEM %s
				; RUN: llc -O0 -march=amdgcn -mcpu=fiji -amdgpu-spill-sgpr-to-smem=0 -amdgpu-spill-sgpr-to-vgpr=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=ALL -check-prefix=VMEM %s

				; ALL-LABEL: {{^}}spill_sgpr_x2:
				; SMEM: s_mov_b32 m0, s3{{$}}
				; SMEM: s_buffer_store_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[8:11], m0 ; 4-byte Folded Spill
				; SMEM: s_cbranch_scc1

				; SMEM: s_mov_b32 m0, s3{{$}}
				; SMEM: s_buffer_load_dwordx2 s{{\[[0-9]+:[0-9]+\]}}, s[8:11], m0 ; 4-byte Folded Reload

				; SMEM: s_dcache_wb
				; SMEM: s_endpgm

				; FIXME: Should only need 4 bytes
				; SMEM: ScratchSize: 12


				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 0
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 1
				; VGPR: s_cbranch_scc1

				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 0
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 1

				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: s_cbranch_scc1

				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				define amdgpu_kernel void @spill_sgpr_x2(i32 addrspace(1)* %out, i32 %in) #0 {
				%wide.sgpr = call <2 x i32> asm sideeffect "; def $0", "=s" () #0
				%cmp = icmp eq i32 %in, 0
				br i1 %cmp, label %bb0, label %ret

				bb0:
				call void asm sideeffect "; use $0", "s"(<2 x i32> %wide.sgpr) #0
				br label %ret

				ret:
				ret void
				}

				; ALL-LABEL: {{^}}spill_sgpr_x4:
				; SMEM: s_mov_b32 m0, s3{{$}}
				; SMEM: s_buffer_store_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[12:15], m0 ; 4-byte Folded Spill
				; SMEM: s_cbranch_scc1

				; SMEM: s_mov_b32 m0, s3{{$}}
				; SMEM: s_buffer_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[12:15], m0 ; 4-byte Folded Reload
				; SMEM: s_dcache_wb
				; SMEM: s_endpgm

				; FIXME: Should only need 4 bytes
				; SMEM: ScratchSize: 20

				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 0
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 1
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 2
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 3
				; VGPR: s_cbranch_scc1

				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 0
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 1
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 2
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 3


				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: s_cbranch_scc1

				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				define amdgpu_kernel void @spill_sgpr_x4(i32 addrspace(1)* %out, i32 %in) #0 {
				%wide.sgpr = call <4 x i32> asm sideeffect "; def $0", "=s" () #0
				%cmp = icmp eq i32 %in, 0
				br i1 %cmp, label %bb0, label %ret

				bb0:
				call void asm sideeffect "; use $0", "s"(<4 x i32> %wide.sgpr) #0
				br label %ret

				ret:
				ret void
				}

				; ALL-LABEL: {{^}}spill_sgpr_x8:

				; SMEM: s_mov_b32 m0, s3{{$}}
				; SMEM: s_buffer_store_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[16:19], m0 ; 4-byte Folded Spill
				; SMEM: s_add_u32 m0, s3, 16
				; SMEM: s_buffer_store_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[16:19], m0 ; 4-byte Folded Spill
				; SMEM: s_cbranch_scc1

				; SMEM: s_mov_b32 m0, s3{{$}}
				; SMEM: s_buffer_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[16:19], m0 ; 4-byte Folded Reload
				; SMEM: s_add_u32 m0, s3, 16
				; SMEM: s_buffer_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[16:19], m0 ; 4-byte Folded Reload

				; SMEM: s_dcache_wb
				; SMEM: s_endpgm

				; SMEM: ScratchSize: 36

				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 0
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 1
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 2
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 3
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 4
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 5
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 6
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 7
				; VGPR: s_cbranch_scc1

				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 0
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 1
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 2
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 3
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 4
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 5
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 6
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 7

				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: s_cbranch_scc1

				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				define amdgpu_kernel void @spill_sgpr_x8(i32 addrspace(1)* %out, i32 %in) #0 {
				%wide.sgpr = call <8 x i32> asm sideeffect "; def $0", "=s" () #0
				%cmp = icmp eq i32 %in, 0
				br i1 %cmp, label %bb0, label %ret

				bb0:
				call void asm sideeffect "; use $0", "s"(<8 x i32> %wide.sgpr) #0
				br label %ret

				ret:
				ret void
				}

				; FIXME: x16 inlineasm seems broken
				; define amdgpu_kernel void @spill_sgpr_x16(i32 addrspace(1)* %out, i32 %in) #0 {
				; %wide.sgpr = call <16 x i32> asm sideeffect "; def $0", "=s" () #0
				; %cmp = icmp eq i32 %in, 0
				; br i1 %cmp, label %bb0, label %ret

				; bb0:
				; call void asm sideeffect "; use $0", "s"(<16 x i32> %wide.sgpr) #0
				; br label %ret

				; ret:
				; ret void
				; }

				attributes #0 = { nounwind }