This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Use max waves for scheduler's initial occupancy target
ClosedPublic

Authored by kerbowa on Oct 23 2021, 5:17 PM.

Download Raw Diff

Details

Reviewers

rampitec
arsenm
vangthao
vpykhtin
foad

Commits

rG02e60f2e7725: [AMDGPU] Use max waves for scheduler's initial occupancy target

Summary

The scheduler should set critical/excess register usage thresholds that
are guided by the maximum possible occupancy for the function. This
change is focused on setting proper lower bounds on register usage which
we would typically only see when a specific number of maximum waves is
requested with the "waves-per-eu" attribute, or by setting
"amdgpu-num-vgpr|sgpr" directly. This was broken previously. I have a
follow-on patch that will address issues with the scheduler not
targeting correct upper bounds on register usage which is typical with
launch bounds and min "waves-per-eu".

Changes by this patch:

Set the initial critical register usage thresholds to minimum values
that are determined by the maximum possible occupancy for the function,
or the number of allocatable registers, whichever is lower.

Avoid unisgned overflow if register limits are lower than the register
tracking "ErrorMargin", I.e. when using stress-regalloc=2.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

kerbowa created this revision.Oct 23 2021, 5:17 PM

Herald added subscribers: hiraditya, t-tye, tpr and 6 others. · View Herald TranscriptOct 23 2021, 5:17 PM

kerbowa requested review of this revision.Oct 23 2021, 5:17 PM

Herald added a project: Restricted Project. · View Herald TranscriptOct 23 2021, 5:17 PM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

I wanted to clarify some things that I saw with the test schedule-regpressure-limit3.ll. Before this change, the scheduler is actually targeting max occupancy in this test when only one wave was requested. This is the main motivation for this patch. However what we actually see is higher register usage, despite the scheduler trying to limit VGPR RP at basically every step. I found that the reason for this was that disabling amdgpu-aa so that the flat stores may alias the LDS loads was greatly restricting the ability of the scheduler to reduce RP. So I've removed -enable-amdgpu-aa from this test.
This test is also a good example of the machine schedulers' seeming shortcomings when trying to maximize ILP. Even when running -misched=ilpmax we are getting worse results than some naive ILP heuristics.

Harbormaster completed remote builds in B130297: Diff 381767.Oct 23 2021, 6:00 PM

arsenm accepted this revision.Oct 25 2021, 6:32 AM

This revision is now accepted and ready to land.Oct 25 2021, 6:32 AM

This revision was landed with ongoing or failed builds.Oct 26 2021, 3:31 PM

Closed by commit rG02e60f2e7725: [AMDGPU] Use max waves for scheduler's initial occupancy target (authored by kerbowa). · Explain Why

This revision was automatically updated to reflect the committed changes.

kerbowa added a commit: rG02e60f2e7725: [AMDGPU] Use max waves for scheduler's initial occupancy target.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

GCNSchedStrategy.cpp

67 lines

test/

CodeGen/

AMDGPU/

load-global-i16.ll

586 lines

schedule-regpressure-limit3.ll

15 lines

schedule-regpressure-misched-max-waves.ll

110 lines

spill-empty-live-interval.mir

8 lines

Diff 382474

llvm/lib/Target/AMDGPU/GCNSchedStrategy.cpp

Show All 20 Lines
GCNMaxOccupancySchedStrategy::GCNMaxOccupancySchedStrategy(		GCNMaxOccupancySchedStrategy::GCNMaxOccupancySchedStrategy(
const MachineSchedContext *C) :		const MachineSchedContext *C) :
GenericScheduler(C), TargetOccupancy(0), HasClusteredNodes(false),		GenericScheduler(C), TargetOccupancy(0), HasClusteredNodes(false),
HasExcessPressure(false), MF(nullptr) { }		HasExcessPressure(false), MF(nullptr) { }

void GCNMaxOccupancySchedStrategy::initialize(ScheduleDAGMI *DAG) {		void GCNMaxOccupancySchedStrategy::initialize(ScheduleDAGMI *DAG) {
GenericScheduler::initialize(DAG);		GenericScheduler::initialize(DAG);

const SIRegisterInfo SRI = static_cast<const SIRegisterInfo>(TRI);

MF = &DAG->MF;		MF = &DAG->MF;

const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();		const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();

// FIXME: This is also necessary, because some passes that run after		// FIXME: This is also necessary, because some passes that run after
// scheduling and before regalloc increase register pressure.		// scheduling and before regalloc increase register pressure.
const int ErrorMargin = 3;		const unsigned ErrorMargin = 3;

SGPRExcessLimit = Context->RegClassInfo
->getNumAllocatableRegs(&AMDGPU::SGPR_32RegClass) - ErrorMargin;
VGPRExcessLimit = Context->RegClassInfo
->getNumAllocatableRegs(&AMDGPU::VGPR_32RegClass) - ErrorMargin;
if (TargetOccupancy) {
SGPRCriticalLimit = ST.getMaxNumSGPRs(TargetOccupancy, true);
VGPRCriticalLimit = ST.getMaxNumVGPRs(TargetOccupancy);
} else {
SGPRCriticalLimit = SRI->getRegPressureSetLimit(DAG->MF,
AMDGPU::RegisterPressureSets::SReg_32);
VGPRCriticalLimit = SRI->getRegPressureSetLimit(DAG->MF,
AMDGPU::RegisterPressureSets::VGPR_32);
}

SGPRCriticalLimit -= ErrorMargin;		SGPRExcessLimit =
VGPRCriticalLimit -= ErrorMargin;		Context->RegClassInfo->getNumAllocatableRegs(&AMDGPU::SGPR_32RegClass);
		VGPRExcessLimit =
		Context->RegClassInfo->getNumAllocatableRegs(&AMDGPU::VGPR_32RegClass);

		SIMachineFunctionInfo &MFI = *MF->getInfo<SIMachineFunctionInfo>();
		// Set the initial TargetOccupnacy to the maximum occupancy that we can
		// achieve for this function. This effectively sets a lower bound on the
		// 'Critical' register limits in the scheduler.
		TargetOccupancy = MFI.getOccupancy();
		SGPRCriticalLimit =
		std::min(ST.getMaxNumSGPRs(TargetOccupancy, true), SGPRExcessLimit);
		VGPRCriticalLimit =
		std::min(ST.getMaxNumVGPRs(TargetOccupancy), VGPRExcessLimit);

		// Subtract error margin from register limits and avoid overflow.
		SGPRCriticalLimit =
		std::min(SGPRCriticalLimit - ErrorMargin, SGPRCriticalLimit);
		VGPRCriticalLimit =
		std::min(VGPRCriticalLimit - ErrorMargin, VGPRCriticalLimit);
		SGPRExcessLimit = std::min(SGPRExcessLimit - ErrorMargin, SGPRExcessLimit);
		VGPRExcessLimit = std::min(VGPRExcessLimit - ErrorMargin, VGPRExcessLimit);
}		}

void GCNMaxOccupancySchedStrategy::initCandidate(SchedCandidate &Cand, SUnit *SU,		void GCNMaxOccupancySchedStrategy::initCandidate(SchedCandidate &Cand, SUnit *SU,
bool AtTop, const RegPressureTracker &RPTracker,		bool AtTop, const RegPressureTracker &RPTracker,
const SIRegisterInfo *SRI,		const SIRegisterInfo *SRI,
unsigned SGPRPressure,		unsigned SGPRPressure,
unsigned VGPRPressure) {		unsigned VGPRPressure) {

▲ Show 20 Lines • Show All 293 Lines • ▼ Show 20 Lines	LLVM_DEBUG(dbgs() << "Pressure after scheduling: ";
PressureAfter.print(dbgs()));		PressureAfter.print(dbgs()));

if (PressureAfter.getSGPRNum() <= S.SGPRCriticalLimit &&		if (PressureAfter.getSGPRNum() <= S.SGPRCriticalLimit &&
PressureAfter.getVGPRNum(ST.hasGFX90AInsts()) <= S.VGPRCriticalLimit) {		PressureAfter.getVGPRNum(ST.hasGFX90AInsts()) <= S.VGPRCriticalLimit) {
Pressure[RegionIdx] = PressureAfter;		Pressure[RegionIdx] = PressureAfter;
LLVM_DEBUG(dbgs() << "Pressure in desired limits, done.\n");		LLVM_DEBUG(dbgs() << "Pressure in desired limits, done.\n");
return;		return;
}		}
unsigned Occ = MFI.getOccupancy();
unsigned WavesAfter = std::min(Occ, PressureAfter.getOccupancy(ST));		unsigned WavesAfter =
unsigned WavesBefore = std::min(Occ, PressureBefore.getOccupancy(ST));		std::min(S.TargetOccupancy, PressureAfter.getOccupancy(ST));
		unsigned WavesBefore =
		std::min(S.TargetOccupancy, PressureBefore.getOccupancy(ST));
LLVM_DEBUG(dbgs() << "Occupancy before scheduling: " << WavesBefore		LLVM_DEBUG(dbgs() << "Occupancy before scheduling: " << WavesBefore
<< ", after " << WavesAfter << ".\n");		<< ", after " << WavesAfter << ".\n");

// We could not keep current target occupancy because of the just scheduled		// We may not be able to keep the current target occupancy because of the just
// region. Record new occupancy for next scheduling cycle.		// scheduled region. We might still be able to revert scheduling if the
		// occupancy before was higher, or if the current schedule has register
		// pressure higher than the excess limits which could lead to more spilling.
unsigned NewOccupancy = std::max(WavesAfter, WavesBefore);		unsigned NewOccupancy = std::max(WavesAfter, WavesBefore);
// Allow memory bound functions to drop to 4 waves if not limited by an		// Allow memory bound functions to drop to 4 waves if not limited by an
// attribute.		// attribute.
if (WavesAfter < WavesBefore && WavesAfter < MinOccupancy &&		if (WavesAfter < WavesBefore && WavesAfter < MinOccupancy &&
WavesAfter >= MFI.getMinAllowedOccupancy()) {		WavesAfter >= MFI.getMinAllowedOccupancy()) {
LLVM_DEBUG(dbgs() << "Function is memory bound, allow occupancy drop up to "		LLVM_DEBUG(dbgs() << "Function is memory bound, allow occupancy drop up to "
<< MFI.getMinAllowedOccupancy() << " waves\n");		<< MFI.getMinAllowedOccupancy() << " waves\n");
NewOccupancy = WavesAfter;		NewOccupancy = WavesAfter;
}		}

if (NewOccupancy < MinOccupancy) {		if (NewOccupancy < MinOccupancy) {
MinOccupancy = NewOccupancy;		MinOccupancy = NewOccupancy;
MFI.limitOccupancy(MinOccupancy);		MFI.limitOccupancy(MinOccupancy);
LLVM_DEBUG(dbgs() << "Occupancy lowered for the function to "		LLVM_DEBUG(dbgs() << "Occupancy lowered for the function to "
<< MinOccupancy << ".\n");		<< MinOccupancy << ".\n");
}		}

unsigned MaxVGPRs = ST.getMaxNumVGPRs(MF);		unsigned MaxVGPRs = ST.getMaxNumVGPRs(MF);
unsigned MaxSGPRs = ST.getMaxNumSGPRs(MF);		unsigned MaxSGPRs = ST.getMaxNumSGPRs(MF);
if (PressureAfter.getVGPRNum(false) > MaxVGPRs \|\|		if (PressureAfter.getVGPRNum(false) > MaxVGPRs \|\|
PressureAfter.getAGPRNum() > MaxVGPRs \|\|		PressureAfter.getAGPRNum() > MaxVGPRs \|\|
PressureAfter.getSGPRNum() > MaxSGPRs) {		PressureAfter.getSGPRNum() > MaxSGPRs) {
RescheduleRegions[RegionIdx] = true;		RescheduleRegions[RegionIdx] = true;
RegionsWithHighRP[RegionIdx] = true;		RegionsWithHighRP[RegionIdx] = true;
}		}

		// If this condition is true, then either the occupancy before and after
		// scheduling is the same, or we are allowing the occupancy to drop because
		// the function is memory bound. Even if we are OK with the current occupancy,
		// we still need to verify that we will not introduce any extra chance of
		// spilling.
if (WavesAfter >= MinOccupancy) {		if (WavesAfter >= MinOccupancy) {
if (Stage == UnclusteredReschedule &&		if (Stage == UnclusteredReschedule &&
!PressureAfter.less(ST, PressureBefore)) {		!PressureAfter.less(ST, PressureBefore)) {
LLVM_DEBUG(dbgs() << "Unclustered reschedule did not help.\n");		LLVM_DEBUG(dbgs() << "Unclustered reschedule did not help.\n");
} else if (WavesAfter > MFI.getMinWavesPerEU() \|\|		} else if (WavesAfter > MFI.getMinWavesPerEU() \|\|
PressureAfter.less(ST, PressureBefore) \|\|		PressureAfter.less(ST, PressureBefore) \|\|
!RescheduleRegions[RegionIdx]) {		!RescheduleRegions[RegionIdx]) {
Pressure[RegionIdx] = PressureAfter;		Pressure[RegionIdx] = PressureAfter;
▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines	do {
do {		do {
++I;		++I;
} while (I != E && I->first->getParent() == BB);		} while (I != E && I->first->getParent() == BB);
} while (I != E);		} while (I != E);
return getLiveRegMap(BBStarters, false /After/, *LIS);		return getLiveRegMap(BBStarters, false /After/, *LIS);
}		}

void GCNScheduleDAGMILive::finalizeSchedule() {		void GCNScheduleDAGMILive::finalizeSchedule() {
GCNMaxOccupancySchedStrategy &S = (GCNMaxOccupancySchedStrategy&)*SchedImpl;
LLVM_DEBUG(dbgs() << "All regions recorded, starting actual scheduling.\n");		LLVM_DEBUG(dbgs() << "All regions recorded, starting actual scheduling.\n");

LiveIns.resize(Regions.size());		LiveIns.resize(Regions.size());
Pressure.resize(Regions.size());		Pressure.resize(Regions.size());
RescheduleRegions.resize(Regions.size());		RescheduleRegions.resize(Regions.size());
RegionsWithClusters.resize(Regions.size());		RegionsWithClusters.resize(Regions.size());
RegionsWithHighRP.resize(Regions.size());		RegionsWithHighRP.resize(Regions.size());
RescheduleRegions.set();		RescheduleRegions.set();
Show All 29 Lines	if (Stage > InitialSchedule) {
if (Stage == ClusteredLowOccupancyReschedule) {		if (Stage == ClusteredLowOccupancyReschedule) {
if (StartingOccupancy <= MinOccupancy)		if (StartingOccupancy <= MinOccupancy)
break;		break;

LLVM_DEBUG(		LLVM_DEBUG(
dbgs()		dbgs()
<< "Retrying function scheduling with lowest recorded occupancy "		<< "Retrying function scheduling with lowest recorded occupancy "
<< MinOccupancy << ".\n");		<< MinOccupancy << ".\n");

S.setTargetOccupancy(MinOccupancy);
}		}
}		}

if (Stage == UnclusteredReschedule)		if (Stage == UnclusteredReschedule)
SavedMutations.swap(Mutations);		SavedMutations.swap(Mutations);

for (auto Region : Regions) {		for (auto Region : Regions) {
if ((Stage == UnclusteredReschedule && !RescheduleRegions[RegionIdx]) \|\|		if ((Stage == UnclusteredReschedule && !RescheduleRegions[RegionIdx]) \|\|
▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/load-global-i16.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,471 Lines • ▼ Show 20 Lines
; GCN-NOHSA-SI-NEXT: s_mov_b32 s13, SCRATCH_RSRC_DWORD1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s13, SCRATCH_RSRC_DWORD1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s14, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s14, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s15, 0xe8f000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s15, 0xe8f000
; GCN-NOHSA-SI-NEXT: s_add_u32 s12, s12, s3		; GCN-NOHSA-SI-NEXT: s_add_u32 s12, s12, s3
; GCN-NOHSA-SI-NEXT: s_addc_u32 s13, s13, 0		; GCN-NOHSA-SI-NEXT: s_addc_u32 s13, s13, 0
; GCN-NOHSA-SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NOHSA-SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, 0xffff
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[8:11], 0
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16		; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, 0xffff
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[8:11], off, s[8:11], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[16:19], off, s[8:11], 0 offset:16
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[8:11], 0 offset:48		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[16:19], off, s[8:11], 0 offset:64		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v15
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[20:23], off, s[8:11], 0 offset:80		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v14
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[24:27], off, s[8:11], 0 offset:96		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v6, 16, v13
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[28:31], off, s[8:11], 0 offset:112		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v4, 16, v12
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(7)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v35, 16, v3		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v19
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v33, 16, v2		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v7, 16, v18
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v39, 16, v1		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, s0, v15
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v37, 16, v0		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s0, v14
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(6)		; GCN-NOHSA-SI-NEXT: buffer_store_dword v0, off, s[12:15], 0 offset:4 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v43, 16, v7		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v41, 16, v6		; GCN-NOHSA-SI-NEXT: buffer_store_dword v1, off, s[12:15], 0 offset:8 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v34, s0, v3		; GCN-NOHSA-SI-NEXT: buffer_store_dword v2, off, s[12:15], 0 offset:12 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v32, s0, v2		; GCN-NOHSA-SI-NEXT: buffer_store_dword v3, off, s[12:15], 0 offset:16 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v32, off, s[12:15], 0 offset:4 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v5, s0, v13
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_store_dword v33, off, s[12:15], 0 offset:8 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v34, off, s[12:15], 0 offset:12 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v35, off, s[12:15], 0 offset:16 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v38, s0, v1
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v36, s0, v0
; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v35, 16, v5		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v3, s0, v12
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v33, 16, v4		; GCN-NOHSA-SI-NEXT: buffer_store_dword v3, off, s[12:15], 0 offset:20 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v42, s0, v7		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v40, s0, v6		; GCN-NOHSA-SI-NEXT: buffer_store_dword v4, off, s[12:15], 0 offset:24 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v34, s0, v5		; GCN-NOHSA-SI-NEXT: buffer_store_dword v5, off, s[12:15], 0 offset:28 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v32, s0, v4		; GCN-NOHSA-SI-NEXT: buffer_store_dword v6, off, s[12:15], 0 offset:32 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v7, 16, v11		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v15, 16, v17
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v5, 16, v10		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v13, 16, v16
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v47, 16, v9		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, s0, v19
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v45, 16, v8		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v6, s0, v11		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v6, s0, v18
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, s0, v10		; GCN-NOHSA-SI-NEXT: buffer_store_dword v6, off, s[12:15], 0 offset:36 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v46, s0, v9		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v44, s0, v8		; GCN-NOHSA-SI-NEXT: buffer_store_dword v7, off, s[12:15], 0 offset:40 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v11, 16, v15		; GCN-NOHSA-SI-NEXT: buffer_store_dword v8, off, s[12:15], 0 offset:44 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v14		; GCN-NOHSA-SI-NEXT: buffer_store_dword v9, off, s[12:15], 0 offset:48 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v51, 16, v13		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[24:27], off, s[8:11], 0 offset:32
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v49, 16, v12		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v14, s0, v17
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v10, s0, v15		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v12, s0, v16
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, s0, v14		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[28:31], off, s[8:11], 0 offset:48
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v50, s0, v13		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v48, s0, v12		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v19, 16, v27
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v15, 16, v19		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v17, 16, v26
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v13, 16, v18		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v23, 16, v25
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v55, 16, v17		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v21, 16, v24
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v53, 16, v16		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, s0, v27
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v14, s0, v19		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, s0, v26
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v12, s0, v18		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v22, s0, v25
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v54, s0, v17		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v20, s0, v24
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v52, s0, v16		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v19, 16, v23
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v17, 16, v22
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v59, 16, v21
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v57, 16, v20
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, s0, v23
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, s0, v22
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v58, s0, v21
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v56, s0, v20
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v23, 16, v27
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v21, 16, v26
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v63, 16, v25
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v61, 16, v24
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v22, s0, v27
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v20, s0, v26
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v62, s0, v25
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v60, s0, v24
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v27, 16, v31		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v27, 16, v31
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v25, 16, v30		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v25, 16, v30
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v29		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v34, 16, v29
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v28		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v32, 16, v28
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v26, s0, v31		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v26, s0, v31
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v24, s0, v30		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v24, s0, v30
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, s0, v29		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[35:38], off, s[8:11], 0 offset:64
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s0, v28		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v33, s0, v29
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v31, s0, v28
		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[39:42], off, s[8:11], 0 offset:80
		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v46, 16, v38
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v44, 16, v37
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v50, 16, v36
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v48, 16, v35
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v45, s0, v38
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v43, s0, v37
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v49, s0, v36
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v47, s0, v35
		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v38, 16, v42
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v36, 16, v41
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v54, 16, v40
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v52, 16, v39
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v37, s0, v42
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v35, s0, v41
		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[55:58], off, s[8:11], 0 offset:96
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v53, s0, v40
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v51, s0, v39
		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[39:42], off, s[8:11], 0 offset:112
		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v61, 16, v58
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v59, 16, v57
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v11, 16, v56
		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v55
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v60, s0, v58
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v58, s0, v57
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v10, s0, v56
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, s0, v55
		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v7, 16, v42
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v5, 16, v41
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v40
		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v39
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v6, s0, v42
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, s0, v41
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, s0, v40
		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s0, v39
; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, s4		; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-SI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-SI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:224		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:224
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:240		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:240
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[60:63], off, s[0:3], 0 offset:192		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:192
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:208		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[58:61], off, s[0:3], 0 offset:208
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[56:59], off, s[0:3], 0 offset:160		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[51:54], off, s[0:3], 0 offset:160
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:176		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[35:38], off, s[0:3], 0 offset:176
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[52:55], off, s[0:3], 0 offset:128		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[47:50], off, s[0:3], 0 offset:128
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:144		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[43:46], off, s[0:3], 0 offset:144
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[48:51], off, s[0:3], 0 offset:96		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[31:34], off, s[0:3], 0 offset:96
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:112		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:112
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[44:47], off, s[0:3], 0 offset:64		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:64
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:80		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:80
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[32:35], off, s[0:3], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:32
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[40:43], off, s[0:3], 0 offset:48		; GCN-NOHSA-SI-NEXT: buffer_load_dword v0, off, s[12:15], 0 offset:36 ; 4-byte Folded Reload
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[36:39], off, s[0:3], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dword v1, off, s[12:15], 0 offset:40 ; 4-byte Folded Reload
		; GCN-NOHSA-SI-NEXT: buffer_load_dword v2, off, s[12:15], 0 offset:44 ; 4-byte Folded Reload
		; GCN-NOHSA-SI-NEXT: buffer_load_dword v3, off, s[12:15], 0 offset:48 ; 4-byte Folded Reload
		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48
		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)
		; GCN-NOHSA-SI-NEXT: buffer_load_dword v0, off, s[12:15], 0 offset:20 ; 4-byte Folded Reload
		; GCN-NOHSA-SI-NEXT: buffer_load_dword v1, off, s[12:15], 0 offset:24 ; 4-byte Folded Reload
		; GCN-NOHSA-SI-NEXT: buffer_load_dword v2, off, s[12:15], 0 offset:28 ; 4-byte Folded Reload
		; GCN-NOHSA-SI-NEXT: buffer_load_dword v3, off, s[12:15], 0 offset:32 ; 4-byte Folded Reload
		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_load_dword v0, off, s[12:15], 0 offset:4 ; 4-byte Folded Reload		; GCN-NOHSA-SI-NEXT: buffer_load_dword v0, off, s[12:15], 0 offset:4 ; 4-byte Folded Reload
; GCN-NOHSA-SI-NEXT: buffer_load_dword v1, off, s[12:15], 0 offset:8 ; 4-byte Folded Reload		; GCN-NOHSA-SI-NEXT: buffer_load_dword v1, off, s[12:15], 0 offset:8 ; 4-byte Folded Reload
; GCN-NOHSA-SI-NEXT: buffer_load_dword v2, off, s[12:15], 0 offset:12 ; 4-byte Folded Reload		; GCN-NOHSA-SI-NEXT: buffer_load_dword v2, off, s[12:15], 0 offset:12 ; 4-byte Folded Reload
; GCN-NOHSA-SI-NEXT: buffer_load_dword v3, off, s[12:15], 0 offset:16 ; 4-byte Folded Reload		; GCN-NOHSA-SI-NEXT: buffer_load_dword v3, off, s[12:15], 0 offset:16 ; 4-byte Folded Reload
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
▲ Show 20 Lines • Show All 189 Lines • ▼ Show 20 Lines
; GCN-HSA-NEXT: s_nop 0		; GCN-HSA-NEXT: s_nop 0
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s1
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s0
; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GCN-HSA-NEXT: s_endpgm		; GCN-HSA-NEXT: s_endpgm
;		;
; GCN-NOHSA-VI-LABEL: global_zextload_v64i16_to_v64i32:		; GCN-NOHSA-VI-LABEL: global_zextload_v64i16_to_v64i32:
; GCN-NOHSA-VI: ; %bb.0:		; GCN-NOHSA-VI: ; %bb.0:
; GCN-NOHSA-VI-NEXT: s_mov_b32 s88, SCRATCH_RSRC_DWORD0
; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GCN-NOHSA-VI-NEXT: s_mov_b32 s89, SCRATCH_RSRC_DWORD1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s90, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s91, 0xe80000
; GCN-NOHSA-VI-NEXT: s_add_u32 s88, s88, s3
; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:96
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[8:11], 0 offset:80
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[8:11], 0 offset:64
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[16:19], off, s[8:11], 0
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[20:23], off, s[8:11], 0 offset:16
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[24:27], off, s[8:11], 0 offset:32
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[28:31], off, s[8:11], 0 offset:48
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, 0xffff
; GCN-NOHSA-VI-NEXT: s_addc_u32 s89, s89, 0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5
		; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s6
		; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s7
		; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, s2
		; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, s3
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0 offset:112
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[4:7], 0 offset:96
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[4:7], 0 offset:80
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[16:19], off, s[4:7], 0 offset:64
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[20:23], off, s[4:7], 0
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[24:27], off, s[4:7], 0 offset:16
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[28:31], off, s[4:7], 0 offset:32
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[32:35], off, s[4:7], 0 offset:48
		; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, 0xffff
		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(7)
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v63, 16, v7
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v62, s4, v7
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v61, 16, v6
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v60, s4, v6
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v7, 16, v5
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v6, s4, v5
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v5, 16, v4
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, s4, v4
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(3)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(3)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v3, 16, v19		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v3, 16, v23
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, s0, v19		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, s4, v23
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v18		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v22
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, s0, v18		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, s4, v22
; GCN-NOHSA-VI-NEXT: buffer_store_dword v0, off, s[88:91], 0 offset:4 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: buffer_store_dword v1, off, s[88:91], 0 offset:8 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: buffer_store_dword v2, off, s[88:91], 0 offset:12 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: buffer_store_dword v3, off, s[88:91], 0 offset:16 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[56:59], off, s[8:11], 0 offset:112
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v19, 16, v17
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v18, s0, v17
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v17, 16, v16
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, s0, v16
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v35, 16, v23
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v34, s0, v23
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v33, 16, v22
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v32, s0, v22
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v23, 16, v21		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v23, 16, v21
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v22, s0, v21		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v22, s4, v21
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v21, 16, v20		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v21, 16, v20
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v20, s0, v20		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v20, s4, v20
		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(2)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v39, 16, v27		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v39, 16, v27
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v38, s0, v27		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v38, s4, v27
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v37, 16, v26		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v37, 16, v26
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v36, s0, v26		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v36, s4, v26
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v27, 16, v25		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v27, 16, v25
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v26, s0, v25		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v26, s4, v25
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v25, 16, v24		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v25, 16, v24
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v24, s0, v24		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v24, s4, v24
		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v43, 16, v31		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v43, 16, v31
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v42, s0, v31		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v42, s4, v31
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v41, 16, v30		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v41, 16, v30
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v40, s0, v30		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v40, s4, v30
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v31, 16, v29		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v31, 16, v29
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v30, s0, v29		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v30, s4, v29
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v29, 16, v28		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v29, 16, v28
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v28, s0, v28		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v28, s4, v28
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v47, 16, v15		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v46, s0, v15		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v47, 16, v35
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v45, 16, v14		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v46, s4, v35
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v44, s0, v14		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v45, 16, v34
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v44, s4, v34
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v35, 16, v33
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v34, s4, v33
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v33, 16, v32
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v32, s4, v32
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v51, 16, v19
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v50, s4, v19
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v49, 16, v18
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v48, s4, v18
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v19, 16, v17
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v18, s4, v17
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v17, 16, v16
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, s4, v16
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v55, 16, v15
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v54, s4, v15
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v53, 16, v14
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v52, s4, v14
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v15, 16, v13		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v15, 16, v13
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v14, s0, v13		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v14, s4, v13
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v13, 16, v12		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v13, 16, v12
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, s0, v12		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, s4, v12
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v51, 16, v11		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v59, 16, v11
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v50, s0, v11		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v58, s4, v11
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v49, 16, v10		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v57, 16, v10
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v48, s0, v10		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v56, s4, v10
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v9		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v9
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v10, s0, v9		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v10, s4, v9
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v9, 16, v8		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v9, 16, v8
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, s0, v8		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, s4, v8
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v55, 16, v7		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v54, s0, v7		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[60:63], off, s[0:3], 0 offset:240
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v53, 16, v6		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:192
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v52, s0, v6		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[56:59], off, s[0:3], 0 offset:208
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v7, 16, v5		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:160
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v6, s0, v5		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[52:55], off, s[0:3], 0 offset:176
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v5, 16, v4		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:128
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, s0, v4		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[48:51], off, s[0:3], 0 offset:144
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[32:35], off, s[0:3], 0 offset:96
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v61, 16, v59		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[44:47], off, s[0:3], 0 offset:112
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v60, s0, v59		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:64
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v59, 16, v58		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[40:43], off, s[0:3], 0 offset:80
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v58, s0, v58		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:32
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v3, 16, v57		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[36:39], off, s[0:3], 0 offset:48
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, s0, v57		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v56
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, s0, v56
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:224
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[58:61], off, s[0:3], 0 offset:240
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:192
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[52:55], off, s[0:3], 0 offset:208
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:160
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[48:51], off, s[0:3], 0 offset:176
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:128
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[44:47], off, s[0:3], 0 offset:144
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:96
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[40:43], off, s[0:3], 0 offset:112
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:64
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[36:39], off, s[0:3], 0 offset:80
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:32
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[32:35], off, s[0:3], 0 offset:48
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0
; GCN-NOHSA-VI-NEXT: buffer_load_dword v0, off, s[88:91], 0 offset:4 ; 4-byte Folded Reload
; GCN-NOHSA-VI-NEXT: buffer_load_dword v1, off, s[88:91], 0 offset:8 ; 4-byte Folded Reload
; GCN-NOHSA-VI-NEXT: buffer_load_dword v2, off, s[88:91], 0 offset:12 ; 4-byte Folded Reload
; GCN-NOHSA-VI-NEXT: buffer_load_dword v3, off, s[88:91], 0 offset:16 ; 4-byte Folded Reload
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
; GCN-NOHSA-VI-NEXT: s_endpgm		; GCN-NOHSA-VI-NEXT: s_endpgm
;		;
; EG-LABEL: global_zextload_v64i16_to_v64i32:		; EG-LABEL: global_zextload_v64i16_to_v64i32:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 0, @38, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 0, @38, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 3 @22		; EG-NEXT: TEX 3 @22
; EG-NEXT: ALU 56, @39, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 56, @39, KC0[CB0:0-32], KC1[]
▲ Show 20 Lines • Show All 348 Lines • ▼ Show 20 Lines	; CM-NEXT: 2(2.802597e-45), 0(0.000000e+00)
%ext = zext <64 x i16> %load to <64 x i32>		%ext = zext <64 x i16> %load to <64 x i32>
store <64 x i32> %ext, <64 x i32> addrspace(1)* %out		store <64 x i32> %ext, <64 x i32> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @global_sextload_v64i16_to_v64i32(<64 x i32> addrspace(1)* %out, <64 x i16> addrspace(1)* %in) #0 {		define amdgpu_kernel void @global_sextload_v64i16_to_v64i32(<64 x i32> addrspace(1)* %out, <64 x i16> addrspace(1)* %in) #0 {
; GCN-NOHSA-SI-LABEL: global_sextload_v64i16_to_v64i32:		; GCN-NOHSA-SI-LABEL: global_sextload_v64i16_to_v64i32:
; GCN-NOHSA-SI: ; %bb.0:		; GCN-NOHSA-SI: ; %bb.0:
; GCN-NOHSA-SI-NEXT: s_mov_b32 s12, SCRATCH_RSRC_DWORD0		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s13, SCRATCH_RSRC_DWORD1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s14, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s15, 0xe8f000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, 0xe8f000
; GCN-NOHSA-SI-NEXT: s_add_u32 s12, s12, s3		; GCN-NOHSA-SI-NEXT: s_add_u32 s8, s8, s3
; GCN-NOHSA-SI-NEXT: s_addc_u32 s13, s13, 0		; GCN-NOHSA-SI-NEXT: s_addc_u32 s9, s9, 0
; GCN-NOHSA-SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NOHSA-SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[8:11], 0 offset:112		; GCN-NOHSA-SI-NEXT: s_mov_b32 s4, s6
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[16:19], off, s[8:11], 0 offset:96		; GCN-NOHSA-SI-NEXT: s_mov_b32 s5, s7
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[20:23], off, s[8:11], 0 offset:80		; GCN-NOHSA-SI-NEXT: s_mov_b32 s6, s2
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[24:27], off, s[8:11], 0 offset:64		; GCN-NOHSA-SI-NEXT: s_mov_b32 s7, s3
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[8:11], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[4:7], 0 offset:112
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[28:31], off, s[8:11], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[16:19], off, s[4:7], 0 offset:96
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[32:35], off, s[8:11], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[20:23], off, s[4:7], 0 offset:80
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[36:39], off, s[8:11], 0 offset:48		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[24:27], off, s[4:7], 0 offset:64
		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[8:11], off, s[4:7], 0
		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[28:31], off, s[4:7], 0 offset:16
		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[32:35], off, s[4:7], 0 offset:32
		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[36:39], off, s[4:7], 0 offset:48
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(3)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(3)
; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v3, 16, v11		; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v3, 16, v11
; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v1, 16, v10		; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v1, 16, v10
; GCN-NOHSA-SI-NEXT: v_bfe_i32 v2, v11, 0, 16		; GCN-NOHSA-SI-NEXT: v_bfe_i32 v2, v11, 0, 16
; GCN-NOHSA-SI-NEXT: v_bfe_i32 v0, v10, 0, 16		; GCN-NOHSA-SI-NEXT: v_bfe_i32 v0, v10, 0, 16
; GCN-NOHSA-SI-NEXT: buffer_store_dword v0, off, s[12:15], 0 offset:4 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v0, off, s[8:11], 0 offset:4 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_store_dword v1, off, s[12:15], 0 offset:8 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v1, off, s[8:11], 0 offset:8 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v2, off, s[12:15], 0 offset:12 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v2, off, s[8:11], 0 offset:12 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v3, off, s[12:15], 0 offset:16 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v3, off, s[8:11], 0 offset:16 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v7, 16, v9		; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v7, 16, v9
; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v5, 16, v8		; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v5, 16, v8
; GCN-NOHSA-SI-NEXT: v_bfe_i32 v6, v9, 0, 16		; GCN-NOHSA-SI-NEXT: v_bfe_i32 v6, v9, 0, 16
; GCN-NOHSA-SI-NEXT: v_bfe_i32 v4, v8, 0, 16		; GCN-NOHSA-SI-NEXT: v_bfe_i32 v4, v8, 0, 16
; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v11, 16, v31		; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v11, 16, v31
; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v9, 16, v30		; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v9, 16, v30
; GCN-NOHSA-SI-NEXT: v_bfe_i32 v10, v31, 0, 16		; GCN-NOHSA-SI-NEXT: v_bfe_i32 v10, v31, 0, 16
; GCN-NOHSA-SI-NEXT: v_bfe_i32 v8, v30, 0, 16		; GCN-NOHSA-SI-NEXT: v_bfe_i32 v8, v30, 0, 16
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v16, 16, v14		; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v16, 16, v14
; GCN-NOHSA-SI-NEXT: v_bfe_i32 v17, v15, 0, 16		; GCN-NOHSA-SI-NEXT: v_bfe_i32 v17, v15, 0, 16
; GCN-NOHSA-SI-NEXT: v_bfe_i32 v15, v14, 0, 16		; GCN-NOHSA-SI-NEXT: v_bfe_i32 v15, v14, 0, 16
; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)
; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v3, 16, v13		; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v3, 16, v13
; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v1, 16, v12		; GCN-NOHSA-SI-NEXT: v_ashrrev_i32_e32 v1, 16, v12
; GCN-NOHSA-SI-NEXT: v_bfe_i32 v2, v13, 0, 16		; GCN-NOHSA-SI-NEXT: v_bfe_i32 v2, v13, 0, 16
; GCN-NOHSA-SI-NEXT: v_bfe_i32 v0, v12, 0, 16		; GCN-NOHSA-SI-NEXT: v_bfe_i32 v0, v12, 0, 16
; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-SI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:224		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:224
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[15:18], off, s[0:3], 0 offset:240		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[15:18], off, s[0:3], 0 offset:240
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[60:63], off, s[0:3], 0 offset:192		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[60:63], off, s[0:3], 0 offset:192
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[19:22], off, s[0:3], 0 offset:208		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[19:22], off, s[0:3], 0 offset:208
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[56:59], off, s[0:3], 0 offset:160		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[56:59], off, s[0:3], 0 offset:160
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[23:26], off, s[0:3], 0 offset:176		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[23:26], off, s[0:3], 0 offset:176
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[52:55], off, s[0:3], 0 offset:128		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[52:55], off, s[0:3], 0 offset:128
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[36:39], off, s[0:3], 0 offset:144		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[36:39], off, s[0:3], 0 offset:144
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[48:51], off, s[0:3], 0 offset:96		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[48:51], off, s[0:3], 0 offset:96
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[32:35], off, s[0:3], 0 offset:112		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[32:35], off, s[0:3], 0 offset:112
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[44:47], off, s[0:3], 0 offset:64		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[44:47], off, s[0:3], 0 offset:64
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:80		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:80
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[40:43], off, s[0:3], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[40:43], off, s[0:3], 0 offset:32
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:48		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:48
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0
; GCN-NOHSA-SI-NEXT: buffer_load_dword v0, off, s[12:15], 0 offset:4 ; 4-byte Folded Reload		; GCN-NOHSA-SI-NEXT: buffer_load_dword v0, off, s[8:11], 0 offset:4 ; 4-byte Folded Reload
; GCN-NOHSA-SI-NEXT: buffer_load_dword v1, off, s[12:15], 0 offset:8 ; 4-byte Folded Reload		; GCN-NOHSA-SI-NEXT: buffer_load_dword v1, off, s[8:11], 0 offset:8 ; 4-byte Folded Reload
; GCN-NOHSA-SI-NEXT: buffer_load_dword v2, off, s[12:15], 0 offset:12 ; 4-byte Folded Reload		; GCN-NOHSA-SI-NEXT: buffer_load_dword v2, off, s[8:11], 0 offset:12 ; 4-byte Folded Reload
; GCN-NOHSA-SI-NEXT: buffer_load_dword v3, off, s[12:15], 0 offset:16 ; 4-byte Folded Reload		; GCN-NOHSA-SI-NEXT: buffer_load_dword v3, off, s[8:11], 0 offset:16 ; 4-byte Folded Reload
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
; GCN-HSA-LABEL: global_sextload_v64i16_to_v64i32:		; GCN-HSA-LABEL: global_sextload_v64i16_to_v64i32:
; GCN-HSA: ; %bb.0:		; GCN-HSA: ; %bb.0:
; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GCN-HSA-NEXT: s_movk_i32 s9, 0x70		; GCN-HSA-NEXT: s_movk_i32 s9, 0x70
▲ Show 20 Lines • Show All 194 Lines • ▼ Show 20 Lines
; GCN-NOHSA-VI-NEXT: s_mov_b32 s88, SCRATCH_RSRC_DWORD0		; GCN-NOHSA-VI-NEXT: s_mov_b32 s88, SCRATCH_RSRC_DWORD0
; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GCN-NOHSA-VI-NEXT: s_mov_b32 s89, SCRATCH_RSRC_DWORD1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s89, SCRATCH_RSRC_DWORD1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s90, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s90, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s91, 0xe80000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s91, 0xe80000
; GCN-NOHSA-VI-NEXT: s_add_u32 s88, s88, s3		; GCN-NOHSA-VI-NEXT: s_add_u32 s88, s88, s3
; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[8:11], 0 offset:96
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[16:19], off, s[8:11], 0 offset:80
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[20:23], off, s[8:11], 0 offset:64
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[8:11], 0
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[24:27], off, s[8:11], 0 offset:16
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[28:31], off, s[8:11], 0 offset:32
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[32:35], off, s[8:11], 0 offset:48
; GCN-NOHSA-VI-NEXT: s_addc_u32 s89, s89, 0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4		; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5
		; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s6
		; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s7
		; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, s2
		; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, s3
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[4:7], 0 offset:112
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[16:19], off, s[4:7], 0 offset:96
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[20:23], off, s[4:7], 0 offset:80
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[24:27], off, s[4:7], 0 offset:64
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[4:7], 0
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[28:31], off, s[4:7], 0 offset:16
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[32:35], off, s[4:7], 0 offset:32
		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[36:39], off, s[4:7], 0 offset:48
		; GCN-NOHSA-VI-NEXT: s_addc_u32 s89, s89, 0
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(6)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(6)
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v59, 16, v13		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v63, 16, v17
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(5)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(5)
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v55, 16, v17		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v59, 16, v21
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(4)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(4)
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v51, 16, v21		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v55, 16, v25
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(3)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(3)
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v3, 16, v11		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v3, 16, v11
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v1, 16, v10		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v1, 16, v10
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v2, v11, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v2, v11, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v0, v10, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v0, v10, 0, 16
; GCN-NOHSA-VI-NEXT: buffer_store_dword v0, off, s[88:91], 0 offset:4 ; 4-byte Folded Spill		; GCN-NOHSA-VI-NEXT: buffer_store_dword v0, off, s[88:91], 0 offset:4 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: buffer_store_dword v1, off, s[88:91], 0 offset:8 ; 4-byte Folded Spill		; GCN-NOHSA-VI-NEXT: buffer_store_dword v1, off, s[88:91], 0 offset:8 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: buffer_store_dword v2, off, s[88:91], 0 offset:12 ; 4-byte Folded Spill		; GCN-NOHSA-VI-NEXT: buffer_store_dword v2, off, s[88:91], 0 offset:12 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: buffer_store_dword v3, off, s[88:91], 0 offset:16 ; 4-byte Folded Spill		; GCN-NOHSA-VI-NEXT: buffer_store_dword v3, off, s[88:91], 0 offset:16 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v3, 16, v9		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v3, 16, v13
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v1, 16, v8		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v1, 16, v12
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v2, v9, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v2, v13, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v0, v8, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v0, v12, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v11, 16, v27		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v7, 16, v9
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v9, 16, v26		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v5, 16, v8
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v10, v27, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v6, v9, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v8, v26, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v4, v8, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v39, 16, v25		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v11, 16, v31
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v37, 16, v24		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v9, 16, v30
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v38, v25, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v10, v31, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v36, v24, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v8, v30, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v27, 16, v31
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v25, 16, v30
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v26, v31, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v24, v30, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v43, 16, v29		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v43, 16, v29
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v41, 16, v28		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v41, 16, v28
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v42, v29, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v42, v29, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v40, v28, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v40, v28, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v31, 16, v35		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v31, 16, v35
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v29, 16, v34		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v29, 16, v34
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v30, v35, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v30, v35, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v28, v34, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v28, v34, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v47, 16, v33		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v47, 16, v33
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v45, 16, v32		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v45, 16, v32
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v46, v33, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v46, v33, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v44, v32, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v44, v32, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v35, 16, v23		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v35, 16, v39
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v33, 16, v22		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v33, 16, v38
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v34, v23, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v34, v39, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v32, v22, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v32, v38, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v49, 16, v20		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v51, 16, v37
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v50, v21, 0, 16		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v49, 16, v36
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v48, v20, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v50, v37, 0, 16
		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v48, v36, 0, 16
		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v39, 16, v27
		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v37, 16, v26
		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v38, v27, 0, 16
		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v36, v26, 0, 16
		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v53, 16, v24
		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v54, v25, 0, 16
		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v52, v24, 0, 16
		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v26, 16, v23
		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v24, 16, v22
		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v25, v23, 0, 16
		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v23, v22, 0, 16
		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v57, 16, v20
		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v58, v21, 0, 16
		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v56, v20, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v22, 16, v19		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v22, 16, v19
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v20, 16, v18		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v20, 16, v18
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v21, v19, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v21, v19, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v19, v18, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v19, v18, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v53, 16, v16		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v61, 16, v16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v54, v17, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v62, v17, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v52, v16, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v60, v16, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v18, 16, v15		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v18, 16, v15
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v16, 16, v14		; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v16, 16, v14
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v17, v15, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v17, v15, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v15, v14, 0, 16		; GCN-NOHSA-VI-NEXT: v_bfe_i32 v15, v14, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v57, 16, v12
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v58, v13, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v56, v12, 0, 16
; GCN-NOHSA-VI-NEXT: buffer_store_dword v0, off, s[88:91], 0 offset:20 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: buffer_store_dword v1, off, s[88:91], 0 offset:24 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: buffer_store_dword v2, off, s[88:91], 0 offset:28 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: buffer_store_dword v3, off, s[88:91], 0 offset:32 ; 4-byte Folded Spill
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[60:63], off, s[8:11], 0 offset:112
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v3, 16, v61
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v1, 16, v60
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v2, v61, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v0, v60, 0, 16
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v7, 16, v63
; GCN-NOHSA-VI-NEXT: v_ashrrev_i32_e32 v5, 16, v62
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v6, v63, 0, 16
; GCN-NOHSA-VI-NEXT: v_bfe_i32 v4, v62, 0, 16
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:224		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:224
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:240		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[15:18], off, s[0:3], 0 offset:240
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[56:59], off, s[0:3], 0 offset:192		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[60:63], off, s[0:3], 0 offset:192
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[15:18], off, s[0:3], 0 offset:208		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[19:22], off, s[0:3], 0 offset:208
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[52:55], off, s[0:3], 0 offset:160		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[56:59], off, s[0:3], 0 offset:160
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[19:22], off, s[0:3], 0 offset:176		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[23:26], off, s[0:3], 0 offset:176
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[48:51], off, s[0:3], 0 offset:128		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[52:55], off, s[0:3], 0 offset:128
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[32:35], off, s[0:3], 0 offset:144		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[36:39], off, s[0:3], 0 offset:144
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[44:47], off, s[0:3], 0 offset:96		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[48:51], off, s[0:3], 0 offset:96
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:112		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[32:35], off, s[0:3], 0 offset:112
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[40:43], off, s[0:3], 0 offset:64		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[44:47], off, s[0:3], 0 offset:64
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:80		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:80
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[36:39], off, s[0:3], 0 offset:32		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[40:43], off, s[0:3], 0 offset:32
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:48		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:48
; GCN-NOHSA-VI-NEXT: buffer_load_dword v0, off, s[88:91], 0 offset:20 ; 4-byte Folded Reload		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0
; GCN-NOHSA-VI-NEXT: buffer_load_dword v1, off, s[88:91], 0 offset:24 ; 4-byte Folded Reload
; GCN-NOHSA-VI-NEXT: buffer_load_dword v2, off, s[88:91], 0 offset:28 ; 4-byte Folded Reload
; GCN-NOHSA-VI-NEXT: buffer_load_dword v3, off, s[88:91], 0 offset:32 ; 4-byte Folded Reload
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GCN-NOHSA-VI-NEXT: buffer_load_dword v0, off, s[88:91], 0 offset:4 ; 4-byte Folded Reload		; GCN-NOHSA-VI-NEXT: buffer_load_dword v0, off, s[88:91], 0 offset:4 ; 4-byte Folded Reload
; GCN-NOHSA-VI-NEXT: buffer_load_dword v1, off, s[88:91], 0 offset:8 ; 4-byte Folded Reload		; GCN-NOHSA-VI-NEXT: buffer_load_dword v1, off, s[88:91], 0 offset:8 ; 4-byte Folded Reload
; GCN-NOHSA-VI-NEXT: buffer_load_dword v2, off, s[88:91], 0 offset:12 ; 4-byte Folded Reload		; GCN-NOHSA-VI-NEXT: buffer_load_dword v2, off, s[88:91], 0 offset:12 ; 4-byte Folded Reload
; GCN-NOHSA-VI-NEXT: buffer_load_dword v3, off, s[88:91], 0 offset:16 ; 4-byte Folded Reload		; GCN-NOHSA-VI-NEXT: buffer_load_dword v3, off, s[88:91], 0 offset:16 ; 4-byte Folded Reload
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
; GCN-NOHSA-VI-NEXT: s_endpgm		; GCN-NOHSA-VI-NEXT: s_endpgm
;		;
▲ Show 20 Lines • Show All 4,052 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/schedule-regpressure-limit3.ll

	; RUN: llc -march=amdgcn -mcpu=tonga -enable-amdgpu-aa=0 -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck --check-prefix=MISCHED %s
	; RUN: llc -march=amdgcn -mcpu=tonga -enable-amdgpu-aa=0 -misched=gcn-ilp -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -march=amdgcn -mcpu=tonga -misched=gcn-ilp -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN-ILP %s

				; Test the scheduler when only one wave is requested. The result should be high register usage and max ILP.

	; We expect a three digit VGPR usage here since only one wave requested.			; We expect a three digit VGPR usage here since only one wave requested.
	; CHECK: NumVgprs: {{[0-9][0-9][0-9]$}}			;
				; GCN-ILP: NumVgprs: {{[0-9][0-9][0-9]$}}

				; FIXME: The machine scheduler is doing a poor job at maximizing ILP here.
				; However, if we had not requested only one wave register usage would indeed be
				; much lower, demonstrating that is the purpose of this test.
				;
				; MISCHED: NumVgprs: {{[7-9][0-9]$}}

	define amdgpu_kernel void @load_fma_store(float addrspace(3)* nocapture readonly %arg, float addrspace(1)* nocapture %arg1) #1 {			define amdgpu_kernel void @load_fma_store(float addrspace(3)* nocapture readonly %arg, float addrspace(1)* nocapture %arg1) #1 {
	bb:			bb:
	%tmp = getelementptr inbounds float, float addrspace(3)* %arg, i32 1			%tmp = getelementptr inbounds float, float addrspace(3)* %arg, i32 1
	%tmp2 = load float, float addrspace(3)* %tmp, align 4			%tmp2 = load float, float addrspace(3)* %tmp, align 4
	%tmp3 = getelementptr inbounds float, float addrspace(3)* %arg, i32 2			%tmp3 = getelementptr inbounds float, float addrspace(3)* %arg, i32 2
	%tmp4 = load float, float addrspace(3)* %tmp3, align 4			%tmp4 = load float, float addrspace(3)* %tmp3, align 4
	%tmp5 = getelementptr inbounds float, float addrspace(3)* %arg, i32 3			%tmp5 = getelementptr inbounds float, float addrspace(3)* %arg, i32 3
	▲ Show 20 Lines • Show All 578 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/schedule-regpressure-misched-max-waves.ll

This file was added.

				; REQUIRES: asserts

				; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs -debug-only=machine-scheduler -o /dev/null < %s 2>&1 \| FileCheck %s

				; We are only targeting one wave. Check that the machine scheduler doesn't use
				; register pressure heuristics to prioritize any candidate instruction.

				; CHECK-NOT: REG-CRIT
				; CHECK-NOT: REG-EXCESS

				define amdgpu_kernel void @load_fma_store(float addrspace(3)* nocapture readonly %arg, float addrspace(3)* nocapture %arg1) #1 {
				bb:
				%tmp0 = getelementptr inbounds float, float addrspace(3)* %arg, i32 1
				%tmp1 = load float, float addrspace(3)* %tmp0, align 4
				%tmp2 = getelementptr inbounds float, float addrspace(3)* %arg, i32 2
				%tmp3 = load float, float addrspace(3)* %tmp2, align 4
				%tmp4 = getelementptr inbounds float, float addrspace(3)* %arg, i32 3
				%tmp5 = load float, float addrspace(3)* %tmp4, align 4
				%tmp6 = getelementptr inbounds float, float addrspace(3)* %arg, i32 4
				%tmp7 = load float, float addrspace(3)* %tmp6, align 4
				%tmp8 = getelementptr inbounds float, float addrspace(3)* %arg, i32 5
				%tmp9 = load float, float addrspace(3)* %tmp8, align 4
				%tmp10 = getelementptr inbounds float, float addrspace(3)* %arg, i32 6
				%tmp11 = load float, float addrspace(3)* %tmp10, align 4
				%tmp12 = getelementptr inbounds float, float addrspace(3)* %arg, i32 7
				%tmp13 = load float, float addrspace(3)* %tmp12, align 4
				%tmp14 = getelementptr inbounds float, float addrspace(3)* %arg, i32 8
				%tmp15 = load float, float addrspace(3)* %tmp14, align 4
				%tmp16 = getelementptr inbounds float, float addrspace(3)* %arg, i32 9
				%tmp17 = load float, float addrspace(3)* %tmp16, align 4
				%tmp18 = getelementptr inbounds float, float addrspace(3)* %arg, i32 10
				%tmp19 = load float, float addrspace(3)* %tmp18, align 4
				%tmp20 = getelementptr inbounds float, float addrspace(3)* %arg, i32 11
				%tmp21 = load float, float addrspace(3)* %tmp20, align 4
				%tmp22 = getelementptr inbounds float, float addrspace(3)* %arg, i32 12
				%tmp23 = load float, float addrspace(3)* %tmp22, align 4
				%tmp24 = getelementptr inbounds float, float addrspace(3)* %arg, i32 13
				%tmp25 = load float, float addrspace(3)* %tmp24, align 4
				%tmp26 = getelementptr inbounds float, float addrspace(3)* %arg, i32 14
				%tmp27 = load float, float addrspace(3)* %tmp26, align 4
				%tmp28 = getelementptr inbounds float, float addrspace(3)* %arg, i32 15
				%tmp29 = load float, float addrspace(3)* %tmp28, align 4
				%tmp30 = getelementptr inbounds float, float addrspace(3)* %arg, i32 16
				%tmp31 = load float, float addrspace(3)* %tmp30, align 4
				%tmp32 = getelementptr inbounds float, float addrspace(3)* %arg, i32 17
				%tmp33 = load float, float addrspace(3)* %tmp32, align 4
				%tmp34 = getelementptr inbounds float, float addrspace(3)* %arg, i32 18
				%tmp35 = load float, float addrspace(3)* %tmp34, align 4
				%tmp36 = getelementptr inbounds float, float addrspace(3)* %arg, i32 19
				%tmp37 = load float, float addrspace(3)* %tmp36, align 4
				%tmp38 = getelementptr inbounds float, float addrspace(3)* %arg, i32 20
				%tmp39 = load float, float addrspace(3)* %tmp38, align 4
				%tmp40 = getelementptr inbounds float, float addrspace(3)* %arg, i32 21
				%tmp41 = load float, float addrspace(3)* %tmp40, align 4
				%tmp42 = getelementptr inbounds float, float addrspace(3)* %arg, i32 22
				%tmp43 = load float, float addrspace(3)* %tmp42, align 4
				%tmp44 = getelementptr inbounds float, float addrspace(3)* %arg, i32 23
				%tmp45 = load float, float addrspace(3)* %tmp44, align 4
				%tmp46 = getelementptr inbounds float, float addrspace(3)* %arg, i32 24
				%tmp47 = load float, float addrspace(3)* %tmp46, align 4
				%tmp48 = getelementptr inbounds float, float addrspace(3)* %arg, i32 25
				%tmp49 = load float, float addrspace(3)* %tmp48, align 4
				%tmp50 = getelementptr inbounds float, float addrspace(3)* %arg, i32 26
				%tmp51 = load float, float addrspace(3)* %tmp50, align 4
				%tmp52 = getelementptr inbounds float, float addrspace(3)* %arg, i32 27
				%tmp53 = load float, float addrspace(3)* %tmp52, align 4
				%tmp54 = getelementptr inbounds float, float addrspace(3)* %arg, i32 28
				%tmp55 = load float, float addrspace(3)* %tmp54, align 4
				%tmp56 = getelementptr inbounds float, float addrspace(3)* %arg, i32 29
				%tmp57 = load float, float addrspace(3)* %tmp56, align 4
				%tmp58 = getelementptr inbounds float, float addrspace(3)* %arg, i32 30
				%tmp59 = load float, float addrspace(3)* %tmp58, align 4
				%tmp60 = tail call float @llvm.fmuladd.f32(float %tmp1, float %tmp3, float %tmp5)
				%tmp61 = tail call float @llvm.fmuladd.f32(float %tmp7, float %tmp9, float %tmp11)
				%tmp62 = tail call float @llvm.fmuladd.f32(float %tmp13, float %tmp15, float %tmp17)
				%tmp63 = tail call float @llvm.fmuladd.f32(float %tmp19, float %tmp21, float %tmp23)
				%tmp64 = tail call float @llvm.fmuladd.f32(float %tmp25, float %tmp27, float %tmp29)
				%tmp65 = tail call float @llvm.fmuladd.f32(float %tmp31, float %tmp33, float %tmp35)
				%tmp66 = tail call float @llvm.fmuladd.f32(float %tmp37, float %tmp39, float %tmp41)
				%tmp67 = tail call float @llvm.fmuladd.f32(float %tmp43, float %tmp45, float %tmp47)
				%tmp68 = tail call float @llvm.fmuladd.f32(float %tmp49, float %tmp51, float %tmp53)
				%tmp69 = tail call float @llvm.fmuladd.f32(float %tmp55, float %tmp57, float %tmp59)
				%tmp70 = getelementptr inbounds float, float addrspace(3)* %arg1, i64 1
				store float %tmp60, float addrspace(3)* %tmp70, align 4
				%tmp71 = getelementptr inbounds float, float addrspace(3)* %arg1, i64 2
				store float %tmp61, float addrspace(3)* %tmp71, align 4
				%tmp72 = getelementptr inbounds float, float addrspace(3)* %arg1, i64 3
				store float %tmp62, float addrspace(3)* %tmp72, align 4
				%tmp73 = getelementptr inbounds float, float addrspace(3)* %arg1, i64 4
				store float %tmp63, float addrspace(3)* %tmp73, align 4
				%tmp74 = getelementptr inbounds float, float addrspace(3)* %arg1, i64 5
				store float %tmp64, float addrspace(3)* %tmp74, align 4
				%tmp75 = getelementptr inbounds float, float addrspace(3)* %arg1, i64 6
				store float %tmp65, float addrspace(3)* %tmp75, align 4
				%tmp76 = getelementptr inbounds float, float addrspace(3)* %arg1, i64 7
				store float %tmp66, float addrspace(3)* %tmp76, align 4
				%tmp77 = getelementptr inbounds float, float addrspace(3)* %arg1, i64 8
				store float %tmp67, float addrspace(3)* %tmp77, align 4
				%tmp78 = getelementptr inbounds float, float addrspace(3)* %arg1, i64 9
				store float %tmp68, float addrspace(3)* %tmp78, align 4
				%tmp79 = getelementptr inbounds float, float addrspace(3)* %arg1, i64 10
				store float %tmp69, float addrspace(3)* %tmp79, align 4
				ret void
				}

				; Function Attrs: nounwind readnone
				declare float @llvm.fmuladd.f32(float, float, float) #0

				attributes #0 = { nounwind readnone }
				attributes #1 = { "amdgpu-waves-per-eu"="1,1" "amdgpu-flat-work-group-size"="1,256" }

llvm/test/CodeGen/AMDGPU/spill-empty-live-interval.mir

	# RUN: llc -mtriple=amdgcn-amd-amdhsa -verify-machineinstrs -amdgpu-dce-in-ra=0 -stress-regalloc=1 -start-before=simple-register-coalescing -stop-after=greedy,1 -o - %s \| FileCheck %s			# RUN: llc -mtriple=amdgcn-amd-amdhsa -verify-machineinstrs -amdgpu-dce-in-ra=0 -stress-regalloc=1 -start-before=simple-register-coalescing -stop-after=greedy,1 -o - %s \| FileCheck %s
	# https://bugs.llvm.org/show_bug.cgi?id=33620			# https://bugs.llvm.org/show_bug.cgi?id=33620

	---			---
	# This would assert due to the empty live interval created for %9			# This would assert due to the empty live interval created for %9
	# on the last S_NOP with an undef subreg use.			# on the last S_NOP with an undef subreg use.

	# CHECK-LABEL: name: expecting_non_empty_interval			# CHECK-LABEL: name: expecting_non_empty_interval

	# CHECK: undef %7.sub1:vreg_64 = V_MAC_F32_e32 0, undef %1:vgpr_32, undef %7.sub1, implicit $mode, implicit $exec			# CHECK: undef %5.sub1:vreg_64 = V_MOV_B32_e32 1786773504, implicit $exec
	# CHECK-NEXT: SI_SPILL_V64_SAVE %7, %stack.0, $sgpr32, 0, implicit $exec :: (store (s64) into %stack.0, align 4, addrspace 5)
	# CHECK-NEXT: undef %5.sub1:vreg_64 = V_MOV_B32_e32 1786773504, implicit $exec
	# CHECK-NEXT: dead %3:vgpr_32 = V_MUL_F32_e32 0, %5.sub1, implicit $mode, implicit $exec			# CHECK-NEXT: dead %3:vgpr_32 = V_MUL_F32_e32 0, %5.sub1, implicit $mode, implicit $exec
				# CHECK-NEXT: undef %7.sub1:vreg_64 = V_MAC_F32_e32 0, undef %1:vgpr_32, undef %7.sub1, implicit $mode, implicit $exec
				# CHECK-NEXT: SI_SPILL_V64_SAVE %7, %stack.0, $sgpr32, 0, implicit $exec :: (store (s64) into %stack.0, align 4, addrspace 5)

	# CHECK: S_NOP 0, implicit %6.sub1			# CHECK: S_NOP 0, implicit %6.sub1
	# CHECK-NEXT: %8:vreg_64 = SI_SPILL_V64_RESTORE %stack.0, $sgpr32, 0, implicit $exec :: (load (s64) from %stack.0, align 4, addrspace 5)			# CHECK-NEXT: %8:vreg_64 = SI_SPILL_V64_RESTORE %stack.0, $sgpr32, 0, implicit $exec :: (load (s64) from %stack.0, align 4, addrspace 5)
	# CHECK-NEXT: S_NOP 0, implicit %8.sub1			# CHECK-NEXT: S_NOP 0, implicit %8.sub1
	# CHECK-NEXT: S_NOP 0, implicit undef %9.sub0			# CHECK-NEXT: S_NOP 0, implicit undef %9.sub0

	name: expecting_non_empty_interval			name: expecting_non_empty_interval
	tracksRegLiveness: true			tracksRegLiveness: true
	Show All 20 Lines
	---			---
	# CHECK-LABEL: name: rematerialize_empty_interval_has_reference			# CHECK-LABEL: name: rematerialize_empty_interval_has_reference

	# CHECK-NOT: MOV			# CHECK-NOT: MOV
	# CHECK: undef %1.sub2:vreg_128 = V_MOV_B32_e32 1786773504, implicit $exec			# CHECK: undef %1.sub2:vreg_128 = V_MOV_B32_e32 1786773504, implicit $exec

	# CHECK: bb.1:			# CHECK: bb.1:
	# CHECK-NEXT: S_NOP 0, implicit %1.sub2			# CHECK-NEXT: S_NOP 0, implicit %1.sub2
	# CHECK-NEXT: S_NOP 0, implicit undef %4.sub0
	# CHECK-NEXT: undef %2.sub2:vreg_128 = V_MOV_B32_e32 0, implicit $exec			# CHECK-NEXT: undef %2.sub2:vreg_128 = V_MOV_B32_e32 0, implicit $exec
	# CHECK-NEXT: S_NOP 0, implicit %2.sub2			# CHECK-NEXT: S_NOP 0, implicit %2.sub2
				# CHECK-NEXT: S_NOP 0, implicit undef %4.sub0
	name: rematerialize_empty_interval_has_reference			name: rematerialize_empty_interval_has_reference
	tracksRegLiveness: true			tracksRegLiveness: true
	machineFunctionInfo:			machineFunctionInfo:
	scratchRSrcReg: $sgpr0_sgpr1_sgpr2_sgpr3			scratchRSrcReg: $sgpr0_sgpr1_sgpr2_sgpr3
	stackPtrOffsetReg: $sgpr32			stackPtrOffsetReg: $sgpr32
	body: \|			body: \|
	bb.0:			bb.0:
	successors: %bb.1			successors: %bb.1
	Show All 10 Lines