This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Don't cluster stores
ClosedPublic

Authored by foad on Aug 7 2020, 8:31 AM.

Download Raw Diff

Details

Reviewers

rampitec
arsenm
kerbowa
vpykhtin

Commits

rGc799f873cb9f: [AMDGPU] Don't cluster stores

Summary

Clustering loads has caching benefits, but as far as I know there is no
advantage to clustering stores on any AMDGPU subtargets.

The disadvantage is that it tends to increase register pressure and
restricts scheduling freedom.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

foad created this revision.Aug 7 2020, 8:31 AM

Herald added a project: Restricted Project. · View Herald TranscriptAug 7 2020, 8:31 AM

Herald added subscribers: llvm-commits, hiraditya, t-tye and 6 others. · View Herald Transcript

foad requested review of this revision.Aug 7 2020, 8:31 AM

Herald added a subscriber: wdng. · View Herald TranscriptAug 7 2020, 8:31 AM

foad mentioned this in D85517: [Scheduling] Implement a new way to cluster loads/stores.Aug 7 2020, 8:48 AM

Some statistics for this change, from statically compiling 9785 graphics shaders from games for GFX9:
average vgpr_count decreases by 0.04%
average sgpr_count decreases by 0.001%
total number of instructions decreases by 21 (0.0004%)
number of s_waitcnt instructions decreases by 17 (0.0003%)
So the numbers are tiny but at least they moved in the right direction!

I think we should have benefit of write combining. Do you have any performance numbers? That shall be deciding point.

Harbormaster completed remote builds in B67469: Diff 283912.Aug 7 2020, 9:47 AM

I tried this change with game traces on GFX10.

I could not convince myself that there was any statically significant changes in performance.
Some small gains, some small losses, nothing outside the range of variance.

I do however wonder if this would be better as a tuning option?
The same could also be said for load clustering as essentially you are trading VGPR pressure for VMEM access efficiency (e.g. stalls).

LGTM

This revision is now accepted and ready to land.Aug 10 2020, 11:41 AM

Closed by commit rGc799f873cb9f: [AMDGPU] Don't cluster stores (authored by foad). · Explain WhySep 14 2020, 5:40 AM

This revision was automatically updated to reflect the committed changes.

foad added a commit: rGc799f873cb9f: [AMDGPU] Don't cluster stores.

In D85530#2204974, @critson wrote:

I tried this change with game traces on GFX10.

I could not convince myself that there was any statically significant changes in performance.
Some small gains, some small losses, nothing outside the range of variance.

I do however wonder if this would be better as a tuning option?
The same could also be said for load clustering as essentially you are trading VGPR pressure for VMEM access efficiency (e.g. stalls).

Did you try this with xnack enabled? This will reduce the number of soft clauses formed for stores

Did you try this with xnack enabled?

Probably not. I don't think xnack is enabled for any of the platforms we usually care about for Vulkan graphics.

This will reduce the number of soft clauses formed for stores

Is that a problem, and if so why?

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPUTargetMachine.cpp

4 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

extractelement-stack-lower.ll

959 lines

insertelement-stack-lower.ll

634 lines

insertelement.i16.ll

135 lines

insertelement.large.ll

42 lines

load-unaligned.ll

38 lines

store-local.128.ll

192 lines

store-local.96.ll

144 lines

amdgpu-codegenprepare-idiv.ll

24 lines

call-argument-types.ll

48 lines

cluster_stores.ll

13 lines

fast-unaligned-load-store.global.ll

26 lines

fast-unaligned-load-store.private.ll

14 lines

fshr.ll

14 lines

half.ll

2 lines

insert_vector_elt.ll

15 lines

local-memory.amdgcn.ll

2 lines

memory_clause.ll

8 lines

merge-stores.ll

2 lines

non-entry-alloca.ll

28 lines

si-triv-disjoint-mem-access.ll

12 lines

store-local.128.ll

282 lines

store-local.96.ll

208 lines

store-weird-sizes.ll

254 lines

token-factor-inline-limit-test.ll

28 lines

widen-smrd-loads.ll

13 lines

Diff 291551

llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

Show First 20 Lines • Show All 277 Lines • ▼ Show 20 Lines	static ScheduleDAGInstrs createSIMachineScheduler(MachineSchedContext C) {
return new SIScheduleDAGMI(C);		return new SIScheduleDAGMI(C);
}		}

static ScheduleDAGInstrs *		static ScheduleDAGInstrs *
createGCNMaxOccupancyMachineScheduler(MachineSchedContext *C) {		createGCNMaxOccupancyMachineScheduler(MachineSchedContext *C) {
ScheduleDAGMILive *DAG =		ScheduleDAGMILive *DAG =
new GCNScheduleDAGMILive(C, std::make_unique<GCNMaxOccupancySchedStrategy>(C));		new GCNScheduleDAGMILive(C, std::make_unique<GCNMaxOccupancySchedStrategy>(C));
DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));		DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));
DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));
DAG->addMutation(createAMDGPUMacroFusionDAGMutation());		DAG->addMutation(createAMDGPUMacroFusionDAGMutation());
DAG->addMutation(createAMDGPUExportClusteringDAGMutation());		DAG->addMutation(createAMDGPUExportClusteringDAGMutation());
return DAG;		return DAG;
}		}

static ScheduleDAGInstrs *		static ScheduleDAGInstrs *
createIterativeGCNMaxOccupancyMachineScheduler(MachineSchedContext *C) {		createIterativeGCNMaxOccupancyMachineScheduler(MachineSchedContext *C) {
auto DAG = new GCNIterativeScheduler(C,		auto DAG = new GCNIterativeScheduler(C,
GCNIterativeScheduler::SCHEDULE_LEGACYMAXOCCUPANCY);		GCNIterativeScheduler::SCHEDULE_LEGACYMAXOCCUPANCY);
DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));		DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));
DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));
return DAG;		return DAG;
}		}

static ScheduleDAGInstrs createMinRegScheduler(MachineSchedContext C) {		static ScheduleDAGInstrs createMinRegScheduler(MachineSchedContext C) {
return new GCNIterativeScheduler(C,		return new GCNIterativeScheduler(C,
GCNIterativeScheduler::SCHEDULE_MINREGFORCED);		GCNIterativeScheduler::SCHEDULE_MINREGFORCED);
}		}

static ScheduleDAGInstrs *		static ScheduleDAGInstrs *
createIterativeILPMachineScheduler(MachineSchedContext *C) {		createIterativeILPMachineScheduler(MachineSchedContext *C) {
auto DAG = new GCNIterativeScheduler(C,		auto DAG = new GCNIterativeScheduler(C,
GCNIterativeScheduler::SCHEDULE_ILP);		GCNIterativeScheduler::SCHEDULE_ILP);
DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));		DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));
DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));
DAG->addMutation(createAMDGPUMacroFusionDAGMutation());		DAG->addMutation(createAMDGPUMacroFusionDAGMutation());
return DAG;		return DAG;
}		}

static MachineSchedRegistry		static MachineSchedRegistry
R600SchedRegistry("r600", "Run R600's custom scheduler",		R600SchedRegistry("r600", "Run R600's custom scheduler",
createR600MachineScheduler);		createR600MachineScheduler);

▲ Show 20 Lines • Show All 279 Lines • ▼ Show 20 Lines	public:
AMDGPUTargetMachine &getAMDGPUTargetMachine() const {		AMDGPUTargetMachine &getAMDGPUTargetMachine() const {
return getTM<AMDGPUTargetMachine>();		return getTM<AMDGPUTargetMachine>();
}		}

ScheduleDAGInstrs *		ScheduleDAGInstrs *
createMachineScheduler(MachineSchedContext *C) const override {		createMachineScheduler(MachineSchedContext *C) const override {
ScheduleDAGMILive *DAG = createGenericSchedLive(C);		ScheduleDAGMILive *DAG = createGenericSchedLive(C);
DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));		DAG->addMutation(createLoadClusterDAGMutation(DAG->TII, DAG->TRI));
DAG->addMutation(createStoreClusterDAGMutation(DAG->TII, DAG->TRI));
return DAG;		return DAG;
}		}

void addEarlyCSEOrGVNPass();		void addEarlyCSEOrGVNPass();
void addStraightLineScalarOptimizationPasses();		void addStraightLineScalarOptimizationPasses();
void addIRPasses() override;		void addIRPasses() override;
void addCodeGenPrepare() override;		void addCodeGenPrepare() override;
bool addPreISel() override;		bool addPreISel() override;
▲ Show 20 Lines • Show All 611 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement-stack-lower.ll

	Show All 34 Lines
	; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill
	; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11			; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11
	; GCN-NEXT: buffer_store_dword v2, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[3:6], v[15:16], off			; GCN-NEXT: global_load_dwordx4 v[3:6], v[15:16], off
	; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16			; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16
	; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc			; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc
	; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32			; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48			; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off			; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off
	; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16			; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32			; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48			; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off			; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off
	; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16			; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32			; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32
	; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33			; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33
	; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0			; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0
	; GCN-NEXT: v_add_u32_e32 v1, 16, v0			; GCN-NEXT: v_add_u32_e32 v1, 16, v0
	; GCN-NEXT: v_add_u32_e32 v2, 20, v0
	; GCN-NEXT: s_add_u32 s32, s32, 0x10000			; GCN-NEXT: s_add_u32 s32, s32, 0x10000
	; GCN-NEXT: s_sub_u32 s32, s32, 0x10000			; GCN-NEXT: s_sub_u32 s32, s32, 0x10000
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v35, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v35, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v36, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v36, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v37, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v37, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v38, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v38, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v39, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v39, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:640 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48			; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[43:46], v[59:60], off			; GCN-NEXT: global_load_dwordx4 v[43:46], v[59:60], off
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v51, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v51, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v52, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v52, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v53, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v53, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v54, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v54, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v55, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v55, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16			; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32			; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48			; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 20, v0
				; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 24, v0			; GCN-NEXT: v_add_u32_e32 v1, 24, v0
	; GCN-NEXT: buffer_store_dword v8, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 28, v0
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 28, v0
				; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 32, v0			; GCN-NEXT: v_add_u32_e32 v1, 32, v0
	; GCN-NEXT: v_add_u32_e32 v2, 36, v0
	; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 36, v0
				; GCN-NEXT: buffer_store_dword v12, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 40, v0			; GCN-NEXT: v_add_u32_e32 v1, 40, v0
	; GCN-NEXT: buffer_store_dword v12, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 44, v0
	; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 44, v0
				; GCN-NEXT: buffer_store_dword v14, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 48, v0			; GCN-NEXT: v_add_u32_e32 v1, 48, v0
	; GCN-NEXT: buffer_store_dword v14, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 52, v0
	; GCN-NEXT: buffer_store_dword v15, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v15, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 52, v0
				; GCN-NEXT: buffer_store_dword v16, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 56, v0			; GCN-NEXT: v_add_u32_e32 v1, 56, v0
	; GCN-NEXT: buffer_store_dword v16, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 60, v0
	; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v18, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 60, v0
				; GCN-NEXT: buffer_store_dword v18, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 64, v0			; GCN-NEXT: v_add_u32_e32 v1, 64, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0x44, v0
	; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x44, v0
				; GCN-NEXT: buffer_store_dword v20, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x48, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x48, v0
	; GCN-NEXT: buffer_store_dword v20, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x4c, v0
	; GCN-NEXT: buffer_store_dword v21, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v21, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x4c, v0
				; GCN-NEXT: buffer_store_dword v22, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0
	; GCN-NEXT: buffer_store_dword v22, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x54, v0
	; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x54, v0
				; GCN-NEXT: buffer_store_dword v24, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x58, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x58, v0
	; GCN-NEXT: buffer_store_dword v24, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x5c, v0
	; GCN-NEXT: buffer_store_dword v25, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v25, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v26, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0x5c, v0
				; GCN-NEXT: buffer_store_dword v26, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0x64, v0
	; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x64, v0
				; GCN-NEXT: buffer_store_dword v28, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x68, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x68, v0
	; GCN-NEXT: buffer_store_dword v28, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x6c, v0
	; GCN-NEXT: buffer_store_dword v29, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v29, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x6c, v0
				; GCN-NEXT: buffer_store_dword v30, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0
	; GCN-NEXT: buffer_store_dword v30, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x74, v0
	; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x74, v0
				; GCN-NEXT: buffer_store_dword v32, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x78, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x78, v0
	; GCN-NEXT: buffer_store_dword v32, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x7c, v0
	; GCN-NEXT: buffer_store_dword v33, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v33, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v34, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0x7c, v0
				; GCN-NEXT: buffer_store_dword v34, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0x84, v0
	; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x84, v0
				; GCN-NEXT: buffer_store_dword v36, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x88, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x88, v0
	; GCN-NEXT: buffer_store_dword v36, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x8c, v0
	; GCN-NEXT: buffer_store_dword v37, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v37, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x8c, v0
				; GCN-NEXT: buffer_store_dword v38, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0
	; GCN-NEXT: buffer_store_dword v38, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x94, v0
	; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x94, v0
				; GCN-NEXT: buffer_store_dword v40, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x98, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x98, v0
	; GCN-NEXT: buffer_store_dword v40, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x9c, v0
	; GCN-NEXT: buffer_store_dword v41, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v41, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v42, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0x9c, v0
	; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload			; GCN-NEXT: buffer_store_dword v42, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:640 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0xa4, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v8, v15			; GCN-NEXT: v_mov_b32_e32 v8, v15
	; GCN-NEXT: v_mov_b32_e32 v9, v16
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
				; GCN-NEXT: v_mov_b32_e32 v9, v16
				; GCN-NEXT: v_add_u32_e32 v1, 0xa4, v0
				; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v10, v17			; GCN-NEXT: v_mov_b32_e32 v10, v17
	; GCN-NEXT: v_add_u32_e32 v1, 0xa8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xa8, v0
	; GCN-NEXT: buffer_store_dword v9, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0
	; GCN-NEXT: v_mov_b32_e32 v11, v18			; GCN-NEXT: v_mov_b32_e32 v11, v18
	; GCN-NEXT: v_add_u32_e32 v2, 0xac, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xac, v0
	; GCN-NEXT: buffer_store_dword v11, v2, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0xb4, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0
	; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xb4, v0
				; GCN-NEXT: buffer_store_dword v48, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xb8, v0
	; GCN-NEXT: buffer_store_dword v48, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0xbc, v0
	; GCN-NEXT: buffer_store_dword v49, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v49, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v50, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xbc, v0
	; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload			; GCN-NEXT: buffer_store_dword v50, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v2, 0xc4, v0			; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v8, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0xcc, v0
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xc4, v0
				; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xc8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xc8, v0
	; GCN-NEXT: buffer_store_dword v10, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 4, v0
	; GCN-NEXT: buffer_store_dword v4, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xd0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xcc, v0
	; GCN-NEXT: v_add_u32_e32 v7, 8, v0			; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 12, v0			; GCN-NEXT: v_add_u32_e32 v1, 4, v0
	; GCN-NEXT: buffer_store_dword v5, v7, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 8, v0
				; GCN-NEXT: buffer_store_dword v5, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 12, v0
				; GCN-NEXT: buffer_store_dword v6, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:256			; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:256
	; GCN-NEXT: v_add_u32_e32 v2, 0xd4, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xd0, v0
	; GCN-NEXT: v_add_u32_e32 v3, 0xd8, v0
	; GCN-NEXT: v_add_u32_e32 v4, 0xdc, v0
	; GCN-NEXT: buffer_store_dword v51, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v51, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v52, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xd4, v0
	; GCN-NEXT: buffer_store_dword v53, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v52, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v54, v4, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xd8, v0
				; GCN-NEXT: buffer_store_dword v53, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xdc, v0
				; GCN-NEXT: buffer_store_dword v54, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xe0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xe0, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0xe4, v0
	; GCN-NEXT: v_add_u32_e32 v3, 0xe8, v0
	; GCN-NEXT: v_add_u32_e32 v4, 0xec, v0
	; GCN-NEXT: v_add_u32_e32 v5, 0xf0, v0
	; GCN-NEXT: v_add_u32_e32 v6, 0xf4, v0
	; GCN-NEXT: v_add_u32_e32 v7, 0xf8, v0
	; GCN-NEXT: v_add_u32_e32 v8, 0xfc, v0
	; GCN-NEXT: buffer_store_dword v55, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v55, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v56, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xe4, v0
	; GCN-NEXT: buffer_store_dword v57, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v56, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v58, v4, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xe8, v0
	; GCN-NEXT: buffer_store_dword v59, v5, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v57, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v60, v6, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xec, v0
	; GCN-NEXT: buffer_store_dword v61, v7, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v58, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v62, v8, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xf0, v0
	; GCN-NEXT: buffer_load_dword v1, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload			; GCN-NEXT: buffer_store_dword v59, v1, s[0:3], 0 offen
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: v_add_u32_e32 v1, 0xf4, v0
	; GCN-NEXT: v_and_b32_e32 v1, 63, v1			; GCN-NEXT: buffer_store_dword v60, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xf8, v0
				; GCN-NEXT: buffer_store_dword v61, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xfc, v0
				; GCN-NEXT: buffer_store_dword v62, v1, s[0:3], 0 offen
				; GCN-NEXT: v_and_b32_e32 v1, 63, v2
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 2, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 2, v1
	; GCN-NEXT: v_add_u32_e32 v0, v0, v1			; GCN-NEXT: v_add_u32_e32 v0, v0, v1
	; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Reload
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill
	; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11			; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11
	; GCN-NEXT: buffer_store_dword v2, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[3:6], v[15:16], off			; GCN-NEXT: global_load_dwordx4 v[3:6], v[15:16], off
	; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16			; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16
	; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc			; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc
	; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32			; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48			; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off			; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off
	; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16			; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32			; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48			; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off			; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off
	; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16			; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32			; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32
	; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33			; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33
	; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0			; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0
	; GCN-NEXT: v_add_u32_e32 v1, 16, v0			; GCN-NEXT: v_add_u32_e32 v1, 16, v0
	; GCN-NEXT: v_add_u32_e32 v2, 20, v0
	; GCN-NEXT: s_add_u32 s32, s32, 0x10000			; GCN-NEXT: s_add_u32 s32, s32, 0x10000
	; GCN-NEXT: s_sub_u32 s32, s32, 0x10000			; GCN-NEXT: s_sub_u32 s32, s32, 0x10000
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v35, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v35, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v36, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v36, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v37, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v37, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v38, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v38, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v39, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v39, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:640 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48			; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[43:46], v[59:60], off			; GCN-NEXT: global_load_dwordx4 v[43:46], v[59:60], off
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v51, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v51, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v52, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v52, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v53, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v53, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v54, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v54, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v55, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v55, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16			; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32			; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48			; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 20, v0
				; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 24, v0			; GCN-NEXT: v_add_u32_e32 v1, 24, v0
	; GCN-NEXT: buffer_store_dword v8, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 28, v0
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 28, v0
				; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 32, v0			; GCN-NEXT: v_add_u32_e32 v1, 32, v0
	; GCN-NEXT: v_add_u32_e32 v2, 36, v0
	; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 36, v0
				; GCN-NEXT: buffer_store_dword v12, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 40, v0			; GCN-NEXT: v_add_u32_e32 v1, 40, v0
	; GCN-NEXT: buffer_store_dword v12, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 44, v0
	; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 44, v0
				; GCN-NEXT: buffer_store_dword v14, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 48, v0			; GCN-NEXT: v_add_u32_e32 v1, 48, v0
	; GCN-NEXT: buffer_store_dword v14, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 52, v0
	; GCN-NEXT: buffer_store_dword v15, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v15, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 52, v0
				; GCN-NEXT: buffer_store_dword v16, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 56, v0			; GCN-NEXT: v_add_u32_e32 v1, 56, v0
	; GCN-NEXT: buffer_store_dword v16, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 60, v0
	; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v18, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 60, v0
				; GCN-NEXT: buffer_store_dword v18, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 64, v0			; GCN-NEXT: v_add_u32_e32 v1, 64, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0x44, v0
	; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x44, v0
				; GCN-NEXT: buffer_store_dword v20, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x48, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x48, v0
	; GCN-NEXT: buffer_store_dword v20, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x4c, v0
	; GCN-NEXT: buffer_store_dword v21, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v21, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x4c, v0
				; GCN-NEXT: buffer_store_dword v22, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0
	; GCN-NEXT: buffer_store_dword v22, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x54, v0
	; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x54, v0
				; GCN-NEXT: buffer_store_dword v24, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x58, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x58, v0
	; GCN-NEXT: buffer_store_dword v24, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x5c, v0
	; GCN-NEXT: buffer_store_dword v25, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v25, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v26, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0x5c, v0
				; GCN-NEXT: buffer_store_dword v26, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0x64, v0
	; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x64, v0
				; GCN-NEXT: buffer_store_dword v28, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x68, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x68, v0
	; GCN-NEXT: buffer_store_dword v28, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x6c, v0
	; GCN-NEXT: buffer_store_dword v29, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v29, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x6c, v0
				; GCN-NEXT: buffer_store_dword v30, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0
	; GCN-NEXT: buffer_store_dword v30, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x74, v0
	; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x74, v0
				; GCN-NEXT: buffer_store_dword v32, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x78, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x78, v0
	; GCN-NEXT: buffer_store_dword v32, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x7c, v0
	; GCN-NEXT: buffer_store_dword v33, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v33, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v34, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0x7c, v0
				; GCN-NEXT: buffer_store_dword v34, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0x84, v0
	; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x84, v0
				; GCN-NEXT: buffer_store_dword v36, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x88, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x88, v0
	; GCN-NEXT: buffer_store_dword v36, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x8c, v0
	; GCN-NEXT: buffer_store_dword v37, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v37, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x8c, v0
				; GCN-NEXT: buffer_store_dword v38, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0
	; GCN-NEXT: buffer_store_dword v38, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x94, v0
	; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x94, v0
				; GCN-NEXT: buffer_store_dword v40, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x98, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x98, v0
	; GCN-NEXT: buffer_store_dword v40, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x9c, v0
	; GCN-NEXT: buffer_store_dword v41, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v41, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v42, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0x9c, v0
	; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload			; GCN-NEXT: buffer_store_dword v42, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:640 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0xa4, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v8, v15			; GCN-NEXT: v_mov_b32_e32 v8, v15
	; GCN-NEXT: v_mov_b32_e32 v9, v16
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
				; GCN-NEXT: v_mov_b32_e32 v9, v16
				; GCN-NEXT: v_add_u32_e32 v1, 0xa4, v0
				; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v10, v17			; GCN-NEXT: v_mov_b32_e32 v10, v17
	; GCN-NEXT: v_add_u32_e32 v1, 0xa8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xa8, v0
	; GCN-NEXT: buffer_store_dword v9, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0
	; GCN-NEXT: v_mov_b32_e32 v11, v18			; GCN-NEXT: v_mov_b32_e32 v11, v18
	; GCN-NEXT: v_add_u32_e32 v2, 0xac, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xac, v0
	; GCN-NEXT: buffer_store_dword v11, v2, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0xb4, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0
	; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xb4, v0
				; GCN-NEXT: buffer_store_dword v48, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xb8, v0
	; GCN-NEXT: buffer_store_dword v48, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0xbc, v0
	; GCN-NEXT: buffer_store_dword v49, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v49, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v50, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xbc, v0
	; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload			; GCN-NEXT: buffer_store_dword v50, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v2, 0xc4, v0			; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v8, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0xcc, v0
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xc4, v0
				; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xc8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xc8, v0
	; GCN-NEXT: buffer_store_dword v10, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 4, v0
	; GCN-NEXT: v_add_u32_e32 v7, 8, v0
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v4, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xcc, v0
	; GCN-NEXT: v_add_u32_e32 v2, 12, v0			; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v7, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 4, v0
	; GCN-NEXT: buffer_store_dword v6, v2, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 8, v0
				; GCN-NEXT: buffer_store_dword v5, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 12, v0
				; GCN-NEXT: buffer_store_dword v6, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:256			; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:256
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload			; GCN-NEXT: v_add_u32_e32 v3, 0xd0, v0
	; GCN-NEXT: v_add_u32_e32 v1, 0xd0, v0			; GCN-NEXT: buffer_store_dword v51, v3, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v3, 0xd4, v0			; GCN-NEXT: v_add_u32_e32 v3, 0xd4, v0
	; GCN-NEXT: v_add_u32_e32 v4, 0xd8, v0
	; GCN-NEXT: v_add_u32_e32 v5, 0xdc, v0
	; GCN-NEXT: buffer_store_dword v51, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v52, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v52, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v53, v4, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v3, 0xd8, v0
	; GCN-NEXT: buffer_store_dword v54, v5, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v53, v3, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xe0, v0			; GCN-NEXT: v_add_u32_e32 v3, 0xdc, v0
				; GCN-NEXT: buffer_store_dword v54, v3, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v3, 0xe0, v0
				; GCN-NEXT: buffer_store_dword v55, v3, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v3, 0xe4, v0			; GCN-NEXT: v_add_u32_e32 v3, 0xe4, v0
	; GCN-NEXT: v_add_u32_e32 v4, 0xe8, v0
	; GCN-NEXT: v_add_u32_e32 v5, 0xec, v0
	; GCN-NEXT: v_add_u32_e32 v6, 0xf0, v0
	; GCN-NEXT: v_add_u32_e32 v7, 0xf4, v0
	; GCN-NEXT: v_add_u32_e32 v8, 0xf8, v0
	; GCN-NEXT: v_add_u32_e32 v9, 0xfc, v0
	; GCN-NEXT: buffer_store_dword v55, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v56, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v56, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v57, v4, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v3, 0xe8, v0
	; GCN-NEXT: buffer_store_dword v58, v5, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v57, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v59, v6, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v3, 0xec, v0
	; GCN-NEXT: buffer_store_dword v60, v7, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v58, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v61, v8, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v3, 0xf0, v0
	; GCN-NEXT: buffer_store_dword v62, v9, s[0:3], 0 offen			; GCN-NEXT: v_lshrrev_b32_e32 v1, 1, v2
	; GCN-NEXT: s_waitcnt vmcnt(12)			; GCN-NEXT: buffer_store_dword v59, v3, s[0:3], 0 offen
	; GCN-NEXT: v_lshrrev_b32_e32 v2, 1, v10			; GCN-NEXT: v_add_u32_e32 v3, 0xf4, v0
	; GCN-NEXT: v_and_b32_e32 v1, 63, v2			; GCN-NEXT: v_and_b32_e32 v1, 63, v1
				; GCN-NEXT: buffer_store_dword v60, v3, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v3, 0xf8, v0
				; GCN-NEXT: buffer_store_dword v61, v3, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v3, 0xfc, v0
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 2, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 2, v1
	; GCN-NEXT: v_add_u32_e32 v0, v0, v1			; GCN-NEXT: v_add_u32_e32 v0, v0, v1
				; GCN-NEXT: buffer_store_dword v62, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v47, off, s[0:3], s33 offset:28 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v47, off, s[0:3], s33 offset:28 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v46, off, s[0:3], s33 offset:32 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v46, off, s[0:3], s33 offset:32 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v45, off, s[0:3], s33 offset:36 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v45, off, s[0:3], s33 offset:36 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v44, off, s[0:3], s33 offset:40 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v44, off, s[0:3], s33 offset:40 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v43, off, s[0:3], s33 offset:44 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v43, off, s[0:3], s33 offset:44 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v42, off, s[0:3], s33 offset:48 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v42, off, s[0:3], s33 offset:48 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v41, off, s[0:3], s33 offset:52 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v41, off, s[0:3], s33 offset:52 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v40, off, s[0:3], s33 offset:56 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v40, off, s[0:3], s33 offset:56 ; 4-byte Folded Reload
	; GCN-NEXT: v_and_b32_e32 v1, 1, v10			; GCN-NEXT: v_and_b32_e32 v1, 1, v2
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GCN-NEXT: s_mov_b32 s33, s6			; GCN-NEXT: s_mov_b32 s33, s6
	; GCN-NEXT: s_waitcnt vmcnt(15)			; GCN-NEXT: s_waitcnt vmcnt(15)
	; GCN-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GCN-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	%vec = load <128 x i16>, <128 x i16> addrspace(1)* %ptr			%vec = load <128 x i16>, <128 x i16> addrspace(1)* %ptr
	%elt = extractelement <128 x i16> %vec, i32 %idx			%elt = extractelement <128 x i16> %vec, i32 %idx
	ret i16 %elt			ret i16 %elt
	}			}

	define i64 @v_extract_v32i64_varidx(<32 x i64> addrspace(1)* %ptr, i32 %idx) {			define i64 @v_extract_v32i64_varidx(<32 x i64> addrspace(1)* %ptr, i32 %idx) {
	; GCN-LABEL: v_extract_v32i64_varidx:			; GCN-LABEL: v_extract_v32i64_varidx:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_mov_b32_e32 v15, v0
	; GCN-NEXT: s_add_u32 s4, s32, 0x3fc0			; GCN-NEXT: s_add_u32 s4, s32, 0x3fc0
				; GCN-NEXT: s_mov_b32 s5, 0
	; GCN-NEXT: s_mov_b32 s6, s33			; GCN-NEXT: s_mov_b32 s6, s33
	; GCN-NEXT: s_and_b32 s33, s4, 0xffffc000			; GCN-NEXT: s_and_b32 s33, s4, 0xffffc000
				; GCN-NEXT: s_movk_i32 s4, 0x80
				; GCN-NEXT: v_mov_b32_e32 v12, s5
				; GCN-NEXT: v_mov_b32_e32 v16, v1
				; GCN-NEXT: v_add_co_u32_e32 v31, vcc, 64, v15
				; GCN-NEXT: v_mov_b32_e32 v11, s4
				; GCN-NEXT: v_addc_co_u32_e32 v32, vcc, 0, v16, vcc
				; GCN-NEXT: v_add_co_u32_e32 v48, vcc, v15, v11
				; GCN-NEXT: v_addc_co_u32_e32 v49, vcc, v16, v12, vcc
				; GCN-NEXT: s_movk_i32 s4, 0xc0
				; GCN-NEXT: v_mov_b32_e32 v12, s5
				; GCN-NEXT: v_mov_b32_e32 v11, s4
	; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:56 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:56 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:52 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:52 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:48 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:48 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:44 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:44 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:40 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:40 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:36 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:36 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:32 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:32 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:28 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:28 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill
	; GCN-NEXT: v_mov_b32_e32 v15, v0
	; GCN-NEXT: v_mov_b32_e32 v16, v1
	; GCN-NEXT: buffer_store_dword v2, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[0:3], v[15:16], off
	; GCN-NEXT: s_mov_b32 s5, 0
	; GCN-NEXT: v_add_co_u32_e32 v31, vcc, 64, v15
	; GCN-NEXT: s_movk_i32 s4, 0x80
	; GCN-NEXT: v_addc_co_u32_e32 v32, vcc, 0, v16, vcc
	; GCN-NEXT: s_add_u32 s32, s32, 0x10000
	; GCN-NEXT: s_sub_u32 s32, s32, 0x10000
	; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v0, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v1, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v2, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v4, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v5, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v6, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v7, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v8, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v9, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v10, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v11, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v12, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v13, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v14, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v15, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill
	; GCN-NEXT: v_mov_b32_e32 v12, s5
	; GCN-NEXT: v_mov_b32_e32 v11, s4
	; GCN-NEXT: v_add_co_u32_e32 v48, vcc, v15, v11
	; GCN-NEXT: v_addc_co_u32_e32 v49, vcc, v16, v12, vcc
	; GCN-NEXT: s_movk_i32 s4, 0xc0
	; GCN-NEXT: v_mov_b32_e32 v12, s5
	; GCN-NEXT: v_mov_b32_e32 v11, s4
	; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11			; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11
				; GCN-NEXT: global_load_dwordx4 v[3:6], v[15:16], off
	; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16			; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16
	; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc			; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc
	; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32			; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48			; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off			; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off
	; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16			; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32			; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48			; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off			; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off
	; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16			; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32			; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[3:6], v[59:60], off
	; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33			; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33
	; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0			; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0
	; GCN-NEXT: v_add_u32_e32 v1, 16, v0			; GCN-NEXT: v_add_u32_e32 v1, 16, v0
	; GCN-NEXT: v_add_u32_e32 v2, 24, v0			; GCN-NEXT: s_add_u32 s32, s32, 0x10000
				; GCN-NEXT: s_sub_u32 s32, s32, 0x10000
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v35, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v4, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v36, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v5, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v37, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v6, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v38, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v7, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v39, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v8, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v9, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v10, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v11, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v12, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v13, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v14, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v15, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v16, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v17, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v18, off, s[0:3], s33 offset:640 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill
				; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48
				; GCN-NEXT: global_load_dwordx4 v[43:46], v[59:60], off
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v51, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v52, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v53, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v54, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v55, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16			; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32			; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48			; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v9, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 20, v0
	; GCN-NEXT: v_add_u32_e32 v2, 20, v0			; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 44, v0			; GCN-NEXT: v_add_u32_e32 v1, 24, v0
	; GCN-NEXT: v_add_u32_e32 v7, 28, v0			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v9, 36, v0			; GCN-NEXT: v_add_u32_e32 v1, 28, v0
	; GCN-NEXT: buffer_store_dword v8, v2, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v7, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 32, v0
	; GCN-NEXT: buffer_store_dword v12, v9, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v14, v1, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 36, v0
				; GCN-NEXT: buffer_store_dword v12, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 40, v0			; GCN-NEXT: v_add_u32_e32 v1, 40, v0
	; GCN-NEXT: v_add_u32_e32 v3, 32, v0
	; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 48, v0			; GCN-NEXT: v_add_u32_e32 v1, 44, v0
				; GCN-NEXT: buffer_store_dword v14, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 48, v0
				; GCN-NEXT: buffer_store_dword v15, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 52, v0
				; GCN-NEXT: buffer_store_dword v16, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 56, v0			; GCN-NEXT: v_add_u32_e32 v1, 56, v0
	; GCN-NEXT: buffer_store_dword v11, v3, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v4, 52, v0
	; GCN-NEXT: v_add_u32_e32 v5, 60, v0
	; GCN-NEXT: buffer_store_dword v15, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v16, v4, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 60, v0
	; GCN-NEXT: buffer_store_dword v18, v5, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v18, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x44, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0x4c, v0
	; GCN-NEXT: buffer_store_dword v20, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v22, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 64, v0			; GCN-NEXT: v_add_u32_e32 v1, 64, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0x48, v0
	; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x44, v0
				; GCN-NEXT: buffer_store_dword v20, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x48, v0
				; GCN-NEXT: buffer_store_dword v21, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x4c, v0
				; GCN-NEXT: buffer_store_dword v22, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0
	; GCN-NEXT: buffer_store_dword v21, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x58, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x54, v0
				; GCN-NEXT: buffer_store_dword v24, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x58, v0
				; GCN-NEXT: buffer_store_dword v25, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x5c, v0
				; GCN-NEXT: buffer_store_dword v26, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0
	; GCN-NEXT: v_add_u32_e32 v3, 0x54, v0
	; GCN-NEXT: v_add_u32_e32 v4, 0x5c, v0
	; GCN-NEXT: v_add_u32_e32 v5, 0x64, v0
	; GCN-NEXT: v_add_u32_e32 v6, 0x6c, v0
	; GCN-NEXT: buffer_store_dword v25, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v24, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v26, v4, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v28, v5, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v30, v6, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x68, v0
	; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x64, v0
				; GCN-NEXT: buffer_store_dword v28, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x68, v0
				; GCN-NEXT: buffer_store_dword v29, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x6c, v0
				; GCN-NEXT: buffer_store_dword v30, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0
	; GCN-NEXT: buffer_store_dword v29, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v7, 0x74, v0
	; GCN-NEXT: v_add_u32_e32 v8, 0x7c, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0x78, v0
	; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v33, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0x74, v0
	; GCN-NEXT: buffer_store_dword v32, v7, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v32, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v34, v8, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0x78, v0
	; GCN-NEXT: v_add_u32_e32 v1, 0x84, v0			; GCN-NEXT: buffer_store_dword v33, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x8c, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x7c, v0
	; GCN-NEXT: buffer_store_dword v36, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v34, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v38, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0x88, v0
	; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x84, v0
				; GCN-NEXT: buffer_store_dword v36, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x88, v0
				; GCN-NEXT: buffer_store_dword v37, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x8c, v0
				; GCN-NEXT: buffer_store_dword v38, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0
	; GCN-NEXT: buffer_store_dword v37, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0x98, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x94, v0
				; GCN-NEXT: buffer_store_dword v40, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x98, v0
				; GCN-NEXT: buffer_store_dword v41, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0x9c, v0
				; GCN-NEXT: buffer_store_dword v42, v1, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0
	; GCN-NEXT: v_add_u32_e32 v3, 0x94, v0			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_add_u32_e32 v4, 0x9c, v0			; GCN-NEXT: v_mov_b32_e32 v8, v15
	; GCN-NEXT: v_add_u32_e32 v5, 0xa4, v0			; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v6, 0xac, v0			; GCN-NEXT: v_mov_b32_e32 v9, v16
	; GCN-NEXT: buffer_store_dword v41, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xa4, v0
	; GCN-NEXT: buffer_store_dword v40, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v42, v4, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v10, v17
	; GCN-NEXT: buffer_store_dword v44, v5, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xa8, v0
	; GCN-NEXT: buffer_store_dword v46, v6, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0xa8, v0			; GCN-NEXT: v_mov_b32_e32 v11, v18
	; GCN-NEXT: buffer_store_dword v43, v1, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xac, v0
				; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0
	; GCN-NEXT: buffer_store_dword v45, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v7, 0xb4, v0
	; GCN-NEXT: v_add_u32_e32 v8, 0xbc, v0
	; GCN-NEXT: v_add_u32_e32 v2, 0xb8, v0
	; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v49, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xb4, v0
	; GCN-NEXT: buffer_store_dword v48, v7, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v48, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v50, v8, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xb8, v0
	; GCN-NEXT: buffer_load_dword v3, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload			; GCN-NEXT: buffer_store_dword v49, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v4, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload			; GCN-NEXT: v_add_u32_e32 v1, 0xbc, v0
	; GCN-NEXT: buffer_load_dword v5, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload			; GCN-NEXT: buffer_store_dword v50, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v6, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:640 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v2, 0xc8, v0			; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_add_u32_e32 v7, 0xec, v0			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v8, 0xf4, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xc4, v0
	; GCN-NEXT: v_mov_b32_e32 v12, v6			; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xc8, v0
	; GCN-NEXT: v_mov_b32_e32 v10, v4			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0xc4, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xcc, v0
	; GCN-NEXT: buffer_store_dword v3, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v9, v3			; GCN-NEXT: v_add_u32_e32 v1, 4, v0
	; GCN-NEXT: v_mov_b32_e32 v11, v5			; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v3, 0xcc, v0			; GCN-NEXT: v_add_u32_e32 v1, 8, v0
	; GCN-NEXT: buffer_store_dword v10, v2, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v5, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v12, v3, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 12, v0
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload			; GCN-NEXT: buffer_store_dword v6, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload			; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:256
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v23, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v24, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v25, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v2, 8, v0
	; GCN-NEXT: v_add_u32_e32 v1, 0xd0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xd0, v0
	; GCN-NEXT: v_add_u32_e32 v3, 12, v0
	; GCN-NEXT: v_add_u32_e32 v4, 0xd4, v0
	; GCN-NEXT: v_add_u32_e32 v5, 0xdc, v0
	; GCN-NEXT: v_add_u32_e32 v6, 0xe4, v0
	; GCN-NEXT: v_add_u32_e32 v9, 0xfc, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v12, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 4, v0
	; GCN-NEXT: buffer_store_dword v11, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v13, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, off, s[0:3], s33 offset:256
	; GCN-NEXT: v_add_u32_e32 v2, 0xd8, v0
	; GCN-NEXT: v_add_u32_e32 v3, 0xe0, v0
	; GCN-NEXT: buffer_store_dword v51, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v51, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xd4, v0
				; GCN-NEXT: buffer_store_dword v52, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xd8, v0
				; GCN-NEXT: buffer_store_dword v53, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xdc, v0
				; GCN-NEXT: buffer_store_dword v54, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xe0, v0
				; GCN-NEXT: buffer_store_dword v55, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xe4, v0
				; GCN-NEXT: buffer_store_dword v56, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xe8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xe8, v0
	; GCN-NEXT: buffer_store_dword v53, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v55, v3, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v2, 0xf0, v0
	; GCN-NEXT: v_add_u32_e32 v3, 0xf8, v0
	; GCN-NEXT: buffer_store_dword v57, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v57, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v59, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xec, v0
	; GCN-NEXT: buffer_store_dword v61, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v58, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v52, v4, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xf0, v0
	; GCN-NEXT: buffer_store_dword v54, v5, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v59, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v56, v6, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xf4, v0
	; GCN-NEXT: buffer_store_dword v58, v7, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v60, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v60, v8, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xf8, v0
	; GCN-NEXT: buffer_store_dword v62, v9, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v61, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v1, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload			; GCN-NEXT: v_add_u32_e32 v1, 0xfc, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: buffer_store_dword v62, v1, s[0:3], 0 offen
	; GCN-NEXT: v_and_b32_e32 v1, 31, v1			; GCN-NEXT: v_and_b32_e32 v1, 31, v2
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GCN-NEXT: v_add_u32_e32 v0, v0, v1			; GCN-NEXT: v_add_u32_e32 v0, v0, v1
	; GCN-NEXT: v_add_u32_e32 v1, 4, v0			; GCN-NEXT: v_add_u32_e32 v1, 4, v0
	; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v1, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v1, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload
	Show All 19 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement-stack-lower.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN %s			; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN %s

	; Check lowering of some large insertelement that use the stack			; Check lowering of some large insertelement that use the stack
	; instead of register indexing.			; instead of register indexing.

	define amdgpu_kernel void @v_insert_v64i32_varidx(<64 x i32> addrspace(1)* %out.ptr, <64 x i32> addrspace(1)* %ptr, i32 %val, i32 %idx) #0 {			define amdgpu_kernel void @v_insert_v64i32_varidx(<64 x i32> addrspace(1)* %out.ptr, <64 x i32> addrspace(1)* %ptr, i32 %val, i32 %idx) #0 {
	; GCN-LABEL: v_insert_v64i32_varidx:			; GCN-LABEL: v_insert_v64i32_varidx:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_add_u32 s0, s0, s7			; GCN-NEXT: s_add_u32 s0, s0, s7
	; GCN-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x0
	; GCN-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10			; GCN-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10
	; GCN-NEXT: v_mov_b32_e32 v0, 0x100			; GCN-NEXT: v_mov_b32_e32 v16, 0x100
	; GCN-NEXT: s_addc_u32 s1, s1, 0			; GCN-NEXT: s_addc_u32 s1, s1, 0
	; GCN-NEXT: v_add_u32_e32 v1, 4, v0			; GCN-NEXT: v_add_u32_e32 v31, 64, v16
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_load_dwordx16 s[12:27], s[10:11], 0x0			; GCN-NEXT: s_load_dwordx16 s[12:27], s[10:11], 0x0
	; GCN-NEXT: s_load_dwordx16 s[68:83], s[10:11], 0x40			; GCN-NEXT: s_load_dwordx16 s[52:67], s[10:11], 0x40
	; GCN-NEXT: s_load_dwordx16 s[52:67], s[10:11], 0x80			; GCN-NEXT: s_load_dwordx16 s[36:51], s[10:11], 0x80
	; GCN-NEXT: s_load_dwordx16 s[36:51], s[10:11], 0xc0			; GCN-NEXT: v_add_u32_e32 v32, 0x44, v16
	; GCN-NEXT: s_movk_i32 s4, 0x50			; GCN-NEXT: v_add_u32_e32 v33, 0x48, v16
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v4, s13			; GCN-NEXT: v_mov_b32_e32 v0, s12
	; GCN-NEXT: v_mov_b32_e32 v5, s14			; GCN-NEXT: v_mov_b32_e32 v1, s13
	; GCN-NEXT: v_mov_b32_e32 v6, s15			; GCN-NEXT: v_mov_b32_e32 v2, s14
	; GCN-NEXT: v_mov_b32_e32 v8, s16			; GCN-NEXT: v_mov_b32_e32 v3, s15
	; GCN-NEXT: v_mov_b32_e32 v10, s17			; GCN-NEXT: v_mov_b32_e32 v4, s16
	; GCN-NEXT: v_mov_b32_e32 v12, s18			; GCN-NEXT: v_mov_b32_e32 v5, s17
	; GCN-NEXT: v_mov_b32_e32 v14, s19			; GCN-NEXT: v_mov_b32_e32 v6, s18
				; GCN-NEXT: v_mov_b32_e32 v7, s19
				; GCN-NEXT: v_mov_b32_e32 v8, s20
				; GCN-NEXT: v_mov_b32_e32 v9, s21
				; GCN-NEXT: v_mov_b32_e32 v10, s22
				; GCN-NEXT: v_mov_b32_e32 v11, s23
				; GCN-NEXT: v_mov_b32_e32 v12, s24
				; GCN-NEXT: v_mov_b32_e32 v13, s25
				; GCN-NEXT: v_mov_b32_e32 v14, s26
				; GCN-NEXT: v_mov_b32_e32 v15, s27
				; GCN-NEXT: s_load_dwordx16 s[12:27], s[10:11], 0xc0
				; GCN-NEXT: buffer_store_dword v0, off, s[0:3], 0 offset:256
				; GCN-NEXT: v_add_u32_e32 v0, 4, v16
				; GCN-NEXT: buffer_store_dword v1, v0, s[0:3], 0 offen
				; GCN-NEXT: v_mov_b32_e32 v1, s52
				; GCN-NEXT: buffer_store_dword v1, v31, s[0:3], 0 offen
				; GCN-NEXT: v_mov_b32_e32 v1, s53
				; GCN-NEXT: buffer_store_dword v1, v32, s[0:3], 0 offen
				; GCN-NEXT: v_mov_b32_e32 v1, s54
				; GCN-NEXT: buffer_store_dword v1, v33, s[0:3], 0 offen
				; GCN-NEXT: s_movk_i32 s4, 0x50
				; GCN-NEXT: v_add_u32_e32 v34, 0x4c, v16
				; GCN-NEXT: v_mov_b32_e32 v1, s55
				; GCN-NEXT: buffer_store_dword v1, v34, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v35, s4, v16
				; GCN-NEXT: v_mov_b32_e32 v1, s56
				; GCN-NEXT: buffer_store_dword v1, v35, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v36, 0x54, v16
				; GCN-NEXT: v_mov_b32_e32 v1, s57
				; GCN-NEXT: buffer_store_dword v1, v36, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v37, 0x58, v16
				; GCN-NEXT: v_mov_b32_e32 v1, s58
				; GCN-NEXT: buffer_store_dword v1, v37, s[0:3], 0 offen
	; GCN-NEXT: s_movk_i32 s5, 0x60			; GCN-NEXT: s_movk_i32 s5, 0x60
	; GCN-NEXT: v_add_u32_e32 v2, 8, v0			; GCN-NEXT: v_add_u32_e32 v38, 0x5c, v16
	; GCN-NEXT: v_add_u32_e32 v3, 12, v0			; GCN-NEXT: v_mov_b32_e32 v1, s59
	; GCN-NEXT: v_add_u32_e32 v7, 16, v0			; GCN-NEXT: buffer_store_dword v1, v38, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v9, 20, v0			; GCN-NEXT: v_add_u32_e32 v39, s5, v16
	; GCN-NEXT: v_add_u32_e32 v11, 24, v0			; GCN-NEXT: v_mov_b32_e32 v1, s60
	; GCN-NEXT: v_add_u32_e32 v13, 28, v0			; GCN-NEXT: buffer_store_dword v1, v39, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v15, 32, v0			; GCN-NEXT: v_add_u32_e32 v40, 0x64, v16
	; GCN-NEXT: v_mov_b32_e32 v16, s20			; GCN-NEXT: v_mov_b32_e32 v1, s61
	; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v40, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v41, 0x68, v16
	; GCN-NEXT: buffer_store_dword v6, v3, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v1, s62
	; GCN-NEXT: buffer_store_dword v8, v7, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v41, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v9, s[0:3], 0 offen			; GCN-NEXT: s_movk_i32 s10, 0x70
	; GCN-NEXT: buffer_store_dword v12, v11, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v42, 0x6c, v16
	; GCN-NEXT: buffer_store_dword v14, v13, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v1, s63
	; GCN-NEXT: buffer_store_dword v16, v15, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v42, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v17, 36, v0			; GCN-NEXT: v_add_u32_e32 v43, s10, v16
	; GCN-NEXT: v_mov_b32_e32 v18, s21			; GCN-NEXT: v_mov_b32_e32 v1, s64
	; GCN-NEXT: v_mov_b32_e32 v26, s25			; GCN-NEXT: buffer_store_dword v1, v43, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v33, 0x44, v0			; GCN-NEXT: v_add_u32_e32 v44, 0x74, v16
	; GCN-NEXT: v_mov_b32_e32 v34, s69			; GCN-NEXT: v_mov_b32_e32 v1, s65
	; GCN-NEXT: v_mov_b32_e32 v4, s71			; GCN-NEXT: buffer_store_dword v1, v44, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v19, 40, v0			; GCN-NEXT: v_add_u32_e32 v45, 0x78, v16
	; GCN-NEXT: v_mov_b32_e32 v20, s22			; GCN-NEXT: v_mov_b32_e32 v1, s66
	; GCN-NEXT: v_add_u32_e32 v21, 44, v0			; GCN-NEXT: buffer_store_dword v1, v45, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v22, s23			; GCN-NEXT: v_add_u32_e32 v46, 0x7c, v16
	; GCN-NEXT: v_add_u32_e32 v23, 48, v0			; GCN-NEXT: v_mov_b32_e32 v1, s67
	; GCN-NEXT: v_mov_b32_e32 v24, s24			; GCN-NEXT: buffer_store_dword v1, v46, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v25, 52, v0			; GCN-NEXT: v_add_u32_e32 v47, 0x80, v16
	; GCN-NEXT: v_add_u32_e32 v27, 56, v0			; GCN-NEXT: v_mov_b32_e32 v1, s36
	; GCN-NEXT: v_mov_b32_e32 v28, s26			; GCN-NEXT: buffer_store_dword v1, v47, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v29, 60, v0			; GCN-NEXT: v_add_u32_e32 v48, 0x84, v16
	; GCN-NEXT: v_mov_b32_e32 v30, s27			; GCN-NEXT: v_mov_b32_e32 v1, s37
	; GCN-NEXT: v_add_u32_e32 v31, 64, v0			; GCN-NEXT: buffer_store_dword v1, v48, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v32, s68			; GCN-NEXT: v_add_u32_e32 v49, 0x88, v16
	; GCN-NEXT: buffer_store_dword v18, v17, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v1, s38
	; GCN-NEXT: buffer_store_dword v20, v19, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v49, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v22, v21, s[0:3], 0 offen			; GCN-NEXT: s_movk_i32 s11, 0x90
	; GCN-NEXT: buffer_store_dword v24, v23, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v50, 0x8c, v16
	; GCN-NEXT: buffer_store_dword v26, v25, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v1, s39
	; GCN-NEXT: buffer_store_dword v28, v27, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v50, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v30, v29, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v51, s11, v16
	; GCN-NEXT: buffer_store_dword v32, v31, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v1, s40
	; GCN-NEXT: s_movk_i32 s13, 0x70			; GCN-NEXT: buffer_store_dword v1, v51, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v35, 0x48, v0			; GCN-NEXT: v_add_u32_e32 v52, 0x94, v16
	; GCN-NEXT: v_mov_b32_e32 v36, s70			; GCN-NEXT: v_mov_b32_e32 v1, s41
	; GCN-NEXT: v_add_u32_e32 v37, 0x4c, v0			; GCN-NEXT: buffer_store_dword v1, v52, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v38, s4, v0			; GCN-NEXT: v_add_u32_e32 v53, 0x98, v16
	; GCN-NEXT: v_mov_b32_e32 v5, s72			; GCN-NEXT: v_mov_b32_e32 v1, s42
	; GCN-NEXT: v_add_u32_e32 v39, 0x54, v0			; GCN-NEXT: buffer_store_dword v1, v53, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v6, s73			; GCN-NEXT: s_movk_i32 s28, 0xa0
	; GCN-NEXT: v_add_u32_e32 v40, 0x58, v0			; GCN-NEXT: v_add_u32_e32 v54, 0x9c, v16
	; GCN-NEXT: v_mov_b32_e32 v8, s74			; GCN-NEXT: v_mov_b32_e32 v1, s43
	; GCN-NEXT: v_add_u32_e32 v41, 0x5c, v0			; GCN-NEXT: buffer_store_dword v1, v54, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v10, s75			; GCN-NEXT: v_add_u32_e32 v55, s28, v16
	; GCN-NEXT: v_add_u32_e32 v42, s5, v0			; GCN-NEXT: v_mov_b32_e32 v1, s44
	; GCN-NEXT: v_mov_b32_e32 v12, s76			; GCN-NEXT: buffer_store_dword v1, v55, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v34, v33, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v56, 0xa4, v16
	; GCN-NEXT: buffer_store_dword v36, v35, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v1, s45
	; GCN-NEXT: buffer_store_dword v4, v37, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v56, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v38, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v57, 0xa8, v16
	; GCN-NEXT: buffer_store_dword v6, v39, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v1, s46
	; GCN-NEXT: buffer_store_dword v8, v40, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v57, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v41, s[0:3], 0 offen			; GCN-NEXT: s_movk_i32 s29, 0xb0
	; GCN-NEXT: buffer_store_dword v12, v42, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v58, 0xac, v16
	; GCN-NEXT: v_add_u32_e32 v26, 0x64, v0			; GCN-NEXT: v_mov_b32_e32 v1, s47
	; GCN-NEXT: v_mov_b32_e32 v14, s77			; GCN-NEXT: buffer_store_dword v1, v58, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v4, s81			; GCN-NEXT: v_add_u32_e32 v59, s29, v16
	; GCN-NEXT: s_movk_i32 s14, 0x90			; GCN-NEXT: v_mov_b32_e32 v1, s48
	; GCN-NEXT: s_movk_i32 s15, 0xa0			; GCN-NEXT: buffer_store_dword v1, v59, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v28, 0x68, v0			; GCN-NEXT: v_add_u32_e32 v60, 0xb4, v16
	; GCN-NEXT: v_mov_b32_e32 v16, s78			; GCN-NEXT: v_mov_b32_e32 v1, s49
	; GCN-NEXT: v_add_u32_e32 v30, 0x6c, v0			; GCN-NEXT: buffer_store_dword v1, v60, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v18, s79			; GCN-NEXT: v_add_u32_e32 v61, 0xb8, v16
	; GCN-NEXT: v_add_u32_e32 v32, s13, v0			; GCN-NEXT: v_mov_b32_e32 v1, s50
	; GCN-NEXT: v_mov_b32_e32 v20, s80			; GCN-NEXT: buffer_store_dword v1, v61, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v34, 0x74, v0			; GCN-NEXT: v_add_u32_e32 v62, 0xbc, v16
	; GCN-NEXT: v_add_u32_e32 v36, 0x78, v0			; GCN-NEXT: v_mov_b32_e32 v1, s51
	; GCN-NEXT: v_mov_b32_e32 v5, s82			; GCN-NEXT: buffer_store_dword v1, v62, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v43, 0x7c, v0			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v6, s83			; GCN-NEXT: v_mov_b32_e32 v1, s12
	; GCN-NEXT: v_add_u32_e32 v44, 0x80, v0			; GCN-NEXT: v_add_u32_e32 v63, 0xc0, v16
	; GCN-NEXT: v_mov_b32_e32 v8, s52			; GCN-NEXT: buffer_store_dword v1, v63, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v14, v26, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v1, s13
	; GCN-NEXT: buffer_store_dword v16, v28, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v64, 0xc4, v16
	; GCN-NEXT: buffer_store_dword v18, v30, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v64, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v20, v32, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v1, s14
	; GCN-NEXT: buffer_store_dword v4, v34, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v65, 0xc8, v16
	; GCN-NEXT: buffer_store_dword v5, v36, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v65, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v43, s[0:3], 0 offen			; GCN-NEXT: s_movk_i32 s12, 0xd0
	; GCN-NEXT: buffer_store_dword v8, v44, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v66, 0xcc, v16
	; GCN-NEXT: v_add_u32_e32 v45, 0x84, v0			; GCN-NEXT: v_mov_b32_e32 v1, s15
	; GCN-NEXT: v_mov_b32_e32 v4, s53			; GCN-NEXT: buffer_store_dword v1, v66, s[0:3], 0 offen
	; GCN-NEXT: s_movk_i32 s16, 0xb0			; GCN-NEXT: v_add_u32_e32 v67, s12, v16
	; GCN-NEXT: v_add_u32_e32 v46, 0x88, v0			; GCN-NEXT: v_mov_b32_e32 v1, s16
	; GCN-NEXT: v_mov_b32_e32 v5, s54			; GCN-NEXT: buffer_store_dword v1, v67, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v47, 0x8c, v0			; GCN-NEXT: v_add_u32_e32 v68, 0xd4, v16
	; GCN-NEXT: v_mov_b32_e32 v6, s55			; GCN-NEXT: v_mov_b32_e32 v1, s17
	; GCN-NEXT: v_add_u32_e32 v48, s14, v0			; GCN-NEXT: buffer_store_dword v1, v68, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v8, s56			; GCN-NEXT: v_add_u32_e32 v69, 0xd8, v16
	; GCN-NEXT: v_add_u32_e32 v49, 0x94, v0			; GCN-NEXT: v_mov_b32_e32 v1, s18
	; GCN-NEXT: v_mov_b32_e32 v10, s57			; GCN-NEXT: buffer_store_dword v1, v69, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v50, 0x98, v0			; GCN-NEXT: s_movk_i32 s13, 0xe0
	; GCN-NEXT: v_mov_b32_e32 v12, s58			; GCN-NEXT: v_add_u32_e32 v70, 0xdc, v16
	; GCN-NEXT: v_add_u32_e32 v51, 0x9c, v0			; GCN-NEXT: v_mov_b32_e32 v1, s19
	; GCN-NEXT: v_mov_b32_e32 v14, s59			; GCN-NEXT: buffer_store_dword v1, v70, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v52, s15, v0			; GCN-NEXT: v_add_u32_e32 v71, s13, v16
	; GCN-NEXT: v_mov_b32_e32 v16, s60			; GCN-NEXT: v_mov_b32_e32 v1, s20
	; GCN-NEXT: buffer_store_dword v4, v45, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v71, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v46, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v72, 0xe4, v16
	; GCN-NEXT: buffer_store_dword v6, v47, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v1, s21
	; GCN-NEXT: buffer_store_dword v8, v48, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v72, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v49, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v73, 0xe8, v16
	; GCN-NEXT: buffer_store_dword v12, v50, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v1, s22
	; GCN-NEXT: buffer_store_dword v14, v51, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v73, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v16, v52, s[0:3], 0 offen			; GCN-NEXT: s_movk_i32 s14, 0xf0
	; GCN-NEXT: v_add_u32_e32 v53, 0xa4, v0			; GCN-NEXT: v_add_u32_e32 v74, 0xec, v16
	; GCN-NEXT: v_mov_b32_e32 v4, s61			; GCN-NEXT: v_mov_b32_e32 v1, s23
	; GCN-NEXT: s_movk_i32 s17, 0xd0			; GCN-NEXT: buffer_store_dword v1, v74, s[0:3], 0 offen
	; GCN-NEXT: s_movk_i32 s18, 0xe0			; GCN-NEXT: v_add_u32_e32 v75, s14, v16
	; GCN-NEXT: v_add_u32_e32 v54, 0xa8, v0			; GCN-NEXT: v_mov_b32_e32 v1, s24
	; GCN-NEXT: v_mov_b32_e32 v5, s62			; GCN-NEXT: buffer_store_dword v1, v75, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v55, 0xac, v0			; GCN-NEXT: v_add_u32_e32 v76, 0xf4, v16
	; GCN-NEXT: v_mov_b32_e32 v6, s63			; GCN-NEXT: v_mov_b32_e32 v1, s25
	; GCN-NEXT: v_add_u32_e32 v56, s16, v0
	; GCN-NEXT: v_mov_b32_e32 v8, s64
	; GCN-NEXT: v_add_u32_e32 v57, 0xb4, v0
	; GCN-NEXT: v_mov_b32_e32 v10, s65
	; GCN-NEXT: v_add_u32_e32 v58, 0xb8, v0
	; GCN-NEXT: v_mov_b32_e32 v12, s66
	; GCN-NEXT: v_add_u32_e32 v59, 0xbc, v0
	; GCN-NEXT: v_mov_b32_e32 v14, s67
	; GCN-NEXT: v_add_u32_e32 v60, 0xc0, v0
	; GCN-NEXT: v_mov_b32_e32 v16, s36
	; GCN-NEXT: buffer_store_dword v4, v53, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v54, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v55, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v8, v56, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v57, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v12, v58, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v14, v59, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v16, v60, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v61, 0xc4, v0
	; GCN-NEXT: v_mov_b32_e32 v4, s37
	; GCN-NEXT: s_and_b32 s7, s7, 63			; GCN-NEXT: s_and_b32 s7, s7, 63
	; GCN-NEXT: s_movk_i32 s19, 0xf0			; GCN-NEXT: buffer_store_dword v1, v76, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v62, 0xc8, v0			; GCN-NEXT: v_add_u32_e32 v77, 0xf8, v16
	; GCN-NEXT: v_mov_b32_e32 v5, s38			; GCN-NEXT: v_mov_b32_e32 v1, s26
	; GCN-NEXT: v_add_u32_e32 v63, 0xcc, v0			; GCN-NEXT: v_add_u32_e32 v17, 8, v16
	; GCN-NEXT: v_mov_b32_e32 v6, s39			; GCN-NEXT: buffer_store_dword v1, v77, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v64, s17, v0			; GCN-NEXT: v_add_u32_e32 v78, 0xfc, v16
	; GCN-NEXT: v_mov_b32_e32 v8, s40			; GCN-NEXT: v_mov_b32_e32 v1, s27
	; GCN-NEXT: v_add_u32_e32 v65, 0xd4, v0
	; GCN-NEXT: v_mov_b32_e32 v10, s41
	; GCN-NEXT: v_add_u32_e32 v66, 0xd8, v0
	; GCN-NEXT: v_mov_b32_e32 v12, s42
	; GCN-NEXT: v_add_u32_e32 v67, 0xdc, v0
	; GCN-NEXT: v_mov_b32_e32 v14, s43
	; GCN-NEXT: v_add_u32_e32 v68, s18, v0
	; GCN-NEXT: v_mov_b32_e32 v16, s44
	; GCN-NEXT: buffer_store_dword v4, v61, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v62, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v63, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v8, v64, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v65, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v12, v66, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v14, v67, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v16, v68, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v69, 0xe4, v0
	; GCN-NEXT: v_mov_b32_e32 v4, s45
	; GCN-NEXT: v_add_u32_e32 v70, 0xe8, v0
	; GCN-NEXT: v_mov_b32_e32 v5, s46
	; GCN-NEXT: v_add_u32_e32 v71, 0xec, v0
	; GCN-NEXT: v_mov_b32_e32 v6, s47
	; GCN-NEXT: v_add_u32_e32 v72, s19, v0
	; GCN-NEXT: v_mov_b32_e32 v8, s48
	; GCN-NEXT: v_add_u32_e32 v73, 0xf4, v0
	; GCN-NEXT: v_mov_b32_e32 v10, s49
	; GCN-NEXT: v_add_u32_e32 v74, 0xf8, v0
	; GCN-NEXT: v_mov_b32_e32 v12, s50
	; GCN-NEXT: buffer_store_dword v4, v69, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v70, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v71, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v8, v72, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v73, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v12, v74, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v4, s12
	; GCN-NEXT: s_lshl_b32 s7, s7, 2			; GCN-NEXT: s_lshl_b32 s7, s7, 2
	; GCN-NEXT: v_add_u32_e32 v75, 0xfc, v0			; GCN-NEXT: buffer_store_dword v2, v17, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v14, s51			; GCN-NEXT: v_add_u32_e32 v18, 12, v16
	; GCN-NEXT: buffer_store_dword v4, off, s[0:3], 0 offset:256			; GCN-NEXT: v_add_u32_e32 v19, 16, v16
	; GCN-NEXT: buffer_store_dword v14, v75, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v20, 20, v16
	; GCN-NEXT: v_mov_b32_e32 v4, s6			; GCN-NEXT: v_add_u32_e32 v21, 24, v16
	; GCN-NEXT: v_add_u32_e32 v0, s7, v0			; GCN-NEXT: v_add_u32_e32 v22, 28, v16
	; GCN-NEXT: buffer_store_dword v4, v0, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v23, 32, v16
	; GCN-NEXT: buffer_load_dword v1, v1, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v24, 36, v16
	; GCN-NEXT: buffer_load_dword v2, v2, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v25, 40, v16
	; GCN-NEXT: buffer_load_dword v3, v3, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v26, 44, v16
	; GCN-NEXT: buffer_load_dword v4, v7, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v27, 48, v16
	; GCN-NEXT: buffer_load_dword v5, v9, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v28, 52, v16
	; GCN-NEXT: buffer_load_dword v6, v11, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v29, 56, v16
	; GCN-NEXT: buffer_load_dword v7, v13, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v30, 60, v16
	; GCN-NEXT: buffer_load_dword v8, v15, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v78, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v9, v17, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v2, s6
	; GCN-NEXT: buffer_load_dword v10, v19, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, s7, v16
	; GCN-NEXT: buffer_load_dword v11, v21, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v3, v18, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v12, v23, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v4, v19, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v13, v25, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v5, v20, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v14, v27, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v6, v21, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v15, v29, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v7, v22, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v8, v23, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v9, v24, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v10, v25, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v11, v26, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v12, v27, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v13, v28, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v14, v29, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v15, v30, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v2, v1, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v1, v0, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v2, v17, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v3, v18, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v4, v19, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v5, v20, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v6, v21, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v7, v22, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v8, v23, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v9, v24, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v10, v25, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v11, v26, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v12, v27, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v13, v28, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v14, v29, s[0:3], 0 offen
				; GCN-NEXT: buffer_load_dword v15, v30, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v16, v31, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v16, v31, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v17, v33, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v17, v32, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v18, v35, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v18, v33, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v19, v37, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v19, v34, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v20, v38, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v20, v35, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v21, v39, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v21, v36, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v22, v40, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v22, v37, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v23, v41, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v23, v38, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v24, v42, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v24, v39, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v25, v26, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v25, v40, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v26, v28, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v26, v41, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v27, v30, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v27, v42, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v28, v32, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v28, v43, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v29, v34, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v29, v44, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v30, v36, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v30, v45, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v31, v43, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v31, v46, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v32, v44, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v32, v47, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v33, v45, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v33, v48, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v34, v46, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v34, v49, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v35, v47, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v35, v50, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v36, v48, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v36, v51, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v37, v49, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v37, v52, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v38, v50, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v38, v53, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v39, v51, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v39, v54, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v40, v52, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v40, v55, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v41, v53, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v41, v56, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v42, v54, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v42, v57, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v43, v55, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v43, v58, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v44, v56, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v44, v59, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v45, v57, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v45, v60, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v46, v58, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v46, v61, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v47, v59, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v47, v62, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v48, v60, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v48, v63, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v49, v61, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v49, v64, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v50, v62, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v50, v65, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v51, v63, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v51, v66, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v52, v64, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v52, v67, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v53, v65, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v53, v68, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v54, v66, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v54, v69, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v55, v67, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v55, v70, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v56, v68, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v56, v71, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v57, v69, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v57, v72, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v58, v70, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v58, v73, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v59, v71, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v59, v74, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v60, v72, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v60, v75, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v61, v73, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v61, v76, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v62, v74, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v62, v77, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v63, v75, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v63, v78, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v0, off, s[0:3], 0 offset:256			; GCN-NEXT: buffer_load_dword v0, off, s[0:3], 0 offset:256
	; GCN-NEXT: s_add_u32 s6, s8, 16
	; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v67, s7
	; GCN-NEXT: v_mov_b32_e32 v66, s6
	; GCN-NEXT: s_add_u32 s6, s8, 32
	; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v65, s9			; GCN-NEXT: v_mov_b32_e32 v65, s9
	; GCN-NEXT: s_add_u32 s10, s8, 48			; GCN-NEXT: s_add_u32 s6, s8, 16
	; GCN-NEXT: v_mov_b32_e32 v64, s8			; GCN-NEXT: v_mov_b32_e32 v64, s8
	; GCN-NEXT: s_addc_u32 s11, s9, 0			; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: global_store_dwordx4 v[64:65], v[0:3], off			; GCN-NEXT: global_store_dwordx4 v[64:65], v[0:3], off
	; GCN-NEXT: global_store_dwordx4 v[66:67], v[4:7], off			; GCN-NEXT: s_nop 0
	; GCN-NEXT: v_mov_b32_e32 v0, s6			; GCN-NEXT: v_mov_b32_e32 v0, s6
	; GCN-NEXT: v_mov_b32_e32 v1, s7			; GCN-NEXT: v_mov_b32_e32 v1, s7
	; GCN-NEXT: s_add_u32 s6, s8, 64			; GCN-NEXT: s_add_u32 s6, s8, 32
	; GCN-NEXT: v_mov_b32_e32 v2, s10			; GCN-NEXT: global_store_dwordx4 v[0:1], v[4:7], off
	; GCN-NEXT: s_addc_u32 s7, s9, 0			; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v3, s11			; GCN-NEXT: v_mov_b32_e32 v0, s6
	; GCN-NEXT: s_add_u32 s10, s8, s4			; GCN-NEXT: v_mov_b32_e32 v1, s7
	; GCN-NEXT: s_addc_u32 s11, s9, 0			; GCN-NEXT: s_add_u32 s6, s8, 48
	; GCN-NEXT: s_add_u32 s4, s8, s5
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[8:11], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[8:11], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[12:15], off			; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s6			; GCN-NEXT: v_mov_b32_e32 v0, s6
	; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v1, s7			; GCN-NEXT: v_mov_b32_e32 v1, s7
	; GCN-NEXT: s_add_u32 s6, s8, s13			; GCN-NEXT: s_add_u32 s6, s8, 64
	; GCN-NEXT: v_mov_b32_e32 v2, s10			; GCN-NEXT: global_store_dwordx4 v[0:1], v[12:15], off
	; GCN-NEXT: v_mov_b32_e32 v3, s11
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[16:19], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[20:23], off
	; GCN-NEXT: s_addc_u32 s7, s9, 0			; GCN-NEXT: s_addc_u32 s7, s9, 0
				; GCN-NEXT: v_mov_b32_e32 v0, s6
				; GCN-NEXT: v_mov_b32_e32 v1, s7
				; GCN-NEXT: s_add_u32 s6, s8, s4
				; GCN-NEXT: s_addc_u32 s7, s9, 0
				; GCN-NEXT: global_store_dwordx4 v[0:1], v[16:19], off
				; GCN-NEXT: v_mov_b32_e32 v0, s6
				; GCN-NEXT: s_add_u32 s4, s8, s5
				; GCN-NEXT: v_mov_b32_e32 v1, s7
				; GCN-NEXT: global_store_dwordx4 v[0:1], v[20:23], off
				; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_add_u32 s4, s8, 0x80			; GCN-NEXT: s_add_u32 s4, s8, s10
	; GCN-NEXT: v_mov_b32_e32 v2, s6
	; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v3, s7
	; GCN-NEXT: s_add_u32 s6, s8, s14
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[24:27], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[24:27], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[28:31], off			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_add_u32 s4, s8, s15			; GCN-NEXT: s_add_u32 s4, s8, 0x80
	; GCN-NEXT: v_mov_b32_e32 v2, s6			; GCN-NEXT: global_store_dwordx4 v[0:1], v[28:31], off
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v3, s7			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: s_add_u32 s6, s8, s16			; GCN-NEXT: v_mov_b32_e32 v1, s5
				; GCN-NEXT: s_add_u32 s4, s8, s11
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[32:35], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[32:35], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[36:39], off			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_add_u32 s4, s8, 0xc0			; GCN-NEXT: s_add_u32 s4, s8, s28
	; GCN-NEXT: v_mov_b32_e32 v2, s6			; GCN-NEXT: global_store_dwordx4 v[0:1], v[36:39], off
	; GCN-NEXT: v_mov_b32_e32 v3, s7			; GCN-NEXT: s_addc_u32 s5, s9, 0
				; GCN-NEXT: v_mov_b32_e32 v0, s4
				; GCN-NEXT: v_mov_b32_e32 v1, s5
				; GCN-NEXT: s_add_u32 s4, s8, s29
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[40:43], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[40:43], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[44:47], off
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_add_u32 s4, s8, s17			; GCN-NEXT: s_add_u32 s4, s8, 0xc0
				; GCN-NEXT: global_store_dwordx4 v[0:1], v[44:47], off
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v2, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v3, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_add_u32 s4, s8, s18			; GCN-NEXT: s_add_u32 s4, s8, s12
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[48:51], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[48:51], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[52:55], off
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_add_u32 s4, s8, s19			; GCN-NEXT: s_add_u32 s4, s8, s13
				; GCN-NEXT: global_store_dwordx4 v[0:1], v[52:55], off
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v2, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v3, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
				; GCN-NEXT: s_add_u32 s4, s8, s14
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[56:59], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[56:59], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[60:63], off			; GCN-NEXT: s_addc_u32 s5, s9, 0
				; GCN-NEXT: v_mov_b32_e32 v0, s4
				; GCN-NEXT: v_mov_b32_e32 v1, s5
				; GCN-NEXT: global_store_dwordx4 v[0:1], v[60:63], off
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr			%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr
	%insert = insertelement <64 x i32> %vec, i32 %val, i32 %idx			%insert = insertelement <64 x i32> %vec, i32 %val, i32 %idx
	store <64 x i32> %insert, <64 x i32> addrspace(1)* %out.ptr			store <64 x i32> %insert, <64 x i32> addrspace(1)* %out.ptr
	ret void			ret void
	}			}

	attributes #0 = { "amdgpu-waves-per-eu"="1,10" }			attributes #0 = { "amdgpu-waves-per-eu"="1,10" }

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i16.ll

	Show First 20 Lines • Show All 1,948 Lines • ▼ Show 20 Lines

	define amdgpu_ps void @insertelement_s_v16i16_s_s(<16 x i16> addrspace(4)* inreg %ptr, i16 inreg %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_s_v16i16_s_s(<16 x i16> addrspace(4)* inreg %ptr, i16 inreg %val, i32 inreg %idx) {
	; GFX9-LABEL: insertelement_s_v16i16_s_s:			; GFX9-LABEL: insertelement_s_v16i16_s_s:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[8:15], s[2:3], 0x0			; GFX9-NEXT: s_load_dwordx8 s[8:15], s[2:3], 0x0
	; GFX9-NEXT: s_lshr_b32 s7, s5, 1			; GFX9-NEXT: s_lshr_b32 s7, s5, 1
	; GFX9-NEXT: s_cmp_eq_u32 s7, 1			; GFX9-NEXT: s_cmp_eq_u32 s7, 1
	; GFX9-NEXT: s_mov_b32 s2, 0xffff			; GFX9-NEXT: s_mov_b32 s2, 0xffff
	; GFX9-NEXT: v_mov_b32_e32 v8, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_cselect_b32 s0, s9, s8			; GFX9-NEXT: s_cselect_b32 s0, s9, s8
	; GFX9-NEXT: s_cmp_eq_u32 s7, 2			; GFX9-NEXT: s_cmp_eq_u32 s7, 2
	; GFX9-NEXT: s_cselect_b32 s0, s10, s0			; GFX9-NEXT: s_cselect_b32 s0, s10, s0
	; GFX9-NEXT: s_cmp_eq_u32 s7, 3			; GFX9-NEXT: s_cmp_eq_u32 s7, 3
	; GFX9-NEXT: s_cselect_b32 s0, s11, s0			; GFX9-NEXT: s_cselect_b32 s0, s11, s0
	; GFX9-NEXT: s_cmp_eq_u32 s7, 4			; GFX9-NEXT: s_cmp_eq_u32 s7, 4
	; GFX9-NEXT: s_cselect_b32 s0, s12, s0			; GFX9-NEXT: s_cselect_b32 s0, s12, s0
	Show All 26 Lines
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: s_cselect_b32 s6, s16, s14			; GFX9-NEXT: s_cselect_b32 s6, s16, s14
	; GFX9-NEXT: s_cmp_eq_u32 s7, 7			; GFX9-NEXT: s_cmp_eq_u32 s7, 7
	; GFX9-NEXT: s_cselect_b32 s7, s16, s15			; GFX9-NEXT: s_cselect_b32 s7, s16, s15
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: v_mov_b32_e32 v3, s3			; GFX9-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-NEXT: s_add_u32 s0, 0, 16			; GFX9-NEXT: s_add_u32 s0, 0, 16
				; GFX9-NEXT: v_mov_b32_e32 v5, 0
	; GFX9-NEXT: s_addc_u32 s1, 0, 0			; GFX9-NEXT: s_addc_u32 s1, 0, 0
	; GFX9-NEXT: v_mov_b32_e32 v4, s4			; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX9-NEXT: v_mov_b32_e32 v11, s1			; GFX9-NEXT: v_mov_b32_e32 v5, s1
	; GFX9-NEXT: v_mov_b32_e32 v9, 0			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v5, s5			; GFX9-NEXT: v_mov_b32_e32 v1, s5
	; GFX9-NEXT: v_mov_b32_e32 v6, s6			; GFX9-NEXT: v_mov_b32_e32 v2, s6
	; GFX9-NEXT: v_mov_b32_e32 v7, s7			; GFX9-NEXT: v_mov_b32_e32 v3, s7
	; GFX9-NEXT: v_mov_b32_e32 v10, s0			; GFX9-NEXT: v_mov_b32_e32 v4, s0
	; GFX9-NEXT: global_store_dwordx4 v[8:9], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[4:5], v[0:3], off
	; GFX9-NEXT: global_store_dwordx4 v[10:11], v[4:7], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v16i16_s_s:			; GFX8-LABEL: insertelement_s_v16i16_s_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx8 s[8:15], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx8 s[8:15], s[2:3], 0x0
	; GFX8-NEXT: s_lshr_b32 s7, s5, 1			; GFX8-NEXT: s_lshr_b32 s7, s5, 1
	; GFX8-NEXT: s_cmp_eq_u32 s7, 1			; GFX8-NEXT: s_cmp_eq_u32 s7, 1
	; GFX8-NEXT: s_mov_b32 s2, 0xffff			; GFX8-NEXT: s_mov_b32 s2, 0xffff
	; GFX8-NEXT: v_mov_b32_e32 v8, 0			; GFX8-NEXT: v_mov_b32_e32 v4, 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: s_cselect_b32 s0, s9, s8			; GFX8-NEXT: s_cselect_b32 s0, s9, s8
	; GFX8-NEXT: s_cmp_eq_u32 s7, 2			; GFX8-NEXT: s_cmp_eq_u32 s7, 2
	; GFX8-NEXT: s_cselect_b32 s0, s10, s0			; GFX8-NEXT: s_cselect_b32 s0, s10, s0
	; GFX8-NEXT: s_cmp_eq_u32 s7, 3			; GFX8-NEXT: s_cmp_eq_u32 s7, 3
	; GFX8-NEXT: s_cselect_b32 s0, s11, s0			; GFX8-NEXT: s_cselect_b32 s0, s11, s0
	; GFX8-NEXT: s_cmp_eq_u32 s7, 4			; GFX8-NEXT: s_cmp_eq_u32 s7, 4
	; GFX8-NEXT: s_cselect_b32 s0, s12, s0			; GFX8-NEXT: s_cselect_b32 s0, s12, s0
	Show All 26 Lines
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: s_cselect_b32 s6, s16, s14			; GFX8-NEXT: s_cselect_b32 s6, s16, s14
	; GFX8-NEXT: s_cmp_eq_u32 s7, 7			; GFX8-NEXT: s_cmp_eq_u32 s7, 7
	; GFX8-NEXT: s_cselect_b32 s7, s16, s15			; GFX8-NEXT: s_cselect_b32 s7, s16, s15
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: v_mov_b32_e32 v2, s2			; GFX8-NEXT: v_mov_b32_e32 v2, s2
	; GFX8-NEXT: v_mov_b32_e32 v3, s3			; GFX8-NEXT: v_mov_b32_e32 v3, s3
	; GFX8-NEXT: s_add_u32 s0, 0, 16			; GFX8-NEXT: s_add_u32 s0, 0, 16
				; GFX8-NEXT: v_mov_b32_e32 v5, 0
	; GFX8-NEXT: s_addc_u32 s1, 0, 0			; GFX8-NEXT: s_addc_u32 s1, 0, 0
	; GFX8-NEXT: v_mov_b32_e32 v4, s4			; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GFX8-NEXT: v_mov_b32_e32 v11, s1			; GFX8-NEXT: v_mov_b32_e32 v5, s1
	; GFX8-NEXT: v_mov_b32_e32 v9, 0			; GFX8-NEXT: v_mov_b32_e32 v0, s4
	; GFX8-NEXT: v_mov_b32_e32 v5, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_mov_b32_e32 v6, s6			; GFX8-NEXT: v_mov_b32_e32 v2, s6
	; GFX8-NEXT: v_mov_b32_e32 v7, s7			; GFX8-NEXT: v_mov_b32_e32 v3, s7
	; GFX8-NEXT: v_mov_b32_e32 v10, s0			; GFX8-NEXT: v_mov_b32_e32 v4, s0
	; GFX8-NEXT: flat_store_dwordx4 v[8:9], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GFX8-NEXT: flat_store_dwordx4 v[10:11], v[4:7]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v16i16_s_s:			; GFX7-LABEL: insertelement_s_v16i16_s_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx8 s[8:15], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx8 s[8:15], s[2:3], 0x0
	; GFX7-NEXT: s_lshr_b32 s7, s5, 1			; GFX7-NEXT: s_lshr_b32 s7, s5, 1
	; GFX7-NEXT: s_cmp_eq_u32 s7, 1			; GFX7-NEXT: s_cmp_eq_u32 s7, 1
	; GFX7-NEXT: s_mov_b32 s2, 0xffff			; GFX7-NEXT: s_mov_b32 s2, 0xffff
	Show All 24 Lines
	; GFX7-NEXT: s_cselect_b32 s1, s16, s9			; GFX7-NEXT: s_cselect_b32 s1, s16, s9
	; GFX7-NEXT: s_cmp_eq_u32 s7, 2			; GFX7-NEXT: s_cmp_eq_u32 s7, 2
	; GFX7-NEXT: s_cselect_b32 s2, s16, s10			; GFX7-NEXT: s_cselect_b32 s2, s16, s10
	; GFX7-NEXT: s_cmp_eq_u32 s7, 3			; GFX7-NEXT: s_cmp_eq_u32 s7, 3
	; GFX7-NEXT: s_cselect_b32 s3, s16, s11			; GFX7-NEXT: s_cselect_b32 s3, s16, s11
	; GFX7-NEXT: s_cmp_eq_u32 s7, 4			; GFX7-NEXT: s_cmp_eq_u32 s7, 4
	; GFX7-NEXT: s_cselect_b32 s4, s16, s12			; GFX7-NEXT: s_cselect_b32 s4, s16, s12
	; GFX7-NEXT: s_cmp_eq_u32 s7, 5			; GFX7-NEXT: s_cmp_eq_u32 s7, 5
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: s_cselect_b32 s5, s16, s13			; GFX7-NEXT: s_cselect_b32 s5, s16, s13
	; GFX7-NEXT: s_cmp_eq_u32 s7, 6			; GFX7-NEXT: s_cmp_eq_u32 s7, 6
	; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: s_cselect_b32 s6, s16, s14			; GFX7-NEXT: s_cselect_b32 s6, s16, s14
	; GFX7-NEXT: s_cmp_eq_u32 s7, 7			; GFX7-NEXT: s_cmp_eq_u32 s7, 7
	; GFX7-NEXT: s_cselect_b32 s7, s16, s15
	; GFX7-NEXT: v_mov_b32_e32 v4, s4
	; GFX7-NEXT: s_mov_b64 s[8:9], 0			; GFX7-NEXT: s_mov_b64 s[8:9], 0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_mov_b32 s10, -1			; GFX7-NEXT: s_mov_b32 s10, -1
	; GFX7-NEXT: s_mov_b32 s11, 0xf000			; GFX7-NEXT: s_mov_b32 s11, 0xf000
	; GFX7-NEXT: v_mov_b32_e32 v5, s5			; GFX7-NEXT: s_cselect_b32 s7, s16, s15
	; GFX7-NEXT: v_mov_b32_e32 v6, s6
	; GFX7-NEXT: v_mov_b32_e32 v7, s7
	; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GFX7-NEXT: buffer_store_dwordx4 v[4:7], off, s[8:11], 0 offset:16			; GFX7-NEXT: s_nop 0
				; GFX7-NEXT: v_mov_b32_e32 v0, s4
				; GFX7-NEXT: v_mov_b32_e32 v1, s5
				; GFX7-NEXT: v_mov_b32_e32 v2, s6
				; GFX7-NEXT: v_mov_b32_e32 v3, s7
				; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0 offset:16
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	%vec = load <16 x i16>, <16 x i16> addrspace(4)* %ptr			%vec = load <16 x i16>, <16 x i16> addrspace(4)* %ptr
	%insert = insertelement <16 x i16> %vec, i16 %val, i32 %idx			%insert = insertelement <16 x i16> %vec, i16 %val, i32 %idx
	store <16 x i16> %insert, <16 x i16> addrspace(1)* null			store <16 x i16> %insert, <16 x i16> addrspace(1)* null
	ret void			ret void
	}			}

	define amdgpu_ps void @insertelement_v_v16i16_s_s(<16 x i16> addrspace(1)* %ptr, i16 inreg %val, i32 inreg %idx) {			define amdgpu_ps void @insertelement_v_v16i16_s_s(<16 x i16> addrspace(1)* %ptr, i16 inreg %val, i32 inreg %idx) {
	▲ Show 20 Lines • Show All 187 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 2			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc
	; GFX9-NEXT: v_mov_b32_e32 v3, s11			; GFX9-NEXT: v_mov_b32_e32 v3, s11
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 3			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 3
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
	; GFX9-NEXT: v_mov_b32_e32 v5, s13			; GFX9-NEXT: v_mov_b32_e32 v5, s13
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 5			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 5
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc
	; GFX9-NEXT: v_mov_b32_e32 v4, s12
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s2, 4
	; GFX9-NEXT: v_mov_b32_e32 v6, s14			; GFX9-NEXT: v_mov_b32_e32 v6, s14
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 6			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 6
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v4, v8, s[0:1]
	; GFX9-NEXT: s_add_u32 s0, 0, 16
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v8, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v8, vcc
				; GFX9-NEXT: v_mov_b32_e32 v4, s12
				; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s2, 4
	; GFX9-NEXT: v_mov_b32_e32 v7, s15			; GFX9-NEXT: v_mov_b32_e32 v7, s15
	; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 7			; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s2, 7
	; GFX9-NEXT: s_addc_u32 s1, 0, 0			; GFX9-NEXT: v_cndmask_b32_e64 v4, v4, v8, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
	; GFX9-NEXT: v_mov_b32_e32 v8, 0			; GFX9-NEXT: v_mov_b32_e32 v8, 0
	; GFX9-NEXT: v_mov_b32_e32 v11, s1			; GFX9-NEXT: s_add_u32 s0, 0, 16
	; GFX9-NEXT: v_mov_b32_e32 v9, 0			; GFX9-NEXT: v_mov_b32_e32 v9, 0
	; GFX9-NEXT: v_mov_b32_e32 v10, s0
	; GFX9-NEXT: global_store_dwordx4 v[8:9], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[8:9], v[0:3], off
	; GFX9-NEXT: global_store_dwordx4 v[10:11], v[4:7], off			; GFX9-NEXT: s_addc_u32 s1, 0, 0
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: v_mov_b32_e32 v1, s1
				; GFX9-NEXT: global_store_dwordx4 v[0:1], v[4:7], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v16i16_v_s:			; GFX8-LABEL: insertelement_s_v16i16_v_s:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx8 s[8:15], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx8 s[8:15], s[2:3], 0x0
	; GFX8-NEXT: s_lshr_b32 s2, s4, 1			; GFX8-NEXT: s_lshr_b32 s2, s4, 1
	; GFX8-NEXT: s_cmp_eq_u32 s2, 1			; GFX8-NEXT: s_cmp_eq_u32 s2, 1
	; GFX8-NEXT: s_mov_b32 s3, 0xffff			; GFX8-NEXT: s_mov_b32 s3, 0xffff
	Show All 28 Lines
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 2			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 2
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc
	; GFX8-NEXT: v_mov_b32_e32 v3, s11			; GFX8-NEXT: v_mov_b32_e32 v3, s11
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 3			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 3
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
	; GFX8-NEXT: v_mov_b32_e32 v5, s13			; GFX8-NEXT: v_mov_b32_e32 v5, s13
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 5			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 5
	; GFX8-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc
	; GFX8-NEXT: v_mov_b32_e32 v4, s12
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s2, 4
	; GFX8-NEXT: v_mov_b32_e32 v6, s14			; GFX8-NEXT: v_mov_b32_e32 v6, s14
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 6			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 6
	; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v8, s[0:1]
	; GFX8-NEXT: s_add_u32 s0, 0, 16
	; GFX8-NEXT: v_cndmask_b32_e32 v6, v6, v8, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v6, v6, v8, vcc
				; GFX8-NEXT: v_mov_b32_e32 v4, s12
				; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], s2, 4
	; GFX8-NEXT: v_mov_b32_e32 v7, s15			; GFX8-NEXT: v_mov_b32_e32 v7, s15
	; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 7			; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s2, 7
	; GFX8-NEXT: s_addc_u32 s1, 0, 0			; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v8, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
	; GFX8-NEXT: v_mov_b32_e32 v8, 0			; GFX8-NEXT: v_mov_b32_e32 v8, 0
	; GFX8-NEXT: v_mov_b32_e32 v11, s1			; GFX8-NEXT: s_add_u32 s0, 0, 16
	; GFX8-NEXT: v_mov_b32_e32 v9, 0			; GFX8-NEXT: v_mov_b32_e32 v9, 0
	; GFX8-NEXT: v_mov_b32_e32 v10, s0
	; GFX8-NEXT: flat_store_dwordx4 v[8:9], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GFX8-NEXT: flat_store_dwordx4 v[10:11], v[4:7]			; GFX8-NEXT: s_addc_u32 s1, 0, 0
				; GFX8-NEXT: v_mov_b32_e32 v0, s0
				; GFX8-NEXT: v_mov_b32_e32 v1, s1
				; GFX8-NEXT: flat_store_dwordx4 v[0:1], v[4:7]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v16i16_v_s:			; GFX7-LABEL: insertelement_s_v16i16_v_s:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx8 s[8:15], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx8 s[8:15], s[2:3], 0x0
	; GFX7-NEXT: s_lshr_b32 s2, s4, 1			; GFX7-NEXT: s_lshr_b32 s2, s4, 1
	; GFX7-NEXT: s_cmp_eq_u32 s2, 1			; GFX7-NEXT: s_cmp_eq_u32 s2, 1
	; GFX7-NEXT: s_mov_b32 s3, 0xffff			; GFX7-NEXT: s_mov_b32 s3, 0xffff
	▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshlrev_b32_e64 v0, v0, s5			; GFX9-NEXT: v_lshlrev_b32_e64 v0, v0, s5
	; GFX9-NEXT: v_mov_b32_e32 v9, s23			; GFX9-NEXT: v_mov_b32_e32 v9, s23
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[8:9]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[8:9]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v8			; GFX9-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v8
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[10:11]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[10:11]
	; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX9-NEXT: v_and_or_b32 v9, v1, v0, v2			; GFX9-NEXT: v_and_or_b32 v9, v1, v0, v2
	; GFX9-NEXT: v_mov_b32_e32 v0, s16			; GFX9-NEXT: v_mov_b32_e32 v0, s16
	; GFX9-NEXT: v_mov_b32_e32 v2, s18
	; GFX9-NEXT: v_mov_b32_e32 v1, s17			; GFX9-NEXT: v_mov_b32_e32 v1, s17
				; GFX9-NEXT: v_mov_b32_e32 v2, s18
	; GFX9-NEXT: v_mov_b32_e32 v3, s19			; GFX9-NEXT: v_mov_b32_e32 v3, s19
	; GFX9-NEXT: v_mov_b32_e32 v4, s20			; GFX9-NEXT: v_mov_b32_e32 v4, s20
	; GFX9-NEXT: v_mov_b32_e32 v5, s21			; GFX9-NEXT: v_mov_b32_e32 v5, s21
	; GFX9-NEXT: v_mov_b32_e32 v6, s22			; GFX9-NEXT: v_mov_b32_e32 v6, s22
	; GFX9-NEXT: v_mov_b32_e32 v7, s23			; GFX9-NEXT: v_mov_b32_e32 v7, s23
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v8			; GFX9-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v8
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[0:1]
	; GFX9-NEXT: s_add_u32 s0, 0, 16
	; GFX9-NEXT: s_addc_u32 s1, 0, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v9, s[12:13]			; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v9, s[12:13]
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v9, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v9, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v9, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v9, s[2:3]
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v4, v9, s[14:15]			; GFX9-NEXT: v_cndmask_b32_e64 v4, v4, v9, s[14:15]
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[6:7]
	; GFX9-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[8:9]			; GFX9-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[8:9]
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v9, s[10:11]			; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v9, s[10:11]
	; GFX9-NEXT: v_mov_b32_e32 v8, 0			; GFX9-NEXT: v_mov_b32_e32 v8, 0
	; GFX9-NEXT: v_mov_b32_e32 v11, s1			; GFX9-NEXT: s_add_u32 s0, 0, 16
	; GFX9-NEXT: v_mov_b32_e32 v9, 0			; GFX9-NEXT: v_mov_b32_e32 v9, 0
	; GFX9-NEXT: v_mov_b32_e32 v10, s0
	; GFX9-NEXT: global_store_dwordx4 v[8:9], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[8:9], v[0:3], off
	; GFX9-NEXT: global_store_dwordx4 v[10:11], v[4:7], off			; GFX9-NEXT: s_addc_u32 s1, 0, 0
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: v_mov_b32_e32 v1, s1
				; GFX9-NEXT: global_store_dwordx4 v[0:1], v[4:7], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v16i16_s_v:			; GFX8-LABEL: insertelement_s_v16i16_s_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx8 s[16:23], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx8 s[16:23], s[2:3], 0x0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 1, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 1, v0
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8
	Show All 23 Lines
	; GFX8-NEXT: v_mov_b32_e32 v9, s23			; GFX8-NEXT: v_mov_b32_e32 v9, s23
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[8:9]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[8:9]
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v8
	; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[10:11]			; GFX8-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[10:11]
	; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX8-NEXT: v_and_b32_e32 v0, v1, v0			; GFX8-NEXT: v_and_b32_e32 v0, v1, v0
	; GFX8-NEXT: v_or_b32_e32 v9, v0, v2			; GFX8-NEXT: v_or_b32_e32 v9, v0, v2
	; GFX8-NEXT: v_mov_b32_e32 v0, s16			; GFX8-NEXT: v_mov_b32_e32 v0, s16
	; GFX8-NEXT: v_mov_b32_e32 v2, s18
	; GFX8-NEXT: v_mov_b32_e32 v1, s17			; GFX8-NEXT: v_mov_b32_e32 v1, s17
				; GFX8-NEXT: v_mov_b32_e32 v2, s18
	; GFX8-NEXT: v_mov_b32_e32 v3, s19			; GFX8-NEXT: v_mov_b32_e32 v3, s19
	; GFX8-NEXT: v_mov_b32_e32 v4, s20			; GFX8-NEXT: v_mov_b32_e32 v4, s20
	; GFX8-NEXT: v_mov_b32_e32 v5, s21			; GFX8-NEXT: v_mov_b32_e32 v5, s21
	; GFX8-NEXT: v_mov_b32_e32 v6, s22			; GFX8-NEXT: v_mov_b32_e32 v6, s22
	; GFX8-NEXT: v_mov_b32_e32 v7, s23			; GFX8-NEXT: v_mov_b32_e32 v7, s23
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v8
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[0:1]
	; GFX8-NEXT: s_add_u32 s0, 0, 16
	; GFX8-NEXT: s_addc_u32 s1, 0, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v9, s[12:13]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v9, s[12:13]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v9, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v9, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v9, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v9, s[2:3]
	; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v9, s[14:15]			; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v9, s[14:15]
	; GFX8-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[6:7]			; GFX8-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[6:7]
	; GFX8-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[8:9]			; GFX8-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[8:9]
	; GFX8-NEXT: v_cndmask_b32_e64 v7, v7, v9, s[10:11]			; GFX8-NEXT: v_cndmask_b32_e64 v7, v7, v9, s[10:11]
	; GFX8-NEXT: v_mov_b32_e32 v8, 0			; GFX8-NEXT: v_mov_b32_e32 v8, 0
	; GFX8-NEXT: v_mov_b32_e32 v11, s1			; GFX8-NEXT: s_add_u32 s0, 0, 16
	; GFX8-NEXT: v_mov_b32_e32 v9, 0			; GFX8-NEXT: v_mov_b32_e32 v9, 0
	; GFX8-NEXT: v_mov_b32_e32 v10, s0
	; GFX8-NEXT: flat_store_dwordx4 v[8:9], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GFX8-NEXT: flat_store_dwordx4 v[10:11], v[4:7]			; GFX8-NEXT: s_addc_u32 s1, 0, 0
				; GFX8-NEXT: v_mov_b32_e32 v0, s0
				; GFX8-NEXT: v_mov_b32_e32 v1, s1
				; GFX8-NEXT: flat_store_dwordx4 v[0:1], v[4:7]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v16i16_s_v:			; GFX7-LABEL: insertelement_s_v16i16_s_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx8 s[16:23], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx8 s[16:23], s[2:3], 0x0
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 1, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v8, 1, v0
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshlrev_b32_e64 v1, v1, s20			; GFX9-NEXT: v_lshlrev_b32_e64 v1, v1, s20
	; GFX9-NEXT: v_mov_b32_e32 v10, s19			; GFX9-NEXT: v_mov_b32_e32 v10, s19
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[8:9]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[8:9]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v8			; GFX9-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v8
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v10, s[10:11]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v10, s[10:11]
	; GFX9-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX9-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX9-NEXT: v_and_or_b32 v9, v2, v1, v0			; GFX9-NEXT: v_and_or_b32 v9, v2, v1, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, s12			; GFX9-NEXT: v_mov_b32_e32 v0, s12
	; GFX9-NEXT: v_mov_b32_e32 v2, s14
	; GFX9-NEXT: v_mov_b32_e32 v1, s13			; GFX9-NEXT: v_mov_b32_e32 v1, s13
				; GFX9-NEXT: v_mov_b32_e32 v2, s14
	; GFX9-NEXT: v_mov_b32_e32 v3, s15			; GFX9-NEXT: v_mov_b32_e32 v3, s15
	; GFX9-NEXT: v_mov_b32_e32 v4, s16			; GFX9-NEXT: v_mov_b32_e32 v4, s16
	; GFX9-NEXT: v_mov_b32_e32 v5, s17			; GFX9-NEXT: v_mov_b32_e32 v5, s17
	; GFX9-NEXT: v_mov_b32_e32 v6, s18			; GFX9-NEXT: v_mov_b32_e32 v6, s18
	; GFX9-NEXT: v_mov_b32_e32 v7, s19			; GFX9-NEXT: v_mov_b32_e32 v7, s19
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v8			; GFX9-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v8
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[0:1]
	; GFX9-NEXT: s_add_u32 s0, 0, 16
	; GFX9-NEXT: s_addc_u32 s1, 0, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v9, s[12:13]			; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v9, s[12:13]
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v9, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v9, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v9, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v9, s[2:3]
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v4, v9, s[4:5]			; GFX9-NEXT: v_cndmask_b32_e64 v4, v4, v9, s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[6:7]			; GFX9-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[6:7]
	; GFX9-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[8:9]			; GFX9-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[8:9]
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v9, s[10:11]			; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v9, s[10:11]
	; GFX9-NEXT: v_mov_b32_e32 v8, 0			; GFX9-NEXT: v_mov_b32_e32 v8, 0
	; GFX9-NEXT: v_mov_b32_e32 v11, s1			; GFX9-NEXT: s_add_u32 s0, 0, 16
	; GFX9-NEXT: v_mov_b32_e32 v9, 0			; GFX9-NEXT: v_mov_b32_e32 v9, 0
	; GFX9-NEXT: v_mov_b32_e32 v10, s0
	; GFX9-NEXT: global_store_dwordx4 v[8:9], v[0:3], off			; GFX9-NEXT: global_store_dwordx4 v[8:9], v[0:3], off
	; GFX9-NEXT: global_store_dwordx4 v[10:11], v[4:7], off			; GFX9-NEXT: s_addc_u32 s1, 0, 0
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: v_mov_b32_e32 v1, s1
				; GFX9-NEXT: global_store_dwordx4 v[0:1], v[4:7], off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: insertelement_s_v16i16_v_v:			; GFX8-LABEL: insertelement_s_v16i16_v_v:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx8 s[12:19], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx8 s[12:19], s[2:3], 0x0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 1, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 1, v1
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8
	Show All 22 Lines
	; GFX8-NEXT: v_mov_b32_e32 v10, s19			; GFX8-NEXT: v_mov_b32_e32 v10, s19
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[8:9]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[8:9]
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v8
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v10, s[10:11]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v10, s[10:11]
	; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX8-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX8-NEXT: v_and_b32_e32 v1, v2, v1			; GFX8-NEXT: v_and_b32_e32 v1, v2, v1
	; GFX8-NEXT: v_or_b32_e32 v9, v1, v0			; GFX8-NEXT: v_or_b32_e32 v9, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s12			; GFX8-NEXT: v_mov_b32_e32 v0, s12
	; GFX8-NEXT: v_mov_b32_e32 v2, s14
	; GFX8-NEXT: v_mov_b32_e32 v1, s13			; GFX8-NEXT: v_mov_b32_e32 v1, s13
				; GFX8-NEXT: v_mov_b32_e32 v2, s14
	; GFX8-NEXT: v_mov_b32_e32 v3, s15			; GFX8-NEXT: v_mov_b32_e32 v3, s15
	; GFX8-NEXT: v_mov_b32_e32 v4, s16			; GFX8-NEXT: v_mov_b32_e32 v4, s16
	; GFX8-NEXT: v_mov_b32_e32 v5, s17			; GFX8-NEXT: v_mov_b32_e32 v5, s17
	; GFX8-NEXT: v_mov_b32_e32 v6, s18			; GFX8-NEXT: v_mov_b32_e32 v6, s18
	; GFX8-NEXT: v_mov_b32_e32 v7, s19			; GFX8-NEXT: v_mov_b32_e32 v7, s19
	; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v8			; GFX8-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v8
	; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[0:1]
	; GFX8-NEXT: s_add_u32 s0, 0, 16
	; GFX8-NEXT: s_addc_u32 s1, 0, 0
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v9, s[12:13]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v9, s[12:13]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v9, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v9, vcc
	; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v9, s[2:3]			; GFX8-NEXT: v_cndmask_b32_e64 v3, v3, v9, s[2:3]
	; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v9, s[4:5]			; GFX8-NEXT: v_cndmask_b32_e64 v4, v4, v9, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[6:7]			; GFX8-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[6:7]
	; GFX8-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[8:9]			; GFX8-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[8:9]
	; GFX8-NEXT: v_cndmask_b32_e64 v7, v7, v9, s[10:11]			; GFX8-NEXT: v_cndmask_b32_e64 v7, v7, v9, s[10:11]
	; GFX8-NEXT: v_mov_b32_e32 v8, 0			; GFX8-NEXT: v_mov_b32_e32 v8, 0
	; GFX8-NEXT: v_mov_b32_e32 v11, s1			; GFX8-NEXT: s_add_u32 s0, 0, 16
	; GFX8-NEXT: v_mov_b32_e32 v9, 0			; GFX8-NEXT: v_mov_b32_e32 v9, 0
	; GFX8-NEXT: v_mov_b32_e32 v10, s0
	; GFX8-NEXT: flat_store_dwordx4 v[8:9], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
	; GFX8-NEXT: flat_store_dwordx4 v[10:11], v[4:7]			; GFX8-NEXT: s_addc_u32 s1, 0, 0
				; GFX8-NEXT: v_mov_b32_e32 v0, s0
				; GFX8-NEXT: v_mov_b32_e32 v1, s1
				; GFX8-NEXT: flat_store_dwordx4 v[0:1], v[4:7]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v16i16_v_v:			; GFX7-LABEL: insertelement_s_v16i16_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx8 s[12:19], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx8 s[12:19], s[2:3], 0x0
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 1, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v8, 1, v1
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v8
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v8
	▲ Show 20 Lines • Show All 511 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.large.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	define amdgpu_kernel void @v_insert_v64i32_37(<64 x i32> addrspace(1)* %ptr.in, <64 x i32> addrspace(1)* %ptr.out) #0 {			define amdgpu_kernel void @v_insert_v64i32_37(<64 x i32> addrspace(1)* %ptr.in, <64 x i32> addrspace(1)* %ptr.out) #0 {
	; GCN-LABEL: v_insert_v64i32_37:			; GCN-LABEL: v_insert_v64i32_37:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GCN-NEXT: v_lshlrev_b32_e32 v64, 8, v0			; GCN-NEXT: v_lshlrev_b32_e32 v64, 8, v0
	; GCN-NEXT: s_movk_i32 s4, 0x80			; GCN-NEXT: s_movk_i32 s4, 0x80
	; GCN-NEXT: s_mov_b32 s5, 0			; GCN-NEXT: s_mov_b32 s5, 0
	; GCN-NEXT: v_mov_b32_e32 v2, s4
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v0, s0			; GCN-NEXT: v_mov_b32_e32 v0, s0
	; GCN-NEXT: v_mov_b32_e32 v1, s1			; GCN-NEXT: v_mov_b32_e32 v1, s1
	; GCN-NEXT: v_add_co_u32_e32 v6, vcc, v0, v64			; GCN-NEXT: v_add_co_u32_e32 v4, vcc, v0, v64
	; GCN-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v1, vcc
	; GCN-NEXT: v_add_co_u32_e32 v0, vcc, 64, v6			; GCN-NEXT: v_add_co_u32_e32 v0, vcc, 64, v4
	; GCN-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v5, vcc
	; GCN-NEXT: v_mov_b32_e32 v3, s5
	; GCN-NEXT: v_add_co_u32_e32 v2, vcc, v6, v2
	; GCN-NEXT: s_movk_i32 s4, 0xc0
	; GCN-NEXT: v_mov_b32_e32 v4, s4
	; GCN-NEXT: v_addc_co_u32_e32 v3, vcc, v7, v3, vcc
	; GCN-NEXT: v_mov_b32_e32 v5, s5
	; GCN-NEXT: v_add_co_u32_e32 v16, vcc, v6, v4
	; GCN-NEXT: v_addc_co_u32_e32 v17, vcc, v7, v5, vcc
	; GCN-NEXT: global_load_dwordx4 v[4:7], v[2:3], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[8:11], v[2:3], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[32:35], v[0:1], off offset:16			; GCN-NEXT: global_load_dwordx4 v[32:35], v[0:1], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[36:39], v[0:1], off offset:32			; GCN-NEXT: global_load_dwordx4 v[36:39], v[0:1], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[40:43], v[0:1], off offset:48			; GCN-NEXT: global_load_dwordx4 v[40:43], v[0:1], off offset:48
				; GCN-NEXT: v_mov_b32_e32 v0, s4
				; GCN-NEXT: v_mov_b32_e32 v1, s5
				; GCN-NEXT: v_add_co_u32_e32 v0, vcc, v4, v0
				; GCN-NEXT: s_movk_i32 s4, 0xc0
				; GCN-NEXT: v_mov_b32_e32 v2, s4
				; GCN-NEXT: v_addc_co_u32_e32 v1, vcc, v5, v1, vcc
				; GCN-NEXT: v_mov_b32_e32 v3, s5
				; GCN-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2
				; GCN-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v3, vcc
	; GCN-NEXT: global_load_dwordx4 v[44:47], v64, s[0:1]			; GCN-NEXT: global_load_dwordx4 v[44:47], v64, s[0:1]
	; GCN-NEXT: global_load_dwordx4 v[48:51], v64, s[0:1] offset:16			; GCN-NEXT: global_load_dwordx4 v[48:51], v64, s[0:1] offset:16
	; GCN-NEXT: global_load_dwordx4 v[52:55], v64, s[0:1] offset:32			; GCN-NEXT: global_load_dwordx4 v[52:55], v64, s[0:1] offset:32
	; GCN-NEXT: global_load_dwordx4 v[56:59], v64, s[0:1] offset:48			; GCN-NEXT: global_load_dwordx4 v[56:59], v64, s[0:1] offset:48
	; GCN-NEXT: global_load_dwordx4 v[60:63], v64, s[0:1] offset:64			; GCN-NEXT: global_load_dwordx4 v[60:63], v64, s[0:1] offset:64
	; GCN-NEXT: global_load_dwordx4 v[12:15], v[2:3], off offset:48			; GCN-NEXT: global_load_dwordx4 v[4:7], v[0:1], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[20:23], v[16:17], off offset:16			; GCN-NEXT: global_load_dwordx4 v[8:11], v[0:1], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[24:27], v[16:17], off offset:32			; GCN-NEXT: global_load_dwordx4 v[12:15], v[0:1], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[28:31], v[16:17], off offset:48			; GCN-NEXT: global_load_dwordx4 v[20:23], v[2:3], off offset:16
				; GCN-NEXT: global_load_dwordx4 v[24:27], v[2:3], off offset:32
				; GCN-NEXT: global_load_dwordx4 v[28:31], v[2:3], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[0:3], v64, s[0:1] offset:128			; GCN-NEXT: global_load_dwordx4 v[0:3], v64, s[0:1] offset:128
	; GCN-NEXT: global_load_dwordx4 v[16:19], v64, s[0:1] offset:192			; GCN-NEXT: global_load_dwordx4 v[16:19], v64, s[0:1] offset:192
	; GCN-NEXT: s_waitcnt vmcnt(15)			; GCN-NEXT: s_waitcnt vmcnt(7)
	; GCN-NEXT: v_mov_b32_e32 v5, 0x3e7			; GCN-NEXT: v_mov_b32_e32 v5, 0x3e7
	; GCN-NEXT: s_waitcnt vmcnt(1)			; GCN-NEXT: s_waitcnt vmcnt(1)
	; GCN-NEXT: global_store_dwordx4 v64, v[0:3], s[2:3] offset:128			; GCN-NEXT: global_store_dwordx4 v64, v[0:3], s[2:3] offset:128
	; GCN-NEXT: global_store_dwordx4 v64, v[4:7], s[2:3] offset:144			; GCN-NEXT: global_store_dwordx4 v64, v[4:7], s[2:3] offset:144
	; GCN-NEXT: global_store_dwordx4 v64, v[8:11], s[2:3] offset:160			; GCN-NEXT: global_store_dwordx4 v64, v[8:11], s[2:3] offset:160
	; GCN-NEXT: global_store_dwordx4 v64, v[12:15], s[2:3] offset:176			; GCN-NEXT: global_store_dwordx4 v64, v[12:15], s[2:3] offset:176
	; GCN-NEXT: s_waitcnt vmcnt(4)			; GCN-NEXT: s_waitcnt vmcnt(4)
	; GCN-NEXT: global_store_dwordx4 v64, v[16:19], s[2:3] offset:192			; GCN-NEXT: global_store_dwordx4 v64, v[16:19], s[2:3] offset:192
	; GCN-NEXT: global_store_dwordx4 v64, v[20:23], s[2:3] offset:208			; GCN-NEXT: global_store_dwordx4 v64, v[20:23], s[2:3] offset:208
	; GCN-NEXT: global_store_dwordx4 v64, v[24:27], s[2:3] offset:224			; GCN-NEXT: global_store_dwordx4 v64, v[24:27], s[2:3] offset:224
	; GCN-NEXT: global_store_dwordx4 v64, v[44:47], s[2:3]			; GCN-NEXT: global_store_dwordx4 v64, v[44:47], s[2:3]
	; GCN-NEXT: global_store_dwordx4 v64, v[48:51], s[2:3] offset:16			; GCN-NEXT: global_store_dwordx4 v64, v[48:51], s[2:3] offset:16
	; GCN-NEXT: global_store_dwordx4 v64, v[52:55], s[2:3] offset:32			; GCN-NEXT: global_store_dwordx4 v64, v[52:55], s[2:3] offset:32
	; GCN-NEXT: global_store_dwordx4 v64, v[56:59], s[2:3] offset:48			; GCN-NEXT: global_store_dwordx4 v64, v[56:59], s[2:3] offset:48
	; GCN-NEXT: global_store_dwordx4 v64, v[28:31], s[2:3] offset:240
	; GCN-NEXT: global_store_dwordx4 v64, v[60:63], s[2:3] offset:64			; GCN-NEXT: global_store_dwordx4 v64, v[60:63], s[2:3] offset:64
				; GCN-NEXT: global_store_dwordx4 v64, v[28:31], s[2:3] offset:240
	; GCN-NEXT: global_store_dwordx4 v64, v[32:35], s[2:3] offset:80			; GCN-NEXT: global_store_dwordx4 v64, v[32:35], s[2:3] offset:80
	; GCN-NEXT: global_store_dwordx4 v64, v[36:39], s[2:3] offset:96			; GCN-NEXT: global_store_dwordx4 v64, v[36:39], s[2:3] offset:96
	; GCN-NEXT: global_store_dwordx4 v64, v[40:43], s[2:3] offset:112			; GCN-NEXT: global_store_dwordx4 v64, v[40:43], s[2:3] offset:112
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%id = call i32 @llvm.amdgcn.workitem.id.x()			%id = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.in = getelementptr <64 x i32>, <64 x i32> addrspace(1)* %ptr.in, i32 %id			%gep.in = getelementptr <64 x i32>, <64 x i32> addrspace(1)* %ptr.in, i32 %id
	%vec = load <64 x i32>, <64 x i32> addrspace(1)* %gep.in			%vec = load <64 x i32>, <64 x i32> addrspace(1)* %gep.in
	%insert = insertelement <64 x i32> %vec, i32 999, i32 37			%insert = insertelement <64 x i32> %vec, i32 999, i32 37
	Show All 9 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/load-unaligned.ll

	Show First 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: ds_write_b128 v0, v[1:4]			; GFX9-NEXT: ds_write_b128 v0, v[1:4]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: store_lds_v4i32_align1:			; GFX7-LABEL: store_lds_v4i32_align1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 8, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 8, v2
	; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 16, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 24, v2
	; GFX7-NEXT: ds_write_b8 v0, v1			; GFX7-NEXT: ds_write_b8 v0, v1
	; GFX7-NEXT: ds_write_b8 v0, v5 offset:1			; GFX7-NEXT: ds_write_b8 v0, v5 offset:1
	; GFX7-NEXT: ds_write_b8 v0, v6 offset:2			; GFX7-NEXT: ds_write_b8 v0, v6 offset:2
	; GFX7-NEXT: ds_write_b8 v0, v7 offset:3			; GFX7-NEXT: ds_write_b8 v0, v7 offset:3
				; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v2
				; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v2
				; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX7-NEXT: ds_write_b8 v0, v2 offset:4			; GFX7-NEXT: ds_write_b8 v0, v2 offset:4
	; GFX7-NEXT: ds_write_b8 v0, v8 offset:5			; GFX7-NEXT: ds_write_b8 v0, v1 offset:5
	; GFX7-NEXT: ds_write_b8 v0, v9 offset:6			; GFX7-NEXT: ds_write_b8 v0, v5 offset:6
	; GFX7-NEXT: ds_write_b8 v0, v10 offset:7			; GFX7-NEXT: ds_write_b8 v0, v6 offset:7
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 8, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 16, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v4
	; GFX7-NEXT: ds_write_b8 v0, v3 offset:8			; GFX7-NEXT: ds_write_b8 v0, v3 offset:8
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:9			; GFX7-NEXT: ds_write_b8 v0, v1 offset:9
	; GFX7-NEXT: ds_write_b8 v0, v2 offset:10			; GFX7-NEXT: ds_write_b8 v0, v2 offset:10
	; GFX7-NEXT: ds_write_b8 v0, v5 offset:11			; GFX7-NEXT: ds_write_b8 v0, v5 offset:11
				; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v4
				; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v4
				; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v4
	; GFX7-NEXT: ds_write_b8 v0, v4 offset:12			; GFX7-NEXT: ds_write_b8 v0, v4 offset:12
	; GFX7-NEXT: ds_write_b8 v0, v6 offset:13			; GFX7-NEXT: ds_write_b8 v0, v1 offset:13
	; GFX7-NEXT: ds_write_b8 v0, v7 offset:14			; GFX7-NEXT: ds_write_b8 v0, v2 offset:14
	; GFX7-NEXT: ds_write_b8 v0, v8 offset:15			; GFX7-NEXT: ds_write_b8 v0, v3 offset:15
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	store <4 x i32> %x, <4 x i32> addrspace(3)* %out, align 1			store <4 x i32> %x, <4 x i32> addrspace(3)* %out, align 1
	ret void			ret void
	}			}

	define void @store_lds_v3i32_align1(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define void @store_lds_v3i32_align1(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align1:			; GFX9-LABEL: store_lds_v3i32_align1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: ds_write_b96 v0, v[1:3]			; GFX9-NEXT: ds_write_b96 v0, v[1:3]
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-LABEL: store_lds_v3i32_align1:			; GFX7-LABEL: store_lds_v3i32_align1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v1
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 16, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 8, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v2
	; GFX7-NEXT: ds_write_b8 v0, v1			; GFX7-NEXT: ds_write_b8 v0, v1
	; GFX7-NEXT: ds_write_b8 v0, v4 offset:1			; GFX7-NEXT: ds_write_b8 v0, v4 offset:1
	; GFX7-NEXT: ds_write_b8 v0, v5 offset:2			; GFX7-NEXT: ds_write_b8 v0, v5 offset:2
	; GFX7-NEXT: ds_write_b8 v0, v6 offset:3			; GFX7-NEXT: ds_write_b8 v0, v6 offset:3
				; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v2
				; GFX7-NEXT: v_lshrrev_b32_e32 v4, 16, v2
				; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v2
	; GFX7-NEXT: ds_write_b8 v0, v2 offset:4			; GFX7-NEXT: ds_write_b8 v0, v2 offset:4
	; GFX7-NEXT: ds_write_b8 v0, v7 offset:5			; GFX7-NEXT: ds_write_b8 v0, v1 offset:5
	; GFX7-NEXT: ds_write_b8 v0, v8 offset:6			; GFX7-NEXT: ds_write_b8 v0, v4 offset:6
	; GFX7-NEXT: ds_write_b8 v0, v9 offset:7			; GFX7-NEXT: ds_write_b8 v0, v5 offset:7
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v3
	; GFX7-NEXT: ds_write_b8 v0, v3 offset:8			; GFX7-NEXT: ds_write_b8 v0, v3 offset:8
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:9			; GFX7-NEXT: ds_write_b8 v0, v1 offset:9
	; GFX7-NEXT: ds_write_b8 v0, v2 offset:10			; GFX7-NEXT: ds_write_b8 v0, v2 offset:10
	; GFX7-NEXT: ds_write_b8 v0, v4 offset:11			; GFX7-NEXT: ds_write_b8 v0, v4 offset:11
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 1			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 1
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/GlobalISel/store-local.128.ll

	Show All 37 Lines

	define amdgpu_kernel void @store_lds_v4i32_align1(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {			define amdgpu_kernel void @store_lds_v4i32_align1(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {
	; GFX9-LABEL: store_lds_v4i32_align1:			; GFX9-LABEL: store_lds_v4i32_align1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v1, s4			; GFX9-NEXT: v_mov_b32_e32 v1, s4
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: s_lshr_b32 s5, s0, 8			; GFX9-NEXT: s_lshr_b32 s5, s0, 8
				; GFX9-NEXT: ds_write_b8 v1, v0
				; GFX9-NEXT: v_mov_b32_e32 v0, s5
	; GFX9-NEXT: s_lshr_b32 s6, s0, 16			; GFX9-NEXT: s_lshr_b32 s6, s0, 16
	; GFX9-NEXT: s_lshr_b32 s7, s0, 24			; GFX9-NEXT: s_lshr_b32 s7, s0, 24
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: ds_write_b8 v1, v0 offset:1
				; GFX9-NEXT: v_mov_b32_e32 v0, s6
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:2
				; GFX9-NEXT: v_mov_b32_e32 v0, s7
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:3
				; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: s_lshr_b32 s0, s1, 8			; GFX9-NEXT: s_lshr_b32 s0, s1, 8
	; GFX9-NEXT: v_mov_b32_e32 v2, s5			; GFX9-NEXT: ds_write_b8 v1, v0 offset:4
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: s_lshr_b32 s4, s1, 16			; GFX9-NEXT: s_lshr_b32 s4, s1, 16
	; GFX9-NEXT: s_lshr_b32 s5, s1, 24			; GFX9-NEXT: s_lshr_b32 s5, s1, 24
	; GFX9-NEXT: v_mov_b32_e32 v5, s1			; GFX9-NEXT: ds_write_b8 v1, v0 offset:5
	; GFX9-NEXT: v_mov_b32_e32 v6, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v3, s6			; GFX9-NEXT: ds_write_b8 v1, v0 offset:6
				; GFX9-NEXT: v_mov_b32_e32 v0, s5
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:7
				; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: s_lshr_b32 s0, s2, 8			; GFX9-NEXT: s_lshr_b32 s0, s2, 8
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:8
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: s_lshr_b32 s1, s2, 16			; GFX9-NEXT: s_lshr_b32 s1, s2, 16
	; GFX9-NEXT: v_mov_b32_e32 v7, s4
	; GFX9-NEXT: v_mov_b32_e32 v4, s7
	; GFX9-NEXT: v_mov_b32_e32 v8, s5
	; GFX9-NEXT: ds_write_b8 v1, v0
	; GFX9-NEXT: ds_write_b8 v1, v2 offset:1
	; GFX9-NEXT: ds_write_b8 v1, v3 offset:2
	; GFX9-NEXT: ds_write_b8 v1, v4 offset:3
	; GFX9-NEXT: ds_write_b8 v1, v5 offset:4
	; GFX9-NEXT: ds_write_b8 v1, v6 offset:5
	; GFX9-NEXT: ds_write_b8 v1, v7 offset:6
	; GFX9-NEXT: ds_write_b8 v1, v8 offset:7
	; GFX9-NEXT: s_lshr_b32 s4, s2, 24			; GFX9-NEXT: s_lshr_b32 s4, s2, 24
	; GFX9-NEXT: v_mov_b32_e32 v0, s2			; GFX9-NEXT: ds_write_b8 v1, v0 offset:9
	; GFX9-NEXT: v_mov_b32_e32 v2, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: v_mov_b32_e32 v3, s1			; GFX9-NEXT: ds_write_b8 v1, v0 offset:10
				; GFX9-NEXT: v_mov_b32_e32 v0, s4
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:11
				; GFX9-NEXT: v_mov_b32_e32 v0, s3
	; GFX9-NEXT: s_lshr_b32 s0, s3, 8			; GFX9-NEXT: s_lshr_b32 s0, s3, 8
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:12
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: s_lshr_b32 s1, s3, 16			; GFX9-NEXT: s_lshr_b32 s1, s3, 16
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:13
				; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: s_lshr_b32 s2, s3, 24			; GFX9-NEXT: s_lshr_b32 s2, s3, 24
	; GFX9-NEXT: v_mov_b32_e32 v4, s4			; GFX9-NEXT: ds_write_b8 v1, v0 offset:14
	; GFX9-NEXT: v_mov_b32_e32 v5, s3			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mov_b32_e32 v6, s0			; GFX9-NEXT: ds_write_b8 v1, v0 offset:15
	; GFX9-NEXT: v_mov_b32_e32 v7, s1
	; GFX9-NEXT: v_mov_b32_e32 v8, s2
	; GFX9-NEXT: ds_write_b8 v1, v0 offset:8
	; GFX9-NEXT: ds_write_b8 v1, v2 offset:9
	; GFX9-NEXT: ds_write_b8 v1, v3 offset:10
	; GFX9-NEXT: ds_write_b8 v1, v4 offset:11
	; GFX9-NEXT: ds_write_b8 v1, v5 offset:12
	; GFX9-NEXT: ds_write_b8 v1, v6 offset:13
	; GFX9-NEXT: ds_write_b8 v1, v7 offset:14
	; GFX9-NEXT: ds_write_b8 v1, v8 offset:15
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v4i32_align1:			; GFX7-LABEL: store_lds_v4i32_align1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v1, s4			; GFX7-NEXT: v_mov_b32_e32 v1, s4
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: s_lshr_b32 s5, s0, 8			; GFX7-NEXT: s_lshr_b32 s5, s0, 8
				; GFX7-NEXT: ds_write_b8 v1, v0
				; GFX7-NEXT: v_mov_b32_e32 v0, s5
	; GFX7-NEXT: s_lshr_b32 s6, s0, 16			; GFX7-NEXT: s_lshr_b32 s6, s0, 16
	; GFX7-NEXT: s_lshr_b32 s7, s0, 24			; GFX7-NEXT: s_lshr_b32 s7, s0, 24
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: ds_write_b8 v1, v0 offset:1
				; GFX7-NEXT: v_mov_b32_e32 v0, s6
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:2
				; GFX7-NEXT: v_mov_b32_e32 v0, s7
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:3
				; GFX7-NEXT: v_mov_b32_e32 v0, s1
	; GFX7-NEXT: s_lshr_b32 s0, s1, 8			; GFX7-NEXT: s_lshr_b32 s0, s1, 8
	; GFX7-NEXT: v_mov_b32_e32 v2, s5			; GFX7-NEXT: ds_write_b8 v1, v0 offset:4
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: s_lshr_b32 s4, s1, 16			; GFX7-NEXT: s_lshr_b32 s4, s1, 16
	; GFX7-NEXT: s_lshr_b32 s5, s1, 24			; GFX7-NEXT: s_lshr_b32 s5, s1, 24
	; GFX7-NEXT: v_mov_b32_e32 v5, s1			; GFX7-NEXT: ds_write_b8 v1, v0 offset:5
	; GFX7-NEXT: v_mov_b32_e32 v6, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v3, s6			; GFX7-NEXT: ds_write_b8 v1, v0 offset:6
				; GFX7-NEXT: v_mov_b32_e32 v0, s5
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:7
				; GFX7-NEXT: v_mov_b32_e32 v0, s2
	; GFX7-NEXT: s_lshr_b32 s0, s2, 8			; GFX7-NEXT: s_lshr_b32 s0, s2, 8
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:8
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: s_lshr_b32 s1, s2, 16			; GFX7-NEXT: s_lshr_b32 s1, s2, 16
	; GFX7-NEXT: v_mov_b32_e32 v7, s4
	; GFX7-NEXT: v_mov_b32_e32 v4, s7
	; GFX7-NEXT: v_mov_b32_e32 v8, s5
	; GFX7-NEXT: ds_write_b8 v1, v0
	; GFX7-NEXT: ds_write_b8 v1, v2 offset:1
	; GFX7-NEXT: ds_write_b8 v1, v3 offset:2
	; GFX7-NEXT: ds_write_b8 v1, v4 offset:3
	; GFX7-NEXT: ds_write_b8 v1, v5 offset:4
	; GFX7-NEXT: ds_write_b8 v1, v6 offset:5
	; GFX7-NEXT: ds_write_b8 v1, v7 offset:6
	; GFX7-NEXT: ds_write_b8 v1, v8 offset:7
	; GFX7-NEXT: s_lshr_b32 s4, s2, 24			; GFX7-NEXT: s_lshr_b32 s4, s2, 24
	; GFX7-NEXT: v_mov_b32_e32 v0, s2			; GFX7-NEXT: ds_write_b8 v1, v0 offset:9
	; GFX7-NEXT: v_mov_b32_e32 v2, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s1			; GFX7-NEXT: ds_write_b8 v1, v0 offset:10
				; GFX7-NEXT: v_mov_b32_e32 v0, s4
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:11
				; GFX7-NEXT: v_mov_b32_e32 v0, s3
	; GFX7-NEXT: s_lshr_b32 s0, s3, 8			; GFX7-NEXT: s_lshr_b32 s0, s3, 8
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:12
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: s_lshr_b32 s1, s3, 16			; GFX7-NEXT: s_lshr_b32 s1, s3, 16
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:13
				; GFX7-NEXT: v_mov_b32_e32 v0, s1
	; GFX7-NEXT: s_lshr_b32 s2, s3, 24			; GFX7-NEXT: s_lshr_b32 s2, s3, 24
	; GFX7-NEXT: v_mov_b32_e32 v4, s4			; GFX7-NEXT: ds_write_b8 v1, v0 offset:14
	; GFX7-NEXT: v_mov_b32_e32 v5, s3			; GFX7-NEXT: v_mov_b32_e32 v0, s2
	; GFX7-NEXT: v_mov_b32_e32 v6, s0			; GFX7-NEXT: ds_write_b8 v1, v0 offset:15
	; GFX7-NEXT: v_mov_b32_e32 v7, s1
	; GFX7-NEXT: v_mov_b32_e32 v8, s2
	; GFX7-NEXT: ds_write_b8 v1, v0 offset:8
	; GFX7-NEXT: ds_write_b8 v1, v2 offset:9
	; GFX7-NEXT: ds_write_b8 v1, v3 offset:10
	; GFX7-NEXT: ds_write_b8 v1, v4 offset:11
	; GFX7-NEXT: ds_write_b8 v1, v5 offset:12
	; GFX7-NEXT: ds_write_b8 v1, v6 offset:13
	; GFX7-NEXT: ds_write_b8 v1, v7 offset:14
	; GFX7-NEXT: ds_write_b8 v1, v8 offset:15
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	store <4 x i32> %x, <4 x i32> addrspace(3)* %out, align 1			store <4 x i32> %x, <4 x i32> addrspace(3)* %out, align 1
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v4i32_align2(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {			define amdgpu_kernel void @store_lds_v4i32_align2(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {
	; GFX9-LABEL: store_lds_v4i32_align2:			; GFX9-LABEL: store_lds_v4i32_align2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v1, s4			; GFX9-NEXT: v_mov_b32_e32 v1, s4
	; GFX9-NEXT: s_lshr_b32 s5, s0, 16
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: s_lshr_b32 s5, s0, 16
				; GFX9-NEXT: ds_write_b16 v1, v0
				; GFX9-NEXT: v_mov_b32_e32 v0, s5
				; GFX9-NEXT: ds_write_b16 v1, v0 offset:2
				; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: s_lshr_b32 s0, s1, 16			; GFX9-NEXT: s_lshr_b32 s0, s1, 16
	; GFX9-NEXT: v_mov_b32_e32 v4, s0			; GFX9-NEXT: ds_write_b16 v1, v0 offset:4
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: ds_write_b16 v1, v0 offset:6
				; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: s_lshr_b32 s0, s2, 16			; GFX9-NEXT: s_lshr_b32 s0, s2, 16
	; GFX9-NEXT: v_mov_b32_e32 v6, s0			; GFX9-NEXT: ds_write_b16 v1, v0 offset:8
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: ds_write_b16 v1, v0 offset:10
				; GFX9-NEXT: v_mov_b32_e32 v0, s3
	; GFX9-NEXT: s_lshr_b32 s0, s3, 16			; GFX9-NEXT: s_lshr_b32 s0, s3, 16
	; GFX9-NEXT: v_mov_b32_e32 v2, s5			; GFX9-NEXT: ds_write_b16 v1, v0 offset:12
	; GFX9-NEXT: v_mov_b32_e32 v3, s1			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v5, s2			; GFX9-NEXT: ds_write_b16 v1, v0 offset:14
	; GFX9-NEXT: v_mov_b32_e32 v7, s3
	; GFX9-NEXT: v_mov_b32_e32 v8, s0
	; GFX9-NEXT: ds_write_b16 v1, v0
	; GFX9-NEXT: ds_write_b16 v1, v2 offset:2
	; GFX9-NEXT: ds_write_b16 v1, v3 offset:4
	; GFX9-NEXT: ds_write_b16 v1, v4 offset:6
	; GFX9-NEXT: ds_write_b16 v1, v5 offset:8
	; GFX9-NEXT: ds_write_b16 v1, v6 offset:10
	; GFX9-NEXT: ds_write_b16 v1, v7 offset:12
	; GFX9-NEXT: ds_write_b16 v1, v8 offset:14
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v4i32_align2:			; GFX7-LABEL: store_lds_v4i32_align2:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v1, s4			; GFX7-NEXT: v_mov_b32_e32 v1, s4
	; GFX7-NEXT: s_lshr_b32 s5, s0, 16
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
				; GFX7-NEXT: s_lshr_b32 s5, s0, 16
				; GFX7-NEXT: ds_write_b16 v1, v0
				; GFX7-NEXT: v_mov_b32_e32 v0, s5
				; GFX7-NEXT: ds_write_b16 v1, v0 offset:2
				; GFX7-NEXT: v_mov_b32_e32 v0, s1
	; GFX7-NEXT: s_lshr_b32 s0, s1, 16			; GFX7-NEXT: s_lshr_b32 s0, s1, 16
	; GFX7-NEXT: v_mov_b32_e32 v4, s0			; GFX7-NEXT: ds_write_b16 v1, v0 offset:4
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
				; GFX7-NEXT: ds_write_b16 v1, v0 offset:6
				; GFX7-NEXT: v_mov_b32_e32 v0, s2
	; GFX7-NEXT: s_lshr_b32 s0, s2, 16			; GFX7-NEXT: s_lshr_b32 s0, s2, 16
	; GFX7-NEXT: v_mov_b32_e32 v6, s0			; GFX7-NEXT: ds_write_b16 v1, v0 offset:8
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
				; GFX7-NEXT: ds_write_b16 v1, v0 offset:10
				; GFX7-NEXT: v_mov_b32_e32 v0, s3
	; GFX7-NEXT: s_lshr_b32 s0, s3, 16			; GFX7-NEXT: s_lshr_b32 s0, s3, 16
	; GFX7-NEXT: v_mov_b32_e32 v2, s5			; GFX7-NEXT: ds_write_b16 v1, v0 offset:12
	; GFX7-NEXT: v_mov_b32_e32 v3, s1			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v5, s2			; GFX7-NEXT: ds_write_b16 v1, v0 offset:14
	; GFX7-NEXT: v_mov_b32_e32 v7, s3
	; GFX7-NEXT: v_mov_b32_e32 v8, s0
	; GFX7-NEXT: ds_write_b16 v1, v0
	; GFX7-NEXT: ds_write_b16 v1, v2 offset:2
	; GFX7-NEXT: ds_write_b16 v1, v3 offset:4
	; GFX7-NEXT: ds_write_b16 v1, v4 offset:6
	; GFX7-NEXT: ds_write_b16 v1, v5 offset:8
	; GFX7-NEXT: ds_write_b16 v1, v6 offset:10
	; GFX7-NEXT: ds_write_b16 v1, v7 offset:12
	; GFX7-NEXT: ds_write_b16 v1, v8 offset:14
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	store <4 x i32> %x, <4 x i32> addrspace(3)* %out, align 2			store <4 x i32> %x, <4 x i32> addrspace(3)* %out, align 2
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v4i32_align4(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {			define amdgpu_kernel void @store_lds_v4i32_align4(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {
	; GFX9-LABEL: store_lds_v4i32_align4:			; GFX9-LABEL: store_lds_v4i32_align4:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 90 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/store-local.96.ll

	Show All 35 Lines

	define amdgpu_kernel void @store_lds_v3i32_align1(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align1(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align1:			; GFX9-LABEL: store_lds_v3i32_align1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v1, s4			; GFX9-NEXT: v_mov_b32_e32 v1, s4
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: s_lshr_b32 s3, s0, 8			; GFX9-NEXT: s_lshr_b32 s3, s0, 8
				; GFX9-NEXT: ds_write_b8 v1, v0
				; GFX9-NEXT: v_mov_b32_e32 v0, s3
	; GFX9-NEXT: s_lshr_b32 s5, s0, 16			; GFX9-NEXT: s_lshr_b32 s5, s0, 16
	; GFX9-NEXT: s_lshr_b32 s6, s0, 24			; GFX9-NEXT: s_lshr_b32 s6, s0, 24
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: ds_write_b8 v1, v0 offset:1
	; GFX9-NEXT: v_mov_b32_e32 v2, s3			; GFX9-NEXT: v_mov_b32_e32 v0, s5
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:2
				; GFX9-NEXT: v_mov_b32_e32 v0, s6
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:3
				; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: s_lshr_b32 s0, s1, 8			; GFX9-NEXT: s_lshr_b32 s0, s1, 8
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:4
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: s_lshr_b32 s3, s1, 16			; GFX9-NEXT: s_lshr_b32 s3, s1, 16
	; GFX9-NEXT: s_lshr_b32 s4, s1, 24			; GFX9-NEXT: s_lshr_b32 s4, s1, 24
	; GFX9-NEXT: v_mov_b32_e32 v5, s1			; GFX9-NEXT: ds_write_b8 v1, v0 offset:5
	; GFX9-NEXT: v_mov_b32_e32 v6, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s3
	; GFX9-NEXT: v_mov_b32_e32 v7, s3			; GFX9-NEXT: ds_write_b8 v1, v0 offset:6
	; GFX9-NEXT: v_mov_b32_e32 v3, s5			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v4, s6			; GFX9-NEXT: ds_write_b8 v1, v0 offset:7
	; GFX9-NEXT: v_mov_b32_e32 v8, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: ds_write_b8 v1, v0
	; GFX9-NEXT: ds_write_b8 v1, v2 offset:1
	; GFX9-NEXT: ds_write_b8 v1, v3 offset:2
	; GFX9-NEXT: ds_write_b8 v1, v4 offset:3
	; GFX9-NEXT: ds_write_b8 v1, v5 offset:4
	; GFX9-NEXT: ds_write_b8 v1, v6 offset:5
	; GFX9-NEXT: ds_write_b8 v1, v7 offset:6
	; GFX9-NEXT: ds_write_b8 v1, v8 offset:7
	; GFX9-NEXT: s_lshr_b32 s0, s2, 8			; GFX9-NEXT: s_lshr_b32 s0, s2, 8
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:8
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: s_lshr_b32 s1, s2, 16			; GFX9-NEXT: s_lshr_b32 s1, s2, 16
				; GFX9-NEXT: ds_write_b8 v1, v0 offset:9
				; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: s_lshr_b32 s3, s2, 24			; GFX9-NEXT: s_lshr_b32 s3, s2, 24
	; GFX9-NEXT: v_mov_b32_e32 v0, s2			; GFX9-NEXT: ds_write_b8 v1, v0 offset:10
	; GFX9-NEXT: v_mov_b32_e32 v2, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s3
	; GFX9-NEXT: v_mov_b32_e32 v3, s1			; GFX9-NEXT: ds_write_b8 v1, v0 offset:11
	; GFX9-NEXT: v_mov_b32_e32 v4, s3
	; GFX9-NEXT: ds_write_b8 v1, v0 offset:8
	; GFX9-NEXT: ds_write_b8 v1, v2 offset:9
	; GFX9-NEXT: ds_write_b8 v1, v3 offset:10
	; GFX9-NEXT: ds_write_b8 v1, v4 offset:11
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v3i32_align1:			; GFX7-LABEL: store_lds_v3i32_align1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v1, s4			; GFX7-NEXT: v_mov_b32_e32 v1, s4
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: s_lshr_b32 s3, s0, 8			; GFX7-NEXT: s_lshr_b32 s3, s0, 8
				; GFX7-NEXT: ds_write_b8 v1, v0
				; GFX7-NEXT: v_mov_b32_e32 v0, s3
	; GFX7-NEXT: s_lshr_b32 s5, s0, 16			; GFX7-NEXT: s_lshr_b32 s5, s0, 16
	; GFX7-NEXT: s_lshr_b32 s6, s0, 24			; GFX7-NEXT: s_lshr_b32 s6, s0, 24
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: ds_write_b8 v1, v0 offset:1
	; GFX7-NEXT: v_mov_b32_e32 v2, s3			; GFX7-NEXT: v_mov_b32_e32 v0, s5
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:2
				; GFX7-NEXT: v_mov_b32_e32 v0, s6
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:3
				; GFX7-NEXT: v_mov_b32_e32 v0, s1
	; GFX7-NEXT: s_lshr_b32 s0, s1, 8			; GFX7-NEXT: s_lshr_b32 s0, s1, 8
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:4
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: s_lshr_b32 s3, s1, 16			; GFX7-NEXT: s_lshr_b32 s3, s1, 16
	; GFX7-NEXT: s_lshr_b32 s4, s1, 24			; GFX7-NEXT: s_lshr_b32 s4, s1, 24
	; GFX7-NEXT: v_mov_b32_e32 v5, s1			; GFX7-NEXT: ds_write_b8 v1, v0 offset:5
	; GFX7-NEXT: v_mov_b32_e32 v6, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s3
	; GFX7-NEXT: v_mov_b32_e32 v7, s3			; GFX7-NEXT: ds_write_b8 v1, v0 offset:6
	; GFX7-NEXT: v_mov_b32_e32 v3, s5			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v4, s6			; GFX7-NEXT: ds_write_b8 v1, v0 offset:7
	; GFX7-NEXT: v_mov_b32_e32 v8, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s2
	; GFX7-NEXT: ds_write_b8 v1, v0
	; GFX7-NEXT: ds_write_b8 v1, v2 offset:1
	; GFX7-NEXT: ds_write_b8 v1, v3 offset:2
	; GFX7-NEXT: ds_write_b8 v1, v4 offset:3
	; GFX7-NEXT: ds_write_b8 v1, v5 offset:4
	; GFX7-NEXT: ds_write_b8 v1, v6 offset:5
	; GFX7-NEXT: ds_write_b8 v1, v7 offset:6
	; GFX7-NEXT: ds_write_b8 v1, v8 offset:7
	; GFX7-NEXT: s_lshr_b32 s0, s2, 8			; GFX7-NEXT: s_lshr_b32 s0, s2, 8
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:8
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: s_lshr_b32 s1, s2, 16			; GFX7-NEXT: s_lshr_b32 s1, s2, 16
				; GFX7-NEXT: ds_write_b8 v1, v0 offset:9
				; GFX7-NEXT: v_mov_b32_e32 v0, s1
	; GFX7-NEXT: s_lshr_b32 s3, s2, 24			; GFX7-NEXT: s_lshr_b32 s3, s2, 24
	; GFX7-NEXT: v_mov_b32_e32 v0, s2			; GFX7-NEXT: ds_write_b8 v1, v0 offset:10
	; GFX7-NEXT: v_mov_b32_e32 v2, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s3
	; GFX7-NEXT: v_mov_b32_e32 v3, s1			; GFX7-NEXT: ds_write_b8 v1, v0 offset:11
	; GFX7-NEXT: v_mov_b32_e32 v4, s3
	; GFX7-NEXT: ds_write_b8 v1, v0 offset:8
	; GFX7-NEXT: ds_write_b8 v1, v2 offset:9
	; GFX7-NEXT: ds_write_b8 v1, v3 offset:10
	; GFX7-NEXT: ds_write_b8 v1, v4 offset:11
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 1			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 1
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v3i32_align2(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align2(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align2:			; GFX9-LABEL: store_lds_v3i32_align2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v1, s4			; GFX9-NEXT: v_mov_b32_e32 v1, s4
	; GFX9-NEXT: s_lshr_b32 s3, s0, 16
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: s_lshr_b32 s3, s0, 16
				; GFX9-NEXT: ds_write_b16 v1, v0
				; GFX9-NEXT: v_mov_b32_e32 v0, s3
				; GFX9-NEXT: ds_write_b16 v1, v0 offset:2
				; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: s_lshr_b32 s0, s1, 16			; GFX9-NEXT: s_lshr_b32 s0, s1, 16
	; GFX9-NEXT: v_mov_b32_e32 v4, s0			; GFX9-NEXT: ds_write_b16 v1, v0 offset:4
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: ds_write_b16 v1, v0 offset:6
				; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: s_lshr_b32 s0, s2, 16			; GFX9-NEXT: s_lshr_b32 s0, s2, 16
	; GFX9-NEXT: v_mov_b32_e32 v2, s3			; GFX9-NEXT: ds_write_b16 v1, v0 offset:8
	; GFX9-NEXT: v_mov_b32_e32 v3, s1			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v5, s2			; GFX9-NEXT: ds_write_b16 v1, v0 offset:10
	; GFX9-NEXT: v_mov_b32_e32 v6, s0
	; GFX9-NEXT: ds_write_b16 v1, v0
	; GFX9-NEXT: ds_write_b16 v1, v2 offset:2
	; GFX9-NEXT: ds_write_b16 v1, v3 offset:4
	; GFX9-NEXT: ds_write_b16 v1, v4 offset:6
	; GFX9-NEXT: ds_write_b16 v1, v5 offset:8
	; GFX9-NEXT: ds_write_b16 v1, v6 offset:10
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v3i32_align2:			; GFX7-LABEL: store_lds_v3i32_align2:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v1, s4			; GFX7-NEXT: v_mov_b32_e32 v1, s4
	; GFX7-NEXT: s_lshr_b32 s3, s0, 16
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
				; GFX7-NEXT: s_lshr_b32 s3, s0, 16
				; GFX7-NEXT: ds_write_b16 v1, v0
				; GFX7-NEXT: v_mov_b32_e32 v0, s3
				; GFX7-NEXT: ds_write_b16 v1, v0 offset:2
				; GFX7-NEXT: v_mov_b32_e32 v0, s1
	; GFX7-NEXT: s_lshr_b32 s0, s1, 16			; GFX7-NEXT: s_lshr_b32 s0, s1, 16
	; GFX7-NEXT: v_mov_b32_e32 v4, s0			; GFX7-NEXT: ds_write_b16 v1, v0 offset:4
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
				; GFX7-NEXT: ds_write_b16 v1, v0 offset:6
				; GFX7-NEXT: v_mov_b32_e32 v0, s2
	; GFX7-NEXT: s_lshr_b32 s0, s2, 16			; GFX7-NEXT: s_lshr_b32 s0, s2, 16
	; GFX7-NEXT: v_mov_b32_e32 v2, s3			; GFX7-NEXT: ds_write_b16 v1, v0 offset:8
	; GFX7-NEXT: v_mov_b32_e32 v3, s1			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v5, s2			; GFX7-NEXT: ds_write_b16 v1, v0 offset:10
	; GFX7-NEXT: v_mov_b32_e32 v6, s0
	; GFX7-NEXT: ds_write_b16 v1, v0
	; GFX7-NEXT: ds_write_b16 v1, v2 offset:2
	; GFX7-NEXT: ds_write_b16 v1, v3 offset:4
	; GFX7-NEXT: ds_write_b16 v1, v4 offset:6
	; GFX7-NEXT: ds_write_b16 v1, v5 offset:8
	; GFX7-NEXT: ds_write_b16 v1, v6 offset:10
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 2			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 2
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v3i32_align4(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align4(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align4:			; GFX9-LABEL: store_lds_v3i32_align4:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 85 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,310 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_f32_e32 v1, v0, v6			; GCN-NEXT: v_mul_f32_e32 v1, v0, v6
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v5, v1
	; GCN-NEXT: v_mad_f32 v0, -v1, v2, v0			; GCN-NEXT: v_mad_f32 v0, -v1, v2, v0
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, v2			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, v2
	; GCN-NEXT: v_and_b32_e32 v2, s3, v3			; GCN-NEXT: v_and_b32_e32 v2, s3, v3
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v5, vcc
	; GCN-NEXT: v_and_b32_e32 v3, s3, v4			; GCN-NEXT: v_and_b32_e32 v3, s3, v4
	; GCN-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GCN-NEXT: v_lshlrev_b32_e32 v3, 15, v3			; GCN-NEXT: v_lshlrev_b32_e32 v3, 15, v3
				; GCN-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GCN-NEXT: v_or_b32_e32 v2, v2, v3			; GCN-NEXT: v_or_b32_e32 v2, v2, v3
	; GCN-NEXT: v_or_b32_e32 v0, v2, v0			; GCN-NEXT: v_or_b32_e32 v0, v2, v0
	; GCN-NEXT: v_and_b32_e32 v1, 0x1fff, v1
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: buffer_store_short v1, off, s[4:7], 0 offset:4			; GCN-NEXT: s_waitcnt expcnt(0)
				; GCN-NEXT: v_and_b32_e32 v0, 0x1fff, v1
				; GCN-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = udiv <3 x i15> %x, %y			%r = udiv <3 x i15> %x, %y
	store <3 x i15> %r, <3 x i15> addrspace(1)* %out			store <3 x i15> %r, <3 x i15> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_v3i15(<3 x i15> addrspace(1)* %out, <3 x i15> %x, <3 x i15> %y) {			define amdgpu_kernel void @urem_v3i15(<3 x i15> addrspace(1)* %out, <3 x i15> %x, <3 x i15> %y) {
	; CHECK-LABEL: @urem_v3i15(			; CHECK-LABEL: @urem_v3i15(
	▲ Show 20 Lines • Show All 121 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, s8, v1			; GCN-NEXT: v_sub_i32_e32 v3, vcc, s8, v1
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_and_b32_e32 v3, s3, v3			; GCN-NEXT: v_and_b32_e32 v3, s3, v3
	; GCN-NEXT: v_lshl_b64 v[0:1], v[0:1], 30			; GCN-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GCN-NEXT: v_and_b32_e32 v2, s3, v6			; GCN-NEXT: v_and_b32_e32 v2, s3, v6
	; GCN-NEXT: v_lshlrev_b32_e32 v3, 15, v3			; GCN-NEXT: v_lshlrev_b32_e32 v3, 15, v3
	; GCN-NEXT: v_or_b32_e32 v2, v2, v3			; GCN-NEXT: v_or_b32_e32 v2, v2, v3
	; GCN-NEXT: v_or_b32_e32 v0, v2, v0			; GCN-NEXT: v_or_b32_e32 v0, v2, v0
	; GCN-NEXT: v_and_b32_e32 v1, 0x1fff, v1
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: buffer_store_short v1, off, s[4:7], 0 offset:4			; GCN-NEXT: s_waitcnt expcnt(0)
				; GCN-NEXT: v_and_b32_e32 v0, 0x1fff, v1
				; GCN-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = urem <3 x i15> %x, %y			%r = urem <3 x i15> %x, %y
	store <3 x i15> %r, <3 x i15> addrspace(1)* %out			store <3 x i15> %r, <3 x i15> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @sdiv_v3i15(<3 x i15> addrspace(1)* %out, <3 x i15> %x, <3 x i15> %y) {			define amdgpu_kernel void @sdiv_v3i15(<3 x i15> addrspace(1)* %out, <3 x i15> %x, <3 x i15> %y) {
	; CHECK-LABEL: @sdiv_v3i15(			; CHECK-LABEL: @sdiv_v3i15(
	▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_movk_i32 s0, 0x7fff			; GCN-NEXT: s_movk_i32 s0, 0x7fff
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_and_b32_e32 v3, s0, v3			; GCN-NEXT: v_and_b32_e32 v3, s0, v3
	; GCN-NEXT: v_lshl_b64 v[0:1], v[0:1], 30			; GCN-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GCN-NEXT: v_and_b32_e32 v2, s0, v2			; GCN-NEXT: v_and_b32_e32 v2, s0, v2
	; GCN-NEXT: v_lshlrev_b32_e32 v3, 15, v3			; GCN-NEXT: v_lshlrev_b32_e32 v3, 15, v3
	; GCN-NEXT: v_or_b32_e32 v2, v2, v3			; GCN-NEXT: v_or_b32_e32 v2, v2, v3
	; GCN-NEXT: v_or_b32_e32 v0, v2, v0			; GCN-NEXT: v_or_b32_e32 v0, v2, v0
	; GCN-NEXT: v_and_b32_e32 v1, 0x1fff, v1
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: buffer_store_short v1, off, s[4:7], 0 offset:4			; GCN-NEXT: s_waitcnt expcnt(0)
				; GCN-NEXT: v_and_b32_e32 v0, 0x1fff, v1
				; GCN-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = sdiv <3 x i15> %x, %y			%r = sdiv <3 x i15> %x, %y
	store <3 x i15> %r, <3 x i15> addrspace(1)* %out			store <3 x i15> %r, <3 x i15> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_v3i15(<3 x i15> addrspace(1)* %out, <3 x i15> %x, <3 x i15> %y) {			define amdgpu_kernel void @srem_v3i15(<3 x i15> addrspace(1)* %out, <3 x i15> %x, <3 x i15> %y) {
	; CHECK-LABEL: @srem_v3i15(			; CHECK-LABEL: @srem_v3i15(
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_cndmask_b32_e32 v4, 0, v4, vcc			; GCN-NEXT: v_cndmask_b32_e32 v4, 0, v4, vcc
	; GCN-NEXT: v_mul_lo_u32 v3, v3, s1			; GCN-NEXT: v_mul_lo_u32 v3, v3, s1
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GCN-NEXT: v_mul_lo_u32 v1, v4, v1			; GCN-NEXT: v_mul_lo_u32 v1, v4, v1
	; GCN-NEXT: v_and_b32_e32 v2, s3, v2			; GCN-NEXT: v_and_b32_e32 v2, s3, v2
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, s8, v3			; GCN-NEXT: v_sub_i32_e32 v3, vcc, s8, v3
	; GCN-NEXT: v_and_b32_e32 v3, s3, v3			; GCN-NEXT: v_and_b32_e32 v3, s3, v3
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GCN-NEXT: v_lshlrev_b32_e32 v3, 15, v3			; GCN-NEXT: v_lshlrev_b32_e32 v3, 15, v3
				; GCN-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GCN-NEXT: v_or_b32_e32 v2, v2, v3			; GCN-NEXT: v_or_b32_e32 v2, v2, v3
	; GCN-NEXT: v_or_b32_e32 v0, v2, v0			; GCN-NEXT: v_or_b32_e32 v0, v2, v0
	; GCN-NEXT: v_and_b32_e32 v1, 0x1fff, v1
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: buffer_store_short v1, off, s[4:7], 0 offset:4			; GCN-NEXT: s_waitcnt expcnt(0)
				; GCN-NEXT: v_and_b32_e32 v0, 0x1fff, v1
				; GCN-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%r = srem <3 x i15> %x, %y			%r = srem <3 x i15> %x, %y
	store <3 x i15> %r, <3 x i15> addrspace(1)* %out			store <3 x i15> %r, <3 x i15> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @udiv_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {			define amdgpu_kernel void @udiv_i32_oddk_denom(i32 addrspace(1)* %out, i32 %x) {
	; CHECK-LABEL: @udiv_i32_oddk_denom(			; CHECK-LABEL: @udiv_i32_oddk_denom(
	▲ Show 20 Lines • Show All 3,186 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/call-argument-types.ll

	Show First 20 Lines • Show All 738 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @stack_passed_arg_alignment_v32i32_f64(<32 x i32> %val, double %tmp) #0 {			define amdgpu_kernel void @stack_passed_arg_alignment_v32i32_f64(<32 x i32> %val, double %tmp) #0 {
	entry:			entry:
	call void @stack_passed_f64_arg(<32 x i32> %val, double %tmp)			call void @stack_passed_f64_arg(<32 x i32> %val, double %tmp)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}tail_call_byval_align16:			; GCN-LABEL: {{^}}tail_call_byval_align16:
	; GCN-NOT: s32			; GCN-NOT: s32
	; GCN: buffer_load_dword v32, off, s[0:3], s32 offset:8			; GCN: buffer_load_dword v32, off, s[0:3], s32 offset:12
	; GCN: buffer_load_dword v33, off, s[0:3], s32 offset:12			; GCN: buffer_load_dword v33, off, s[0:3], s32 offset:8

	; GCN: s_getpc_b64			; GCN: s_getpc_b64

	; GCN: buffer_store_dword v33, off, s[0:3], s32 offset:4			; GCN: buffer_store_dword v32, off, s[0:3], s32 offset:4
	; GCN: buffer_store_dword v32, off, s[0:3], s32{{$}}			; GCN: buffer_store_dword v33, off, s[0:3], s32{{$}}
	; GCN-NOT: s32			; GCN-NOT: s32
	; GCN: s_setpc_b64			; GCN: s_setpc_b64
	define void @tail_call_byval_align16(<32 x i32> %val, double %tmp) #0 {			define void @tail_call_byval_align16(<32 x i32> %val, double %tmp) #0 {
	entry:			entry:
	%alloca = alloca double, align 8, addrspace(5)			%alloca = alloca double, align 8, addrspace(5)
	tail call void @byval_align16_f64_arg(<32 x i32> %val, double addrspace(5)* byval align 16 %alloca)			tail call void @byval_align16_f64_arg(<32 x i32> %val, double addrspace(5)* byval align 16 %alloca)
	ret void			ret void
	}			}
	Show All 10 Lines
	define void @tail_call_stack_passed_arg_alignment_v32i32_f64(<32 x i32> %val, double %tmp) #0 {			define void @tail_call_stack_passed_arg_alignment_v32i32_f64(<32 x i32> %val, double %tmp) #0 {
	entry:			entry:
	tail call void @stack_passed_f64_arg(<32 x i32> %val, double %tmp)			tail call void @stack_passed_f64_arg(<32 x i32> %val, double %tmp)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}stack_12xv3i32:			; GCN-LABEL: {{^}}stack_12xv3i32:
	; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 12			; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 12
	; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 13
	; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 14
	; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 15
	; GCN: buffer_store_dword [[REG12]], {{.*$}}			; GCN: buffer_store_dword [[REG12]], {{.*$}}
				; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 13
	; GCN: buffer_store_dword [[REG13]], {{.*}} offset:4			; GCN: buffer_store_dword [[REG13]], {{.*}} offset:4
				; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 14
	; GCN: buffer_store_dword [[REG14]], {{.*}} offset:8			; GCN: buffer_store_dword [[REG14]], {{.*}} offset:8
				; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 15
	; GCN: buffer_store_dword [[REG15]], {{.*}} offset:12			; GCN: buffer_store_dword [[REG15]], {{.*}} offset:12
	; GCN: v_mov_b32_e32 v31, 11			; GCN: v_mov_b32_e32 v31, 11
	; GCN: s_getpc			; GCN: s_getpc
	define void @stack_12xv3i32() #0 {			define void @stack_12xv3i32() #0 {
	entry:			entry:
	call void @external_void_func_12xv3i32(			call void @external_void_func_12xv3i32(
	<3 x i32><i32 0, i32 0, i32 0>,			<3 x i32><i32 0, i32 0, i32 0>,
	<3 x i32><i32 1, i32 1, i32 1>,			<3 x i32><i32 1, i32 1, i32 1>,
	<3 x i32><i32 2, i32 2, i32 2>,			<3 x i32><i32 2, i32 2, i32 2>,
	<3 x i32><i32 3, i32 3, i32 3>,			<3 x i32><i32 3, i32 3, i32 3>,
	<3 x i32><i32 4, i32 4, i32 4>,			<3 x i32><i32 4, i32 4, i32 4>,
	<3 x i32><i32 5, i32 5, i32 5>,			<3 x i32><i32 5, i32 5, i32 5>,
	<3 x i32><i32 6, i32 6, i32 6>,			<3 x i32><i32 6, i32 6, i32 6>,
	<3 x i32><i32 7, i32 7, i32 7>,			<3 x i32><i32 7, i32 7, i32 7>,
	<3 x i32><i32 8, i32 8, i32 8>,			<3 x i32><i32 8, i32 8, i32 8>,
	<3 x i32><i32 9, i32 9, i32 9>,			<3 x i32><i32 9, i32 9, i32 9>,
	<3 x i32><i32 10, i32 11, i32 12>,			<3 x i32><i32 10, i32 11, i32 12>,
	<3 x i32><i32 13, i32 14, i32 15>)			<3 x i32><i32 13, i32 14, i32 15>)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}stack_12xv3f32:			; GCN-LABEL: {{^}}stack_12xv3f32:
	; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 0x41400000			; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 0x41400000
	; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 0x41500000
	; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 0x41600000
	; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 0x41700000
	; GCN: buffer_store_dword [[REG12]], {{.*$}}			; GCN: buffer_store_dword [[REG12]], {{.*$}}
				; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 0x41500000
	; GCN: buffer_store_dword [[REG13]], {{.*}} offset:4			; GCN: buffer_store_dword [[REG13]], {{.*}} offset:4
				; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 0x41600000
	; GCN: buffer_store_dword [[REG14]], {{.*}} offset:8			; GCN: buffer_store_dword [[REG14]], {{.*}} offset:8
				; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 0x41700000
	; GCN: buffer_store_dword [[REG15]], {{.*}} offset:12			; GCN: buffer_store_dword [[REG15]], {{.*}} offset:12
	; GCN: v_mov_b32_e32 v31, 0x41300000			; GCN: v_mov_b32_e32 v31, 0x41300000
	; GCN: s_getpc			; GCN: s_getpc
	define void @stack_12xv3f32() #0 {			define void @stack_12xv3f32() #0 {
	entry:			entry:
	call void @external_void_func_12xv3f32(			call void @external_void_func_12xv3f32(
	<3 x float><float 0.0, float 0.0, float 0.0>,			<3 x float><float 0.0, float 0.0, float 0.0>,
	<3 x float><float 1.0, float 1.0, float 1.0>,			<3 x float><float 1.0, float 1.0, float 1.0>,
	<3 x float><float 2.0, float 2.0, float 2.0>,			<3 x float><float 2.0, float 2.0, float 2.0>,
	<3 x float><float 3.0, float 3.0, float 3.0>,			<3 x float><float 3.0, float 3.0, float 3.0>,
	<3 x float><float 4.0, float 4.0, float 4.0>,			<3 x float><float 4.0, float 4.0, float 4.0>,
	<3 x float><float 5.0, float 5.0, float 5.0>,			<3 x float><float 5.0, float 5.0, float 5.0>,
	<3 x float><float 6.0, float 6.0, float 6.0>,			<3 x float><float 6.0, float 6.0, float 6.0>,
	<3 x float><float 7.0, float 7.0, float 7.0>,			<3 x float><float 7.0, float 7.0, float 7.0>,
	<3 x float><float 8.0, float 8.0, float 8.0>,			<3 x float><float 8.0, float 8.0, float 8.0>,
	<3 x float><float 9.0, float 9.0, float 9.0>,			<3 x float><float 9.0, float 9.0, float 9.0>,
	<3 x float><float 10.0, float 11.0, float 12.0>,			<3 x float><float 10.0, float 11.0, float 12.0>,
	<3 x float><float 13.0, float 14.0, float 15.0>)			<3 x float><float 13.0, float 14.0, float 15.0>)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}stack_8xv5i32:			; GCN-LABEL: {{^}}stack_8xv5i32:

	; GCN: v_mov_b32_e32 [[REG8:v[0-9]+]], 8			; GCN: v_mov_b32_e32 [[REG8:v[0-9]+]], 8
	; GCN: v_mov_b32_e32 [[REG9:v[0-9]+]], 9
	; GCN: v_mov_b32_e32 [[REG10:v[0-9]+]], 10
	; GCN: v_mov_b32_e32 [[REG11:v[0-9]+]], 11
	; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 12
	; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 13
	; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 14
	; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 15
	; GCN: buffer_store_dword [[REG8]], {{.*$}}			; GCN: buffer_store_dword [[REG8]], {{.*$}}
				; GCN: v_mov_b32_e32 [[REG9:v[0-9]+]], 9
	; GCN: buffer_store_dword [[REG9]], {{.*}} offset:4			; GCN: buffer_store_dword [[REG9]], {{.*}} offset:4
				; GCN: v_mov_b32_e32 [[REG10:v[0-9]+]], 10
	; GCN: buffer_store_dword [[REG10]], {{.*}} offset:8			; GCN: buffer_store_dword [[REG10]], {{.*}} offset:8
				; GCN: v_mov_b32_e32 [[REG11:v[0-9]+]], 11
	; GCN: buffer_store_dword [[REG11]], {{.*}} offset:12			; GCN: buffer_store_dword [[REG11]], {{.*}} offset:12
				; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 12
	; GCN: buffer_store_dword [[REG12]], {{.*}} offset:16			; GCN: buffer_store_dword [[REG12]], {{.*}} offset:16
				; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 13
	; GCN: buffer_store_dword [[REG13]], {{.*}} offset:20			; GCN: buffer_store_dword [[REG13]], {{.*}} offset:20
				; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 14
	; GCN: buffer_store_dword [[REG14]], {{.*}} offset:24			; GCN: buffer_store_dword [[REG14]], {{.*}} offset:24
				; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 15
	; GCN: buffer_store_dword [[REG15]], {{.*}} offset:28			; GCN: buffer_store_dword [[REG15]], {{.*}} offset:28

	; GCN: v_mov_b32_e32 v31, 7			; GCN: v_mov_b32_e32 v31, 7
	; GCN: s_getpc			; GCN: s_getpc
	define void @stack_8xv5i32() #0 {			define void @stack_8xv5i32() #0 {
	entry:			entry:
	call void @external_void_func_8xv5i32(			call void @external_void_func_8xv5i32(
	<5 x i32><i32 0, i32 0, i32 0, i32 0, i32 0>,			<5 x i32><i32 0, i32 0, i32 0, i32 0, i32 0>,
	<5 x i32><i32 1, i32 1, i32 1, i32 1, i32 1>,			<5 x i32><i32 1, i32 1, i32 1, i32 1, i32 1>,
	<5 x i32><i32 2, i32 2, i32 2, i32 2, i32 2>,			<5 x i32><i32 2, i32 2, i32 2, i32 2, i32 2>,
	<5 x i32><i32 3, i32 3, i32 3, i32 3, i32 3>,			<5 x i32><i32 3, i32 3, i32 3, i32 3, i32 3>,
	<5 x i32><i32 4, i32 4, i32 4, i32 4, i32 4>,			<5 x i32><i32 4, i32 4, i32 4, i32 4, i32 4>,
	<5 x i32><i32 5, i32 5, i32 5, i32 5, i32 5>,			<5 x i32><i32 5, i32 5, i32 5, i32 5, i32 5>,
	<5 x i32><i32 6, i32 7, i32 8, i32 9, i32 10>,			<5 x i32><i32 6, i32 7, i32 8, i32 9, i32 10>,
	<5 x i32><i32 11, i32 12, i32 13, i32 14, i32 15>)			<5 x i32><i32 11, i32 12, i32 13, i32 14, i32 15>)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}stack_8xv5f32:			; GCN-LABEL: {{^}}stack_8xv5f32:
	; GCN: v_mov_b32_e32 [[REG8:v[0-9]+]], 0x41000000			; GCN: v_mov_b32_e32 [[REG8:v[0-9]+]], 0x41000000
	; GCN: v_mov_b32_e32 [[REG9:v[0-9]+]], 0x41100000
	; GCN: v_mov_b32_e32 [[REG10:v[0-9]+]], 0x41200000
	; GCN: v_mov_b32_e32 [[REG11:v[0-9]+]], 0x41300000
	; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 0x41400000
	; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 0x41500000
	; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 0x41600000
	; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 0x41700000
	; GCN: buffer_store_dword [[REG8]], {{.*$}}			; GCN: buffer_store_dword [[REG8]], {{.*$}}
				; GCN: v_mov_b32_e32 [[REG9:v[0-9]+]], 0x41100000
	; GCN: buffer_store_dword [[REG9]], {{.*}} offset:4			; GCN: buffer_store_dword [[REG9]], {{.*}} offset:4
				; GCN: v_mov_b32_e32 [[REG10:v[0-9]+]], 0x41200000
	; GCN: buffer_store_dword [[REG10]], {{.*}} offset:8			; GCN: buffer_store_dword [[REG10]], {{.*}} offset:8
				; GCN: v_mov_b32_e32 [[REG11:v[0-9]+]], 0x41300000
	; GCN: buffer_store_dword [[REG11]], {{.*}} offset:12			; GCN: buffer_store_dword [[REG11]], {{.*}} offset:12
				; GCN: v_mov_b32_e32 [[REG12:v[0-9]+]], 0x41400000
	; GCN: buffer_store_dword [[REG12]], {{.*}} offset:16			; GCN: buffer_store_dword [[REG12]], {{.*}} offset:16
				; GCN: v_mov_b32_e32 [[REG13:v[0-9]+]], 0x41500000
	; GCN: buffer_store_dword [[REG13]], {{.*}} offset:20			; GCN: buffer_store_dword [[REG13]], {{.*}} offset:20
				; GCN: v_mov_b32_e32 [[REG14:v[0-9]+]], 0x41600000
	; GCN: buffer_store_dword [[REG14]], {{.*}} offset:24			; GCN: buffer_store_dword [[REG14]], {{.*}} offset:24
				; GCN: v_mov_b32_e32 [[REG15:v[0-9]+]], 0x41700000
	; GCN: buffer_store_dword [[REG15]], {{.*}} offset:28			; GCN: buffer_store_dword [[REG15]], {{.*}} offset:28

	; GCN: v_mov_b32_e32 v31, 0x40e00000			; GCN: v_mov_b32_e32 v31, 0x40e00000
	; GCN: s_getpc			; GCN: s_getpc
	define void @stack_8xv5f32() #0 {			define void @stack_8xv5f32() #0 {
	entry:			entry:
	call void @external_void_func_8xv5f32(			call void @external_void_func_8xv5f32(
	<5 x float><float 0.0, float 0.0, float 0.0, float 0.0, float 0.0>,			<5 x float><float 0.0, float 0.0, float 0.0, float 0.0, float 0.0>,
	Show All 23 Lines

llvm/test/CodeGen/AMDGPU/cluster_stores.ll

Show All 25 Lines	; GCN-NEXT: flat_load_dword [[LD4:v[0-9]+]], v[{{[0-9:]+}}] offset:24
%ld0 = load i32, i32* %la0		%ld0 = load i32, i32* %la0
%la1 = getelementptr inbounds i32, i32* %lb, i32 2		%la1 = getelementptr inbounds i32, i32* %lb, i32 2
%ld1 = load i32, i32* %la1		%ld1 = load i32, i32* %la1
%la2 = getelementptr inbounds i32, i32* %lb, i32 4		%la2 = getelementptr inbounds i32, i32* %lb, i32 4
%ld2 = load i32, i32* %la2		%ld2 = load i32, i32* %la2
%la3 = getelementptr inbounds i32, i32* %lb, i32 6		%la3 = getelementptr inbounds i32, i32* %lb, i32 6
%ld3 = load i32, i32* %la3		%ld3 = load i32, i32* %la3

; DBG: Cluster ld/st SU([[S1:[0-9]+]]) - SU([[S2:[0-9]+]])		; DBG-NOT: Cluster ld/st
; DBG: Cluster ld/st SU([[S2]]) - SU([[S3:[0-9]+]])
; DBG: Cluster ld/st SU([[S3]]) - SU([[S4:[0-9]+]])
; GCN: flat_store_dword v[{{[0-9:]+}}], [[LD1]]		; GCN: flat_store_dword v[{{[0-9:]+}}], [[LD1]]
; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[LD2]] offset:8		; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[LD2]] offset:8
; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[LD3]] offset:16		; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[LD3]] offset:16
; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[LD4]] offset:24		; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[LD4]] offset:24
%sa0 = getelementptr inbounds i32, i32* %sb, i32 0		%sa0 = getelementptr inbounds i32, i32* %sb, i32 0
store i32 %ld0, i32* %sa0		store i32 %ld0, i32* %sa0
%sa1 = getelementptr inbounds i32, i32* %sb, i32 2		%sa1 = getelementptr inbounds i32, i32* %sb, i32 2
store i32 %ld1, i32* %sa1		store i32 %ld1, i32* %sa1
Show All 28 Lines	; GCN-NEXT: flat_load_dword [[LD4:v[0-9]+]], v[{{[0-9:]+}}] offset:24
%ld0 = load i32, i32* %la0		%ld0 = load i32, i32* %la0
%la1 = getelementptr inbounds i32, i32* %lb, i32 2		%la1 = getelementptr inbounds i32, i32* %lb, i32 2
%ld1 = load i32, i32* %la1		%ld1 = load i32, i32* %la1
%la2 = getelementptr inbounds i32, i32* %lb, i32 4		%la2 = getelementptr inbounds i32, i32* %lb, i32 4
%ld2 = load i32, i32* %la2		%ld2 = load i32, i32* %la2
%la3 = getelementptr inbounds i32, i32* %lb, i32 6		%la3 = getelementptr inbounds i32, i32* %lb, i32 6
%ld3 = load i32, i32* %la3		%ld3 = load i32, i32* %la3

; DBG: Cluster ld/st SU([[S1:[0-9]+]]) - SU([[S2:[0-9]+]])		; DBG-NOT: Cluster ld/st
; DBG: Cluster ld/st SU([[S2]]) - SU([[S3:[0-9]+]])
; DBG: Cluster ld/st SU([[S3]]) - SU([[S4:[0-9]+]])
; GCN: v_add_u32_e32 [[ST2:v[0-9]+]], 1, [[LD2]]
; GCN: flat_store_dword v[{{[0-9:]+}}], [[LD1]]		; GCN: flat_store_dword v[{{[0-9:]+}}], [[LD1]]
; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[ST2]] offset:8		; GCN: v_add_u32_e32 [[ST2:v[0-9]+]], 1, [[LD2]]
; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[LD3]] offset:16		; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[LD3]] offset:16
		; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[ST2]] offset:8
; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[LD4]] offset:24		; GCN-NEXT: flat_store_dword v[{{[0-9:]+}}], [[LD4]] offset:24
%sa0 = getelementptr inbounds i32, i32* %sb, i32 0		%sa0 = getelementptr inbounds i32, i32* %sb, i32 0
store i32 %ld0, i32* %sa0		store i32 %ld0, i32* %sa0
%sa1 = getelementptr inbounds i32, i32* %sb, i32 2		%sa1 = getelementptr inbounds i32, i32* %sb, i32 2
%add = add i32 %ld1, 1		%add = add i32 %ld1, 1
store i32 %add, i32* %sa1		store i32 %add, i32* %sa1
%sa2 = getelementptr inbounds i32, i32* %sb, i32 4		%sa2 = getelementptr inbounds i32, i32* %sb, i32 4
store i32 %ld2, i32* %sa2		store i32 %ld2, i32* %sa2
Show All 24 Lines	entry:
call void @llvm.amdgcn.image.store.2d.v4f32.i32(<4 x float> %val, i32 15, i32 %x, i32 %y, <8 x i32> %dst, i32 0, i32 0)		call void @llvm.amdgcn.image.store.2d.v4f32.i32(<4 x float> %val, i32 15, i32 %x, i32 %y, <8 x i32> %dst, i32 0, i32 0)
ret void		ret void
}		}

; Don't cluster loads from different textures		; Don't cluster loads from different textures
; CHECK-LABEL: {{^}}no_cluster_image_load:		; CHECK-LABEL: {{^}}no_cluster_image_load:
; DBG: Num BaseOps: {{[1-9]+}}, Offset: {{[0-9]+}}, OffsetIsScalable: {{[01]}}, Width: 16		; DBG: Num BaseOps: {{[1-9]+}}, Offset: {{[0-9]+}}, OffsetIsScalable: {{[01]}}, Width: 16
; DBG: Num BaseOps: {{[1-9]+}}, Offset: {{[0-9]+}}, OffsetIsScalable: {{[01]}}, Width: 16		; DBG: Num BaseOps: {{[1-9]+}}, Offset: {{[0-9]+}}, OffsetIsScalable: {{[01]}}, Width: 16
; DBG: Num BaseOps: {{[1-9]+}}, Offset: {{[0-9]+}}, OffsetIsScalable: {{[01]}}, Width: 16
; DBG-NOT: {{^}}Cluster ld/st		; DBG-NOT: {{^}}Cluster ld/st
define amdgpu_ps void @no_cluster_image_load(<8 x i32> inreg %src1, <8 x i32> inreg %src2, <8 x i32> inreg %dst, i32 %x, i32 %y) {		define amdgpu_ps void @no_cluster_image_load(<8 x i32> inreg %src1, <8 x i32> inreg %src2, <8 x i32> inreg %dst, i32 %x, i32 %y) {
entry:		entry:
%val1 = call <4 x float> @llvm.amdgcn.image.load.mip.2d.v4f32.i32(i32 15, i32 %x, i32 %y, i32 0, <8 x i32> %src1, i32 0, i32 0)		%val1 = call <4 x float> @llvm.amdgcn.image.load.mip.2d.v4f32.i32(i32 15, i32 %x, i32 %y, i32 0, <8 x i32> %src1, i32 0, i32 0)
%val2 = call <4 x float> @llvm.amdgcn.image.load.mip.2d.v4f32.i32(i32 15, i32 %x, i32 %y, i32 0, <8 x i32> %src2, i32 0, i32 0)		%val2 = call <4 x float> @llvm.amdgcn.image.load.mip.2d.v4f32.i32(i32 15, i32 %x, i32 %y, i32 0, <8 x i32> %src2, i32 0, i32 0)
%val = fadd fast <4 x float> %val1, %val2		%val = fadd fast <4 x float> %val1, %val2
call void @llvm.amdgcn.image.store.2d.v4f32.i32(<4 x float> %val, i32 15, i32 %x, i32 %y, <8 x i32> %dst, i32 0, i32 0)		call void @llvm.amdgcn.image.store.2d.v4f32.i32(<4 x float> %val, i32 15, i32 %x, i32 %y, <8 x i32> %dst, i32 0, i32 0)
ret void		ret void
Show All 29 Lines

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.global.ll

Show First 20 Lines • Show All 150 Lines • ▼ Show 20 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
ret i32 %or		ret i32 %or
}		}

; Should produce align 1 dword when legal		; Should produce align 1 dword when legal
define amdgpu_kernel void @global_store_2xi16_align1(i16 addrspace(1)* %p, i16 addrspace(1)* %r) #0 {		define amdgpu_kernel void @global_store_2xi16_align1(i16 addrspace(1)* %p, i16 addrspace(1)* %r) #0 {
; GFX7-ALIGNED-LABEL: global_store_2xi16_align1:		; GFX7-ALIGNED-LABEL: global_store_2xi16_align1:
; GFX7-ALIGNED: ; %bb.0:		; GFX7-ALIGNED: ; %bb.0:
; GFX7-ALIGNED-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x2		; GFX7-ALIGNED-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x2
; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v4, 1		; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v2, 1
; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v5, 0		; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v3, 0
; GFX7-ALIGNED-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-ALIGNED-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-ALIGNED-NEXT: s_add_u32 s2, s0, 2		; GFX7-ALIGNED-NEXT: s_add_u32 s2, s0, 2
; GFX7-ALIGNED-NEXT: s_addc_u32 s3, s1, 0		; GFX7-ALIGNED-NEXT: s_addc_u32 s3, s1, 0
; GFX7-ALIGNED-NEXT: s_add_u32 s4, s0, 1
; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v0, s0		; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v0, s0
; GFX7-ALIGNED-NEXT: s_addc_u32 s5, s1, 0		; GFX7-ALIGNED-NEXT: s_add_u32 s4, s0, 1
; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v1, s1		; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v1, s1
		; GFX7-ALIGNED-NEXT: s_addc_u32 s5, s1, 0
		; GFX7-ALIGNED-NEXT: flat_store_byte v[0:1], v2
		; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v0, s4
; GFX7-ALIGNED-NEXT: s_add_u32 s0, s0, 3		; GFX7-ALIGNED-NEXT: s_add_u32 s0, s0, 3
; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v2, s4		; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v1, s5
; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v3, s5		; GFX7-ALIGNED-NEXT: flat_store_byte v[0:1], v3
; GFX7-ALIGNED-NEXT: flat_store_byte v[0:1], v4
; GFX7-ALIGNED-NEXT: flat_store_byte v[2:3], v5
; GFX7-ALIGNED-NEXT: s_addc_u32 s1, s1, 0		; GFX7-ALIGNED-NEXT: s_addc_u32 s1, s1, 0
; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v0, s0		; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v0, s0
; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v2, s2
; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v1, s1		; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v1, s1
; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v4, 2		; GFX7-ALIGNED-NEXT: flat_store_byte v[0:1], v3
; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v3, s3		; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v0, s2
; GFX7-ALIGNED-NEXT: flat_store_byte v[0:1], v5		; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v2, 2
; GFX7-ALIGNED-NEXT: flat_store_byte v[2:3], v4		; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v1, s3
		; GFX7-ALIGNED-NEXT: flat_store_byte v[0:1], v2
; GFX7-ALIGNED-NEXT: s_endpgm		; GFX7-ALIGNED-NEXT: s_endpgm
;		;
; GFX7-UNALIGNED-LABEL: global_store_2xi16_align1:		; GFX7-UNALIGNED-LABEL: global_store_2xi16_align1:
; GFX7-UNALIGNED: ; %bb.0:		; GFX7-UNALIGNED: ; %bb.0:
; GFX7-UNALIGNED-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x2		; GFX7-UNALIGNED-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x2
; GFX7-UNALIGNED-NEXT: v_mov_b32_e32 v2, 0x20001		; GFX7-UNALIGNED-NEXT: v_mov_b32_e32 v2, 0x20001
; GFX7-UNALIGNED-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-UNALIGNED-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-UNALIGNED-NEXT: v_mov_b32_e32 v0, s0		; GFX7-UNALIGNED-NEXT: v_mov_b32_e32 v0, s0
▲ Show 20 Lines • Show All 141 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.private.ll

	Show First 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	; GFX7-UNALIGNED-NEXT: buffer_store_short v0, v2, s[0:3], 0 offen			; GFX7-UNALIGNED-NEXT: buffer_store_short v0, v2, s[0:3], 0 offen
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-UNALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: private_store_2xi16_align2:			; GFX9-LABEL: private_store_2xi16_align2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, 1			; GFX9-NEXT: v_mov_b32_e32 v0, 1
	; GFX9-NEXT: v_mov_b32_e32 v2, 2
	; GFX9-NEXT: buffer_store_short v0, v1, s[0:3], 0 offen			; GFX9-NEXT: buffer_store_short v0, v1, s[0:3], 0 offen
	; GFX9-NEXT: buffer_store_short v2, v1, s[0:3], 0 offen offset:2			; GFX9-NEXT: v_mov_b32_e32 v0, 2
				; GFX9-NEXT: buffer_store_short v0, v1, s[0:3], 0 offen offset:2
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	%gep.r = getelementptr i16, i16 addrspace(5)* %r, i64 1			%gep.r = getelementptr i16, i16 addrspace(5)* %r, i64 1
	store i16 1, i16 addrspace(5)* %r, align 2			store i16 1, i16 addrspace(5)* %r, align 2
	store i16 2, i16 addrspace(5)* %gep.r, align 2			store i16 2, i16 addrspace(5)* %gep.r, align 2
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	}			}

	; Should produce align 1 dword when legal			; Should produce align 1 dword when legal
	define void @private_store_2xi16_align1(i16 addrspace(5)* %p, i16 addrspace(5)* %r) #0 {			define void @private_store_2xi16_align1(i16 addrspace(5)* %p, i16 addrspace(5)* %r) #0 {
	; GFX7-ALIGNED-LABEL: private_store_2xi16_align1:			; GFX7-ALIGNED-LABEL: private_store_2xi16_align1:
	; GFX7-ALIGNED: ; %bb.0:			; GFX7-ALIGNED: ; %bb.0:
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v3, 1			; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v3, 1
	; GFX7-ALIGNED-NEXT: v_add_i32_e32 v2, vcc, 2, v1
	; GFX7-ALIGNED-NEXT: v_add_i32_e32 v4, vcc, 1, v1
	; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v5, 0
	; GFX7-ALIGNED-NEXT: buffer_store_byte v3, v1, s[0:3], 0 offen			; GFX7-ALIGNED-NEXT: buffer_store_byte v3, v1, s[0:3], 0 offen
	; GFX7-ALIGNED-NEXT: buffer_store_byte v5, v4, s[0:3], 0 offen			; GFX7-ALIGNED-NEXT: v_add_i32_e32 v2, vcc, 2, v1
				; GFX7-ALIGNED-NEXT: v_add_i32_e32 v3, vcc, 1, v1
				; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v4, 0
	; GFX7-ALIGNED-NEXT: v_add_i32_e32 v1, vcc, 3, v1			; GFX7-ALIGNED-NEXT: v_add_i32_e32 v1, vcc, 3, v1
	; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v0, 2			; GFX7-ALIGNED-NEXT: v_mov_b32_e32 v0, 2
	; GFX7-ALIGNED-NEXT: buffer_store_byte v5, v1, s[0:3], 0 offen			; GFX7-ALIGNED-NEXT: buffer_store_byte v4, v3, s[0:3], 0 offen
				; GFX7-ALIGNED-NEXT: buffer_store_byte v4, v1, s[0:3], 0 offen
	; GFX7-ALIGNED-NEXT: buffer_store_byte v0, v2, s[0:3], 0 offen			; GFX7-ALIGNED-NEXT: buffer_store_byte v0, v2, s[0:3], 0 offen
	; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0)			; GFX7-ALIGNED-NEXT: s_waitcnt vmcnt(0)
	; GFX7-ALIGNED-NEXT: s_setpc_b64 s[30:31]			; GFX7-ALIGNED-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX7-UNALIGNED-LABEL: private_store_2xi16_align1:			; GFX7-UNALIGNED-LABEL: private_store_2xi16_align1:
	; GFX7-UNALIGNED: ; %bb.0:			; GFX7-UNALIGNED: ; %bb.0:
	; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-UNALIGNED-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-UNALIGNED-NEXT: v_mov_b32_e32 v0, 0x20001			; GFX7-UNALIGNED-NEXT: v_mov_b32_e32 v0, 0x20001
	▲ Show 20 Lines • Show All 84 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fshr.ll

	Show First 20 Lines • Show All 1,078 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(5)			; GFX9-NEXT: s_waitcnt vmcnt(5)
	; GFX9-NEXT: v_mul_hi_u32 v6, v1, s4			; GFX9-NEXT: v_mul_hi_u32 v6, v1, s4
	; GFX9-NEXT: s_waitcnt vmcnt(4)			; GFX9-NEXT: s_waitcnt vmcnt(4)
	; GFX9-NEXT: v_mul_hi_u32 v7, v2, s4			; GFX9-NEXT: v_mul_hi_u32 v7, v2, s4
	; GFX9-NEXT: s_waitcnt vmcnt(3)			; GFX9-NEXT: s_waitcnt vmcnt(3)
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 8, v3			; GFX9-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 4, v6			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 4, v6
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 4, v7			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 4, v7
	; GFX9-NEXT: v_mul_lo_u32 v7, v7, 24
	; GFX9-NEXT: v_mul_lo_u32 v6, v6, 24			; GFX9-NEXT: v_mul_lo_u32 v6, v6, 24
				; GFX9-NEXT: v_mul_lo_u32 v7, v7, 24
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_lshlrev_b32_e32 v5, 8, v5			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v7
	; GFX9-NEXT: v_sub_u32_e32 v1, v1, v6			; GFX9-NEXT: v_sub_u32_e32 v1, v1, v6
	; GFX9-NEXT: v_add_u32_e32 v2, 8, v2			; GFX9-NEXT: v_sub_u32_e32 v2, v2, v7
	; GFX9-NEXT: v_add_u32_e32 v1, 8, v1			; GFX9-NEXT: v_add_u32_e32 v1, 8, v1
	; GFX9-NEXT: v_alignbit_b32 v2, v4, v3, v2			; GFX9-NEXT: v_add_u32_e32 v2, 8, v2
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_alignbit_b32 v1, v8, v5, v1			; GFX9-NEXT: v_alignbit_b32 v1, v8, v5, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX9-NEXT: v_alignbit_b32 v2, v4, v3, v2
	; GFX9-NEXT: buffer_store_byte v2, v0, s[0:3], 0 offen offset:3			; GFX9-NEXT: buffer_store_byte v2, v0, s[0:3], 0 offen offset:3
				; GFX9-NEXT: buffer_store_byte_d16_hi v2, v0, s[0:3], 0 offen offset:5
	; GFX9-NEXT: buffer_store_byte_d16_hi v1, v0, s[0:3], 0 offen offset:2			; GFX9-NEXT: buffer_store_byte_d16_hi v1, v0, s[0:3], 0 offen offset:2
	; GFX9-NEXT: buffer_store_short v1, v0, s[0:3], 0 offen			; GFX9-NEXT: buffer_store_short v1, v0, s[0:3], 0 offen
	; GFX9-NEXT: buffer_store_byte_d16_hi v2, v0, s[0:3], 0 offen offset:5			; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v2
	; GFX9-NEXT: buffer_store_byte v3, v0, s[0:3], 0 offen offset:4			; GFX9-NEXT: buffer_store_byte v1, v0, s[0:3], 0 offen offset:4
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; R600-LABEL: v_fshr_v2i24:			; R600-LABEL: v_fshr_v2i24:
	; R600: ; %bb.0:			; R600: ; %bb.0:
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	; R600-NEXT: PAD			; R600-NEXT: PAD
	%ret = call <2 x i24> @llvm.fshr.v2i24(<2 x i24> %src0, <2 x i24> %src1, <2 x i24> %src2)			%ret = call <2 x i24> @llvm.fshr.v2i24(<2 x i24> %src0, <2 x i24> %src1, <2 x i24> %src2)
	ret <2 x i24> %ret			ret <2 x i24> %ret
	}			}

llvm/test/CodeGen/AMDGPU/half.ll

	Show First 20 Lines • Show All 306 Lines • ▼ Show 20 Lines
	; GCN: flat_load_dwordx4			; GCN: flat_load_dwordx4
	; GCN: flat_load_dwordx4			; GCN: flat_load_dwordx4

	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32

	; GCN: flat_store_dwordx4			; GCN: flat_store_dwordx4

	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
				; SI: v_cvt_f32_f16_e32

	; VI: v_cvt_f32_f16_e32			; VI: v_cvt_f32_f16_e32
	; VI: v_cvt_f32_f16_sdwa			; VI: v_cvt_f32_f16_sdwa


	; GCN: flat_store_dwordx4			; GCN: flat_store_dwordx4
	; GCN: flat_store_dwordx4			; GCN: flat_store_dwordx4
	; GCN: flat_store_dwordx4			; GCN: flat_store_dwordx4
	▲ Show 20 Lines • Show All 305 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

	Show First 20 Lines • Show All 767 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_cmp_lg_u32 s4, 5			; VI-NEXT: s_cmp_lg_u32 s4, 5
	; VI-NEXT: s_cselect_b32 s11, s13, 5			; VI-NEXT: s_cselect_b32 s11, s13, 5
	; VI-NEXT: s_cmp_lg_u32 s4, 4			; VI-NEXT: s_cmp_lg_u32 s4, 4
	; VI-NEXT: s_cselect_b32 s4, s12, 5			; VI-NEXT: s_cselect_b32 s4, s12, 5
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s11			; VI-NEXT: v_mov_b32_e32 v1, s11
	; VI-NEXT: v_mov_b32_e32 v2, s10			; VI-NEXT: v_mov_b32_e32 v2, s10
	; VI-NEXT: v_mov_b32_e32 v3, s9			; VI-NEXT: v_mov_b32_e32 v3, s9
	; VI-NEXT: v_mov_b32_e32 v4, s8
	; VI-NEXT: v_mov_b32_e32 v5, s7
	; VI-NEXT: v_mov_b32_e32 v6, s6
	; VI-NEXT: v_mov_b32_e32 v7, s5
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
	; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0			; VI-NEXT: s_nop 0
				; VI-NEXT: v_mov_b32_e32 v0, s8
				; VI-NEXT: v_mov_b32_e32 v1, s7
				; VI-NEXT: v_mov_b32_e32 v2, s6
				; VI-NEXT: v_mov_b32_e32 v3, s5
				; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%vecins = insertelement <8 x i32> %a, i32 5, i32 %b			%vecins = insertelement <8 x i32> %a, i32 5, i32 %b
	store <8 x i32> %vecins, <8 x i32> addrspace(1)* %out, align 32			store <8 x i32> %vecins, <8 x i32> addrspace(1)* %out, align 32
	ret void			ret void
	}			}

	define amdgpu_kernel void @dynamic_insertelement_v16i32(<16 x i32> addrspace(1)* %out, <16 x i32> %a, i32 %b) nounwind {			define amdgpu_kernel void @dynamic_insertelement_v16i32(<16 x i32> addrspace(1)* %out, <16 x i32> %a, i32 %b) nounwind {
	; SI-LABEL: dynamic_insertelement_v16i32:			; SI-LABEL: dynamic_insertelement_v16i32:
	▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s4, 0xffff			; SI-NEXT: s_mov_b32 s4, 0xffff
	; SI-NEXT: s_lshl_b64 s[4:5], s[4:5], s8			; SI-NEXT: s_lshl_b64 s[4:5], s[4:5], s8
	; SI-NEXT: s_mov_b32 s8, 0x50005			; SI-NEXT: s_mov_b32 s8, 0x50005
	; SI-NEXT: s_and_b32 s9, s5, s8			; SI-NEXT: s_and_b32 s9, s5, s8
	; SI-NEXT: s_and_b32 s8, s4, s8			; SI-NEXT: s_and_b32 s8, s4, s8
	; SI-NEXT: s_andn2_b64 s[4:5], s[6:7], s[4:5]			; SI-NEXT: s_andn2_b64 s[4:5], s[6:7], s[4:5]
	; SI-NEXT: s_or_b64 s[4:5], s[8:9], s[4:5]			; SI-NEXT: s_or_b64 s[4:5], s[8:9], s[4:5]
	; SI-NEXT: v_mov_b32_e32 v0, s5			; SI-NEXT: v_mov_b32_e32 v0, s5
	; SI-NEXT: v_mov_b32_e32 v1, s4
	; SI-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:4			; SI-NEXT: buffer_store_short v0, off, s[0:3], 0 offset:4
	; SI-NEXT: buffer_store_dword v1, off, s[0:3], 0			; SI-NEXT: v_mov_b32_e32 v0, s4
				; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: dynamic_insertelement_v3i16:			; VI-LABEL: dynamic_insertelement_v3i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; VI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; VI-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x8			; VI-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x8
	; VI-NEXT: s_load_dword s4, s[4:5], 0x10			; VI-NEXT: s_load_dword s4, s[4:5], 0x10
	; VI-NEXT: s_mov_b32 s5, 0			; VI-NEXT: s_mov_b32 s5, 0
	▲ Show 20 Lines • Show All 780 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/local-memory.amdgcn.ll

	Show All 39 Lines
	; GCN: v_lshlrev_b32_e32 [[ADDRW:v[0-9]+]], 2, v0			; GCN: v_lshlrev_b32_e32 [[ADDRW:v[0-9]+]], 2, v0
	; CI-DAG: v_sub_i32_e32 [[SUB:v[0-9]+]], vcc, 0, [[ADDRW]]			; CI-DAG: v_sub_i32_e32 [[SUB:v[0-9]+]], vcc, 0, [[ADDRW]]
	; CI-DAG: ds_write2_b32 [[ADDRW]], {{v[0-9]+}}, {{v[0-9]+}} offset1:4			; CI-DAG: ds_write2_b32 [[ADDRW]], {{v[0-9]+}}, {{v[0-9]+}} offset1:4
	; SI-DAG: ds_write2_b32 [[ADDRW]], {{v[0-9]+}}, {{v[0-9]+}} offset1:4			; SI-DAG: ds_write2_b32 [[ADDRW]], {{v[0-9]+}}, {{v[0-9]+}} offset1:4
	; SI-DAG: v_sub_i32_e32 [[SUB0:v[0-9]+]], vcc, 28, [[ADDRW]]			; SI-DAG: v_sub_i32_e32 [[SUB0:v[0-9]+]], vcc, 28, [[ADDRW]]

	; GCN: s_barrier			; GCN: s_barrier

	; SI: v_sub_i32_e32 [[SUB1:v[0-9]+]], vcc, 12, [[ADDRW]]			; SI-DAG: v_sub_i32_e32 [[SUB1:v[0-9]+]], vcc, 12, [[ADDRW]]
	; SI-DAG: ds_read_b32 v{{[0-9]+}}, [[SUB0]]			; SI-DAG: ds_read_b32 v{{[0-9]+}}, [[SUB0]]
	; SI-DAG: ds_read_b32 v{{[0-9]+}}, [[SUB1]]			; SI-DAG: ds_read_b32 v{{[0-9]+}}, [[SUB1]]
	; CI: ds_read2_b32 {{v\[[0-9]+:[0-9]+\]}}, [[SUB]] offset0:3 offset1:7			; CI: ds_read2_b32 {{v\[[0-9]+:[0-9]+\]}}, [[SUB]] offset0:3 offset1:7

	define amdgpu_kernel void @local_memory_two_objects(i32 addrspace(1)* %out) #0 {			define amdgpu_kernel void @local_memory_two_objects(i32 addrspace(1)* %out) #0 {
	entry:			entry:
	%x.i = call i32 @llvm.amdgcn.workitem.id.x()			%x.i = call i32 @llvm.amdgcn.workitem.id.x()
	%arrayidx = getelementptr inbounds [4 x i32], [4 x i32] addrspace(3)* @local_memory_two_objects.local_mem0, i32 0, i32 %x.i			%arrayidx = getelementptr inbounds [4 x i32], [4 x i32] addrspace(3)* @local_memory_two_objects.local_mem0, i32 0, i32 %x.i
	Show All 24 Lines

llvm/test/CodeGen/AMDGPU/memory_clause.ll

	Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mov_b32_e32 v8, s8			; GCN-NEXT: v_mov_b32_e32 v8, s8
	; GCN-NEXT: v_mov_b32_e32 v13, s19			; GCN-NEXT: v_mov_b32_e32 v13, s19
	; GCN-NEXT: v_mov_b32_e32 v1, s1			; GCN-NEXT: v_mov_b32_e32 v1, s1
	; GCN-NEXT: v_mov_b32_e32 v2, s2			; GCN-NEXT: v_mov_b32_e32 v2, s2
	; GCN-NEXT: v_mov_b32_e32 v3, s3			; GCN-NEXT: v_mov_b32_e32 v3, s3
	; GCN-NEXT: v_mov_b32_e32 v5, s5			; GCN-NEXT: v_mov_b32_e32 v5, s5
	; GCN-NEXT: v_mov_b32_e32 v6, s6			; GCN-NEXT: v_mov_b32_e32 v6, s6
	; GCN-NEXT: v_mov_b32_e32 v7, s7			; GCN-NEXT: v_mov_b32_e32 v7, s7
	; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off
	; GCN-NEXT: global_store_dwordx4 v[12:13], v[4:7], off offset:16
	; GCN-NEXT: v_mov_b32_e32 v0, s12
	; GCN-NEXT: v_mov_b32_e32 v9, s9			; GCN-NEXT: v_mov_b32_e32 v9, s9
	; GCN-NEXT: v_mov_b32_e32 v10, s10			; GCN-NEXT: v_mov_b32_e32 v10, s10
	; GCN-NEXT: v_mov_b32_e32 v11, s11			; GCN-NEXT: v_mov_b32_e32 v11, s11
				; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off
				; GCN-NEXT: global_store_dwordx4 v[12:13], v[4:7], off offset:16
				; GCN-NEXT: global_store_dwordx4 v[12:13], v[8:11], off offset:32
				; GCN-NEXT: v_mov_b32_e32 v0, s12
	; GCN-NEXT: v_mov_b32_e32 v1, s13			; GCN-NEXT: v_mov_b32_e32 v1, s13
	; GCN-NEXT: v_mov_b32_e32 v2, s14			; GCN-NEXT: v_mov_b32_e32 v2, s14
	; GCN-NEXT: v_mov_b32_e32 v3, s15			; GCN-NEXT: v_mov_b32_e32 v3, s15
	; GCN-NEXT: global_store_dwordx4 v[12:13], v[8:11], off offset:32
	; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off offset:48			; GCN-NEXT: global_store_dwordx4 v[12:13], v[0:3], off offset:48
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	bb:			bb:
	%tmp = load <4 x i32>, <4 x i32> addrspace(1)* %arg, align 16			%tmp = load <4 x i32>, <4 x i32> addrspace(1)* %arg, align 16
	%tmp2 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 1			%tmp2 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 1
	%tmp3 = load <4 x i32>, <4 x i32> addrspace(1)* %tmp2, align 16			%tmp3 = load <4 x i32>, <4 x i32> addrspace(1)* %tmp2, align 16
	%tmp4 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg1, i64 1			%tmp4 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg1, i64 1
	%tmp5 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 2			%tmp5 = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %arg, i64 2
	▲ Show 20 Lines • Show All 188 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-stores.ll

Show First 20 Lines • Show All 523 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @merge_local_store_4_constants_i32(i32 addrspace(3)* %out) #0 {
store i32 333, i32 addrspace(3)* %out.gep.3		store i32 333, i32 addrspace(3)* %out.gep.3
store i32 1234, i32 addrspace(3)* %out		store i32 1234, i32 addrspace(3)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}merge_global_store_5_constants_i32:		; GCN-LABEL: {{^}}merge_global_store_5_constants_i32:
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 9{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 9{{$}}
; GCN-DAG: v_mov_b32_e32 v[[HI4:[0-9]+]], -12{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI4:[0-9]+]], -12{{$}}
; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], 11{{$}}
; GCN: buffer_store_dwordx4 v{{\[}}[[LO]]:[[HI4]]{{\]}}		; GCN: buffer_store_dwordx4 v{{\[}}[[LO]]:[[HI4]]{{\]}}
		; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], 11{{$}}
; GCN: buffer_store_dword v[[HI]]		; GCN: buffer_store_dword v[[HI]]
define amdgpu_kernel void @merge_global_store_5_constants_i32(i32 addrspace(1)* %out) {		define amdgpu_kernel void @merge_global_store_5_constants_i32(i32 addrspace(1)* %out) {
store i32 9, i32 addrspace(1)* %out, align 4		store i32 9, i32 addrspace(1)* %out, align 4
%idx1 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 1		%idx1 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 1
store i32 12, i32 addrspace(1)* %idx1, align 4		store i32 12, i32 addrspace(1)* %idx1, align 4
%idx2 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 2		%idx2 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 2
store i32 16, i32 addrspace(1)* %idx2, align 4		store i32 16, i32 addrspace(1)* %idx2, align 4
%idx3 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 3		%idx3 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 3
▲ Show 20 Lines • Show All 145 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/non-entry-alloca.ll

	Show All 22 Lines
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_cmp_lg_u32 s8, 0			; GCN-NEXT: s_cmp_lg_u32 s8, 0
	; GCN-NEXT: s_cbranch_scc1 BB0_3			; GCN-NEXT: s_cbranch_scc1 BB0_3
	; GCN-NEXT: ; %bb.1: ; %bb.0			; GCN-NEXT: ; %bb.1: ; %bb.0
	; GCN-NEXT: s_cmp_lg_u32 s9, 0			; GCN-NEXT: s_cmp_lg_u32 s9, 0
	; GCN-NEXT: s_cbranch_scc1 BB0_3			; GCN-NEXT: s_cbranch_scc1 BB0_3
	; GCN-NEXT: ; %bb.2: ; %bb.1			; GCN-NEXT: ; %bb.2: ; %bb.1
	; GCN-NEXT: s_add_i32 s6, s32, 0x1000			; GCN-NEXT: s_add_i32 s6, s32, 0x1000
				; GCN-NEXT: v_mov_b32_e32 v1, 0
				; GCN-NEXT: v_mov_b32_e32 v2, s6
	; GCN-NEXT: s_lshl_b32 s7, s10, 2			; GCN-NEXT: s_lshl_b32 s7, s10, 2
	; GCN-NEXT: s_mov_b32 s32, s6			; GCN-NEXT: s_mov_b32 s32, s6
	; GCN-NEXT: v_mov_b32_e32 v2, s6
	; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: s_add_i32 s6, s6, s7
	; GCN-NEXT: v_mov_b32_e32 v3, 1
	; GCN-NEXT: buffer_store_dword v1, v2, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v3, v2, s[0:3], 0 offen offset:4			; GCN-NEXT: v_mov_b32_e32 v1, 1
				; GCN-NEXT: s_add_i32 s6, s6, s7
				; GCN-NEXT: buffer_store_dword v1, v2, s[0:3], 0 offen offset:4
	; GCN-NEXT: v_mov_b32_e32 v1, s6			; GCN-NEXT: v_mov_b32_e32 v1, s6
	; GCN-NEXT: buffer_load_dword v1, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v1, v1, s[0:3], 0 offen
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_add_u32_e32 v2, v1, v0			; GCN-NEXT: v_add_u32_e32 v2, v1, v0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_movk_i32 s32, 0x1000			; GCN-NEXT: s_movk_i32 s32, 0x1000
	; GCN-NEXT: s_mov_b32 s33, 0			; GCN-NEXT: s_mov_b32 s33, 0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_cmp_lg_u32 s6, 0			; GCN-NEXT: s_cmp_lg_u32 s6, 0
	; GCN-NEXT: s_cbranch_scc1 BB1_2			; GCN-NEXT: s_cbranch_scc1 BB1_2
	; GCN-NEXT: ; %bb.1: ; %bb.0			; GCN-NEXT: ; %bb.1: ; %bb.0
	; GCN-NEXT: s_add_i32 s6, s32, 0x1000			; GCN-NEXT: s_add_i32 s6, s32, 0x1000
	; GCN-NEXT: s_and_b32 s6, s6, 0xfffff000			; GCN-NEXT: s_and_b32 s6, s6, 0xfffff000
				; GCN-NEXT: v_mov_b32_e32 v1, 0
				; GCN-NEXT: v_mov_b32_e32 v2, s6
	; GCN-NEXT: s_lshl_b32 s7, s7, 2			; GCN-NEXT: s_lshl_b32 s7, s7, 2
	; GCN-NEXT: s_mov_b32 s32, s6			; GCN-NEXT: s_mov_b32 s32, s6
	; GCN-NEXT: v_mov_b32_e32 v2, s6
	; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: s_add_i32 s6, s6, s7
	; GCN-NEXT: v_mov_b32_e32 v3, 1
	; GCN-NEXT: buffer_store_dword v1, v2, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v1, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v3, v2, s[0:3], 0 offen offset:4			; GCN-NEXT: v_mov_b32_e32 v1, 1
				; GCN-NEXT: s_add_i32 s6, s6, s7
				; GCN-NEXT: buffer_store_dword v1, v2, s[0:3], 0 offen offset:4
	; GCN-NEXT: v_mov_b32_e32 v1, s6			; GCN-NEXT: v_mov_b32_e32 v1, s6
	; GCN-NEXT: buffer_load_dword v1, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v1, v1, s[0:3], 0 offen
	; GCN-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_add_u32_e32 v2, v1, v0			; GCN-NEXT: v_add_u32_e32 v2, v1, v0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; GCN-NEXT: ; %bb.1: ; %bb.0			; GCN-NEXT: ; %bb.1: ; %bb.0
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
	; GCN-NEXT: s_and_b64 exec, exec, vcc			; GCN-NEXT: s_and_b64 exec, exec, vcc
	; GCN-NEXT: s_cbranch_execz BB2_3			; GCN-NEXT: s_cbranch_execz BB2_3
	; GCN-NEXT: ; %bb.2: ; %bb.1			; GCN-NEXT: ; %bb.2: ; %bb.1
	; GCN-NEXT: s_add_i32 s6, s32, 0x1000			; GCN-NEXT: s_add_i32 s6, s32, 0x1000
	; GCN-NEXT: v_mov_b32_e32 v2, 0			; GCN-NEXT: v_mov_b32_e32 v2, 0
	; GCN-NEXT: v_mov_b32_e32 v3, s6			; GCN-NEXT: v_mov_b32_e32 v3, s6
	; GCN-NEXT: v_mov_b32_e32 v6, 1
	; GCN-NEXT: buffer_store_dword v2, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v2, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v3, s[0:3], 0 offen offset:4			; GCN-NEXT: v_mov_b32_e32 v2, 1
				; GCN-NEXT: buffer_store_dword v2, v3, s[0:3], 0 offen offset:4
	; GCN-NEXT: v_lshl_add_u32 v2, v4, 2, s6			; GCN-NEXT: v_lshl_add_u32 v2, v4, 2, s6
	; GCN-NEXT: buffer_load_dword v2, v2, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v2, v2, s[0:3], 0 offen
	; GCN-NEXT: v_and_b32_e32 v3, 0x3ff, v5			; GCN-NEXT: v_and_b32_e32 v3, 0x3ff, v5
	; GCN-NEXT: s_mov_b32 s32, s6			; GCN-NEXT: s_mov_b32 s32, s6
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_add_u32_e32 v2, v2, v3			; GCN-NEXT: v_add_u32_e32 v2, v2, v3
	; GCN-NEXT: global_store_dword v[0:1], v2, off			; GCN-NEXT: global_store_dword v[0:1], v2, off
	; GCN-NEXT: BB2_3: ; %bb.2			; GCN-NEXT: BB2_3: ; %bb.2
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_add_u32 s32, s32, 0x2000			; GCN-NEXT: s_add_u32 s32, s32, 0x2000
	; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GCN-NEXT: s_cbranch_execz BB3_2			; GCN-NEXT: s_cbranch_execz BB3_2
	; GCN-NEXT: ; %bb.1: ; %bb.0			; GCN-NEXT: ; %bb.1: ; %bb.0
	; GCN-NEXT: s_add_i32 s6, s32, 0x1000			; GCN-NEXT: s_add_i32 s6, s32, 0x1000
	; GCN-NEXT: s_and_b32 s6, s6, 0xfffff000			; GCN-NEXT: s_and_b32 s6, s6, 0xfffff000
	; GCN-NEXT: v_mov_b32_e32 v2, 0			; GCN-NEXT: v_mov_b32_e32 v2, 0
	; GCN-NEXT: v_mov_b32_e32 v5, s6			; GCN-NEXT: v_mov_b32_e32 v5, s6
	; GCN-NEXT: v_mov_b32_e32 v6, 1
	; GCN-NEXT: buffer_store_dword v2, v5, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v2, v5, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v5, s[0:3], 0 offen offset:4			; GCN-NEXT: v_mov_b32_e32 v2, 1
				; GCN-NEXT: buffer_store_dword v2, v5, s[0:3], 0 offen offset:4
	; GCN-NEXT: v_lshl_add_u32 v2, v3, 2, s6			; GCN-NEXT: v_lshl_add_u32 v2, v3, 2, s6
	; GCN-NEXT: buffer_load_dword v2, v2, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v2, v2, s[0:3], 0 offen
	; GCN-NEXT: v_and_b32_e32 v3, 0x3ff, v4			; GCN-NEXT: v_and_b32_e32 v3, 0x3ff, v4
	; GCN-NEXT: s_mov_b32 s32, s6			; GCN-NEXT: s_mov_b32 s32, s6
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_add_u32_e32 v2, v2, v3			; GCN-NEXT: v_add_u32_e32 v2, v2, v3
	; GCN-NEXT: global_store_dword v[0:1], v2, off			; GCN-NEXT: global_store_dword v[0:1], v2, off
	; GCN-NEXT: BB3_2: ; %bb.1			; GCN-NEXT: BB3_2: ; %bb.1
	Show All 32 Lines

llvm/test/CodeGen/AMDGPU/si-triv-disjoint-mem-access.ll

	Show First 20 Lines • Show All 243 Lines • ▼ Show 20 Lines
	; GCN-LABEL: {{^}}reorder_global_offsets_addr64_soffset0:			; GCN-LABEL: {{^}}reorder_global_offsets_addr64_soffset0:
	; CI: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}			; CI: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}
	; CI-NEXT: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:28{{$}}			; CI-NEXT: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:28{{$}}
	; CI-NEXT: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:44{{$}}			; CI-NEXT: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:44{{$}}

	; CI: v_mov_b32			; CI: v_mov_b32
	; CI: v_mov_b32			; CI: v_mov_b32

	; CI: v_add_i32			; CI-DAG: v_add_i32
	; CI: v_add_i32			; CI-DAG: v_add_i32

	; CI: buffer_store_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; CI-DAG: buffer_store_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	; CI: buffer_store_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:20{{$}}			; CI-DAG: buffer_store_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:20{{$}}
	; CI: buffer_store_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:36{{$}}			; CI-DAG: buffer_store_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:36{{$}}
	; CI-NEXT: buffer_store_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:52{{$}}			; CI: buffer_store_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:52{{$}}

	; GFX9: global_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}} offset:12			; GFX9: global_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}} offset:12
	; GFX9: global_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}} offset:28			; GFX9: global_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}} offset:28
	; GFX9: global_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}} offset:44			; GFX9: global_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}} offset:44

	; GFX9: global_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]$}}			; GFX9: global_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]$}}
	; GFX9: global_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}} offset:20			; GFX9: global_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}} offset:20
	; GFX9: global_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}} offset:36			; GFX9: global_store_dword v{{[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}} offset:36
	▲ Show 20 Lines • Show All 56 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/store-local.128.ll

	Show First 20 Lines • Show All 49 Lines • ▼ Show 20 Lines

	define amdgpu_kernel void @store_lds_v4i32_align1(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {			define amdgpu_kernel void @store_lds_v4i32_align1(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {
	; GFX9-LABEL: store_lds_v4i32_align1:			; GFX9-LABEL: store_lds_v4i32_align1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: s_lshr_b32 s4, s2, 8
	; GFX9-NEXT: s_lshr_b32 s2, s2, 24
	; GFX9-NEXT: v_mov_b32_e32 v4, s2
	; GFX9-NEXT: s_lshr_b32 s2, s3, 8
	; GFX9-NEXT: v_mov_b32_e32 v6, s0
	; GFX9-NEXT: ds_write_b8 v0, v2 offset:8
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v2 offset:10
	; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: s_lshr_b32 s2, s0, 8
	; GFX9-NEXT: s_lshr_b32 s0, s0, 24
	; GFX9-NEXT: v_mov_b32_e32 v8, s0
	; GFX9-NEXT: s_lshr_b32 s0, s1, 8
	; GFX9-NEXT: v_mov_b32_e32 v1, s3			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: v_mov_b32_e32 v5, s1			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: ds_write_b8 v0, v6
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v6 offset:2
	; GFX9-NEXT: v_mov_b32_e32 v6, s0
	; GFX9-NEXT: s_lshr_b32 s0, s3, 24
	; GFX9-NEXT: ds_write_b8 v0, v1 offset:12			; GFX9-NEXT: ds_write_b8 v0, v1 offset:12
	; GFX9-NEXT: ds_write_b8 v0, v5 offset:4
	; GFX9-NEXT: ds_write_b8 v0, v2 offset:13
	; GFX9-NEXT: v_mov_b32_e32 v2, s0
	; GFX9-NEXT: s_lshr_b32 s0, s1, 24
	; GFX9-NEXT: v_mov_b32_e32 v3, s4
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:14			; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:14
	; GFX9-NEXT: ds_write_b8 v0, v2 offset:15			; GFX9-NEXT: ds_write_b8 v0, v2 offset:8
	; GFX9-NEXT: ds_write_b8 v0, v3 offset:9			; GFX9-NEXT: ds_write_b8_d16_hi v0, v2 offset:10
	; GFX9-NEXT: ds_write_b8 v0, v4 offset:11			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: ds_write_b8 v0, v6 offset:5			; GFX9-NEXT: ds_write_b8 v0, v1 offset:4
	; GFX9-NEXT: v_mov_b32_e32 v7, s2			; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:6
	; GFX9-NEXT: v_mov_b32_e32 v1, s0			; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v5 offset:6			; GFX9-NEXT: s_lshr_b32 s4, s3, 8
				; GFX9-NEXT: ds_write_b8 v0, v1
				; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:2
				; GFX9-NEXT: v_mov_b32_e32 v1, s4
				; GFX9-NEXT: s_lshr_b32 s3, s3, 24
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:13
				; GFX9-NEXT: v_mov_b32_e32 v1, s3
				; GFX9-NEXT: s_lshr_b32 s3, s2, 8
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:15
				; GFX9-NEXT: v_mov_b32_e32 v1, s3
				; GFX9-NEXT: s_lshr_b32 s2, s2, 24
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:9
				; GFX9-NEXT: v_mov_b32_e32 v1, s2
				; GFX9-NEXT: s_lshr_b32 s2, s1, 8
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:11
				; GFX9-NEXT: v_mov_b32_e32 v1, s2
				; GFX9-NEXT: s_lshr_b32 s1, s1, 24
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:5
				; GFX9-NEXT: v_mov_b32_e32 v1, s1
				; GFX9-NEXT: s_lshr_b32 s1, s0, 8
	; GFX9-NEXT: ds_write_b8 v0, v1 offset:7			; GFX9-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX9-NEXT: ds_write_b8 v0, v7 offset:1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: ds_write_b8 v0, v8 offset:3			; GFX9-NEXT: s_lshr_b32 s0, s0, 24
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:1
				; GFX9-NEXT: v_mov_b32_e32 v1, s0
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:3
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v4i32_align1:			; GFX7-LABEL: store_lds_v4i32_align1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: s_lshr_b32 s4, s3, 8
	; GFX7-NEXT: v_mov_b32_e32 v5, s4
	; GFX7-NEXT: s_lshr_b32 s4, s3, 16
	; GFX7-NEXT: v_mov_b32_e32 v1, s3			; GFX7-NEXT: v_mov_b32_e32 v1, s3
	; GFX7-NEXT: s_lshr_b32 s3, s3, 24
	; GFX7-NEXT: ds_write_b8 v0, v5 offset:13
	; GFX7-NEXT: v_mov_b32_e32 v5, s3
	; GFX7-NEXT: s_lshr_b32 s3, s2, 8
	; GFX7-NEXT: v_mov_b32_e32 v6, s4
	; GFX7-NEXT: ds_write_b8 v0, v5 offset:15
	; GFX7-NEXT: ds_write_b8 v0, v6 offset:14
	; GFX7-NEXT: v_mov_b32_e32 v5, s3
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_lshr_b32 s3, s2, 16			; GFX7-NEXT: ds_write_b8 v0, v1 offset:12
	; GFX7-NEXT: s_lshr_b32 s2, s2, 24
	; GFX7-NEXT: ds_write_b8 v0, v2 offset:8			; GFX7-NEXT: ds_write_b8 v0, v2 offset:8
	; GFX7-NEXT: ds_write_b8 v0, v5 offset:9			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: ds_write_b8 v0, v1 offset:4
				; GFX7-NEXT: v_mov_b32_e32 v1, s0
				; GFX7-NEXT: s_lshr_b32 s4, s3, 8
				; GFX7-NEXT: ds_write_b8 v0, v1
				; GFX7-NEXT: v_mov_b32_e32 v1, s4
				; GFX7-NEXT: s_lshr_b32 s4, s3, 24
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:13
				; GFX7-NEXT: v_mov_b32_e32 v1, s4
				; GFX7-NEXT: s_lshr_b32 s3, s3, 16
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:15
				; GFX7-NEXT: v_mov_b32_e32 v1, s3
				; GFX7-NEXT: s_lshr_b32 s3, s2, 8
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:14
				; GFX7-NEXT: v_mov_b32_e32 v1, s3
				; GFX7-NEXT: s_lshr_b32 s3, s2, 24
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:9
				; GFX7-NEXT: v_mov_b32_e32 v1, s3
				; GFX7-NEXT: s_lshr_b32 s2, s2, 16
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:11
				; GFX7-NEXT: v_mov_b32_e32 v1, s2
	; GFX7-NEXT: s_lshr_b32 s2, s1, 8			; GFX7-NEXT: s_lshr_b32 s2, s1, 8
	; GFX7-NEXT: v_mov_b32_e32 v6, s3			; GFX7-NEXT: ds_write_b8 v0, v1 offset:10
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:12
	; GFX7-NEXT: ds_write_b8 v0, v2 offset:11
	; GFX7-NEXT: ds_write_b8 v0, v6 offset:10
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: v_mov_b32_e32 v1, s2
	; GFX7-NEXT: s_lshr_b32 s2, s1, 16			; GFX7-NEXT: s_lshr_b32 s2, s1, 24
	; GFX7-NEXT: v_mov_b32_e32 v3, s1
	; GFX7-NEXT: s_lshr_b32 s1, s1, 24
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:5			; GFX7-NEXT: ds_write_b8 v0, v1 offset:5
				; GFX7-NEXT: v_mov_b32_e32 v1, s2
				; GFX7-NEXT: s_lshr_b32 s1, s1, 16
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_lshr_b32 s1, s0, 8			; GFX7-NEXT: s_lshr_b32 s1, s0, 8
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: ds_write_b8 v0, v1 offset:6
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX7-NEXT: ds_write_b8 v0, v2 offset:6
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v4, s0			; GFX7-NEXT: s_lshr_b32 s1, s0, 24
	; GFX7-NEXT: s_lshr_b32 s1, s0, 16
	; GFX7-NEXT: s_lshr_b32 s0, s0, 24
	; GFX7-NEXT: ds_write_b8 v0, v4
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:1			; GFX7-NEXT: ds_write_b8 v0, v1 offset:1
	; GFX7-NEXT: v_mov_b32_e32 v2, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v1, s0			; GFX7-NEXT: s_lshr_b32 s0, s0, 16
	; GFX7-NEXT: ds_write_b8 v0, v3 offset:4
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:3			; GFX7-NEXT: ds_write_b8 v0, v1 offset:3
	; GFX7-NEXT: ds_write_b8 v0, v2 offset:2			; GFX7-NEXT: v_mov_b32_e32 v1, s0
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v4i32_align1:			; GFX6-LABEL: store_lds_v4i32_align1:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_lshr_b32 s4, s3, 8
	; GFX6-NEXT: v_mov_b32_e32 v5, s4
	; GFX6-NEXT: s_lshr_b32 s4, s3, 16
	; GFX6-NEXT: v_mov_b32_e32 v1, s3			; GFX6-NEXT: v_mov_b32_e32 v1, s3
	; GFX6-NEXT: s_lshr_b32 s3, s3, 24
	; GFX6-NEXT: ds_write_b8 v0, v5 offset:13
	; GFX6-NEXT: v_mov_b32_e32 v5, s3
	; GFX6-NEXT: s_lshr_b32 s3, s2, 8
	; GFX6-NEXT: v_mov_b32_e32 v6, s4
	; GFX6-NEXT: ds_write_b8 v0, v5 offset:15
	; GFX6-NEXT: ds_write_b8 v0, v6 offset:14
	; GFX6-NEXT: v_mov_b32_e32 v5, s3
	; GFX6-NEXT: v_mov_b32_e32 v2, s2			; GFX6-NEXT: v_mov_b32_e32 v2, s2
	; GFX6-NEXT: s_lshr_b32 s3, s2, 16			; GFX6-NEXT: ds_write_b8 v0, v1 offset:12
	; GFX6-NEXT: s_lshr_b32 s2, s2, 24
	; GFX6-NEXT: ds_write_b8 v0, v2 offset:8			; GFX6-NEXT: ds_write_b8 v0, v2 offset:8
	; GFX6-NEXT: ds_write_b8 v0, v5 offset:9			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: v_mov_b32_e32 v2, s2			; GFX6-NEXT: ds_write_b8 v0, v1 offset:4
				; GFX6-NEXT: v_mov_b32_e32 v1, s0
				; GFX6-NEXT: s_lshr_b32 s4, s3, 8
				; GFX6-NEXT: ds_write_b8 v0, v1
				; GFX6-NEXT: v_mov_b32_e32 v1, s4
				; GFX6-NEXT: s_lshr_b32 s4, s3, 24
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:13
				; GFX6-NEXT: v_mov_b32_e32 v1, s4
				; GFX6-NEXT: s_lshr_b32 s3, s3, 16
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:15
				; GFX6-NEXT: v_mov_b32_e32 v1, s3
				; GFX6-NEXT: s_lshr_b32 s3, s2, 8
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:14
				; GFX6-NEXT: v_mov_b32_e32 v1, s3
				; GFX6-NEXT: s_lshr_b32 s3, s2, 24
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:9
				; GFX6-NEXT: v_mov_b32_e32 v1, s3
				; GFX6-NEXT: s_lshr_b32 s2, s2, 16
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:11
				; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s2, s1, 8			; GFX6-NEXT: s_lshr_b32 s2, s1, 8
	; GFX6-NEXT: v_mov_b32_e32 v6, s3			; GFX6-NEXT: ds_write_b8 v0, v1 offset:10
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:12
	; GFX6-NEXT: ds_write_b8 v0, v2 offset:11
	; GFX6-NEXT: ds_write_b8 v0, v6 offset:10
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s2, s1, 16			; GFX6-NEXT: s_lshr_b32 s2, s1, 24
	; GFX6-NEXT: v_mov_b32_e32 v3, s1
	; GFX6-NEXT: s_lshr_b32 s1, s1, 24
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:5			; GFX6-NEXT: ds_write_b8 v0, v1 offset:5
				; GFX6-NEXT: v_mov_b32_e32 v1, s2
				; GFX6-NEXT: s_lshr_b32 s1, s1, 16
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: s_lshr_b32 s1, s0, 8			; GFX6-NEXT: s_lshr_b32 s1, s0, 8
	; GFX6-NEXT: v_mov_b32_e32 v2, s2			; GFX6-NEXT: ds_write_b8 v0, v1 offset:6
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX6-NEXT: ds_write_b8 v0, v2 offset:6
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: v_mov_b32_e32 v4, s0			; GFX6-NEXT: s_lshr_b32 s1, s0, 24
	; GFX6-NEXT: s_lshr_b32 s1, s0, 16
	; GFX6-NEXT: s_lshr_b32 s0, s0, 24
	; GFX6-NEXT: ds_write_b8 v0, v4
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:1			; GFX6-NEXT: ds_write_b8 v0, v1 offset:1
	; GFX6-NEXT: v_mov_b32_e32 v2, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: v_mov_b32_e32 v1, s0			; GFX6-NEXT: s_lshr_b32 s0, s0, 16
	; GFX6-NEXT: ds_write_b8 v0, v3 offset:4
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:3			; GFX6-NEXT: ds_write_b8 v0, v1 offset:3
	; GFX6-NEXT: ds_write_b8 v0, v2 offset:2			; GFX6-NEXT: v_mov_b32_e32 v1, s0
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:2
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <4 x i32> %x, <4 x i32> addrspace(3)* %out, align 1			store <4 x i32> %x, <4 x i32> addrspace(3)* %out, align 1
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v4i32_align2(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {			define amdgpu_kernel void @store_lds_v4i32_align2(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {
	; GFX9-LABEL: store_lds_v4i32_align2:			; GFX9-LABEL: store_lds_v4i32_align2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s3			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: v_mov_b32_e32 v4, s0
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: v_mov_b32_e32 v3, s1			; GFX9-NEXT: ds_write_b16 v0, v1 offset:12
	; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:14			; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:14
	; GFX9-NEXT: ds_write_b16 v0, v4
	; GFX9-NEXT: ds_write_b16 v0, v3 offset:4
	; GFX9-NEXT: ds_write_b16 v0, v2 offset:8			; GFX9-NEXT: ds_write_b16 v0, v2 offset:8
	; GFX9-NEXT: ds_write_b16 v0, v1 offset:12
	; GFX9-NEXT: ds_write_b16_d16_hi v0, v2 offset:10			; GFX9-NEXT: ds_write_b16_d16_hi v0, v2 offset:10
	; GFX9-NEXT: ds_write_b16_d16_hi v0, v3 offset:6			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: ds_write_b16_d16_hi v0, v4 offset:2			; GFX9-NEXT: ds_write_b16 v0, v1 offset:4
				; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:6
				; GFX9-NEXT: v_mov_b32_e32 v1, s0
				; GFX9-NEXT: ds_write_b16 v0, v1
				; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:2
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v4i32_align2:			; GFX7-LABEL: store_lds_v4i32_align2:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v4, s0			; GFX7-NEXT: v_mov_b32_e32 v1, s3
	; GFX7-NEXT: s_lshr_b32 s0, s0, 16
	; GFX7-NEXT: v_mov_b32_e32 v5, s0
	; GFX7-NEXT: s_lshr_b32 s0, s1, 16
	; GFX7-NEXT: v_mov_b32_e32 v3, s1
	; GFX7-NEXT: ds_write_b16 v0, v4
	; GFX7-NEXT: v_mov_b32_e32 v4, s0
	; GFX7-NEXT: s_lshr_b32 s0, s2, 16
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: ds_write_b16 v0, v3 offset:4			; GFX7-NEXT: ds_write_b16 v0, v1 offset:12
	; GFX7-NEXT: v_mov_b32_e32 v3, s0
	; GFX7-NEXT: s_lshr_b32 s0, s3, 16
	; GFX7-NEXT: ds_write_b16 v0, v2 offset:8			; GFX7-NEXT: ds_write_b16 v0, v2 offset:8
	; GFX7-NEXT: v_mov_b32_e32 v2, s0			; GFX7-NEXT: v_mov_b32_e32 v1, s1
				; GFX7-NEXT: ds_write_b16 v0, v1 offset:4
				; GFX7-NEXT: v_mov_b32_e32 v1, s0
				; GFX7-NEXT: s_lshr_b32 s3, s3, 16
				; GFX7-NEXT: ds_write_b16 v0, v1
	; GFX7-NEXT: v_mov_b32_e32 v1, s3			; GFX7-NEXT: v_mov_b32_e32 v1, s3
	; GFX7-NEXT: ds_write_b16 v0, v2 offset:14			; GFX7-NEXT: s_lshr_b32 s2, s2, 16
	; GFX7-NEXT: ds_write_b16 v0, v1 offset:12			; GFX7-NEXT: ds_write_b16 v0, v1 offset:14
	; GFX7-NEXT: ds_write_b16 v0, v3 offset:10			; GFX7-NEXT: v_mov_b32_e32 v1, s2
	; GFX7-NEXT: ds_write_b16 v0, v4 offset:6			; GFX7-NEXT: s_lshr_b32 s1, s1, 16
	; GFX7-NEXT: ds_write_b16 v0, v5 offset:2			; GFX7-NEXT: ds_write_b16 v0, v1 offset:10
				; GFX7-NEXT: v_mov_b32_e32 v1, s1
				; GFX7-NEXT: s_lshr_b32 s0, s0, 16
				; GFX7-NEXT: ds_write_b16 v0, v1 offset:6
				; GFX7-NEXT: v_mov_b32_e32 v1, s0
				; GFX7-NEXT: ds_write_b16 v0, v1 offset:2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v4i32_align2:			; GFX6-LABEL: store_lds_v4i32_align2:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v4, s0			; GFX6-NEXT: v_mov_b32_e32 v1, s3
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16
	; GFX6-NEXT: v_mov_b32_e32 v5, s0
	; GFX6-NEXT: s_lshr_b32 s0, s1, 16
	; GFX6-NEXT: v_mov_b32_e32 v3, s1
	; GFX6-NEXT: ds_write_b16 v0, v4
	; GFX6-NEXT: v_mov_b32_e32 v4, s0
	; GFX6-NEXT: s_lshr_b32 s0, s2, 16
	; GFX6-NEXT: v_mov_b32_e32 v2, s2			; GFX6-NEXT: v_mov_b32_e32 v2, s2
	; GFX6-NEXT: ds_write_b16 v0, v3 offset:4			; GFX6-NEXT: ds_write_b16 v0, v1 offset:12
	; GFX6-NEXT: v_mov_b32_e32 v3, s0
	; GFX6-NEXT: s_lshr_b32 s0, s3, 16
	; GFX6-NEXT: ds_write_b16 v0, v2 offset:8			; GFX6-NEXT: ds_write_b16 v0, v2 offset:8
	; GFX6-NEXT: v_mov_b32_e32 v2, s0			; GFX6-NEXT: v_mov_b32_e32 v1, s1
				; GFX6-NEXT: ds_write_b16 v0, v1 offset:4
				; GFX6-NEXT: v_mov_b32_e32 v1, s0
				; GFX6-NEXT: s_lshr_b32 s3, s3, 16
				; GFX6-NEXT: ds_write_b16 v0, v1
	; GFX6-NEXT: v_mov_b32_e32 v1, s3			; GFX6-NEXT: v_mov_b32_e32 v1, s3
	; GFX6-NEXT: ds_write_b16 v0, v2 offset:14			; GFX6-NEXT: s_lshr_b32 s2, s2, 16
	; GFX6-NEXT: ds_write_b16 v0, v1 offset:12			; GFX6-NEXT: ds_write_b16 v0, v1 offset:14
	; GFX6-NEXT: ds_write_b16 v0, v3 offset:10			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: ds_write_b16 v0, v4 offset:6			; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: ds_write_b16 v0, v5 offset:2			; GFX6-NEXT: ds_write_b16 v0, v1 offset:10
				; GFX6-NEXT: v_mov_b32_e32 v1, s1
				; GFX6-NEXT: s_lshr_b32 s0, s0, 16
				; GFX6-NEXT: ds_write_b16 v0, v1 offset:6
				; GFX6-NEXT: v_mov_b32_e32 v1, s0
				; GFX6-NEXT: ds_write_b16 v0, v1 offset:2
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <4 x i32> %x, <4 x i32> addrspace(3)* %out, align 2			store <4 x i32> %x, <4 x i32> addrspace(3)* %out, align 2
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v4i32_align4(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {			define amdgpu_kernel void @store_lds_v4i32_align4(<4 x i32> addrspace(3)* %out, <4 x i32> %x) {
	; GFX9-LABEL: store_lds_v4i32_align4:			; GFX9-LABEL: store_lds_v4i32_align4:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	Show All 12 Lines
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v1, s0			; GFX7-NEXT: v_mov_b32_e32 v1, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s1			; GFX7-NEXT: v_mov_b32_e32 v2, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s2
	; GFX7-NEXT: v_mov_b32_e32 v4, s3
	; GFX7-NEXT: ds_write2_b32 v0, v1, v2 offset1:1			; GFX7-NEXT: ds_write2_b32 v0, v1, v2 offset1:1
	; GFX7-NEXT: ds_write2_b32 v0, v3, v4 offset0:2 offset1:3			; GFX7-NEXT: v_mov_b32_e32 v1, s2
				; GFX7-NEXT: v_mov_b32_e32 v2, s3
				; GFX7-NEXT: ds_write2_b32 v0, v1, v2 offset0:2 offset1:3
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v4i32_align4:			; GFX6-LABEL: store_lds_v4i32_align4:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 101 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/store-local.96.ll

	Show All 30 Lines
	;			;
	; GFX6-LABEL: store_lds_v3i32:			; GFX6-LABEL: store_lds_v3i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v2, s4			; GFX6-NEXT: v_mov_b32_e32 v2, s4
	; GFX6-NEXT: v_mov_b32_e32 v3, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s2
				; GFX6-NEXT: ds_write_b32 v2, v1 offset:8
	; GFX6-NEXT: v_mov_b32_e32 v0, s0			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: ds_write_b32 v2, v3 offset:8
	; GFX6-NEXT: ds_write_b64 v2, v[0:1]			; GFX6-NEXT: ds_write_b64 v2, v[0:1]
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out			store <3 x i32> %x, <3 x i32> addrspace(3)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v3i32_align1(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align1(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align1:			; GFX9-LABEL: store_lds_v3i32_align1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: s_lshr_b32 s3, s2, 8
	; GFX9-NEXT: v_mov_b32_e32 v4, s0
	; GFX9-NEXT: v_mov_b32_e32 v2, s3
	; GFX9-NEXT: s_lshr_b32 s3, s0, 8
	; GFX9-NEXT: s_lshr_b32 s0, s0, 24
	; GFX9-NEXT: v_mov_b32_e32 v6, s0
	; GFX9-NEXT: s_lshr_b32 s0, s1, 8
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s2
	; GFX9-NEXT: v_mov_b32_e32 v3, s1			; GFX9-NEXT: v_mov_b32_e32 v2, s1
	; GFX9-NEXT: ds_write_b8 v0, v4
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v4 offset:2
	; GFX9-NEXT: v_mov_b32_e32 v4, s0
	; GFX9-NEXT: s_lshr_b32 s0, s2, 24
	; GFX9-NEXT: ds_write_b8 v0, v1 offset:8			; GFX9-NEXT: ds_write_b8 v0, v1 offset:8
	; GFX9-NEXT: ds_write_b8 v0, v3 offset:4
	; GFX9-NEXT: ds_write_b8 v0, v2 offset:9
	; GFX9-NEXT: v_mov_b32_e32 v2, s0
	; GFX9-NEXT: s_lshr_b32 s0, s1, 24
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:10			; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:10
	; GFX9-NEXT: ds_write_b8 v0, v2 offset:11			; GFX9-NEXT: ds_write_b8 v0, v2 offset:4
	; GFX9-NEXT: ds_write_b8 v0, v4 offset:5			; GFX9-NEXT: ds_write_b8_d16_hi v0, v2 offset:6
	; GFX9-NEXT: v_mov_b32_e32 v5, s3
	; GFX9-NEXT: v_mov_b32_e32 v1, s0			; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v3 offset:6			; GFX9-NEXT: s_lshr_b32 s3, s2, 8
				; GFX9-NEXT: ds_write_b8 v0, v1
				; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:2
				; GFX9-NEXT: v_mov_b32_e32 v1, s3
				; GFX9-NEXT: s_lshr_b32 s2, s2, 24
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:9
				; GFX9-NEXT: v_mov_b32_e32 v1, s2
				; GFX9-NEXT: s_lshr_b32 s2, s1, 8
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:11
				; GFX9-NEXT: v_mov_b32_e32 v1, s2
				; GFX9-NEXT: s_lshr_b32 s1, s1, 24
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:5
				; GFX9-NEXT: v_mov_b32_e32 v1, s1
				; GFX9-NEXT: s_lshr_b32 s1, s0, 8
	; GFX9-NEXT: ds_write_b8 v0, v1 offset:7			; GFX9-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX9-NEXT: ds_write_b8 v0, v5 offset:1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: ds_write_b8 v0, v6 offset:3			; GFX9-NEXT: s_lshr_b32 s0, s0, 24
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:1
				; GFX9-NEXT: v_mov_b32_e32 v1, s0
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:3
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v3i32_align1:			; GFX7-LABEL: store_lds_v3i32_align1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: s_lshr_b32 s3, s2, 8
	; GFX7-NEXT: v_mov_b32_e32 v4, s3
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: v_mov_b32_e32 v1, s2
	; GFX7-NEXT: s_lshr_b32 s3, s2, 16			; GFX7-NEXT: v_mov_b32_e32 v2, s1
	; GFX7-NEXT: s_lshr_b32 s2, s2, 24
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:8			; GFX7-NEXT: ds_write_b8 v0, v1 offset:8
	; GFX7-NEXT: ds_write_b8 v0, v4 offset:9			; GFX7-NEXT: ds_write_b8 v0, v2 offset:4
				; GFX7-NEXT: v_mov_b32_e32 v1, s0
				; GFX7-NEXT: s_lshr_b32 s3, s2, 8
				; GFX7-NEXT: ds_write_b8 v0, v1
				; GFX7-NEXT: v_mov_b32_e32 v1, s3
				; GFX7-NEXT: s_lshr_b32 s3, s2, 24
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:9
				; GFX7-NEXT: v_mov_b32_e32 v1, s3
				; GFX7-NEXT: s_lshr_b32 s2, s2, 16
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:11
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: v_mov_b32_e32 v1, s2
	; GFX7-NEXT: s_lshr_b32 s2, s1, 8			; GFX7-NEXT: s_lshr_b32 s2, s1, 8
	; GFX7-NEXT: v_mov_b32_e32 v5, s3			; GFX7-NEXT: ds_write_b8 v0, v1 offset:10
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:11
	; GFX7-NEXT: ds_write_b8 v0, v5 offset:10
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: v_mov_b32_e32 v1, s2
	; GFX7-NEXT: s_lshr_b32 s2, s1, 16			; GFX7-NEXT: s_lshr_b32 s2, s1, 24
	; GFX7-NEXT: v_mov_b32_e32 v2, s1
	; GFX7-NEXT: s_lshr_b32 s1, s1, 24
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:5			; GFX7-NEXT: ds_write_b8 v0, v1 offset:5
				; GFX7-NEXT: v_mov_b32_e32 v1, s2
				; GFX7-NEXT: s_lshr_b32 s1, s1, 16
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_lshr_b32 s1, s0, 8			; GFX7-NEXT: s_lshr_b32 s1, s0, 8
	; GFX7-NEXT: v_mov_b32_e32 v4, s2			; GFX7-NEXT: ds_write_b8 v0, v1 offset:6
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX7-NEXT: ds_write_b8 v0, v4 offset:6
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s0			; GFX7-NEXT: s_lshr_b32 s1, s0, 24
	; GFX7-NEXT: s_lshr_b32 s1, s0, 16
	; GFX7-NEXT: s_lshr_b32 s0, s0, 24
	; GFX7-NEXT: ds_write_b8 v0, v3
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:1			; GFX7-NEXT: ds_write_b8 v0, v1 offset:1
	; GFX7-NEXT: v_mov_b32_e32 v4, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v1, s0			; GFX7-NEXT: s_lshr_b32 s0, s0, 16
	; GFX7-NEXT: ds_write_b8 v0, v2 offset:4
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:3			; GFX7-NEXT: ds_write_b8 v0, v1 offset:3
	; GFX7-NEXT: ds_write_b8 v0, v4 offset:2			; GFX7-NEXT: v_mov_b32_e32 v1, s0
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v3i32_align1:			; GFX6-LABEL: store_lds_v3i32_align1:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_lshr_b32 s3, s2, 8
	; GFX6-NEXT: v_mov_b32_e32 v4, s3
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s3, s2, 16			; GFX6-NEXT: v_mov_b32_e32 v2, s1
	; GFX6-NEXT: s_lshr_b32 s2, s2, 24
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:8			; GFX6-NEXT: ds_write_b8 v0, v1 offset:8
	; GFX6-NEXT: ds_write_b8 v0, v4 offset:9			; GFX6-NEXT: ds_write_b8 v0, v2 offset:4
				; GFX6-NEXT: v_mov_b32_e32 v1, s0
				; GFX6-NEXT: s_lshr_b32 s3, s2, 8
				; GFX6-NEXT: ds_write_b8 v0, v1
				; GFX6-NEXT: v_mov_b32_e32 v1, s3
				; GFX6-NEXT: s_lshr_b32 s3, s2, 24
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:9
				; GFX6-NEXT: v_mov_b32_e32 v1, s3
				; GFX6-NEXT: s_lshr_b32 s2, s2, 16
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:11
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s2, s1, 8			; GFX6-NEXT: s_lshr_b32 s2, s1, 8
	; GFX6-NEXT: v_mov_b32_e32 v5, s3			; GFX6-NEXT: ds_write_b8 v0, v1 offset:10
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:11
	; GFX6-NEXT: ds_write_b8 v0, v5 offset:10
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s2, s1, 16			; GFX6-NEXT: s_lshr_b32 s2, s1, 24
	; GFX6-NEXT: v_mov_b32_e32 v2, s1
	; GFX6-NEXT: s_lshr_b32 s1, s1, 24
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:5			; GFX6-NEXT: ds_write_b8 v0, v1 offset:5
				; GFX6-NEXT: v_mov_b32_e32 v1, s2
				; GFX6-NEXT: s_lshr_b32 s1, s1, 16
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: s_lshr_b32 s1, s0, 8			; GFX6-NEXT: s_lshr_b32 s1, s0, 8
	; GFX6-NEXT: v_mov_b32_e32 v4, s2			; GFX6-NEXT: ds_write_b8 v0, v1 offset:6
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX6-NEXT: ds_write_b8 v0, v4 offset:6
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: v_mov_b32_e32 v3, s0			; GFX6-NEXT: s_lshr_b32 s1, s0, 24
	; GFX6-NEXT: s_lshr_b32 s1, s0, 16
	; GFX6-NEXT: s_lshr_b32 s0, s0, 24
	; GFX6-NEXT: ds_write_b8 v0, v3
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:1			; GFX6-NEXT: ds_write_b8 v0, v1 offset:1
	; GFX6-NEXT: v_mov_b32_e32 v4, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: v_mov_b32_e32 v1, s0			; GFX6-NEXT: s_lshr_b32 s0, s0, 16
	; GFX6-NEXT: ds_write_b8 v0, v2 offset:4
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:3			; GFX6-NEXT: ds_write_b8 v0, v1 offset:3
	; GFX6-NEXT: ds_write_b8 v0, v4 offset:2			; GFX6-NEXT: v_mov_b32_e32 v1, s0
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:2
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 1			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 1
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v3i32_align2(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align2(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align2:			; GFX9-LABEL: store_lds_v3i32_align2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s2
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: v_mov_b32_e32 v2, s1
	; GFX9-NEXT: v_mov_b32_e32 v3, s0			; GFX9-NEXT: ds_write_b16 v0, v1 offset:8
	; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:10			; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:10
	; GFX9-NEXT: ds_write_b16 v0, v3
	; GFX9-NEXT: ds_write_b16 v0, v2 offset:4			; GFX9-NEXT: ds_write_b16 v0, v2 offset:4
	; GFX9-NEXT: ds_write_b16 v0, v1 offset:8
	; GFX9-NEXT: ds_write_b16_d16_hi v0, v2 offset:6			; GFX9-NEXT: ds_write_b16_d16_hi v0, v2 offset:6
	; GFX9-NEXT: ds_write_b16_d16_hi v0, v3 offset:2			; GFX9-NEXT: v_mov_b32_e32 v1, s0
				; GFX9-NEXT: ds_write_b16 v0, v1
				; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:2
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v3i32_align2:			; GFX7-LABEL: store_lds_v3i32_align2:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v3, s0			; GFX7-NEXT: v_mov_b32_e32 v1, s2
	; GFX7-NEXT: s_lshr_b32 s0, s0, 16
	; GFX7-NEXT: v_mov_b32_e32 v4, s0
	; GFX7-NEXT: s_lshr_b32 s0, s1, 16
	; GFX7-NEXT: v_mov_b32_e32 v2, s1			; GFX7-NEXT: v_mov_b32_e32 v2, s1
	; GFX7-NEXT: ds_write_b16 v0, v3			; GFX7-NEXT: ds_write_b16 v0, v1 offset:8
	; GFX7-NEXT: v_mov_b32_e32 v3, s0
	; GFX7-NEXT: s_lshr_b32 s0, s2, 16
	; GFX7-NEXT: ds_write_b16 v0, v2 offset:4			; GFX7-NEXT: ds_write_b16 v0, v2 offset:4
	; GFX7-NEXT: v_mov_b32_e32 v2, s0			; GFX7-NEXT: v_mov_b32_e32 v1, s0
				; GFX7-NEXT: s_lshr_b32 s2, s2, 16
				; GFX7-NEXT: ds_write_b16 v0, v1
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: v_mov_b32_e32 v1, s2
	; GFX7-NEXT: ds_write_b16 v0, v2 offset:10			; GFX7-NEXT: s_lshr_b32 s1, s1, 16
	; GFX7-NEXT: ds_write_b16 v0, v1 offset:8			; GFX7-NEXT: ds_write_b16 v0, v1 offset:10
	; GFX7-NEXT: ds_write_b16 v0, v3 offset:6			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: ds_write_b16 v0, v4 offset:2			; GFX7-NEXT: s_lshr_b32 s0, s0, 16
				; GFX7-NEXT: ds_write_b16 v0, v1 offset:6
				; GFX7-NEXT: v_mov_b32_e32 v1, s0
				; GFX7-NEXT: ds_write_b16 v0, v1 offset:2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v3i32_align2:			; GFX6-LABEL: store_lds_v3i32_align2:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v3, s0			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16
	; GFX6-NEXT: v_mov_b32_e32 v4, s0
	; GFX6-NEXT: s_lshr_b32 s0, s1, 16
	; GFX6-NEXT: v_mov_b32_e32 v2, s1			; GFX6-NEXT: v_mov_b32_e32 v2, s1
	; GFX6-NEXT: ds_write_b16 v0, v3			; GFX6-NEXT: ds_write_b16 v0, v1 offset:8
	; GFX6-NEXT: v_mov_b32_e32 v3, s0
	; GFX6-NEXT: s_lshr_b32 s0, s2, 16
	; GFX6-NEXT: ds_write_b16 v0, v2 offset:4			; GFX6-NEXT: ds_write_b16 v0, v2 offset:4
	; GFX6-NEXT: v_mov_b32_e32 v2, s0			; GFX6-NEXT: v_mov_b32_e32 v1, s0
				; GFX6-NEXT: s_lshr_b32 s2, s2, 16
				; GFX6-NEXT: ds_write_b16 v0, v1
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: ds_write_b16 v0, v2 offset:10			; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: ds_write_b16 v0, v1 offset:8			; GFX6-NEXT: ds_write_b16 v0, v1 offset:10
	; GFX6-NEXT: ds_write_b16 v0, v3 offset:6			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: ds_write_b16 v0, v4 offset:2			; GFX6-NEXT: s_lshr_b32 s0, s0, 16
				; GFX6-NEXT: ds_write_b16 v0, v1 offset:6
				; GFX6-NEXT: v_mov_b32_e32 v1, s0
				; GFX6-NEXT: ds_write_b16 v0, v1 offset:2
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 2			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 2
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v3i32_align4(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align4(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align4:			; GFX9-LABEL: store_lds_v3i32_align4:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	Show All 11 Lines
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v1, s0			; GFX7-NEXT: v_mov_b32_e32 v1, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s1			; GFX7-NEXT: v_mov_b32_e32 v2, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s2
	; GFX7-NEXT: ds_write2_b32 v0, v1, v2 offset1:1			; GFX7-NEXT: ds_write2_b32 v0, v1, v2 offset1:1
	; GFX7-NEXT: ds_write_b32 v0, v3 offset:8			; GFX7-NEXT: v_mov_b32_e32 v1, s2
				; GFX7-NEXT: ds_write_b32 v0, v1 offset:8
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v3i32_align4:			; GFX6-LABEL: store_lds_v3i32_align4:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	Show All 23 Lines
	;			;
	; GFX7-LABEL: store_lds_v3i32_align8:			; GFX7-LABEL: store_lds_v3i32_align8:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v2, s4			; GFX7-NEXT: v_mov_b32_e32 v2, s4
	; GFX7-NEXT: v_mov_b32_e32 v3, s2			; GFX7-NEXT: v_mov_b32_e32 v1, s2
				; GFX7-NEXT: ds_write_b32 v2, v1 offset:8
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: ds_write_b32 v2, v3 offset:8
	; GFX7-NEXT: ds_write_b64 v2, v[0:1]			; GFX7-NEXT: ds_write_b64 v2, v[0:1]
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v3i32_align8:			; GFX6-LABEL: store_lds_v3i32_align8:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v2, s4			; GFX6-NEXT: v_mov_b32_e32 v2, s4
	; GFX6-NEXT: v_mov_b32_e32 v3, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s2
				; GFX6-NEXT: ds_write_b32 v2, v1 offset:8
	; GFX6-NEXT: v_mov_b32_e32 v0, s0			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: ds_write_b32 v2, v3 offset:8
	; GFX6-NEXT: ds_write_b64 v2, v[0:1]			; GFX6-NEXT: ds_write_b64 v2, v[0:1]
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 8			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 8
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v3i32_align16(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align16(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align16:			; GFX9-LABEL: store_lds_v3i32_align16:
	Show All 23 Lines
	;			;
	; GFX6-LABEL: store_lds_v3i32_align16:			; GFX6-LABEL: store_lds_v3i32_align16:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v2, s4			; GFX6-NEXT: v_mov_b32_e32 v2, s4
	; GFX6-NEXT: v_mov_b32_e32 v3, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s2
				; GFX6-NEXT: ds_write_b32 v2, v1 offset:8
	; GFX6-NEXT: v_mov_b32_e32 v0, s0			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: ds_write_b32 v2, v3 offset:8
	; GFX6-NEXT: ds_write_b64 v2, v[0:1]			; GFX6-NEXT: ds_write_b64 v2, v[0:1]
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 16			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 16
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/store-weird-sizes.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,HAWAII %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,HAWAII %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,FIJI %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,FIJI %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s

	define void @local_store_i56(i56 addrspace(3)* %ptr, i56 %arg) #0 {			define void @local_store_i56(i56 addrspace(3)* %ptr, i56 %arg) #0 {
	; CIVI-LABEL: local_store_i56:			; CIVI-LABEL: local_store_i56:
	; CIVI: ; %bb.0:			; CIVI: ; %bb.0:
	; CIVI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CIVI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CIVI-NEXT: s_mov_b32 m0, -1			; CIVI-NEXT: s_mov_b32 m0, -1
				; CIVI-NEXT: ds_write_b16 v0, v2 offset:4
	; CIVI-NEXT: ds_write_b32 v0, v1			; CIVI-NEXT: ds_write_b32 v0, v1
	; CIVI-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; CIVI-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; CIVI-NEXT: ds_write_b16 v0, v2 offset:4
	; CIVI-NEXT: ds_write_b8 v0, v1 offset:6			; CIVI-NEXT: ds_write_b8 v0, v1 offset:6
	; CIVI-NEXT: s_waitcnt lgkmcnt(0)			; CIVI-NEXT: s_waitcnt lgkmcnt(0)
	; CIVI-NEXT: s_setpc_b64 s[30:31]			; CIVI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: local_store_i56:			; GFX9-LABEL: local_store_i56:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v2 offset:6			; GFX9-NEXT: ds_write_b8_d16_hi v0, v2 offset:6
	; GFX9-NEXT: ds_write_b16 v0, v2 offset:4			; GFX9-NEXT: ds_write_b16 v0, v2 offset:4
	; GFX9-NEXT: ds_write_b32 v0, v1			; GFX9-NEXT: ds_write_b32 v0, v1
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	store i56 %arg, i56 addrspace(3)* %ptr, align 8			store i56 %arg, i56 addrspace(3)* %ptr, align 8
	ret void			ret void
	}			}

	define amdgpu_kernel void @local_store_i55(i55 addrspace(3)* %ptr, i55 %arg) #0 {			define amdgpu_kernel void @local_store_i55(i55 addrspace(3)* %ptr, i55 %arg) #0 {
	; HAWAII-LABEL: local_store_i55:			; HAWAII-LABEL: local_store_i55:
	; HAWAII: ; %bb.0:			; HAWAII: ; %bb.0:
	; HAWAII-NEXT: s_or_b32 s0, s4, 14			; HAWAII-NEXT: s_or_b32 s0, s4, 14
	; HAWAII-NEXT: v_mov_b32_e32 v0, s0			; HAWAII-NEXT: v_mov_b32_e32 v0, s0
	; HAWAII-NEXT: v_mov_b32_e32 v1, s5			; HAWAII-NEXT: v_mov_b32_e32 v1, s5
	; HAWAII-NEXT: flat_load_ubyte v0, v[0:1]			; HAWAII-NEXT: flat_load_ubyte v0, v[0:1]
				; HAWAII-NEXT: s_load_dword s2, s[4:5], 0x3
	; HAWAII-NEXT: s_load_dword s0, s[4:5], 0x0			; HAWAII-NEXT: s_load_dword s0, s[4:5], 0x0
	; HAWAII-NEXT: s_load_dword s1, s[4:5], 0x2			; HAWAII-NEXT: s_load_dword s1, s[4:5], 0x2
	; HAWAII-NEXT: s_load_dword s2, s[4:5], 0x3
	; HAWAII-NEXT: s_mov_b32 m0, -1			; HAWAII-NEXT: s_mov_b32 m0, -1
	; HAWAII-NEXT: s_waitcnt lgkmcnt(0)			; HAWAII-NEXT: s_waitcnt lgkmcnt(0)
	; HAWAII-NEXT: v_mov_b32_e32 v1, s0			; HAWAII-NEXT: v_mov_b32_e32 v1, s0
	; HAWAII-NEXT: v_mov_b32_e32 v2, s1
	; HAWAII-NEXT: v_mov_b32_e32 v3, s2			; HAWAII-NEXT: v_mov_b32_e32 v3, s2
				; HAWAII-NEXT: v_mov_b32_e32 v2, s1
				; HAWAII-NEXT: ds_write_b16 v1, v3 offset:4
	; HAWAII-NEXT: s_waitcnt vmcnt(0)			; HAWAII-NEXT: s_waitcnt vmcnt(0)
	; HAWAII-NEXT: v_and_b32_e32 v0, 0x7f, v0			; HAWAII-NEXT: v_and_b32_e32 v0, 0x7f, v0
	; HAWAII-NEXT: ds_write_b8 v1, v0 offset:6			; HAWAII-NEXT: ds_write_b8 v1, v0 offset:6
	; HAWAII-NEXT: ds_write_b16 v1, v3 offset:4
	; HAWAII-NEXT: ds_write_b32 v1, v2			; HAWAII-NEXT: ds_write_b32 v1, v2
	; HAWAII-NEXT: s_endpgm			; HAWAII-NEXT: s_endpgm
	;			;
	; FIJI-LABEL: local_store_i55:			; FIJI-LABEL: local_store_i55:
	; FIJI: ; %bb.0:			; FIJI: ; %bb.0:
	; FIJI-NEXT: s_or_b32 s0, s4, 14			; FIJI-NEXT: s_or_b32 s0, s4, 14
	; FIJI-NEXT: v_mov_b32_e32 v0, s0			; FIJI-NEXT: v_mov_b32_e32 v0, s0
	; FIJI-NEXT: v_mov_b32_e32 v1, s5			; FIJI-NEXT: v_mov_b32_e32 v1, s5
	; FIJI-NEXT: flat_load_ubyte v0, v[0:1]			; FIJI-NEXT: flat_load_ubyte v0, v[0:1]
	; FIJI-NEXT: s_load_dword s0, s[4:5], 0x0			; FIJI-NEXT: s_load_dword s0, s[4:5], 0x0
	; FIJI-NEXT: s_load_dword s1, s[4:5], 0x8			; FIJI-NEXT: s_load_dword s1, s[4:5], 0x8
	; FIJI-NEXT: s_load_dword s2, s[4:5], 0xc			; FIJI-NEXT: s_load_dword s2, s[4:5], 0xc
	; FIJI-NEXT: s_mov_b32 m0, -1			; FIJI-NEXT: s_mov_b32 m0, -1
	; FIJI-NEXT: s_waitcnt lgkmcnt(0)			; FIJI-NEXT: s_waitcnt lgkmcnt(0)
	; FIJI-NEXT: v_mov_b32_e32 v1, s0			; FIJI-NEXT: v_mov_b32_e32 v1, s0
	; FIJI-NEXT: v_mov_b32_e32 v3, s1			; FIJI-NEXT: v_mov_b32_e32 v3, s1
	; FIJI-NEXT: s_and_b32 s3, s2, 0xffff			; FIJI-NEXT: s_and_b32 s3, s2, 0xffff
	; FIJI-NEXT: v_mov_b32_e32 v2, s2			; FIJI-NEXT: v_mov_b32_e32 v2, s2
				; FIJI-NEXT: ds_write_b16 v1, v2 offset:4
	; FIJI-NEXT: s_waitcnt vmcnt(0)			; FIJI-NEXT: s_waitcnt vmcnt(0)
	; FIJI-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; FIJI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; FIJI-NEXT: v_or_b32_e32 v0, s3, v0			; FIJI-NEXT: v_or_b32_e32 v0, s3, v0
	; FIJI-NEXT: v_bfe_u32 v0, v0, 16, 7			; FIJI-NEXT: v_bfe_u32 v0, v0, 16, 7
	; FIJI-NEXT: ds_write_b8 v1, v0 offset:6			; FIJI-NEXT: ds_write_b8 v1, v0 offset:6
	; FIJI-NEXT: ds_write_b16 v1, v2 offset:4
	; FIJI-NEXT: ds_write_b32 v1, v3			; FIJI-NEXT: ds_write_b32 v1, v3
	; FIJI-NEXT: s_endpgm			; FIJI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: local_store_i55:			; GFX9-LABEL: local_store_i55:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s5			; GFX9-NEXT: v_mov_b32_e32 v1, s5
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: global_load_ubyte_d16_hi v2, v[0:1], off offset:14			; GFX9-NEXT: global_load_ubyte_d16_hi v2, v[0:1], off offset:14
	; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0
	; GFX9-NEXT: s_load_dword s1, s[4:5], 0x8			; GFX9-NEXT: s_load_dword s1, s[4:5], 0x8
	; GFX9-NEXT: s_load_dword s2, s[4:5], 0xc			; GFX9-NEXT: s_load_dword s2, s[4:5], 0xc
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v3, s1			; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: s_and_b32 s3, s2, 0xffff
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s2
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_and_b32 s3, s2, 0xffff
	; GFX9-NEXT: v_or_b32_e32 v2, s3, v2
	; GFX9-NEXT: v_and_b32_e32 v2, 0x7fffff, v2
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v2 offset:6
	; GFX9-NEXT: ds_write_b16 v0, v1 offset:4			; GFX9-NEXT: ds_write_b16 v0, v1 offset:4
				; GFX9-NEXT: s_waitcnt vmcnt(0)
				; GFX9-NEXT: v_or_b32_e32 v1, s3, v2
				; GFX9-NEXT: v_and_b32_e32 v1, 0x7fffff, v1
				; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:6
	; GFX9-NEXT: ds_write_b32 v0, v3			; GFX9-NEXT: ds_write_b32 v0, v3
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	store i55 %arg, i55 addrspace(3)* %ptr, align 8			store i55 %arg, i55 addrspace(3)* %ptr, align 8
	ret void			ret void
	}			}

	define amdgpu_kernel void @local_store_i48(i48 addrspace(3)* %ptr, i48 %arg) #0 {			define amdgpu_kernel void @local_store_i48(i48 addrspace(3)* %ptr, i48 %arg) #0 {
	; HAWAII-LABEL: local_store_i48:			; HAWAII-LABEL: local_store_i48:
	; HAWAII: ; %bb.0:			; HAWAII: ; %bb.0:
	; HAWAII-NEXT: s_load_dword s0, s[4:5], 0x0			; HAWAII-NEXT: s_load_dword s0, s[4:5], 0x0
	; HAWAII-NEXT: s_load_dword s1, s[4:5], 0x2			; HAWAII-NEXT: s_load_dword s1, s[4:5], 0x2
	; HAWAII-NEXT: s_load_dword s2, s[4:5], 0x3			; HAWAII-NEXT: s_load_dword s2, s[4:5], 0x3
	; HAWAII-NEXT: s_mov_b32 m0, -1			; HAWAII-NEXT: s_mov_b32 m0, -1
	; HAWAII-NEXT: s_waitcnt lgkmcnt(0)			; HAWAII-NEXT: s_waitcnt lgkmcnt(0)
	; HAWAII-NEXT: v_mov_b32_e32 v0, s0			; HAWAII-NEXT: v_mov_b32_e32 v0, s0
	; HAWAII-NEXT: v_mov_b32_e32 v2, s1
	; HAWAII-NEXT: v_mov_b32_e32 v1, s2			; HAWAII-NEXT: v_mov_b32_e32 v1, s2
	; HAWAII-NEXT: ds_write_b16 v0, v1 offset:4			; HAWAII-NEXT: ds_write_b16 v0, v1 offset:4
	; HAWAII-NEXT: ds_write_b32 v0, v2			; HAWAII-NEXT: v_mov_b32_e32 v1, s1
				; HAWAII-NEXT: ds_write_b32 v0, v1
	; HAWAII-NEXT: s_endpgm			; HAWAII-NEXT: s_endpgm
	;			;
	; FIJI-LABEL: local_store_i48:			; FIJI-LABEL: local_store_i48:
	; FIJI: ; %bb.0:			; FIJI: ; %bb.0:
	; FIJI-NEXT: s_load_dword s0, s[4:5], 0x0			; FIJI-NEXT: s_load_dword s0, s[4:5], 0x0
	; FIJI-NEXT: s_load_dword s1, s[4:5], 0x8			; FIJI-NEXT: s_load_dword s1, s[4:5], 0x8
	; FIJI-NEXT: s_load_dword s2, s[4:5], 0xc			; FIJI-NEXT: s_load_dword s2, s[4:5], 0xc
	; FIJI-NEXT: s_mov_b32 m0, -1			; FIJI-NEXT: s_mov_b32 m0, -1
	; FIJI-NEXT: s_waitcnt lgkmcnt(0)			; FIJI-NEXT: s_waitcnt lgkmcnt(0)
	; FIJI-NEXT: v_mov_b32_e32 v0, s0			; FIJI-NEXT: v_mov_b32_e32 v0, s0
	; FIJI-NEXT: v_mov_b32_e32 v2, s1
	; FIJI-NEXT: v_mov_b32_e32 v1, s2			; FIJI-NEXT: v_mov_b32_e32 v1, s2
	; FIJI-NEXT: ds_write_b16 v0, v1 offset:4			; FIJI-NEXT: ds_write_b16 v0, v1 offset:4
	; FIJI-NEXT: ds_write_b32 v0, v2			; FIJI-NEXT: v_mov_b32_e32 v1, s1
				; FIJI-NEXT: ds_write_b32 v0, v1
	; FIJI-NEXT: s_endpgm			; FIJI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: local_store_i48:			; GFX9-LABEL: local_store_i48:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0			; GFX9-NEXT: s_load_dword s0, s[4:5], 0x0
	; GFX9-NEXT: s_load_dword s1, s[4:5], 0x8			; GFX9-NEXT: s_load_dword s1, s[4:5], 0x8
	; GFX9-NEXT: s_load_dword s2, s[4:5], 0xc			; GFX9-NEXT: s_load_dword s2, s[4:5], 0xc
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: v_mov_b32_e32 v2, s1
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s2
	; GFX9-NEXT: ds_write_b16 v0, v1 offset:4			; GFX9-NEXT: ds_write_b16 v0, v1 offset:4
	; GFX9-NEXT: ds_write_b32 v0, v2			; GFX9-NEXT: ds_write_b32 v0, v2
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	store i48 %arg, i48 addrspace(3)* %ptr, align 8			store i48 %arg, i48 addrspace(3)* %ptr, align 8
	ret void			ret void
	}			}

	define amdgpu_kernel void @local_store_i65(i65 addrspace(3)* %ptr, i65 %arg) #0 {			define amdgpu_kernel void @local_store_i65(i65 addrspace(3)* %ptr, i65 %arg) #0 {
	; HAWAII-LABEL: local_store_i65:			; HAWAII-LABEL: local_store_i65:
	; HAWAII: ; %bb.0:			; HAWAII: ; %bb.0:
	; HAWAII-NEXT: s_load_dword s2, s[4:5], 0x0			; HAWAII-NEXT: s_load_dword s2, s[4:5], 0x0
	; HAWAII-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x2			; HAWAII-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x2
	; HAWAII-NEXT: s_load_dword s3, s[4:5], 0x4			; HAWAII-NEXT: s_load_dword s3, s[4:5], 0x4
	; HAWAII-NEXT: s_mov_b32 m0, -1			; HAWAII-NEXT: s_mov_b32 m0, -1
	; HAWAII-NEXT: s_waitcnt lgkmcnt(0)			; HAWAII-NEXT: s_waitcnt lgkmcnt(0)
	; HAWAII-NEXT: v_mov_b32_e32 v2, s2			; HAWAII-NEXT: v_mov_b32_e32 v2, s2
	; HAWAII-NEXT: v_mov_b32_e32 v0, s0
	; HAWAII-NEXT: s_and_b32 s3, s3, 1			; HAWAII-NEXT: s_and_b32 s3, s3, 1
	; HAWAII-NEXT: v_mov_b32_e32 v3, s3			; HAWAII-NEXT: v_mov_b32_e32 v0, s3
				; HAWAII-NEXT: ds_write_b8 v2, v0 offset:8
				; HAWAII-NEXT: v_mov_b32_e32 v0, s0
	; HAWAII-NEXT: v_mov_b32_e32 v1, s1			; HAWAII-NEXT: v_mov_b32_e32 v1, s1
	; HAWAII-NEXT: ds_write_b8 v2, v3 offset:8
	; HAWAII-NEXT: ds_write_b64 v2, v[0:1]			; HAWAII-NEXT: ds_write_b64 v2, v[0:1]
	; HAWAII-NEXT: s_endpgm			; HAWAII-NEXT: s_endpgm
	;			;
	; FIJI-LABEL: local_store_i65:			; FIJI-LABEL: local_store_i65:
	; FIJI: ; %bb.0:			; FIJI: ; %bb.0:
	; FIJI-NEXT: s_load_dword s2, s[4:5], 0x0			; FIJI-NEXT: s_load_dword s2, s[4:5], 0x0
	; FIJI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8			; FIJI-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8
	; FIJI-NEXT: s_load_dword s3, s[4:5], 0x10			; FIJI-NEXT: s_load_dword s3, s[4:5], 0x10
	; FIJI-NEXT: s_mov_b32 m0, -1			; FIJI-NEXT: s_mov_b32 m0, -1
	; FIJI-NEXT: s_waitcnt lgkmcnt(0)			; FIJI-NEXT: s_waitcnt lgkmcnt(0)
	; FIJI-NEXT: v_mov_b32_e32 v2, s2			; FIJI-NEXT: v_mov_b32_e32 v2, s2
	; FIJI-NEXT: v_mov_b32_e32 v0, s0
	; FIJI-NEXT: s_and_b32 s3, s3, 1			; FIJI-NEXT: s_and_b32 s3, s3, 1
	; FIJI-NEXT: v_mov_b32_e32 v3, s3			; FIJI-NEXT: v_mov_b32_e32 v0, s3
				; FIJI-NEXT: ds_write_b8 v2, v0 offset:8
				; FIJI-NEXT: v_mov_b32_e32 v0, s0
	; FIJI-NEXT: v_mov_b32_e32 v1, s1			; FIJI-NEXT: v_mov_b32_e32 v1, s1
	; FIJI-NEXT: ds_write_b8 v2, v3 offset:8
	; FIJI-NEXT: ds_write_b64 v2, v[0:1]			; FIJI-NEXT: ds_write_b64 v2, v[0:1]
	; FIJI-NEXT: s_endpgm			; FIJI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: local_store_i65:			; GFX9-LABEL: local_store_i65:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s2, s[4:5], 0x0			; GFX9-NEXT: s_load_dword s2, s[4:5], 0x0
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8
	; GFX9-NEXT: s_load_dword s3, s[4:5], 0x10			; GFX9-NEXT: s_load_dword s3, s[4:5], 0x10
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	Show All 27 Lines
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	store i13 %arg, i13 addrspace(3)* %ptr, align 8			store i13 %arg, i13 addrspace(3)* %ptr, align 8
	ret void			ret void
	}			}

	define void @local_store_i17(i17 addrspace(3)* %ptr, i17 %arg) #0 {			define void @local_store_i17(i17 addrspace(3)* %ptr, i17 %arg) #0 {
	; CIVI-LABEL: local_store_i17:			; CIVI-LABEL: local_store_i17:
	; CIVI: ; %bb.0:			; CIVI: ; %bb.0:
	; CIVI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CIVI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CIVI-NEXT: s_mov_b32 m0, -1			; CIVI-NEXT: s_mov_b32 m0, -1
	; CIVI-NEXT: v_bfe_u32 v2, v1, 16, 1
	; CIVI-NEXT: ds_write_b16 v0, v1			; CIVI-NEXT: ds_write_b16 v0, v1
	; CIVI-NEXT: ds_write_b8 v0, v2 offset:2			; CIVI-NEXT: v_bfe_u32 v1, v1, 16, 1
				; CIVI-NEXT: ds_write_b8 v0, v1 offset:2
	; CIVI-NEXT: s_waitcnt lgkmcnt(0)			; CIVI-NEXT: s_waitcnt lgkmcnt(0)
	; CIVI-NEXT: s_setpc_b64 s[30:31]			; CIVI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: local_store_i17:			; GFX9-LABEL: local_store_i17:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v2, 0x1ffff, v1
	; GFX9-NEXT: ds_write_b16 v0, v1			; GFX9-NEXT: ds_write_b16 v0, v1
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v2 offset:2			; GFX9-NEXT: v_and_b32_e32 v1, 0x1ffff, v1
				; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	store i17 %arg, i17 addrspace(3)* %ptr, align 8			store i17 %arg, i17 addrspace(3)* %ptr, align 8
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

llvm/test/CodeGen/AMDGPU/token-factor-inline-limit-test.ll

	; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GCN-TFILD %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GCN-TFILD %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -combiner-tokenfactor-inline-limit=7 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GCN-TFIL7 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -combiner-tokenfactor-inline-limit=7 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GCN-TFIL7 %s


	; GCN-LABEL: {{^}}token_factor_inline_limit_test:			; GCN-LABEL: {{^}}token_factor_inline_limit_test:

	; GCN-TFILD: v_mov_b32_e32 [[REG8:v[0-9]+]], 8			; GCN-TFILD: v_mov_b32_e32 [[REG8:v[0-9]+]], 8
	; GCN-TFILD: v_mov_b32_e32 [[REG9:v[0-9]+]], 9
	; GCN-TFILD: v_mov_b32_e32 [[REG10:v[0-9]+]], 10
	; GCN-TFILD: v_mov_b32_e32 [[REG11:v[0-9]+]], 11
	; GCN-TFILD: v_mov_b32_e32 [[REG12:v[0-9]+]], 12
	; GCN-TFILD: v_mov_b32_e32 [[REG13:v[0-9]+]], 13
	; GCN-TFILD: v_mov_b32_e32 [[REG14:v[0-9]+]], 14
	; GCN-TFILD: v_mov_b32_e32 [[REG15:v[0-9]+]], 15
	; GCN-TFILD: buffer_store_dword [[REG8]], {{.*$}}			; GCN-TFILD: buffer_store_dword [[REG8]], {{.*$}}
				; GCN-TFILD: v_mov_b32_e32 [[REG9:v[0-9]+]], 9
	; GCN-TFILD: buffer_store_dword [[REG9]], {{.*}} offset:4			; GCN-TFILD: buffer_store_dword [[REG9]], {{.*}} offset:4
				; GCN-TFILD: v_mov_b32_e32 [[REG10:v[0-9]+]], 10
	; GCN-TFILD: buffer_store_dword [[REG10]], {{.*}} offset:8			; GCN-TFILD: buffer_store_dword [[REG10]], {{.*}} offset:8
				; GCN-TFILD: v_mov_b32_e32 [[REG11:v[0-9]+]], 11
	; GCN-TFILD: buffer_store_dword [[REG11]], {{.*}} offset:12			; GCN-TFILD: buffer_store_dword [[REG11]], {{.*}} offset:12
				; GCN-TFILD: v_mov_b32_e32 [[REG12:v[0-9]+]], 12
	; GCN-TFILD: buffer_store_dword [[REG12]], {{.*}} offset:16			; GCN-TFILD: buffer_store_dword [[REG12]], {{.*}} offset:16
				; GCN-TFILD: v_mov_b32_e32 [[REG13:v[0-9]+]], 13
	; GCN-TFILD: buffer_store_dword [[REG13]], {{.*}} offset:20			; GCN-TFILD: buffer_store_dword [[REG13]], {{.*}} offset:20
				; GCN-TFILD: v_mov_b32_e32 [[REG14:v[0-9]+]], 14
	; GCN-TFILD: buffer_store_dword [[REG14]], {{.*}} offset:24			; GCN-TFILD: buffer_store_dword [[REG14]], {{.*}} offset:24
				; GCN-TFILD: v_mov_b32_e32 [[REG15:v[0-9]+]], 15
	; GCN-TFILD: buffer_store_dword [[REG15]], {{.*}} offset:28			; GCN-TFILD: buffer_store_dword [[REG15]], {{.*}} offset:28

	; GCN-TFIL7: v_mov_b32_e32 [[REG15:v[0-9]+]], 15			; GCN-TFIL7: v_mov_b32_e32 [[REG15:v[0-9]+]], 15
	; GCN-TFIL7: v_mov_b32_e32 [[REG14:v[0-9]+]], 14
	; GCN-TFIL7: v_mov_b32_e32 [[REG13:v[0-9]+]], 13
	; GCN-TFIL7: v_mov_b32_e32 [[REG12:v[0-9]+]], 12
	; GCN-TFIL7: v_mov_b32_e32 [[REG11:v[0-9]+]], 11
	; GCN-TFIL7: v_mov_b32_e32 [[REG10:v[0-9]+]], 10
	; GCN-TFIL7: v_mov_b32_e32 [[REG9:v[0-9]+]], 9
	; GCN-TFIL7: v_mov_b32_e32 [[REG8:v[0-9]+]], 8
	; GCN-TFIL7: buffer_store_dword [[REG15]], {{.*}} offset:28			; GCN-TFIL7: buffer_store_dword [[REG15]], {{.*}} offset:28
				; GCN-TFIL7: v_mov_b32_e32 [[REG14:v[0-9]+]], 14
	; GCN-TFIL7: buffer_store_dword [[REG14]], {{.*}} offset:24			; GCN-TFIL7: buffer_store_dword [[REG14]], {{.*}} offset:24
				; GCN-TFIL7: v_mov_b32_e32 [[REG13:v[0-9]+]], 13
	; GCN-TFIL7: buffer_store_dword [[REG13]], {{.*}} offset:20			; GCN-TFIL7: buffer_store_dword [[REG13]], {{.*}} offset:20
				; GCN-TFIL7: v_mov_b32_e32 [[REG12:v[0-9]+]], 12
	; GCN-TFIL7: buffer_store_dword [[REG12]], {{.*}} offset:16			; GCN-TFIL7: buffer_store_dword [[REG12]], {{.*}} offset:16
				; GCN-TFIL7: v_mov_b32_e32 [[REG11:v[0-9]+]], 11
	; GCN-TFIL7: buffer_store_dword [[REG11]], {{.*}} offset:12			; GCN-TFIL7: buffer_store_dword [[REG11]], {{.*}} offset:12
				; GCN-TFIL7: v_mov_b32_e32 [[REG10:v[0-9]+]], 10
	; GCN-TFIL7: buffer_store_dword [[REG10]], {{.*}} offset:8			; GCN-TFIL7: buffer_store_dword [[REG10]], {{.*}} offset:8
				; GCN-TFIL7: v_mov_b32_e32 [[REG9:v[0-9]+]], 9
	; GCN-TFIL7: buffer_store_dword [[REG9]], {{.*}} offset:4			; GCN-TFIL7: buffer_store_dword [[REG9]], {{.*}} offset:4
				; GCN-TFIL7: v_mov_b32_e32 [[REG8:v[0-9]+]], 8
	; GCN-TFIL7: buffer_store_dword [[REG8]], {{.*$}}			; GCN-TFIL7: buffer_store_dword [[REG8]], {{.*$}}

	; GCN: v_mov_b32_e32 v31, 7			; GCN: v_mov_b32_e32 v31, 7
	; GCN: s_getpc			; GCN: s_getpc
	define void @token_factor_inline_limit_test() {			define void @token_factor_inline_limit_test() {
	entry:			entry:
	call void @external_void_func_8xv5i32(			call void @external_void_func_8xv5i32(
	<5 x i32><i32 0, i32 0, i32 0, i32 0, i32 0>,			<5 x i32><i32 0, i32 0, i32 0, i32 0, i32 0>,
	Show All 12 Lines

llvm/test/CodeGen/AMDGPU/widen-smrd-loads.ll

	Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_load_dword s7, s[6:7], 0x0			; SI-NEXT: s_load_dword s7, s[6:7], 0x0
	; SI-NEXT: s_mov_b32 s4, 2			; SI-NEXT: s_mov_b32 s4, 2
	; SI-NEXT: s_mov_b32 s5, s0			; SI-NEXT: s_mov_b32 s5, s0
	; SI-NEXT: s_mov_b32 s6, s2			; SI-NEXT: s_mov_b32 s6, s2
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_add_i32 s7, s7, 34			; SI-NEXT: s_add_i32 s7, s7, 34
	; SI-NEXT: s_or_b32 s7, s7, 4			; SI-NEXT: s_or_b32 s7, s7, 4
	; SI-NEXT: s_bfe_u32 s8, s7, 0x10010
	; SI-NEXT: v_mov_b32_e32 v0, s7			; SI-NEXT: v_mov_b32_e32 v0, s7
	; SI-NEXT: s_mov_b32 s7, s3			; SI-NEXT: s_bfe_u32 s8, s7, 0x10010
	; SI-NEXT: v_mov_b32_e32 v1, s8
	; SI-NEXT: buffer_store_short v0, off, s[0:3], 0			; SI-NEXT: buffer_store_short v0, off, s[0:3], 0
	; SI-NEXT: buffer_store_byte v1, off, s[4:7], 0			; SI-NEXT: s_mov_b32 s7, s3
				; SI-NEXT: s_waitcnt expcnt(0)
				; SI-NEXT: v_mov_b32_e32 v0, s8
				; SI-NEXT: buffer_store_byte v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: widen_i17_constant_load:			; VI-LABEL: widen_i17_constant_load:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; VI-NEXT: v_mov_b32_e32 v0, 0			; VI-NEXT: v_mov_b32_e32 v0, 0
	; VI-NEXT: v_mov_b32_e32 v2, 2			; VI-NEXT: v_mov_b32_e32 v2, 2
	; VI-NEXT: v_mov_b32_e32 v1, 0			; VI-NEXT: v_mov_b32_e32 v1, 0
	; VI-NEXT: v_mov_b32_e32 v3, 0			; VI-NEXT: v_mov_b32_e32 v3, 0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_load_dword s0, s[0:1], 0x0			; VI-NEXT: s_load_dword s0, s[0:1], 0x0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_add_i32 s0, s0, 34			; VI-NEXT: s_add_i32 s0, s0, 34
	; VI-NEXT: s_or_b32 s0, s0, 4			; VI-NEXT: s_or_b32 s0, s0, 4
	; VI-NEXT: v_mov_b32_e32 v4, s0			; VI-NEXT: v_mov_b32_e32 v4, s0
	; VI-NEXT: s_bfe_u32 s0, s0, 0x10010			; VI-NEXT: s_bfe_u32 s0, s0, 0x10010
	; VI-NEXT: v_mov_b32_e32 v5, s0
	; VI-NEXT: flat_store_short v[0:1], v4			; VI-NEXT: flat_store_short v[0:1], v4
	; VI-NEXT: flat_store_byte v[2:3], v5			; VI-NEXT: v_mov_b32_e32 v0, s0
				; VI-NEXT: flat_store_byte v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%load = load i17, i17 addrspace(4)* %arg, align 4			%load = load i17, i17 addrspace(4)* %arg, align 4
	%add = add i17 %load, 34			%add = add i17 %load, 34
	%or = or i17 %add, 4			%or = or i17 %add, 4
	store i17 %or, i17 addrspace(1)* null			store i17 %or, i17 addrspace(1)* null
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 323 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Don't cluster storesClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 291551

llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement-stack-lower.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement-stack-lower.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.large.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/load-unaligned.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/store-local.128.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/store-local.96.ll

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

llvm/test/CodeGen/AMDGPU/call-argument-types.ll

llvm/test/CodeGen/AMDGPU/cluster_stores.ll

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.global.ll

llvm/test/CodeGen/AMDGPU/fast-unaligned-load-store.private.ll

llvm/test/CodeGen/AMDGPU/fshr.ll

llvm/test/CodeGen/AMDGPU/half.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

llvm/test/CodeGen/AMDGPU/local-memory.amdgcn.ll

llvm/test/CodeGen/AMDGPU/memory_clause.ll

llvm/test/CodeGen/AMDGPU/merge-stores.ll

llvm/test/CodeGen/AMDGPU/non-entry-alloca.ll

llvm/test/CodeGen/AMDGPU/si-triv-disjoint-mem-access.ll

llvm/test/CodeGen/AMDGPU/store-local.128.ll

llvm/test/CodeGen/AMDGPU/store-local.96.ll

llvm/test/CodeGen/AMDGPU/store-weird-sizes.ll

llvm/test/CodeGen/AMDGPU/token-factor-inline-limit-test.ll

llvm/test/CodeGen/AMDGPU/widen-smrd-loads.ll

[AMDGPU] Don't cluster stores
ClosedPublic