Diff 283810

llvm/lib/CodeGen/MachineScheduler.cpp

Show First 20 Lines • Show All 1,604 Lines • ▼ Show 20 Lines	if (!TII->shouldClusterMemOps(MemOpa.BaseOps, MemOpb.BaseOps, ClusterLength,
// Current mem ops pair could not be clustered, reset cluster length, and		// Current mem ops pair could not be clustered, reset cluster length, and
// go to next pair		// go to next pair
ClusterLength = 1;		ClusterLength = 1;
CurrentClusterBytes = MemOpb.Width;		CurrentClusterBytes = MemOpb.Width;
continue;		continue;
}		}

SUnit *SUa = MemOpa.SU;		SUnit *SUa = MemOpa.SU;
SUnit *SUb = MemOpb.SU;		SUnit *SUb = MemOpb.SU;
		fhahnUnsubmitted Not Done Reply Inline Actions I may be missing something, but IIRC stores could have other memory operations as successors, e.g. because to enforce an ordering between aliasing memory operations. fhahn: I may be missing something, but IIRC stores could have other memory operations as successors, e.
		steven.zhangAuthorUnsubmitted Done Reply Inline Actions It they have memory dependency, they won't be put into the same group. steven.zhang: It they have memory dependency, they won't be put into the same group.
		fhahnUnsubmitted Not Done Reply Inline Actions Ah right. The wording in the comment comment seems a bit general though, maybe it would be possible to mention that this is a constraint for the clustering. It might be good to add it as assert as well :) fhahn: Ah right. The wording in the comment comment seems a bit general though, maybe it would be…
		steven.zhangAuthorUnsubmitted Done Reply Inline Actions ok. I will update the comments and the assertion if it is easy ... Thank you for the comments! steven.zhang: ok. I will update the comments and the assertion if it is easy ... Thank you for the comments!
if (SUa->NodeNum > SUb->NodeNum)		if (SUa->NodeNum > SUb->NodeNum)
std::swap(SUa, SUb);		std::swap(SUa, SUb);

// FIXME: Is this check really required?		// FIXME: Is this check really required?
if (!DAG->addEdge(SUb, SDep(SUa, SDep::Cluster))) {		if (!DAG->addEdge(SUb, SDep(SUa, SDep::Cluster))) {
ClusterLength = 1;		ClusterLength = 1;
CurrentClusterBytes = MemOpb.Width;		CurrentClusterBytes = MemOpb.Width;
continue;		continue;
}		}

LLVM_DEBUG(dbgs() << "Cluster ld/st SU(" << SUa->NodeNum << ") - SU("		LLVM_DEBUG(dbgs() << "Cluster ld/st SU(" << SUa->NodeNum << ") - SU("
<< SUb->NodeNum << ")\n");		<< SUb->NodeNum << ")\n");

		if (IsLoad) {
// Copy successor edges from SUa to SUb. Interleaving computation		// Copy successor edges from SUa to SUb. Interleaving computation
// dependent on SUa can prevent load combining due to register reuse.		// dependent on SUa can prevent load combining due to register reuse.
// Predecessor edges do not need to be copied from SUb to SUa since		// Predecessor edges do not need to be copied from SUb to SUa since
// nearby loads should have effectively the same inputs.		// nearby loads should have effectively the same inputs.
for (const SDep &Succ : SUa->Succs) {		for (const SDep &Succ : SUa->Succs) {
if (Succ.getSUnit() == SUb)		if (Succ.getSUnit() == SUb)
continue;		continue;
LLVM_DEBUG(dbgs() << " Copy Succ SU(" << Succ.getSUnit()->NodeNum		LLVM_DEBUG(dbgs() << " Copy Succ SU(" << Succ.getSUnit()->NodeNum
<< ")\n");		<< ")\n");
DAG->addEdge(Succ.getSUnit(), SDep(SUb, SDep::Artificial));		DAG->addEdge(Succ.getSUnit(), SDep(SUb, SDep::Artificial));
}		}
		} else {
		// Copy predecessor edges from SUb to SUa to avoid the SUnits that
		// SUb dependent on scheduled in-between SUb and SUa. Successor edges
		// do not need to be copied from SUa to SUb since no one will depend
		// on stores.
		// Notice that, we don't need to care about the memory dependency as
		// we won't try to cluster them if they have any memory dependency.
		for (const SDep &Pred : SUb->Preds) {
		if (Pred.getSUnit() == SUa)
		continue;
		LLVM_DEBUG(dbgs() << " Copy Pred SU(" << Pred.getSUnit()->NodeNum
		<< ")\n");
		DAG->addEdge(SUa, SDep(Pred.getSUnit(), SDep::Artificial));
		}
		}

LLVM_DEBUG(dbgs() << " Curr cluster length: " << ClusterLength		LLVM_DEBUG(dbgs() << " Curr cluster length: " << ClusterLength
<< ", Curr cluster bytes: " << CurrentClusterBytes		<< ", Curr cluster bytes: " << CurrentClusterBytes
<< "\n");		<< "\n");
}		}
}		}

/// Callback from DAG postProcessing to create cluster edges for loads.		/// Callback from DAG postProcessing to create cluster edges for loads.
▲ Show 20 Lines • Show All 2,174 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/aarch64-stp-cluster.ll

Show First 20 Lines • Show All 188 Lines • ▼ Show 20 Lines	entry:
%10 = load i64, i64* %arrayidx3.3, align 8		%10 = load i64, i64* %arrayidx3.3, align 8
%mul.3 = mul nsw i64 %10, %9		%mul.3 = mul nsw i64 %10, %9
%arrayidx5.3 = getelementptr inbounds i64, i64* %a, i64 3		%arrayidx5.3 = getelementptr inbounds i64, i64* %a, i64 3
%11 = load i64, i64* %arrayidx5.3, align 8		%11 = load i64, i64* %arrayidx5.3, align 8
%add6.3 = add nsw i64 %11, %mul.3		%add6.3 = add nsw i64 %11, %mul.3
store i64 %add6.3, i64* %arrayidx5.3, align 8		store i64 %add6.3, i64* %arrayidx5.3, align 8
ret void		ret void
}		}

		; Verify that the SU(2) and SU(4) are the preds of SU(3)
		; CHECK: ******** MI Scheduling ********
		; CHECK-LABEL: stp_missing_preds_edges:%bb.0
		; CHECK:Cluster ld/st SU(3) - SU(5)
		; CHECK: Copy Pred SU(4)
		; CHECK: Copy Pred SU(2)
		; CHECK:SU(2): %0:gpr64common = COPY $x0
		; CHECK:SU(3): STRWui %1:gpr32, %0:gpr64common, 0
		; CHECK:SU(4): %3:gpr32common = nsw ADDWri %2:gpr32common, 5, 0
		; CHECK:SU(5): STRWui %3:gpr32common, %0:gpr64common, 1
		define void @stp_missing_preds_edges(i32* %p, i32 %m, i32 %n) {
		entry:
		store i32 %m, i32* %p, align 4
		%add = add nsw i32 %n, 5
		%arrayidx1 = getelementptr inbounds i32, i32* %p, i64 1
		store i32 %add, i32* %arrayidx1, align 4
		ret void
		}

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement-stack-lower.ll

	Show All 34 Lines
	; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill
	; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11			; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11
				; GCN-NEXT: buffer_store_dword v2, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[3:6], v[15:16], off			; GCN-NEXT: global_load_dwordx4 v[3:6], v[15:16], off
	; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16			; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16
	; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc			; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc
	; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32			; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48			; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off			; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off
	; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16			; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32			; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48			; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off			; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off
	; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16			; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32			; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32
	; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33			; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33
	; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0			; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0
	; GCN-NEXT: v_add_u32_e32 v1, 16, v0			; GCN-NEXT: v_add_u32_e32 v1, 16, v0
				; GCN-NEXT: v_add_u32_e32 v2, 20, v0
	; GCN-NEXT: s_add_u32 s32, s32, 0x10000			; GCN-NEXT: s_add_u32 s32, s32, 0x10000
	; GCN-NEXT: s_sub_u32 s32, s32, 0x10000			; GCN-NEXT: s_sub_u32 s32, s32, 0x10000
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v35, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v35, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v36, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v36, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v37, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v37, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v38, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v38, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v39, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v39, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:640 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48			; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[43:46], v[59:60], off			; GCN-NEXT: global_load_dwordx4 v[43:46], v[59:60], off
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v51, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v51, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v52, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v52, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v53, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v53, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v54, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v54, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v55, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v55, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16			; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32			; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48			; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 20, v0
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 24, v0			; GCN-NEXT: v_add_u32_e32 v1, 24, v0
				; GCN-NEXT: buffer_store_dword v8, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 28, v0
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 28, v0			; GCN-NEXT: buffer_store_dword v10, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 32, v0			; GCN-NEXT: v_add_u32_e32 v1, 32, v0
				; GCN-NEXT: v_add_u32_e32 v2, 36, v0
	; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 36, v0
	; GCN-NEXT: buffer_store_dword v12, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 40, v0			; GCN-NEXT: v_add_u32_e32 v1, 40, v0
				; GCN-NEXT: buffer_store_dword v12, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 44, v0
	; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 44, v0
	; GCN-NEXT: buffer_store_dword v14, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 48, v0			; GCN-NEXT: v_add_u32_e32 v1, 48, v0
				; GCN-NEXT: buffer_store_dword v14, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 52, v0
	; GCN-NEXT: buffer_store_dword v15, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v15, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 52, v0
	; GCN-NEXT: buffer_store_dword v16, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 56, v0			; GCN-NEXT: v_add_u32_e32 v1, 56, v0
				; GCN-NEXT: buffer_store_dword v16, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 60, v0
	; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 60, v0			; GCN-NEXT: buffer_store_dword v18, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v18, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 64, v0			; GCN-NEXT: v_add_u32_e32 v1, 64, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0x44, v0
	; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x44, v0
	; GCN-NEXT: buffer_store_dword v20, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x48, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x48, v0
				; GCN-NEXT: buffer_store_dword v20, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x4c, v0
	; GCN-NEXT: buffer_store_dword v21, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v21, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x4c, v0
	; GCN-NEXT: buffer_store_dword v22, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0
				; GCN-NEXT: buffer_store_dword v22, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x54, v0
	; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x54, v0
	; GCN-NEXT: buffer_store_dword v24, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x58, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x58, v0
				; GCN-NEXT: buffer_store_dword v24, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x5c, v0
	; GCN-NEXT: buffer_store_dword v25, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v25, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x5c, v0			; GCN-NEXT: buffer_store_dword v26, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v26, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0x64, v0
	; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x64, v0
	; GCN-NEXT: buffer_store_dword v28, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x68, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x68, v0
				; GCN-NEXT: buffer_store_dword v28, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x6c, v0
	; GCN-NEXT: buffer_store_dword v29, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v29, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x6c, v0
	; GCN-NEXT: buffer_store_dword v30, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0
				; GCN-NEXT: buffer_store_dword v30, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x74, v0
	; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x74, v0
	; GCN-NEXT: buffer_store_dword v32, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x78, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x78, v0
				; GCN-NEXT: buffer_store_dword v32, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x7c, v0
	; GCN-NEXT: buffer_store_dword v33, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v33, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x7c, v0			; GCN-NEXT: buffer_store_dword v34, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v34, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0x84, v0
	; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x84, v0
	; GCN-NEXT: buffer_store_dword v36, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x88, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x88, v0
				; GCN-NEXT: buffer_store_dword v36, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x8c, v0
	; GCN-NEXT: buffer_store_dword v37, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v37, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x8c, v0
	; GCN-NEXT: buffer_store_dword v38, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0
				; GCN-NEXT: buffer_store_dword v38, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x94, v0
	; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x94, v0
	; GCN-NEXT: buffer_store_dword v40, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x98, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x98, v0
				; GCN-NEXT: buffer_store_dword v40, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x9c, v0
	; GCN-NEXT: buffer_store_dword v41, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v41, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x9c, v0			; GCN-NEXT: buffer_store_dword v42, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v42, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:640 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0xa4, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v8, v15			; GCN-NEXT: v_mov_b32_e32 v8, v15
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v9, v16			; GCN-NEXT: v_mov_b32_e32 v9, v16
	; GCN-NEXT: v_add_u32_e32 v1, 0xa4, v0			; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v10, v17			; GCN-NEXT: v_mov_b32_e32 v10, v17
	; GCN-NEXT: v_add_u32_e32 v1, 0xa8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xa8, v0
				; GCN-NEXT: buffer_store_dword v9, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v11, v18
	; GCN-NEXT: v_add_u32_e32 v1, 0xac, v0
	; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0
				; GCN-NEXT: v_mov_b32_e32 v11, v18
				; GCN-NEXT: v_add_u32_e32 v2, 0xac, v0
				; GCN-NEXT: buffer_store_dword v11, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0xb4, v0
	; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb4, v0
	; GCN-NEXT: buffer_store_dword v48, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xb8, v0
				; GCN-NEXT: buffer_store_dword v48, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0xbc, v0
	; GCN-NEXT: buffer_store_dword v49, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v49, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xbc, v0			; GCN-NEXT: buffer_store_dword v50, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v50, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload			; GCN-NEXT: v_add_u32_e32 v2, 0xc4, v0
	; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: buffer_store_dword v8, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0xcc, v0
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xc4, v0
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xc8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xc8, v0
				; GCN-NEXT: buffer_store_dword v10, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 4, v0
				; GCN-NEXT: buffer_store_dword v4, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xcc, v0
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 4, v0
	; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 8, v0
	; GCN-NEXT: buffer_store_dword v5, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 12, v0
	; GCN-NEXT: buffer_store_dword v6, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:256
	; GCN-NEXT: v_add_u32_e32 v1, 0xd0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xd0, v0
	; GCN-NEXT: v_add_u32_e32 v3, 0xd4, v0			; GCN-NEXT: v_add_u32_e32 v7, 8, v0
	; GCN-NEXT: v_add_u32_e32 v4, 0xd8, v0			; GCN-NEXT: v_add_u32_e32 v2, 12, v0
	; GCN-NEXT: v_add_u32_e32 v5, 0xdc, v0			; GCN-NEXT: buffer_store_dword v5, v7, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v6, v2, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:256
				; GCN-NEXT: v_add_u32_e32 v2, 0xd4, v0
				; GCN-NEXT: v_add_u32_e32 v3, 0xd8, v0
				; GCN-NEXT: v_add_u32_e32 v4, 0xdc, v0
	; GCN-NEXT: buffer_store_dword v51, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v51, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v52, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v52, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v53, v4, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v53, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v54, v5, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v54, v4, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xe0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xe0, v0
	; GCN-NEXT: v_add_u32_e32 v3, 0xe4, v0			; GCN-NEXT: v_add_u32_e32 v2, 0xe4, v0
	; GCN-NEXT: v_add_u32_e32 v4, 0xe8, v0			; GCN-NEXT: v_add_u32_e32 v3, 0xe8, v0
	; GCN-NEXT: v_add_u32_e32 v5, 0xec, v0			; GCN-NEXT: v_add_u32_e32 v4, 0xec, v0
	; GCN-NEXT: v_add_u32_e32 v6, 0xf0, v0			; GCN-NEXT: v_add_u32_e32 v5, 0xf0, v0
	; GCN-NEXT: v_add_u32_e32 v7, 0xf4, v0			; GCN-NEXT: v_add_u32_e32 v6, 0xf4, v0
	; GCN-NEXT: v_add_u32_e32 v8, 0xf8, v0			; GCN-NEXT: v_add_u32_e32 v7, 0xf8, v0
	; GCN-NEXT: v_add_u32_e32 v9, 0xfc, v0			; GCN-NEXT: v_add_u32_e32 v8, 0xfc, v0
	; GCN-NEXT: buffer_store_dword v55, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v55, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v56, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v56, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v57, v4, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v57, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v58, v5, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v58, v4, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v59, v6, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v59, v5, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v60, v7, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v60, v6, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v61, v8, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v61, v7, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v62, v9, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v62, v8, s[0:3], 0 offen
	; GCN-NEXT: v_and_b32_e32 v1, 63, v2			; GCN-NEXT: buffer_load_dword v1, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: v_and_b32_e32 v1, 63, v1
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 2, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 2, v1
	; GCN-NEXT: v_add_u32_e32 v0, v0, v1			; GCN-NEXT: v_add_u32_e32 v0, v0, v1
	; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Reload
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill
	; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11			; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11
				; GCN-NEXT: buffer_store_dword v2, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[3:6], v[15:16], off			; GCN-NEXT: global_load_dwordx4 v[3:6], v[15:16], off
	; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16			; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16
	; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc			; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc
	; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32			; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48			; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off			; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off
	; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16			; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32			; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48			; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off			; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off
	; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16			; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32			; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32
	; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33			; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33
	; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0			; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0
	; GCN-NEXT: v_add_u32_e32 v1, 16, v0			; GCN-NEXT: v_add_u32_e32 v1, 16, v0
				; GCN-NEXT: v_add_u32_e32 v2, 20, v0
	; GCN-NEXT: s_add_u32 s32, s32, 0x10000			; GCN-NEXT: s_add_u32 s32, s32, 0x10000
	; GCN-NEXT: s_sub_u32 s32, s32, 0x10000			; GCN-NEXT: s_sub_u32 s32, s32, 0x10000
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v35, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v35, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v36, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v36, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v37, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v37, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v38, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v38, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v39, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v39, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:640 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48			; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[43:46], v[59:60], off			; GCN-NEXT: global_load_dwordx4 v[43:46], v[59:60], off
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v51, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v51, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v52, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v52, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v53, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v53, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v54, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v54, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v55, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v55, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16			; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32			; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48			; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 20, v0
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 24, v0			; GCN-NEXT: v_add_u32_e32 v1, 24, v0
				; GCN-NEXT: buffer_store_dword v8, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 28, v0
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 28, v0			; GCN-NEXT: buffer_store_dword v10, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 32, v0			; GCN-NEXT: v_add_u32_e32 v1, 32, v0
				; GCN-NEXT: v_add_u32_e32 v2, 36, v0
	; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 36, v0
	; GCN-NEXT: buffer_store_dword v12, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 40, v0			; GCN-NEXT: v_add_u32_e32 v1, 40, v0
				; GCN-NEXT: buffer_store_dword v12, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 44, v0
	; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 44, v0
	; GCN-NEXT: buffer_store_dword v14, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 48, v0			; GCN-NEXT: v_add_u32_e32 v1, 48, v0
				; GCN-NEXT: buffer_store_dword v14, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 52, v0
	; GCN-NEXT: buffer_store_dword v15, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v15, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 52, v0
	; GCN-NEXT: buffer_store_dword v16, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 56, v0			; GCN-NEXT: v_add_u32_e32 v1, 56, v0
				; GCN-NEXT: buffer_store_dword v16, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 60, v0
	; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 60, v0			; GCN-NEXT: buffer_store_dword v18, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v18, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 64, v0			; GCN-NEXT: v_add_u32_e32 v1, 64, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0x44, v0
	; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x44, v0
	; GCN-NEXT: buffer_store_dword v20, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x48, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x48, v0
				; GCN-NEXT: buffer_store_dword v20, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x4c, v0
	; GCN-NEXT: buffer_store_dword v21, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v21, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x4c, v0
	; GCN-NEXT: buffer_store_dword v22, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0
				; GCN-NEXT: buffer_store_dword v22, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x54, v0
	; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x54, v0
	; GCN-NEXT: buffer_store_dword v24, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x58, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x58, v0
				; GCN-NEXT: buffer_store_dword v24, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x5c, v0
	; GCN-NEXT: buffer_store_dword v25, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v25, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x5c, v0			; GCN-NEXT: buffer_store_dword v26, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v26, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0x64, v0
	; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x64, v0
	; GCN-NEXT: buffer_store_dword v28, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x68, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x68, v0
				; GCN-NEXT: buffer_store_dword v28, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x6c, v0
	; GCN-NEXT: buffer_store_dword v29, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v29, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x6c, v0
	; GCN-NEXT: buffer_store_dword v30, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0
				; GCN-NEXT: buffer_store_dword v30, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x74, v0
	; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x74, v0
	; GCN-NEXT: buffer_store_dword v32, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x78, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x78, v0
				; GCN-NEXT: buffer_store_dword v32, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x7c, v0
	; GCN-NEXT: buffer_store_dword v33, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v33, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x7c, v0			; GCN-NEXT: buffer_store_dword v34, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v34, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0x84, v0
	; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x84, v0
	; GCN-NEXT: buffer_store_dword v36, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x88, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x88, v0
				; GCN-NEXT: buffer_store_dword v36, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x8c, v0
	; GCN-NEXT: buffer_store_dword v37, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v37, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x8c, v0
	; GCN-NEXT: buffer_store_dword v38, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0
				; GCN-NEXT: buffer_store_dword v38, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x94, v0
	; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x94, v0
	; GCN-NEXT: buffer_store_dword v40, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x98, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x98, v0
				; GCN-NEXT: buffer_store_dword v40, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x9c, v0
	; GCN-NEXT: buffer_store_dword v41, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v41, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x9c, v0			; GCN-NEXT: buffer_store_dword v42, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v42, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:640 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0xa4, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v8, v15			; GCN-NEXT: v_mov_b32_e32 v8, v15
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v9, v16			; GCN-NEXT: v_mov_b32_e32 v9, v16
	; GCN-NEXT: v_add_u32_e32 v1, 0xa4, v0			; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v10, v17			; GCN-NEXT: v_mov_b32_e32 v10, v17
	; GCN-NEXT: v_add_u32_e32 v1, 0xa8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xa8, v0
				; GCN-NEXT: buffer_store_dword v9, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v11, v18
	; GCN-NEXT: v_add_u32_e32 v1, 0xac, v0
	; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0
				; GCN-NEXT: v_mov_b32_e32 v11, v18
				; GCN-NEXT: v_add_u32_e32 v2, 0xac, v0
				; GCN-NEXT: buffer_store_dword v11, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0xb4, v0
	; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb4, v0
	; GCN-NEXT: buffer_store_dword v48, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xb8, v0
				; GCN-NEXT: buffer_store_dword v48, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0xbc, v0
	; GCN-NEXT: buffer_store_dword v49, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v49, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xbc, v0			; GCN-NEXT: buffer_store_dword v50, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v50, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload			; GCN-NEXT: v_add_u32_e32 v2, 0xc4, v0
	; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: buffer_store_dword v8, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0xcc, v0
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xc4, v0
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xc8, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xc8, v0
				; GCN-NEXT: buffer_store_dword v10, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 4, v0
				; GCN-NEXT: v_add_u32_e32 v7, 8, v0
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xcc, v0			; GCN-NEXT: buffer_store_dword v4, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v2, 12, v0
	; GCN-NEXT: v_add_u32_e32 v1, 4, v0			; GCN-NEXT: buffer_store_dword v5, v7, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v6, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 8, v0
	; GCN-NEXT: buffer_store_dword v5, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 12, v0
	; GCN-NEXT: buffer_store_dword v6, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:256			; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:256
	; GCN-NEXT: v_lshrrev_b32_e32 v1, 1, v2			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload
	; GCN-NEXT: v_and_b32_e32 v1, 63, v1			; GCN-NEXT: v_add_u32_e32 v1, 0xd0, v0
	; GCN-NEXT: v_add_u32_e32 v3, 0xd0, v0			; GCN-NEXT: v_add_u32_e32 v3, 0xd4, v0
	; GCN-NEXT: v_add_u32_e32 v4, 0xd4, v0			; GCN-NEXT: v_add_u32_e32 v4, 0xd8, v0
	; GCN-NEXT: v_add_u32_e32 v5, 0xd8, v0			; GCN-NEXT: v_add_u32_e32 v5, 0xdc, v0
	; GCN-NEXT: v_add_u32_e32 v6, 0xdc, v0			; GCN-NEXT: buffer_store_dword v51, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v51, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v52, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v52, v4, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v53, v4, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v53, v5, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v54, v5, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v54, v6, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v1, 0xe0, v0
	; GCN-NEXT: v_add_u32_e32 v3, 0xe0, v0			; GCN-NEXT: v_add_u32_e32 v3, 0xe4, v0
				; GCN-NEXT: v_add_u32_e32 v4, 0xe8, v0
				; GCN-NEXT: v_add_u32_e32 v5, 0xec, v0
				; GCN-NEXT: v_add_u32_e32 v6, 0xf0, v0
				; GCN-NEXT: v_add_u32_e32 v7, 0xf4, v0
				; GCN-NEXT: v_add_u32_e32 v8, 0xf8, v0
				; GCN-NEXT: v_add_u32_e32 v9, 0xfc, v0
				; GCN-NEXT: buffer_store_dword v55, v1, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v56, v3, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v57, v4, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v58, v5, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v59, v6, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v60, v7, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v61, v8, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v62, v9, s[0:3], 0 offen
				; GCN-NEXT: s_waitcnt vmcnt(12)
				; GCN-NEXT: v_lshrrev_b32_e32 v2, 1, v10
				; GCN-NEXT: v_and_b32_e32 v1, 63, v2
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 2, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 2, v1
	; GCN-NEXT: v_add_u32_e32 v4, 0xe4, v0
	; GCN-NEXT: v_add_u32_e32 v5, 0xe8, v0
	; GCN-NEXT: v_add_u32_e32 v6, 0xec, v0
	; GCN-NEXT: v_add_u32_e32 v7, 0xf0, v0
	; GCN-NEXT: v_add_u32_e32 v8, 0xf4, v0
	; GCN-NEXT: v_add_u32_e32 v9, 0xf8, v0
	; GCN-NEXT: v_add_u32_e32 v10, 0xfc, v0
	; GCN-NEXT: v_add_u32_e32 v0, v0, v1			; GCN-NEXT: v_add_u32_e32 v0, v0, v1
	; GCN-NEXT: buffer_store_dword v55, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v56, v4, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v57, v5, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v58, v6, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v59, v7, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v60, v8, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v61, v9, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v62, v10, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v47, off, s[0:3], s33 offset:28 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v47, off, s[0:3], s33 offset:28 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v46, off, s[0:3], s33 offset:32 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v46, off, s[0:3], s33 offset:32 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v45, off, s[0:3], s33 offset:36 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v45, off, s[0:3], s33 offset:36 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v44, off, s[0:3], s33 offset:40 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v44, off, s[0:3], s33 offset:40 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v43, off, s[0:3], s33 offset:44 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v43, off, s[0:3], s33 offset:44 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v42, off, s[0:3], s33 offset:48 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v42, off, s[0:3], s33 offset:48 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v41, off, s[0:3], s33 offset:52 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v41, off, s[0:3], s33 offset:52 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v40, off, s[0:3], s33 offset:56 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v40, off, s[0:3], s33 offset:56 ; 4-byte Folded Reload
	; GCN-NEXT: v_and_b32_e32 v1, 1, v2			; GCN-NEXT: v_and_b32_e32 v1, 1, v10
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GCN-NEXT: s_mov_b32 s33, s6			; GCN-NEXT: s_mov_b32 s33, s6
	; GCN-NEXT: s_waitcnt vmcnt(15)			; GCN-NEXT: s_waitcnt vmcnt(15)
	; GCN-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GCN-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	%vec = load <128 x i16>, <128 x i16> addrspace(1)* %ptr			%vec = load <128 x i16>, <128 x i16> addrspace(1)* %ptr
	%elt = extractelement <128 x i16> %vec, i32 %idx			%elt = extractelement <128 x i16> %vec, i32 %idx
	ret i16 %elt			ret i16 %elt
	}			}

	define i64 @v_extract_v32i64_varidx(<32 x i64> addrspace(1)* %ptr, i32 %idx) {			define i64 @v_extract_v32i64_varidx(<32 x i64> addrspace(1)* %ptr, i32 %idx) {
	; GCN-LABEL: v_extract_v32i64_varidx:			; GCN-LABEL: v_extract_v32i64_varidx:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v15, v0
	; GCN-NEXT: s_add_u32 s4, s32, 0x3fc0			; GCN-NEXT: s_add_u32 s4, s32, 0x3fc0
	; GCN-NEXT: s_mov_b32 s5, 0
	; GCN-NEXT: s_mov_b32 s6, s33			; GCN-NEXT: s_mov_b32 s6, s33
	; GCN-NEXT: s_and_b32 s33, s4, 0xffffc000			; GCN-NEXT: s_and_b32 s33, s4, 0xffffc000
	; GCN-NEXT: s_movk_i32 s4, 0x80
	; GCN-NEXT: v_mov_b32_e32 v12, s5
	; GCN-NEXT: v_mov_b32_e32 v16, v1
	; GCN-NEXT: v_add_co_u32_e32 v31, vcc, 64, v15
	; GCN-NEXT: v_mov_b32_e32 v11, s4
	; GCN-NEXT: v_addc_co_u32_e32 v32, vcc, 0, v16, vcc
	; GCN-NEXT: v_add_co_u32_e32 v48, vcc, v15, v11
	; GCN-NEXT: v_addc_co_u32_e32 v49, vcc, v16, v12, vcc
	; GCN-NEXT: s_movk_i32 s4, 0xc0
	; GCN-NEXT: v_mov_b32_e32 v12, s5
	; GCN-NEXT: v_mov_b32_e32 v11, s4
	; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:56 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:56 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:52 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:52 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:48 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:48 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:44 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:44 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:40 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:40 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:36 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:36 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:32 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:32 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:28 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:28 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:24 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:20 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:16 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v59, off, s[0:3], s33 offset:12 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v62, off, s[0:3], s33 ; 4-byte Folded Spill
				; GCN-NEXT: v_mov_b32_e32 v15, v0
				; GCN-NEXT: v_mov_b32_e32 v16, v1
				; GCN-NEXT: buffer_store_dword v2, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill
				; GCN-NEXT: global_load_dwordx4 v[0:3], v[15:16], off
				; GCN-NEXT: s_mov_b32 s5, 0
				; GCN-NEXT: v_add_co_u32_e32 v31, vcc, 64, v15
				; GCN-NEXT: s_movk_i32 s4, 0x80
				; GCN-NEXT: v_addc_co_u32_e32 v32, vcc, 0, v16, vcc
				; GCN-NEXT: s_add_u32 s32, s32, 0x10000
				; GCN-NEXT: s_sub_u32 s32, s32, 0x10000
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: buffer_store_dword v0, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v1, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v2, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v4, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v5, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v6, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v7, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v8, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v9, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v10, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v11, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v12, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v13, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v14, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill
				; GCN-NEXT: buffer_store_dword v15, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill
				; GCN-NEXT: v_mov_b32_e32 v12, s5
				; GCN-NEXT: v_mov_b32_e32 v11, s4
				; GCN-NEXT: v_add_co_u32_e32 v48, vcc, v15, v11
				; GCN-NEXT: v_addc_co_u32_e32 v49, vcc, v16, v12, vcc
				; GCN-NEXT: s_movk_i32 s4, 0xc0
				; GCN-NEXT: v_mov_b32_e32 v12, s5
				; GCN-NEXT: v_mov_b32_e32 v11, s4
	; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11			; GCN-NEXT: v_add_co_u32_e32 v59, vcc, v15, v11
	; GCN-NEXT: global_load_dwordx4 v[3:6], v[15:16], off
	; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16			; GCN-NEXT: global_load_dwordx4 v[7:10], v[15:16], off offset:16
	; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc			; GCN-NEXT: v_addc_co_u32_e32 v60, vcc, v16, v12, vcc
	; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32			; GCN-NEXT: global_load_dwordx4 v[11:14], v[15:16], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48			; GCN-NEXT: global_load_dwordx4 v[15:18], v[15:16], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off			; GCN-NEXT: global_load_dwordx4 v[19:22], v[31:32], off
	; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16			; GCN-NEXT: global_load_dwordx4 v[23:26], v[31:32], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32			; GCN-NEXT: global_load_dwordx4 v[27:30], v[31:32], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48			; GCN-NEXT: global_load_dwordx4 v[31:34], v[31:32], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off			; GCN-NEXT: global_load_dwordx4 v[35:38], v[48:49], off
	; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16			; GCN-NEXT: global_load_dwordx4 v[39:42], v[48:49], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32			; GCN-NEXT: global_load_dwordx4 v[43:46], v[48:49], off offset:32
				; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48
				; GCN-NEXT: global_load_dwordx4 v[3:6], v[59:60], off
	; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33			; GCN-NEXT: v_lshrrev_b32_e64 v0, 6, s33
	; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0			; GCN-NEXT: v_add_u32_e32 v0, 0x100, v0
	; GCN-NEXT: v_add_u32_e32 v1, 16, v0			; GCN-NEXT: v_add_u32_e32 v1, 16, v0
	; GCN-NEXT: s_add_u32 s32, s32, 0x10000			; GCN-NEXT: v_add_u32_e32 v2, 24, v0
	; GCN-NEXT: s_sub_u32 s32, s32, 0x10000
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v35, off, s[0:3], s33 offset:576 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v36, off, s[0:3], s33 offset:580 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v4, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v37, off, s[0:3], s33 offset:584 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v5, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v38, off, s[0:3], s33 offset:588 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v6, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v39, off, s[0:3], s33 offset:592 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v7, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s33 offset:596 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v8, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v41, off, s[0:3], s33 offset:600 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v9, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v42, off, s[0:3], s33 offset:604 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v10, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:608 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v11, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:612 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v12, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:616 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v13, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:620 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v14, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:624 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v15, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:628 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v16, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:632 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v17, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:636 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v18, off, s[0:3], s33 offset:640 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[47:50], v[48:49], off offset:48
	; GCN-NEXT: global_load_dwordx4 v[43:46], v[59:60], off
	; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v43, off, s[0:3], s33 offset:512 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v44, off, s[0:3], s33 offset:516 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v45, off, s[0:3], s33 offset:520 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v46, off, s[0:3], s33 offset:524 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v47, off, s[0:3], s33 offset:528 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v48, off, s[0:3], s33 offset:532 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v49, off, s[0:3], s33 offset:536 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v50, off, s[0:3], s33 offset:540 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v51, off, s[0:3], s33 offset:544 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v52, off, s[0:3], s33 offset:548 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v53, off, s[0:3], s33 offset:552 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v54, off, s[0:3], s33 offset:556 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v55, off, s[0:3], s33 offset:560 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v56, off, s[0:3], s33 offset:564 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v57, off, s[0:3], s33 offset:568 ; 4-byte Folded Spill
	; GCN-NEXT: buffer_store_dword v58, off, s[0:3], s33 offset:572 ; 4-byte Folded Spill
	; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16			; GCN-NEXT: global_load_dwordx4 v[51:54], v[59:60], off offset:16
	; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32			; GCN-NEXT: global_load_dwordx4 v[55:58], v[59:60], off offset:32
	; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48			; GCN-NEXT: global_load_dwordx4 v[59:62], v[59:60], off offset:48
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 24, v0			; GCN-NEXT: buffer_store_dword v9, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v2, 20, v0
	; GCN-NEXT: v_add_u32_e32 v1, 20, v0
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 28, v0
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 36, v0
	; GCN-NEXT: buffer_store_dword v12, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 44, v0			; GCN-NEXT: v_add_u32_e32 v1, 44, v0
				; GCN-NEXT: v_add_u32_e32 v7, 28, v0
				; GCN-NEXT: v_add_u32_e32 v9, 36, v0
				; GCN-NEXT: buffer_store_dword v8, v2, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v10, v7, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v12, v9, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v14, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v14, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 32, v0
	; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 40, v0			; GCN-NEXT: v_add_u32_e32 v1, 40, v0
				; GCN-NEXT: v_add_u32_e32 v3, 32, v0
	; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v13, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 48, v0			; GCN-NEXT: v_add_u32_e32 v2, 48, v0
	; GCN-NEXT: buffer_store_dword v15, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 56, v0			; GCN-NEXT: v_add_u32_e32 v1, 56, v0
				; GCN-NEXT: buffer_store_dword v11, v3, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v4, 52, v0
				; GCN-NEXT: v_add_u32_e32 v5, 60, v0
				; GCN-NEXT: buffer_store_dword v15, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v17, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 52, v0			; GCN-NEXT: buffer_store_dword v16, v4, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v16, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v18, v5, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 60, v0
	; GCN-NEXT: buffer_store_dword v18, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x44, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x44, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0x4c, v0
	; GCN-NEXT: buffer_store_dword v20, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v20, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x4c, v0			; GCN-NEXT: buffer_store_dword v22, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v22, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 64, v0			; GCN-NEXT: v_add_u32_e32 v1, 64, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0x48, v0
	; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v19, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x48, v0
	; GCN-NEXT: buffer_store_dword v21, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x50, v0
				; GCN-NEXT: buffer_store_dword v21, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v23, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x58, v0			; GCN-NEXT: v_add_u32_e32 v2, 0x58, v0
	; GCN-NEXT: buffer_store_dword v25, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x54, v0
	; GCN-NEXT: buffer_store_dword v24, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x5c, v0
	; GCN-NEXT: buffer_store_dword v26, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x64, v0
	; GCN-NEXT: buffer_store_dword v28, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x6c, v0
	; GCN-NEXT: buffer_store_dword v30, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x60, v0
				; GCN-NEXT: v_add_u32_e32 v3, 0x54, v0
				; GCN-NEXT: v_add_u32_e32 v4, 0x5c, v0
				; GCN-NEXT: v_add_u32_e32 v5, 0x64, v0
				; GCN-NEXT: v_add_u32_e32 v6, 0x6c, v0
				; GCN-NEXT: buffer_store_dword v25, v2, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v24, v3, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v26, v4, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v28, v5, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v30, v6, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0x68, v0
	; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v27, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x68, v0
	; GCN-NEXT: buffer_store_dword v29, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x70, v0
				; GCN-NEXT: buffer_store_dword v29, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v7, 0x74, v0
				; GCN-NEXT: v_add_u32_e32 v8, 0x7c, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0x78, v0
	; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v31, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x78, v0			; GCN-NEXT: buffer_store_dword v33, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v33, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v32, v7, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x74, v0			; GCN-NEXT: buffer_store_dword v34, v8, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v32, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x7c, v0
	; GCN-NEXT: buffer_store_dword v34, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x84, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x84, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0x8c, v0
	; GCN-NEXT: buffer_store_dword v36, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v36, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x8c, v0			; GCN-NEXT: buffer_store_dword v38, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v38, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x80, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0x88, v0
	; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v35, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x88, v0
	; GCN-NEXT: buffer_store_dword v37, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0			; GCN-NEXT: v_add_u32_e32 v1, 0x90, v0
				; GCN-NEXT: buffer_store_dword v37, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v39, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x98, v0			; GCN-NEXT: v_add_u32_e32 v2, 0x98, v0
	; GCN-NEXT: buffer_store_dword v41, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x94, v0
	; GCN-NEXT: buffer_store_dword v40, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0x9c, v0
	; GCN-NEXT: buffer_store_dword v42, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v1, 0xa4, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v8, v15
	; GCN-NEXT: v_mov_b32_e32 v9, v16
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v11, v18
	; GCN-NEXT: v_add_u32_e32 v1, 0xac, v0
	; GCN-NEXT: buffer_store_dword v11, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xa0, v0
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v3, 0x94, v0
	; GCN-NEXT: v_mov_b32_e32 v10, v17			; GCN-NEXT: v_add_u32_e32 v4, 0x9c, v0
	; GCN-NEXT: v_add_u32_e32 v1, 0xa8, v0			; GCN-NEXT: v_add_u32_e32 v5, 0xa4, v0
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v6, 0xac, v0
				; GCN-NEXT: buffer_store_dword v41, v2, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v40, v3, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v42, v4, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v44, v5, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v46, v6, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0xa8, v0
				; GCN-NEXT: buffer_store_dword v43, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xb0, v0
				; GCN-NEXT: buffer_store_dword v45, v2, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v7, 0xb4, v0
				; GCN-NEXT: v_add_u32_e32 v8, 0xbc, v0
				; GCN-NEXT: v_add_u32_e32 v2, 0xb8, v0
	; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v47, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb8, v0			; GCN-NEXT: buffer_store_dword v49, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v49, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v48, v7, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 0xb4, v0			; GCN-NEXT: buffer_store_dword v50, v8, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v48, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v3, off, s[0:3], s33 offset:580 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v1, 0xbc, v0			; GCN-NEXT: buffer_load_dword v4, off, s[0:3], s33 offset:584 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_store_dword v50, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v5, off, s[0:3], s33 offset:588 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v6, off, s[0:3], s33 offset:592 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v7, off, s[0:3], s33 offset:596 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v8, off, s[0:3], s33 offset:600 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v9, off, s[0:3], s33 offset:604 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:608 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:612 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:616 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:620 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:624 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:628 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:632 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:636 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:640 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload			; GCN-NEXT: v_add_u32_e32 v2, 0xc8, v0
	; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload
	; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xc0, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v7, v1, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v7, 0xec, v0
	; GCN-NEXT: v_add_u32_e32 v1, 0xc8, v0			; GCN-NEXT: v_add_u32_e32 v8, 0xf4, v0
	; GCN-NEXT: buffer_store_dword v9, v1, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v12, v6
	; GCN-NEXT: v_add_u32_e32 v1, 0xc4, v0			; GCN-NEXT: buffer_store_dword v5, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v8, v1, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v10, v4
	; GCN-NEXT: v_add_u32_e32 v1, 0xcc, v0			; GCN-NEXT: v_add_u32_e32 v2, 0xc4, v0
	; GCN-NEXT: buffer_store_dword v10, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v3, v1, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 8, v0			; GCN-NEXT: v_mov_b32_e32 v9, v3
	; GCN-NEXT: buffer_store_dword v5, v1, s[0:3], 0 offen			; GCN-NEXT: v_mov_b32_e32 v11, v5
	; GCN-NEXT: v_add_u32_e32 v1, 4, v0			; GCN-NEXT: v_add_u32_e32 v3, 0xcc, v0
	; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v2, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v1, 12, v0			; GCN-NEXT: buffer_store_dword v12, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v10, off, s[0:3], s33 offset:516 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_store_dword v3, off, s[0:3], s33 offset:256			; GCN-NEXT: buffer_load_dword v11, off, s[0:3], s33 offset:520 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v12, off, s[0:3], s33 offset:524 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v13, off, s[0:3], s33 offset:528 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v14, off, s[0:3], s33 offset:532 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v15, off, s[0:3], s33 offset:536 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v16, off, s[0:3], s33 offset:540 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v17, off, s[0:3], s33 offset:544 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v18, off, s[0:3], s33 offset:548 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v19, off, s[0:3], s33 offset:552 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v20, off, s[0:3], s33 offset:556 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v21, off, s[0:3], s33 offset:560 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v22, off, s[0:3], s33 offset:564 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v23, off, s[0:3], s33 offset:568 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v24, off, s[0:3], s33 offset:572 ; 4-byte Folded Reload
				; GCN-NEXT: buffer_load_dword v25, off, s[0:3], s33 offset:576 ; 4-byte Folded Reload
				; GCN-NEXT: v_add_u32_e32 v2, 8, v0
	; GCN-NEXT: v_add_u32_e32 v1, 0xd0, v0			; GCN-NEXT: v_add_u32_e32 v1, 0xd0, v0
	; GCN-NEXT: v_add_u32_e32 v4, 0xd8, v0			; GCN-NEXT: v_add_u32_e32 v3, 12, v0
	; GCN-NEXT: buffer_store_dword v51, v1, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v4, 0xd4, v0
	; GCN-NEXT: buffer_store_dword v53, v4, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v3, 0xd4, v0
	; GCN-NEXT: v_add_u32_e32 v6, 0xe0, v0
	; GCN-NEXT: v_add_u32_e32 v1, 0xf4, v0
	; GCN-NEXT: v_add_u32_e32 v4, 0xf8, v0
	; GCN-NEXT: v_add_u32_e32 v5, 0xdc, v0			; GCN-NEXT: v_add_u32_e32 v5, 0xdc, v0
	; GCN-NEXT: v_add_u32_e32 v7, 0xe4, v0			; GCN-NEXT: v_add_u32_e32 v6, 0xe4, v0
	; GCN-NEXT: v_add_u32_e32 v8, 0xe8, v0			; GCN-NEXT: v_add_u32_e32 v9, 0xfc, v0
	; GCN-NEXT: v_add_u32_e32 v10, 0xf0, v0			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_store_dword v55, v6, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v12, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v57, v8, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v2, 4, v0
	; GCN-NEXT: buffer_store_dword v59, v10, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v11, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v61, v4, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v13, v3, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v9, 0xec, v0			; GCN-NEXT: buffer_store_dword v10, off, s[0:3], s33 offset:256
	; GCN-NEXT: v_add_u32_e32 v4, 0xfc, v0			; GCN-NEXT: v_add_u32_e32 v2, 0xd8, v0
	; GCN-NEXT: buffer_store_dword v52, v3, s[0:3], 0 offen			; GCN-NEXT: v_add_u32_e32 v3, 0xe0, v0
				; GCN-NEXT: buffer_store_dword v51, v1, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v1, 0xe8, v0
				; GCN-NEXT: buffer_store_dword v53, v2, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v55, v3, s[0:3], 0 offen
				; GCN-NEXT: v_add_u32_e32 v2, 0xf0, v0
				; GCN-NEXT: v_add_u32_e32 v3, 0xf8, v0
				; GCN-NEXT: buffer_store_dword v57, v1, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v59, v2, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v61, v3, s[0:3], 0 offen
				; GCN-NEXT: buffer_store_dword v52, v4, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v54, v5, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v54, v5, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v56, v7, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v56, v6, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v58, v9, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v58, v7, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v60, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v60, v8, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v62, v4, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v62, v9, s[0:3], 0 offen
	; GCN-NEXT: v_and_b32_e32 v1, 31, v2			; GCN-NEXT: buffer_load_dword v1, off, s[0:3], s33 offset:512 ; 4-byte Folded Reload
				; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: v_and_b32_e32 v1, 31, v1
	; GCN-NEXT: v_lshlrev_b32_e32 v1, 3, v1			; GCN-NEXT: v_lshlrev_b32_e32 v1, 3, v1
	; GCN-NEXT: v_add_u32_e32 v0, v0, v1			; GCN-NEXT: v_add_u32_e32 v0, v0, v1
	; GCN-NEXT: v_add_u32_e32 v1, 4, v0			; GCN-NEXT: v_add_u32_e32 v1, 4, v0
	; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v1, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v1, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v62, off, s[0:3], s33 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v61, off, s[0:3], s33 offset:4 ; 4-byte Folded Reload
	; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword v60, off, s[0:3], s33 offset:8 ; 4-byte Folded Reload
	Show All 19 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement-stack-lower.ll

	Show All 19 Lines
	; GCN-NEXT: s_load_dwordx16 s[36:51], s[10:11], 0xc0			; GCN-NEXT: s_load_dwordx16 s[36:51], s[10:11], 0xc0
	; GCN-NEXT: s_movk_i32 s4, 0x50			; GCN-NEXT: s_movk_i32 s4, 0x50
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v4, s13			; GCN-NEXT: v_mov_b32_e32 v4, s13
	; GCN-NEXT: v_mov_b32_e32 v5, s14			; GCN-NEXT: v_mov_b32_e32 v5, s14
	; GCN-NEXT: v_mov_b32_e32 v6, s15			; GCN-NEXT: v_mov_b32_e32 v6, s15
	; GCN-NEXT: v_mov_b32_e32 v8, s16			; GCN-NEXT: v_mov_b32_e32 v8, s16
	; GCN-NEXT: v_mov_b32_e32 v10, s17			; GCN-NEXT: v_mov_b32_e32 v10, s17
				; GCN-NEXT: v_mov_b32_e32 v12, s18
				; GCN-NEXT: v_mov_b32_e32 v14, s19
	; GCN-NEXT: s_movk_i32 s5, 0x60			; GCN-NEXT: s_movk_i32 s5, 0x60
	; GCN-NEXT: v_add_u32_e32 v2, 8, v0			; GCN-NEXT: v_add_u32_e32 v2, 8, v0
	; GCN-NEXT: v_add_u32_e32 v3, 12, v0			; GCN-NEXT: v_add_u32_e32 v3, 12, v0
	; GCN-NEXT: v_add_u32_e32 v7, 16, v0			; GCN-NEXT: v_add_u32_e32 v7, 16, v0
	; GCN-NEXT: v_add_u32_e32 v9, 20, v0			; GCN-NEXT: v_add_u32_e32 v9, 20, v0
	; GCN-NEXT: v_add_u32_e32 v11, 24, v0			; GCN-NEXT: v_add_u32_e32 v11, 24, v0
	; GCN-NEXT: v_mov_b32_e32 v12, s18
	; GCN-NEXT: v_add_u32_e32 v13, 28, v0			; GCN-NEXT: v_add_u32_e32 v13, 28, v0
	; GCN-NEXT: v_mov_b32_e32 v14, s19
	; GCN-NEXT: v_add_u32_e32 v15, 32, v0			; GCN-NEXT: v_add_u32_e32 v15, 32, v0
	; GCN-NEXT: v_mov_b32_e32 v16, s20			; GCN-NEXT: v_mov_b32_e32 v16, s20
	; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v2, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v5, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v6, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v8, v7, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v8, v7, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v9, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v9, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v12, v11, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v12, v11, s[0:3], 0 offen
	Show All 21 Lines
	; GCN-NEXT: buffer_store_dword v18, v17, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v18, v17, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v20, v19, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v20, v19, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v22, v21, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v22, v21, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v24, v23, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v24, v23, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v26, v25, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v26, v25, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v28, v27, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v28, v27, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v30, v29, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v30, v29, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v32, v31, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v32, v31, s[0:3], 0 offen
	; GCN-NEXT: s_movk_i32 s10, 0x70			; GCN-NEXT: s_movk_i32 s13, 0x70
	; GCN-NEXT: v_add_u32_e32 v35, 0x48, v0			; GCN-NEXT: v_add_u32_e32 v35, 0x48, v0
	; GCN-NEXT: v_mov_b32_e32 v36, s70			; GCN-NEXT: v_mov_b32_e32 v36, s70
	; GCN-NEXT: v_add_u32_e32 v37, 0x4c, v0			; GCN-NEXT: v_add_u32_e32 v37, 0x4c, v0
	; GCN-NEXT: v_add_u32_e32 v38, s4, v0			; GCN-NEXT: v_add_u32_e32 v38, s4, v0
	; GCN-NEXT: v_mov_b32_e32 v5, s72			; GCN-NEXT: v_mov_b32_e32 v5, s72
	; GCN-NEXT: v_add_u32_e32 v39, 0x54, v0			; GCN-NEXT: v_add_u32_e32 v39, 0x54, v0
	; GCN-NEXT: v_mov_b32_e32 v6, s73			; GCN-NEXT: v_mov_b32_e32 v6, s73
	; GCN-NEXT: v_add_u32_e32 v40, 0x58, v0			; GCN-NEXT: v_add_u32_e32 v40, 0x58, v0
	; GCN-NEXT: v_mov_b32_e32 v8, s74			; GCN-NEXT: v_mov_b32_e32 v8, s74
	; GCN-NEXT: v_add_u32_e32 v41, 0x5c, v0			; GCN-NEXT: v_add_u32_e32 v41, 0x5c, v0
	; GCN-NEXT: v_mov_b32_e32 v10, s75			; GCN-NEXT: v_mov_b32_e32 v10, s75
	; GCN-NEXT: v_add_u32_e32 v42, s5, v0			; GCN-NEXT: v_add_u32_e32 v42, s5, v0
	; GCN-NEXT: v_mov_b32_e32 v12, s76			; GCN-NEXT: v_mov_b32_e32 v12, s76
	; GCN-NEXT: buffer_store_dword v34, v33, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v34, v33, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v36, v35, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v36, v35, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v4, v37, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v4, v37, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v38, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v5, v38, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v39, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v6, v39, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v8, v40, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v8, v40, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v41, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v41, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v12, v42, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v12, v42, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v26, 0x64, v0			; GCN-NEXT: v_add_u32_e32 v26, 0x64, v0
	; GCN-NEXT: v_mov_b32_e32 v14, s77			; GCN-NEXT: v_mov_b32_e32 v14, s77
	; GCN-NEXT: v_mov_b32_e32 v4, s81			; GCN-NEXT: v_mov_b32_e32 v4, s81
	; GCN-NEXT: s_movk_i32 s11, 0x90			; GCN-NEXT: s_movk_i32 s14, 0x90
	; GCN-NEXT: s_movk_i32 s13, 0xa0			; GCN-NEXT: s_movk_i32 s15, 0xa0
	; GCN-NEXT: v_add_u32_e32 v28, 0x68, v0			; GCN-NEXT: v_add_u32_e32 v28, 0x68, v0
	; GCN-NEXT: v_mov_b32_e32 v16, s78			; GCN-NEXT: v_mov_b32_e32 v16, s78
	; GCN-NEXT: v_add_u32_e32 v30, 0x6c, v0			; GCN-NEXT: v_add_u32_e32 v30, 0x6c, v0
	; GCN-NEXT: v_mov_b32_e32 v18, s79			; GCN-NEXT: v_mov_b32_e32 v18, s79
				; GCN-NEXT: v_add_u32_e32 v32, s13, v0
	; GCN-NEXT: v_mov_b32_e32 v20, s80			; GCN-NEXT: v_mov_b32_e32 v20, s80
	; GCN-NEXT: v_mov_b32_e32 v5, s82
	; GCN-NEXT: v_mov_b32_e32 v6, s83
	; GCN-NEXT: v_add_u32_e32 v32, s10, v0
	; GCN-NEXT: v_add_u32_e32 v34, 0x74, v0			; GCN-NEXT: v_add_u32_e32 v34, 0x74, v0
	; GCN-NEXT: v_add_u32_e32 v36, 0x78, v0			; GCN-NEXT: v_add_u32_e32 v36, 0x78, v0
				; GCN-NEXT: v_mov_b32_e32 v5, s82
	; GCN-NEXT: v_add_u32_e32 v43, 0x7c, v0			; GCN-NEXT: v_add_u32_e32 v43, 0x7c, v0
				; GCN-NEXT: v_mov_b32_e32 v6, s83
	; GCN-NEXT: v_add_u32_e32 v44, 0x80, v0			; GCN-NEXT: v_add_u32_e32 v44, 0x80, v0
	; GCN-NEXT: v_mov_b32_e32 v8, s52			; GCN-NEXT: v_mov_b32_e32 v8, s52
	; GCN-NEXT: buffer_store_dword v14, v26, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v14, v26, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v16, v28, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v16, v28, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v18, v30, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v18, v30, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v20, v32, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v20, v32, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v4, v34, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v4, v34, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v36, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v5, v36, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v43, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v6, v43, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v8, v44, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v8, v44, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v45, 0x84, v0			; GCN-NEXT: v_add_u32_e32 v45, 0x84, v0
	; GCN-NEXT: v_mov_b32_e32 v4, s53			; GCN-NEXT: v_mov_b32_e32 v4, s53
	; GCN-NEXT: s_movk_i32 s14, 0xb0			; GCN-NEXT: s_movk_i32 s16, 0xb0
	; GCN-NEXT: v_add_u32_e32 v46, 0x88, v0			; GCN-NEXT: v_add_u32_e32 v46, 0x88, v0
	; GCN-NEXT: v_mov_b32_e32 v5, s54			; GCN-NEXT: v_mov_b32_e32 v5, s54
	; GCN-NEXT: v_add_u32_e32 v47, 0x8c, v0			; GCN-NEXT: v_add_u32_e32 v47, 0x8c, v0
	; GCN-NEXT: v_mov_b32_e32 v6, s55			; GCN-NEXT: v_mov_b32_e32 v6, s55
	; GCN-NEXT: v_add_u32_e32 v48, s11, v0			; GCN-NEXT: v_add_u32_e32 v48, s14, v0
	; GCN-NEXT: v_mov_b32_e32 v8, s56			; GCN-NEXT: v_mov_b32_e32 v8, s56
	; GCN-NEXT: v_add_u32_e32 v49, 0x94, v0			; GCN-NEXT: v_add_u32_e32 v49, 0x94, v0
	; GCN-NEXT: v_mov_b32_e32 v10, s57			; GCN-NEXT: v_mov_b32_e32 v10, s57
	; GCN-NEXT: v_add_u32_e32 v50, 0x98, v0			; GCN-NEXT: v_add_u32_e32 v50, 0x98, v0
	; GCN-NEXT: v_mov_b32_e32 v12, s58			; GCN-NEXT: v_mov_b32_e32 v12, s58
	; GCN-NEXT: v_add_u32_e32 v51, 0x9c, v0			; GCN-NEXT: v_add_u32_e32 v51, 0x9c, v0
	; GCN-NEXT: v_mov_b32_e32 v14, s59			; GCN-NEXT: v_mov_b32_e32 v14, s59
	; GCN-NEXT: v_add_u32_e32 v52, s13, v0			; GCN-NEXT: v_add_u32_e32 v52, s15, v0
	; GCN-NEXT: v_mov_b32_e32 v16, s60			; GCN-NEXT: v_mov_b32_e32 v16, s60
	; GCN-NEXT: buffer_store_dword v4, v45, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v4, v45, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v46, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v5, v46, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v47, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v6, v47, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v8, v48, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v8, v48, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v49, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v49, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v12, v50, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v12, v50, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v14, v51, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v14, v51, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v16, v52, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v16, v52, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v53, 0xa4, v0			; GCN-NEXT: v_add_u32_e32 v53, 0xa4, v0
	; GCN-NEXT: v_mov_b32_e32 v4, s61			; GCN-NEXT: v_mov_b32_e32 v4, s61
	; GCN-NEXT: s_movk_i32 s15, 0xd0			; GCN-NEXT: s_movk_i32 s17, 0xd0
	; GCN-NEXT: s_movk_i32 s16, 0xe0			; GCN-NEXT: s_movk_i32 s18, 0xe0
	; GCN-NEXT: v_add_u32_e32 v54, 0xa8, v0			; GCN-NEXT: v_add_u32_e32 v54, 0xa8, v0
	; GCN-NEXT: v_mov_b32_e32 v5, s62			; GCN-NEXT: v_mov_b32_e32 v5, s62
	; GCN-NEXT: v_add_u32_e32 v55, 0xac, v0			; GCN-NEXT: v_add_u32_e32 v55, 0xac, v0
	; GCN-NEXT: v_mov_b32_e32 v6, s63			; GCN-NEXT: v_mov_b32_e32 v6, s63
	; GCN-NEXT: v_add_u32_e32 v56, s14, v0			; GCN-NEXT: v_add_u32_e32 v56, s16, v0
	; GCN-NEXT: v_mov_b32_e32 v8, s64			; GCN-NEXT: v_mov_b32_e32 v8, s64
	; GCN-NEXT: v_add_u32_e32 v57, 0xb4, v0			; GCN-NEXT: v_add_u32_e32 v57, 0xb4, v0
	; GCN-NEXT: v_mov_b32_e32 v10, s65			; GCN-NEXT: v_mov_b32_e32 v10, s65
	; GCN-NEXT: v_add_u32_e32 v58, 0xb8, v0			; GCN-NEXT: v_add_u32_e32 v58, 0xb8, v0
	; GCN-NEXT: v_mov_b32_e32 v12, s66			; GCN-NEXT: v_mov_b32_e32 v12, s66
	; GCN-NEXT: v_add_u32_e32 v59, 0xbc, v0			; GCN-NEXT: v_add_u32_e32 v59, 0xbc, v0
	; GCN-NEXT: v_mov_b32_e32 v14, s67			; GCN-NEXT: v_mov_b32_e32 v14, s67
	; GCN-NEXT: v_add_u32_e32 v60, 0xc0, v0			; GCN-NEXT: v_add_u32_e32 v60, 0xc0, v0
	; GCN-NEXT: v_mov_b32_e32 v16, s36			; GCN-NEXT: v_mov_b32_e32 v16, s36
	; GCN-NEXT: buffer_store_dword v4, v53, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v4, v53, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v54, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v5, v54, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v55, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v6, v55, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v8, v56, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v8, v56, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v57, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v57, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v12, v58, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v12, v58, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v14, v59, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v14, v59, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v16, v60, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v16, v60, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v61, 0xc4, v0			; GCN-NEXT: v_add_u32_e32 v61, 0xc4, v0
	; GCN-NEXT: v_mov_b32_e32 v4, s37			; GCN-NEXT: v_mov_b32_e32 v4, s37
	; GCN-NEXT: s_and_b32 s7, s7, 63			; GCN-NEXT: s_and_b32 s7, s7, 63
	; GCN-NEXT: s_movk_i32 s17, 0xf0			; GCN-NEXT: s_movk_i32 s19, 0xf0
	; GCN-NEXT: v_add_u32_e32 v62, 0xc8, v0			; GCN-NEXT: v_add_u32_e32 v62, 0xc8, v0
	; GCN-NEXT: v_mov_b32_e32 v5, s38			; GCN-NEXT: v_mov_b32_e32 v5, s38
	; GCN-NEXT: v_add_u32_e32 v63, 0xcc, v0			; GCN-NEXT: v_add_u32_e32 v63, 0xcc, v0
	; GCN-NEXT: v_mov_b32_e32 v6, s39			; GCN-NEXT: v_mov_b32_e32 v6, s39
	; GCN-NEXT: v_add_u32_e32 v64, s15, v0			; GCN-NEXT: v_add_u32_e32 v64, s17, v0
	; GCN-NEXT: v_mov_b32_e32 v8, s40			; GCN-NEXT: v_mov_b32_e32 v8, s40
	; GCN-NEXT: v_add_u32_e32 v65, 0xd4, v0			; GCN-NEXT: v_add_u32_e32 v65, 0xd4, v0
	; GCN-NEXT: v_mov_b32_e32 v10, s41			; GCN-NEXT: v_mov_b32_e32 v10, s41
	; GCN-NEXT: v_add_u32_e32 v66, 0xd8, v0			; GCN-NEXT: v_add_u32_e32 v66, 0xd8, v0
	; GCN-NEXT: v_mov_b32_e32 v12, s42			; GCN-NEXT: v_mov_b32_e32 v12, s42
	; GCN-NEXT: v_add_u32_e32 v67, 0xdc, v0			; GCN-NEXT: v_add_u32_e32 v67, 0xdc, v0
	; GCN-NEXT: v_mov_b32_e32 v14, s43			; GCN-NEXT: v_mov_b32_e32 v14, s43
	; GCN-NEXT: v_add_u32_e32 v68, s16, v0			; GCN-NEXT: v_add_u32_e32 v68, s18, v0
	; GCN-NEXT: v_mov_b32_e32 v16, s44			; GCN-NEXT: v_mov_b32_e32 v16, s44
	; GCN-NEXT: buffer_store_dword v4, v61, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v4, v61, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v62, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v5, v62, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v63, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v6, v63, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v8, v64, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v8, v64, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v65, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v65, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v12, v66, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v12, v66, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v14, v67, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v14, v67, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v16, v68, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v16, v68, s[0:3], 0 offen
	; GCN-NEXT: v_add_u32_e32 v69, 0xe4, v0			; GCN-NEXT: v_add_u32_e32 v69, 0xe4, v0
	; GCN-NEXT: v_mov_b32_e32 v4, s45			; GCN-NEXT: v_mov_b32_e32 v4, s45
	; GCN-NEXT: v_add_u32_e32 v70, 0xe8, v0			; GCN-NEXT: v_add_u32_e32 v70, 0xe8, v0
	; GCN-NEXT: v_mov_b32_e32 v5, s46			; GCN-NEXT: v_mov_b32_e32 v5, s46
	; GCN-NEXT: v_add_u32_e32 v71, 0xec, v0			; GCN-NEXT: v_add_u32_e32 v71, 0xec, v0
	; GCN-NEXT: v_mov_b32_e32 v6, s47			; GCN-NEXT: v_mov_b32_e32 v6, s47
	; GCN-NEXT: v_add_u32_e32 v72, s17, v0			; GCN-NEXT: v_add_u32_e32 v72, s19, v0
	; GCN-NEXT: v_mov_b32_e32 v8, s48			; GCN-NEXT: v_mov_b32_e32 v8, s48
	; GCN-NEXT: v_add_u32_e32 v73, 0xf4, v0			; GCN-NEXT: v_add_u32_e32 v73, 0xf4, v0
	; GCN-NEXT: v_mov_b32_e32 v10, s49			; GCN-NEXT: v_mov_b32_e32 v10, s49
	; GCN-NEXT: v_add_u32_e32 v74, 0xf8, v0			; GCN-NEXT: v_add_u32_e32 v74, 0xf8, v0
	; GCN-NEXT: v_mov_b32_e32 v12, s50			; GCN-NEXT: v_mov_b32_e32 v12, s50
	; GCN-NEXT: buffer_store_dword v4, v69, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v4, v69, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v5, v70, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v5, v70, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v6, v71, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v6, v71, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v8, v72, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v8, v72, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v10, v73, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v10, v73, s[0:3], 0 offen
	; GCN-NEXT: buffer_store_dword v12, v74, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v12, v74, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v4, s12			; GCN-NEXT: v_mov_b32_e32 v4, s12
	; GCN-NEXT: s_lshl_b32 s7, s7, 2			; GCN-NEXT: s_lshl_b32 s7, s7, 2
	; GCN-NEXT: v_add_u32_e32 v75, 0xfc, v0			; GCN-NEXT: v_add_u32_e32 v75, 0xfc, v0
	; GCN-NEXT: v_mov_b32_e32 v5, s51			; GCN-NEXT: v_mov_b32_e32 v14, s51
	; GCN-NEXT: buffer_store_dword v4, off, s[0:3], 0 offset:256			; GCN-NEXT: buffer_store_dword v4, off, s[0:3], 0 offset:256
	; GCN-NEXT: buffer_store_dword v5, v75, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v14, v75, s[0:3], 0 offen
	; GCN-NEXT: v_mov_b32_e32 v4, s6			; GCN-NEXT: v_mov_b32_e32 v4, s6
	; GCN-NEXT: v_add_u32_e32 v0, s7, v0			; GCN-NEXT: v_add_u32_e32 v0, s7, v0
	; GCN-NEXT: buffer_store_dword v4, v0, s[0:3], 0 offen			; GCN-NEXT: buffer_store_dword v4, v0, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v1, v1, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v1, v1, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v2, v2, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v2, v2, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v3, v3, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v3, v3, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v4, v7, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v4, v7, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v5, v9, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v5, v9, s[0:3], 0 offen
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; GCN-NEXT: buffer_load_dword v59, v71, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v59, v71, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v60, v72, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v60, v72, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v61, v73, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v61, v73, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v62, v74, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v62, v74, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v63, v75, s[0:3], 0 offen			; GCN-NEXT: buffer_load_dword v63, v75, s[0:3], 0 offen
	; GCN-NEXT: buffer_load_dword v0, off, s[0:3], 0 offset:256			; GCN-NEXT: buffer_load_dword v0, off, s[0:3], 0 offset:256
	; GCN-NEXT: s_add_u32 s6, s8, 16			; GCN-NEXT: s_add_u32 s6, s8, 16
	; GCN-NEXT: s_addc_u32 s7, s9, 0			; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v65, s9
	; GCN-NEXT: v_mov_b32_e32 v67, s7			; GCN-NEXT: v_mov_b32_e32 v67, s7
	; GCN-NEXT: v_mov_b32_e32 v66, s6			; GCN-NEXT: v_mov_b32_e32 v66, s6
	; GCN-NEXT: s_add_u32 s6, s8, 32			; GCN-NEXT: s_add_u32 s6, s8, 32
	; GCN-NEXT: v_mov_b32_e32 v64, s8
	; GCN-NEXT: s_addc_u32 s7, s9, 0			; GCN-NEXT: s_addc_u32 s7, s9, 0
				; GCN-NEXT: v_mov_b32_e32 v65, s9
				; GCN-NEXT: s_add_u32 s10, s8, 48
				; GCN-NEXT: v_mov_b32_e32 v64, s8
				; GCN-NEXT: s_addc_u32 s11, s9, 0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: global_store_dwordx4 v[64:65], v[0:3], off			; GCN-NEXT: global_store_dwordx4 v[64:65], v[0:3], off
	; GCN-NEXT: global_store_dwordx4 v[66:67], v[4:7], off			; GCN-NEXT: global_store_dwordx4 v[66:67], v[4:7], off
	; GCN-NEXT: v_mov_b32_e32 v0, s6			; GCN-NEXT: v_mov_b32_e32 v0, s6
	; GCN-NEXT: v_mov_b32_e32 v1, s7			; GCN-NEXT: v_mov_b32_e32 v1, s7
	; GCN-NEXT: s_add_u32 s6, s8, 48
	; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v2, s6
	; GCN-NEXT: v_mov_b32_e32 v3, s7
	; GCN-NEXT: s_add_u32 s6, s8, 64			; GCN-NEXT: s_add_u32 s6, s8, 64
				; GCN-NEXT: v_mov_b32_e32 v2, s10
				; GCN-NEXT: s_addc_u32 s7, s9, 0
				; GCN-NEXT: v_mov_b32_e32 v3, s11
				; GCN-NEXT: s_add_u32 s10, s8, s4
				; GCN-NEXT: s_addc_u32 s11, s9, 0
				; GCN-NEXT: s_add_u32 s4, s8, s5
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[8:11], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[8:11], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[12:15], off			; GCN-NEXT: global_store_dwordx4 v[2:3], v[12:15], off
	; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s6			; GCN-NEXT: v_mov_b32_e32 v0, s6
				; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v1, s7			; GCN-NEXT: v_mov_b32_e32 v1, s7
	; GCN-NEXT: s_add_u32 s6, s8, s4			; GCN-NEXT: s_add_u32 s6, s8, s13
	; GCN-NEXT: s_addc_u32 s7, s9, 0			; GCN-NEXT: v_mov_b32_e32 v2, s10
	; GCN-NEXT: s_add_u32 s4, s8, s5			; GCN-NEXT: v_mov_b32_e32 v3, s11
	; GCN-NEXT: v_mov_b32_e32 v2, s6
	; GCN-NEXT: v_mov_b32_e32 v3, s7
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[16:19], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[16:19], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[20:23], off			; GCN-NEXT: global_store_dwordx4 v[2:3], v[20:23], off
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_add_u32 s4, s8, s10
	; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v2, s4
	; GCN-NEXT: v_mov_b32_e32 v3, s5
	; GCN-NEXT: s_add_u32 s4, s8, 0x80			; GCN-NEXT: s_add_u32 s4, s8, 0x80
				; GCN-NEXT: v_mov_b32_e32 v2, s6
				; GCN-NEXT: s_addc_u32 s5, s9, 0
				; GCN-NEXT: v_mov_b32_e32 v3, s7
				; GCN-NEXT: s_add_u32 s6, s8, s14
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[24:27], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[24:27], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[28:31], off			; GCN-NEXT: global_store_dwordx4 v[2:3], v[28:31], off
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_add_u32 s4, s8, s11			; GCN-NEXT: s_add_u32 s4, s8, s15
				; GCN-NEXT: v_mov_b32_e32 v2, s6
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v2, s4			; GCN-NEXT: v_mov_b32_e32 v3, s7
	; GCN-NEXT: v_mov_b32_e32 v3, s5			; GCN-NEXT: s_add_u32 s6, s8, s16
	; GCN-NEXT: s_add_u32 s4, s8, s13
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[32:35], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[32:35], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[36:39], off			; GCN-NEXT: global_store_dwordx4 v[2:3], v[36:39], off
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s7, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_add_u32 s4, s8, s14
	; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v2, s4
	; GCN-NEXT: v_mov_b32_e32 v3, s5
	; GCN-NEXT: s_add_u32 s4, s8, 0xc0			; GCN-NEXT: s_add_u32 s4, s8, 0xc0
				; GCN-NEXT: v_mov_b32_e32 v2, s6
				; GCN-NEXT: v_mov_b32_e32 v3, s7
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[40:43], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[40:43], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[44:47], off			; GCN-NEXT: global_store_dwordx4 v[2:3], v[44:47], off
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_add_u32 s4, s8, s15			; GCN-NEXT: s_add_u32 s4, s8, s17
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v2, s4			; GCN-NEXT: v_mov_b32_e32 v2, s4
	; GCN-NEXT: v_mov_b32_e32 v3, s5			; GCN-NEXT: v_mov_b32_e32 v3, s5
	; GCN-NEXT: s_add_u32 s4, s8, s16			; GCN-NEXT: s_add_u32 s4, s8, s18
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[48:51], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[48:51], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[52:55], off			; GCN-NEXT: global_store_dwordx4 v[2:3], v[52:55], off
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: s_add_u32 s4, s8, s17			; GCN-NEXT: s_add_u32 s4, s8, s19
	; GCN-NEXT: s_addc_u32 s5, s9, 0			; GCN-NEXT: s_addc_u32 s5, s9, 0
	; GCN-NEXT: v_mov_b32_e32 v2, s4			; GCN-NEXT: v_mov_b32_e32 v2, s4
	; GCN-NEXT: v_mov_b32_e32 v3, s5			; GCN-NEXT: v_mov_b32_e32 v3, s5
	; GCN-NEXT: global_store_dwordx4 v[0:1], v[56:59], off			; GCN-NEXT: global_store_dwordx4 v[0:1], v[56:59], off
	; GCN-NEXT: global_store_dwordx4 v[2:3], v[60:63], off			; GCN-NEXT: global_store_dwordx4 v[2:3], v[60:63], off
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr			%vec = load <64 x i32>, <64 x i32> addrspace(1)* %ptr
	%insert = insertelement <64 x i32> %vec, i32 %val, i32 %idx			%insert = insertelement <64 x i32> %vec, i32 %val, i32 %idx
	store <64 x i32> %insert, <64 x i32> addrspace(1)* %out.ptr			store <64 x i32> %insert, <64 x i32> addrspace(1)* %out.ptr
	ret void			ret void
	}			}

	attributes #0 = { "amdgpu-waves-per-eu"="1,10" }			attributes #0 = { "amdgpu-waves-per-eu"="1,10" }

llvm/test/CodeGen/AMDGPU/call-argument-types.ll

	Show First 20 Lines • Show All 738 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @stack_passed_arg_alignment_v32i32_f64(<32 x i32> %val, double %tmp) #0 {			define amdgpu_kernel void @stack_passed_arg_alignment_v32i32_f64(<32 x i32> %val, double %tmp) #0 {
	entry:			entry:
	call void @stack_passed_f64_arg(<32 x i32> %val, double %tmp)			call void @stack_passed_f64_arg(<32 x i32> %val, double %tmp)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}tail_call_byval_align16:			; GCN-LABEL: {{^}}tail_call_byval_align16:
	; GCN-NOT: s32			; GCN-NOT: s32
	; GCN: buffer_load_dword v32, off, s[0:3], s32 offset:12			; GCN: buffer_load_dword v32, off, s[0:3], s32 offset:8
	; GCN: buffer_load_dword v33, off, s[0:3], s32 offset:8			; GCN: buffer_load_dword v33, off, s[0:3], s32 offset:12

	; GCN: s_getpc_b64			; GCN: s_getpc_b64

	; GCN: buffer_store_dword v32, off, s[0:3], s32 offset:4			; GCN: buffer_store_dword v33, off, s[0:3], s32 offset:4
	; GCN: buffer_store_dword v33, off, s[0:3], s32{{$}}			; GCN: buffer_store_dword v32, off, s[0:3], s32{{$}}
	; GCN-NOT: s32			; GCN-NOT: s32
	; GCN: s_setpc_b64			; GCN: s_setpc_b64
	define void @tail_call_byval_align16(<32 x i32> %val, double %tmp) #0 {			define void @tail_call_byval_align16(<32 x i32> %val, double %tmp) #0 {
	entry:			entry:
	%alloca = alloca double, align 8, addrspace(5)			%alloca = alloca double, align 8, addrspace(5)
	tail call void @byval_align16_f64_arg(<32 x i32> %val, double addrspace(5)* byval align 16 %alloca)			tail call void @byval_align16_f64_arg(<32 x i32> %val, double addrspace(5)* byval align 16 %alloca)
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 156 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/callee-special-input-vgprs.ll

	Show First 20 Lines • Show All 618 Lines • ▼ Show 20 Lines
	; VARABI: buffer_store_dword v0, off, s[0:3], s32 offset:4			; VARABI: buffer_store_dword v0, off, s[0:3], s32 offset:4

	; VARABI: buffer_store_dword [[RELOAD_BYVAL]], off, s[0:3], s32{{$}}			; VARABI: buffer_store_dword [[RELOAD_BYVAL]], off, s[0:3], s32{{$}}
	; VARABI: v_mov_b32_e32 [[RELOAD_BYVAL]],			; VARABI: v_mov_b32_e32 [[RELOAD_BYVAL]],
	; VARABI: s_swappc_b64			; VARABI: s_swappc_b64


	; FIXEDABI: v_mov_b32_e32 [[K0:v[0-9]+]], 0x3e7			; FIXEDABI: v_mov_b32_e32 [[K0:v[0-9]+]], 0x3e7
	; FIXEDABI: buffer_store_dword [[K0]], off, s[0:3], 0 offset:4{{$}}

	; FIXEDABI: s_movk_i32 s32, 0x400{{$}}			; FIXEDABI: s_movk_i32 s32, 0x400{{$}}

	; FIXEDABI: v_mov_b32_e32 [[K1:v[0-9]+]], 0x140			; FIXEDABI: v_mov_b32_e32 [[K1:v[0-9]+]], 0x140
				; FIXEDABI: buffer_store_dword [[K0]], off, s[0:3], 0 offset:4{{$}}

	; FIXEDABI: buffer_store_dword [[K1]], off, s[0:3], s32{{$}}			; FIXEDABI: buffer_store_dword [[K1]], off, s[0:3], s32{{$}}

	; FIXME: Why this reload?			; FIXME: Why this reload?
	; FIXEDABI: buffer_load_dword [[RELOAD:v[0-9]+]], off, s[0:3], 0 offset:4{{$}}			; FIXEDABI: buffer_load_dword [[RELOAD:v[0-9]+]], off, s[0:3], 0 offset:4{{$}}

	; FIXEDABI-DAG: v_lshlrev_b32_e32 [[TMP1:v[0-9]+]], 10, v1			; FIXEDABI-DAG: v_lshlrev_b32_e32 [[TMP1:v[0-9]+]], 10, v1
	; FIXEDABI-DAG: v_lshlrev_b32_e32 [[TMP0:v[0-9]+]], 20, v2			; FIXEDABI-DAG: v_lshlrev_b32_e32 [[TMP0:v[0-9]+]], 20, v2
	; FIXEDABI-DAG: v_or_b32_e32 [[TMP2:v[0-9]+]], v0, [[TMP1]]			; FIXEDABI-DAG: v_or_b32_e32 [[TMP2:v[0-9]+]], v0, [[TMP1]]
	Show All 25 Lines
	; VARABI: buffer_store_dword v0, off, s[0:3], s32 offset:4			; VARABI: buffer_store_dword v0, off, s[0:3], s32 offset:4
	; VARABI: buffer_store_dword [[RELOAD_BYVAL]], off, s[0:3], s32{{$}}			; VARABI: buffer_store_dword [[RELOAD_BYVAL]], off, s[0:3], s32{{$}}
	; VARABI: v_mov_b32_e32 [[RELOAD_BYVAL]],			; VARABI: v_mov_b32_e32 [[RELOAD_BYVAL]],
	; VARABI: s_swappc_b64			; VARABI: s_swappc_b64


	; FIXED-ABI-NOT: v31			; FIXED-ABI-NOT: v31
	; FIXEDABI: v_mov_b32_e32 [[K0:v[0-9]+]], 0x3e7{{$}}			; FIXEDABI: v_mov_b32_e32 [[K0:v[0-9]+]], 0x3e7{{$}}
	; FIXEDABI: buffer_store_dword [[K0]], off, s[0:3], s33{{$}}

	; FIXEDABI: v_mov_b32_e32 [[K1:v[0-9]+]], 0x140{{$}}			; FIXEDABI: v_mov_b32_e32 [[K1:v[0-9]+]], 0x140{{$}}
				; FIXEDABI: buffer_store_dword [[K0]], off, s[0:3], s33{{$}}
	; FIXEDABI: buffer_store_dword [[K1]], off, s[0:3], s32{{$}}			; FIXEDABI: buffer_store_dword [[K1]], off, s[0:3], s32{{$}}
	; FIXEDABI: buffer_load_dword [[RELOAD_BYVAL:v[0-9]+]], off, s[0:3], s33{{$}}			; FIXEDABI: buffer_load_dword [[RELOAD_BYVAL:v[0-9]+]], off, s[0:3], s33{{$}}

	; FIXED-ABI-NOT: v31			; FIXED-ABI-NOT: v31
	; FIXEDABI: buffer_store_dword [[RELOAD_BYVAL]], off, s[0:3], s32 offset:4{{$}}			; FIXEDABI: buffer_store_dword [[RELOAD_BYVAL]], off, s[0:3], s32 offset:4{{$}}
	; FIXED-ABI-NOT: v31			; FIXED-ABI-NOT: v31
	; FIXEDABI: s_swappc_b64			; FIXEDABI: s_swappc_b64
	define void @func_call_too_many_args_use_workitem_id_x_byval() #1 {			define void @func_call_too_many_args_use_workitem_id_x_byval() #1 {
	▲ Show 20 Lines • Show All 217 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fshr.ll

	Show First 20 Lines • Show All 1,358 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_and_b32_e32 v10, 0xffffff, v10			; GFX9-NEXT: v_and_b32_e32 v10, 0xffffff, v10
	; GFX9-NEXT: v_lshl_or_b32 v5, v5, v7, v6			; GFX9-NEXT: v_lshl_or_b32 v5, v5, v7, v6
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v5, v8, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v5, v8, vcc
	; GFX9-NEXT: v_lshl_or_b32 v3, v3, v10, v9			; GFX9-NEXT: v_lshl_or_b32 v3, v3, v10, v9
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v4, vcc
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v2
	; GFX9-NEXT: buffer_store_byte_d16_hi v2, v0, s[0:3], 0 offen offset:5
	; GFX9-NEXT: buffer_store_byte v3, v0, s[0:3], 0 offen offset:4
	; GFX9-NEXT: buffer_store_byte v2, v0, s[0:3], 0 offen offset:3			; GFX9-NEXT: buffer_store_byte v2, v0, s[0:3], 0 offen offset:3
	; GFX9-NEXT: buffer_store_byte_d16_hi v1, v0, s[0:3], 0 offen offset:2			; GFX9-NEXT: buffer_store_byte_d16_hi v1, v0, s[0:3], 0 offen offset:2
	; GFX9-NEXT: buffer_store_short v1, v0, s[0:3], 0 offen			; GFX9-NEXT: buffer_store_short v1, v0, s[0:3], 0 offen
				; GFX9-NEXT: buffer_store_byte_d16_hi v2, v0, s[0:3], 0 offen offset:5
				; GFX9-NEXT: buffer_store_byte v3, v0, s[0:3], 0 offen offset:4
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; R600-LABEL: v_fshr_v2i24:			; R600-LABEL: v_fshr_v2i24:
	; R600: ; %bb.0:			; R600: ; %bb.0:
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	; R600-NEXT: PAD			; R600-NEXT: PAD
	%ret = call <2 x i24> @llvm.fshr.v2i24(<2 x i24> %src0, <2 x i24> %src1, <2 x i24> %src2)			%ret = call <2 x i24> @llvm.fshr.v2i24(<2 x i24> %src0, <2 x i24> %src1, <2 x i24> %src2)
	ret <2 x i24> %ret			ret <2 x i24> %ret
	}			}

llvm/test/CodeGen/AMDGPU/half.ll

	Show First 20 Lines • Show All 306 Lines • ▼ Show 20 Lines
	; GCN: flat_load_dwordx4			; GCN: flat_load_dwordx4
	; GCN: flat_load_dwordx4			; GCN: flat_load_dwordx4

	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
				; SI: v_cvt_f32_f16_e32

	; GCN: flat_store_dwordx4			; GCN: flat_store_dwordx4

	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32

	; VI: v_cvt_f32_f16_e32			; VI: v_cvt_f32_f16_e32
	; VI: v_cvt_f32_f16_sdwa			; VI: v_cvt_f32_f16_sdwa


	; GCN: flat_store_dwordx4			; GCN: flat_store_dwordx4
	; GCN: flat_store_dwordx4			; GCN: flat_store_dwordx4
	; GCN: flat_store_dwordx4			; GCN: flat_store_dwordx4
	▲ Show 20 Lines • Show All 305 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/stack-realign.ll

	Show First 20 Lines • Show All 154 Lines • ▼ Show 20 Lines
	; Should use BP to access the incoming stack arguments.			; Should use BP to access the incoming stack arguments.
	; The BP value is saved/restored with a VGPR spill.			; The BP value is saved/restored with a VGPR spill.

	; GCN-LABEL: func_call_align1024_bp_gets_vgpr_spill:			; GCN-LABEL: func_call_align1024_bp_gets_vgpr_spill:
	; GCN: buffer_store_dword [[VGPR_REG:v[0-9]+]], off, s[0:3], s32 offset:1028 ; 4-byte Folded Spill			; GCN: buffer_store_dword [[VGPR_REG:v[0-9]+]], off, s[0:3], s32 offset:1028 ; 4-byte Folded Spill
	; GCN-NEXT: s_mov_b64 exec, s[4:5]			; GCN-NEXT: s_mov_b64 exec, s[4:5]
	; GCN-NEXT: v_writelane_b32 [[VGPR_REG]], s33, 2			; GCN-NEXT: v_writelane_b32 [[VGPR_REG]], s33, 2
	; GCN-NEXT: v_writelane_b32 [[VGPR_REG]], s34, 3			; GCN-NEXT: v_writelane_b32 [[VGPR_REG]], s34, 3
				; GCN: s_mov_b32 s34, s32
	; GCN: s_add_u32 [[SCRATCH_REG:s[0-9]+]], s32, 0xffc0			; GCN: s_add_u32 [[SCRATCH_REG:s[0-9]+]], s32, 0xffc0
	; GCN: s_and_b32 s33, [[SCRATCH_REG]], 0xffff0000			; GCN: s_and_b32 s33, [[SCRATCH_REG]], 0xffff0000

	; GCN: s_mov_b32 s34, s32
	; GCN-NEXT: v_mov_b32_e32 v32, 0

	; GCN: buffer_store_dword v32, off, s[0:3], s33 offset:1024
	; GCN-NEXT: buffer_load_dword v{{[0-9]+}}, off, s[0:3], s34			; GCN-NEXT: buffer_load_dword v{{[0-9]+}}, off, s[0:3], s34
	; GCN-NEXT: s_add_u32 s32, s32, 0x30000			; GCN-NEXT: s_add_u32 s32, s32, 0x30000

				; GCN: v_mov_b32_e32 v33, 0

				; GCN: buffer_store_dword v33, off, s[0:3], s33 offset:1024

	; GCN: buffer_store_dword v{{[0-9]+}}, off, s[0:3], s32			; GCN: buffer_store_dword v{{[0-9]+}}, off, s[0:3], s32
				arsenmUnsubmitted Not Done Reply Inline Actions Looks like an irrelevant change; no problem. I don't see anything missing? arsenm: Looks like an irrelevant change; no problem. I don't see anything missing?
				evandroUnsubmitted Not Done Reply Inline Actions My bad. evandro: My bad.
	; GCN-NEXT: s_swappc_b64 s[30:31], s[4:5]			; GCN-NEXT: s_swappc_b64 s[30:31], s[4:5]

	; GCN: v_readlane_b32 s33, [[VGPR_REG]], 2			; GCN: v_readlane_b32 s33, [[VGPR_REG]], 2
	; GCN-NEXT: s_sub_u32 s32, s32, 0x30000			; GCN-NEXT: s_sub_u32 s32, s32, 0x30000
	; GCN-NEXT: v_readlane_b32 s34, [[VGPR_REG]], 3			; GCN-NEXT: v_readlane_b32 s34, [[VGPR_REG]], 3
	; GCN-NEXT: s_or_saveexec_b64 s[6:7], -1			; GCN-NEXT: s_or_saveexec_b64 s[6:7], -1
	; GCN-NEXT: buffer_load_dword [[VGPR_REG]], off, s[0:3], s32 offset:1028 ; 4-byte Folded Reload			; GCN-NEXT: buffer_load_dword [[VGPR_REG]], off, s[0:3], s32 offset:1028 ; 4-byte Folded Reload
	; GCN-NEXT: s_mov_b64 exec, s[6:7]			; GCN-NEXT: s_mov_b64 exec, s[6:7]
	▲ Show 20 Lines • Show All 80 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/store-weird-sizes.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,HAWAII %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,HAWAII %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,FIJI %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,FIJI %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s

	define void @local_store_i56(i56 addrspace(3)* %ptr, i56 %arg) #0 {			define void @local_store_i56(i56 addrspace(3)* %ptr, i56 %arg) #0 {
	; CIVI-LABEL: local_store_i56:			; CIVI-LABEL: local_store_i56:
	; CIVI: ; %bb.0:			; CIVI: ; %bb.0:
	; CIVI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CIVI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CIVI-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; CIVI-NEXT: s_mov_b32 m0, -1			; CIVI-NEXT: s_mov_b32 m0, -1
	; CIVI-NEXT: ds_write_b8 v0, v3 offset:6
	; CIVI-NEXT: ds_write_b16 v0, v2 offset:4
	; CIVI-NEXT: ds_write_b32 v0, v1			; CIVI-NEXT: ds_write_b32 v0, v1
				; CIVI-NEXT: v_lshrrev_b32_e32 v1, 16, v2
				; CIVI-NEXT: ds_write_b16 v0, v2 offset:4
				; CIVI-NEXT: ds_write_b8 v0, v1 offset:6
	; CIVI-NEXT: s_waitcnt lgkmcnt(0)			; CIVI-NEXT: s_waitcnt lgkmcnt(0)
	; CIVI-NEXT: s_setpc_b64 s[30:31]			; CIVI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: local_store_i56:			; GFX9-LABEL: local_store_i56:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v2 offset:6			; GFX9-NEXT: ds_write_b8_d16_hi v0, v2 offset:6
	; GFX9-NEXT: ds_write_b16 v0, v2 offset:4			; GFX9-NEXT: ds_write_b16 v0, v2 offset:4
	▲ Show 20 Lines • Show All 219 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[Scheduling] Create the missing dependency edges for store cluster
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 283810

llvm/lib/CodeGen/MachineScheduler.cpp

llvm/test/CodeGen/AArch64/aarch64-stp-cluster.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement-stack-lower.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement-stack-lower.ll

llvm/test/CodeGen/AMDGPU/call-argument-types.ll

llvm/test/CodeGen/AMDGPU/callee-special-input-vgprs.ll

llvm/test/CodeGen/AMDGPU/fshr.ll

llvm/test/CodeGen/AMDGPU/half.ll

llvm/test/CodeGen/AMDGPU/stack-realign.ll

llvm/test/CodeGen/AMDGPU/store-weird-sizes.ll

This is an archive of the discontinued LLVM Phabricator instance.

[Scheduling] Create the missing dependency edges for store clusterClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 283810

llvm/lib/CodeGen/MachineScheduler.cpp

llvm/test/CodeGen/AArch64/aarch64-stp-cluster.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement-stack-lower.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement-stack-lower.ll

llvm/test/CodeGen/AMDGPU/call-argument-types.ll

llvm/test/CodeGen/AMDGPU/callee-special-input-vgprs.ll

llvm/test/CodeGen/AMDGPU/fshr.ll

llvm/test/CodeGen/AMDGPU/half.ll

llvm/test/CodeGen/AMDGPU/stack-realign.ll

llvm/test/CodeGen/AMDGPU/store-weird-sizes.ll

[Scheduling] Create the missing dependency edges for store cluster
ClosedPublic