Diff 470743

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,898 Lines • ▼ Show 20 Lines	if (!TLI.findOptimalMemOpLowering(
SrcPtrInfo.getAddrSpace(), MF.getFunction().getAttributes()))		SrcPtrInfo.getAddrSpace(), MF.getFunction().getAttributes()))
return SDValue();		return SDValue();

if (DstAlignCanChange) {		if (DstAlignCanChange) {
Type *Ty = MemOps[0].getTypeForEVT(C);		Type *Ty = MemOps[0].getTypeForEVT(C);
Align NewAlign = DL.getABITypeAlign(Ty);		Align NewAlign = DL.getABITypeAlign(Ty);

// Don't promote to an alignment that would require dynamic stack		// Don't promote to an alignment that would require dynamic stack
// realignment.		// realignment which may conflict with optimizations such as tail call
		// optimization.
const TargetRegisterInfo *TRI = MF.getSubtarget().getRegisterInfo();		const TargetRegisterInfo *TRI = MF.getSubtarget().getRegisterInfo();
if (!TRI->hasStackRealignment(MF))		if (!TRI->hasStackRealignment(MF))
while (NewAlign > Alignment && DL.exceedsNaturalStackAlignment(NewAlign))		while (NewAlign > Alignment && DL.exceedsNaturalStackAlignment(NewAlign))
NewAlign = NewAlign.previous();		NewAlign = NewAlign.previous();

if (NewAlign > Alignment) {		if (NewAlign > Alignment) {
// Give the stack frame object a larger alignment if needed.		// Give the stack frame object a larger alignment if needed.
if (MFI.getObjectAlign(FI->getIndex()) < NewAlign)		if (MFI.getObjectAlign(FI->getIndex()) < NewAlign)
▲ Show 20 Lines • Show All 175 Lines • ▼ Show 20 Lines	if (!TLI.findOptimalMemOpLowering(
/IsVolatile/ true),		/IsVolatile/ true),
DstPtrInfo.getAddrSpace(), SrcPtrInfo.getAddrSpace(),		DstPtrInfo.getAddrSpace(), SrcPtrInfo.getAddrSpace(),
MF.getFunction().getAttributes()))		MF.getFunction().getAttributes()))
return SDValue();		return SDValue();

if (DstAlignCanChange) {		if (DstAlignCanChange) {
Type *Ty = MemOps[0].getTypeForEVT(C);		Type *Ty = MemOps[0].getTypeForEVT(C);
Align NewAlign = DL.getABITypeAlign(Ty);		Align NewAlign = DL.getABITypeAlign(Ty);

		// Don't promote to an alignment that would require dynamic stack
		LuoYuankeUnsubmitted Done Reply Inline Actions Maybe explain the conflict with tail call optimization in the comments as well. LuoYuanke: Maybe explain the conflict with tail call optimization in the comments as well.
		// realignment which may conflict with optimizations such as tail call
		// optimization.
		const TargetRegisterInfo *TRI = MF.getSubtarget().getRegisterInfo();
		if (!TRI->hasStackRealignment(MF))
		while (NewAlign > Alignment && DL.exceedsNaturalStackAlignment(NewAlign))
		NewAlign = NewAlign.previous();

if (NewAlign > Alignment) {		if (NewAlign > Alignment) {
// Give the stack frame object a larger alignment if needed.		// Give the stack frame object a larger alignment if needed.
if (MFI.getObjectAlign(FI->getIndex()) < NewAlign)		if (MFI.getObjectAlign(FI->getIndex()) < NewAlign)
MFI.setObjectAlignment(FI->getIndex(), NewAlign);		MFI.setObjectAlignment(FI->getIndex(), NewAlign);
Alignment = NewAlign;		Alignment = NewAlign;
}		}
}		}

▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines	static SDValue getMemsetStores(SelectionDAG &DAG, const SDLoc &dl,
if (!TLI.findOptimalMemOpLowering(		if (!TLI.findOptimalMemOpLowering(
MemOps, Limit,		MemOps, Limit,
MemOp::Set(Size, DstAlignCanChange, Alignment, IsZeroVal, isVol),		MemOp::Set(Size, DstAlignCanChange, Alignment, IsZeroVal, isVol),
DstPtrInfo.getAddrSpace(), ~0u, MF.getFunction().getAttributes()))		DstPtrInfo.getAddrSpace(), ~0u, MF.getFunction().getAttributes()))
return SDValue();		return SDValue();

if (DstAlignCanChange) {		if (DstAlignCanChange) {
Type Ty = MemOps[0].getTypeForEVT(DAG.getContext());		Type Ty = MemOps[0].getTypeForEVT(DAG.getContext());
Align NewAlign = DAG.getDataLayout().getABITypeAlign(Ty);		const DataLayout &DL = DAG.getDataLayout();
		Align NewAlign = DL.getABITypeAlign(Ty);

		// Don't promote to an alignment that would require dynamic stack
		// realignment which may conflict with optimizations such as tail call
		// optimization.
		const TargetRegisterInfo *TRI = MF.getSubtarget().getRegisterInfo();
		if (!TRI->hasStackRealignment(MF))
		while (NewAlign > Alignment && DL.exceedsNaturalStackAlignment(NewAlign))
		NewAlign = NewAlign.previous();

if (NewAlign > Alignment) {		if (NewAlign > Alignment) {
// Give the stack frame object a larger alignment if needed.		// Give the stack frame object a larger alignment if needed.
if (MFI.getObjectAlign(FI->getIndex()) < NewAlign)		if (MFI.getObjectAlign(FI->getIndex()) < NewAlign)
MFI.setObjectAlignment(FI->getIndex(), NewAlign);		MFI.setObjectAlignment(FI->getIndex(), NewAlign);
Alignment = NewAlign;		Alignment = NewAlign;
}		}
}		}

▲ Show 20 Lines • Show All 4,872 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/flat-scratch.ll

	Show All 16 Lines
	; GFX9-NEXT: s_mov_b32 s1, s0			; GFX9-NEXT: s_mov_b32 s1, s0
	; GFX9-NEXT: s_mov_b32 s2, s0			; GFX9-NEXT: s_mov_b32 s2, s0
	; GFX9-NEXT: s_mov_b32 s3, s0			; GFX9-NEXT: s_mov_b32 s3, s0
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: v_mov_b32_e32 v3, s3			; GFX9-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:64			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:52
	; GFX9-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:36
	; GFX9-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:20
	; GFX9-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:4
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: zero_init_kernel:			; GFX10-LABEL: zero_init_kernel:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_add_u32 s0, s0, s3			; GFX10-NEXT: s_add_u32 s0, s0, s3
	; GFX10-NEXT: s_addc_u32 s1, s1, 0			; GFX10-NEXT: s_addc_u32 s1, s1, 0
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s0			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s0
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s1			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s1
	; GFX10-NEXT: s_mov_b32 s0, 0			; GFX10-NEXT: s_mov_b32 s0, 0
	; GFX10-NEXT: s_mov_b32 s1, s0			; GFX10-NEXT: s_mov_b32 s1, s0
	; GFX10-NEXT: s_mov_b32 s2, s0			; GFX10-NEXT: s_mov_b32 s2, s0
	; GFX10-NEXT: s_mov_b32 s3, s0			; GFX10-NEXT: s_mov_b32 s3, s0
	; GFX10-NEXT: v_mov_b32_e32 v0, s0			; GFX10-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: v_mov_b32_e32 v2, s2			; GFX10-NEXT: v_mov_b32_e32 v2, s2
	; GFX10-NEXT: v_mov_b32_e32 v3, s3			; GFX10-NEXT: v_mov_b32_e32 v3, s3
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:64			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:52
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:48			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:36
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:32			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:20
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:16			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:4
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: zero_init_kernel:			; GFX11-LABEL: zero_init_kernel:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_mov_b32 s0, 0			; GFX11-NEXT: s_mov_b32 s0, 0
	; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)			; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GFX11-NEXT: s_mov_b32 s1, s0			; GFX11-NEXT: s_mov_b32 s1, s0
	; GFX11-NEXT: s_mov_b32 s2, s0			; GFX11-NEXT: s_mov_b32 s2, s0
	; GFX11-NEXT: s_mov_b32 s3, s0			; GFX11-NEXT: s_mov_b32 s3, s0
	; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; GFX11-NEXT: s_clause 0x3			; GFX11-NEXT: s_clause 0x3
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:64			; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:52
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:48			; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:36
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:32			; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:20
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:16			; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:4
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	;			;
	; GFX9-PAL-LABEL: zero_init_kernel:			; GFX9-PAL-LABEL: zero_init_kernel:
	; GFX9-PAL: ; %bb.0:			; GFX9-PAL: ; %bb.0:
	; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]			; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]
	; GFX9-PAL-NEXT: s_mov_b32 s2, s0			; GFX9-PAL-NEXT: s_mov_b32 s2, s0
	; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0			; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
	; GFX9-PAL-NEXT: s_mov_b32 s0, 0			; GFX9-PAL-NEXT: s_mov_b32 s0, 0
	; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff			; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff
	; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1			; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1
	; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0			; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0
	; GFX9-PAL-NEXT: s_mov_b32 s1, s0			; GFX9-PAL-NEXT: s_mov_b32 s1, s0
	; GFX9-PAL-NEXT: s_mov_b32 s2, s0			; GFX9-PAL-NEXT: s_mov_b32 s2, s0
	; GFX9-PAL-NEXT: s_mov_b32 s3, s0			; GFX9-PAL-NEXT: s_mov_b32 s3, s0
	; GFX9-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX9-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX9-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:64			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:52
	; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:36
	; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:20
	; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:4
	; GFX9-PAL-NEXT: s_endpgm			; GFX9-PAL-NEXT: s_endpgm
	;			;
	; GFX940-LABEL: zero_init_kernel:			; GFX940-LABEL: zero_init_kernel:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_mov_b32 s0, 0			; GFX940-NEXT: s_mov_b32 s0, 0
	; GFX940-NEXT: s_mov_b32 s1, s0			; GFX940-NEXT: s_mov_b32 s1, s0
	; GFX940-NEXT: s_mov_b32 s2, s0			; GFX940-NEXT: s_mov_b32 s2, s0
	; GFX940-NEXT: s_mov_b32 s3, s0			; GFX940-NEXT: s_mov_b32 s3, s0
	; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]			; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
	; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[2:3]			; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[2:3]
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:64			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:52
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:48			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:36
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:32			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:20
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:16			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:4
	; GFX940-NEXT: s_endpgm			; GFX940-NEXT: s_endpgm
	;			;
	; GFX1010-PAL-LABEL: zero_init_kernel:			; GFX1010-PAL-LABEL: zero_init_kernel:
	; GFX1010-PAL: ; %bb.0:			; GFX1010-PAL: ; %bb.0:
	; GFX1010-PAL-NEXT: s_getpc_b64 s[2:3]			; GFX1010-PAL-NEXT: s_getpc_b64 s[2:3]
	; GFX1010-PAL-NEXT: s_mov_b32 s2, s0			; GFX1010-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1010-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0			; GFX1010-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
	; GFX1010-PAL-NEXT: s_waitcnt lgkmcnt(0)			; GFX1010-PAL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1010-PAL-NEXT: s_and_b32 s3, s3, 0xffff			; GFX1010-PAL-NEXT: s_and_b32 s3, s3, 0xffff
	; GFX1010-PAL-NEXT: s_add_u32 s2, s2, s1			; GFX1010-PAL-NEXT: s_add_u32 s2, s2, s1
	; GFX1010-PAL-NEXT: s_addc_u32 s3, s3, 0			; GFX1010-PAL-NEXT: s_addc_u32 s3, s3, 0
	; GFX1010-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s2			; GFX1010-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s2
	; GFX1010-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s3			; GFX1010-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s3
	; GFX1010-PAL-NEXT: s_mov_b32 s0, 0			; GFX1010-PAL-NEXT: s_mov_b32 s0, 0
	; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0			; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0
	; GFX1010-PAL-NEXT: s_mov_b32 s1, s0			; GFX1010-PAL-NEXT: s_mov_b32 s1, s0
	; GFX1010-PAL-NEXT: s_mov_b32 s2, s0			; GFX1010-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1010-PAL-NEXT: s_mov_b32 s3, s0			; GFX1010-PAL-NEXT: s_mov_b32 s3, s0
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX1010-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX1010-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX1010-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX1010-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:64			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:52
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0			; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:36
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0			; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:20
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0			; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:4
	; GFX1010-PAL-NEXT: s_endpgm			; GFX1010-PAL-NEXT: s_endpgm
	;			;
	; GFX1030-PAL-LABEL: zero_init_kernel:			; GFX1030-PAL-LABEL: zero_init_kernel:
	; GFX1030-PAL: ; %bb.0:			; GFX1030-PAL: ; %bb.0:
	; GFX1030-PAL-NEXT: s_getpc_b64 s[2:3]			; GFX1030-PAL-NEXT: s_getpc_b64 s[2:3]
	; GFX1030-PAL-NEXT: s_mov_b32 s2, s0			; GFX1030-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1030-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0			; GFX1030-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
	; GFX1030-PAL-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-PAL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-PAL-NEXT: s_and_b32 s3, s3, 0xffff			; GFX1030-PAL-NEXT: s_and_b32 s3, s3, 0xffff
	; GFX1030-PAL-NEXT: s_add_u32 s2, s2, s1			; GFX1030-PAL-NEXT: s_add_u32 s2, s2, s1
	; GFX1030-PAL-NEXT: s_addc_u32 s3, s3, 0			; GFX1030-PAL-NEXT: s_addc_u32 s3, s3, 0
	; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s2			; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s2
	; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s3			; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s3
	; GFX1030-PAL-NEXT: s_mov_b32 s0, 0			; GFX1030-PAL-NEXT: s_mov_b32 s0, 0
	; GFX1030-PAL-NEXT: s_mov_b32 s1, s0			; GFX1030-PAL-NEXT: s_mov_b32 s1, s0
	; GFX1030-PAL-NEXT: s_mov_b32 s2, s0			; GFX1030-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1030-PAL-NEXT: s_mov_b32 s3, s0			; GFX1030-PAL-NEXT: s_mov_b32 s3, s0
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX1030-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX1030-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX1030-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX1030-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:64			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:52
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:48			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:36
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:32			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:20
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:16			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:4
	; GFX1030-PAL-NEXT: s_endpgm			; GFX1030-PAL-NEXT: s_endpgm
	;			;
	; GFX11-PAL-LABEL: zero_init_kernel:			; GFX11-PAL-LABEL: zero_init_kernel:
	; GFX11-PAL: ; %bb.0:			; GFX11-PAL: ; %bb.0:
	; GFX11-PAL-NEXT: s_mov_b32 s0, 0			; GFX11-PAL-NEXT: s_mov_b32 s0, 0
	; GFX11-PAL-NEXT: s_delay_alu instid0(SALU_CYCLE_1)			; GFX11-PAL-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GFX11-PAL-NEXT: s_mov_b32 s1, s0			; GFX11-PAL-NEXT: s_mov_b32 s1, s0
	; GFX11-PAL-NEXT: s_mov_b32 s2, s0			; GFX11-PAL-NEXT: s_mov_b32 s2, s0
	; GFX11-PAL-NEXT: s_mov_b32 s3, s0			; GFX11-PAL-NEXT: s_mov_b32 s3, s0
	; GFX11-PAL-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; GFX11-PAL-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-PAL-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; GFX11-PAL-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; GFX11-PAL-NEXT: s_clause 0x3			; GFX11-PAL-NEXT: s_clause 0x3
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:64			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:52
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:48			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:36
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:32			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:20
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:16			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:4
	; GFX11-PAL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-PAL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-PAL-NEXT: s_endpgm			; GFX11-PAL-NEXT: s_endpgm
	%alloca = alloca [32 x i16], align 2, addrspace(5)			%alloca = alloca [32 x i16], align 2, addrspace(5)
	%cast = bitcast [32 x i16] addrspace(5)* %alloca to i8 addrspace(5)*			%cast = bitcast [32 x i16] addrspace(5)* %alloca to i8 addrspace(5)*
	call void @llvm.memset.p5i8.i64(i8 addrspace(5)* align 2 dereferenceable(64) %cast, i8 0, i64 64, i1 false)			call void @llvm.memset.p5i8.i64(i8 addrspace(5)* align 2 dereferenceable(64) %cast, i8 0, i64 64, i1 false)
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 787 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s1, s0			; GFX9-NEXT: s_mov_b32 s1, s0
	; GFX9-NEXT: s_mov_b32 s2, s0			; GFX9-NEXT: s_mov_b32 s2, s0
	; GFX9-NEXT: s_mov_b32 s3, s0			; GFX9-NEXT: s_mov_b32 s3, s0
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: v_mov_b32_e32 v3, s3			; GFX9-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:272			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:260
	; GFX9-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:288			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:276
	; GFX9-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:304			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:292
	; GFX9-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:320			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:308
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: zero_init_small_offset_kernel:			; GFX10-LABEL: zero_init_small_offset_kernel:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_add_u32 s0, s0, s3			; GFX10-NEXT: s_add_u32 s0, s0, s3
	; GFX10-NEXT: s_addc_u32 s1, s1, 0			; GFX10-NEXT: s_addc_u32 s1, s1, 0
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s0			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s0
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s1			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s1
	; GFX10-NEXT: scratch_load_dword v0, off, off offset:4 glc dlc			; GFX10-NEXT: scratch_load_dword v0, off, off offset:4 glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: s_mov_b32 s0, 0			; GFX10-NEXT: s_mov_b32 s0, 0
	; GFX10-NEXT: s_mov_b32 s1, s0			; GFX10-NEXT: s_mov_b32 s1, s0
	; GFX10-NEXT: s_mov_b32 s2, s0			; GFX10-NEXT: s_mov_b32 s2, s0
	; GFX10-NEXT: s_mov_b32 s3, s0			; GFX10-NEXT: s_mov_b32 s3, s0
	; GFX10-NEXT: v_mov_b32_e32 v0, s0			; GFX10-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: v_mov_b32_e32 v2, s2			; GFX10-NEXT: v_mov_b32_e32 v2, s2
	; GFX10-NEXT: v_mov_b32_e32 v3, s3			; GFX10-NEXT: v_mov_b32_e32 v3, s3
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:272			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:260
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:288			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:276
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:304			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:292
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:320			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:308
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: zero_init_small_offset_kernel:			; GFX11-LABEL: zero_init_small_offset_kernel:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: scratch_load_b32 v0, off, off offset:4 glc dlc			; GFX11-NEXT: scratch_load_b32 v0, off, off offset:4 glc dlc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_mov_b32 s0, 0			; GFX11-NEXT: s_mov_b32 s0, 0
	; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)			; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GFX11-NEXT: s_mov_b32 s1, s0			; GFX11-NEXT: s_mov_b32 s1, s0
	; GFX11-NEXT: s_mov_b32 s2, s0			; GFX11-NEXT: s_mov_b32 s2, s0
	; GFX11-NEXT: s_mov_b32 s3, s0			; GFX11-NEXT: s_mov_b32 s3, s0
	; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; GFX11-NEXT: s_clause 0x3			; GFX11-NEXT: s_clause 0x3
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:272			; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:260
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:288			; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:276
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:304			; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:292
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:320			; GFX11-NEXT: scratch_store_b128 off, v[0:3], off offset:308
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	;			;
	; GFX9-PAL-LABEL: zero_init_small_offset_kernel:			; GFX9-PAL-LABEL: zero_init_small_offset_kernel:
	; GFX9-PAL: ; %bb.0:			; GFX9-PAL: ; %bb.0:
	; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]			; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]
	; GFX9-PAL-NEXT: s_mov_b32 s2, s0			; GFX9-PAL-NEXT: s_mov_b32 s2, s0
	; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0			; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
	; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-PAL-NEXT: s_mov_b32 s0, 0			; GFX9-PAL-NEXT: s_mov_b32 s0, 0
	; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff			; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff
	; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1			; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1
	; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0			; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0
	; GFX9-PAL-NEXT: scratch_load_dword v0, off, vcc_hi offset:4 glc			; GFX9-PAL-NEXT: scratch_load_dword v0, off, vcc_hi offset:4 glc
	; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-PAL-NEXT: s_mov_b32 s1, s0			; GFX9-PAL-NEXT: s_mov_b32 s1, s0
	; GFX9-PAL-NEXT: s_mov_b32 s2, s0			; GFX9-PAL-NEXT: s_mov_b32 s2, s0
	; GFX9-PAL-NEXT: s_mov_b32 s3, s0			; GFX9-PAL-NEXT: s_mov_b32 s3, s0
	; GFX9-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX9-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX9-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:272			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:260
	; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:288			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:276
	; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:304			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:292
	; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:320			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:308
	; GFX9-PAL-NEXT: s_endpgm			; GFX9-PAL-NEXT: s_endpgm
	;			;
	; GFX940-LABEL: zero_init_small_offset_kernel:			; GFX940-LABEL: zero_init_small_offset_kernel:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: scratch_load_dword v0, off, off offset:4 sc0 sc1			; GFX940-NEXT: scratch_load_dword v0, off, off offset:4 sc0 sc1
	; GFX940-NEXT: s_waitcnt vmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0)
	; GFX940-NEXT: s_mov_b32 s0, 0			; GFX940-NEXT: s_mov_b32 s0, 0
	; GFX940-NEXT: s_mov_b32 s1, s0			; GFX940-NEXT: s_mov_b32 s1, s0
	; GFX940-NEXT: s_mov_b32 s2, s0			; GFX940-NEXT: s_mov_b32 s2, s0
	; GFX940-NEXT: s_mov_b32 s3, s0			; GFX940-NEXT: s_mov_b32 s3, s0
	; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]			; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
	; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[2:3]			; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[2:3]
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:272			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:260
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:288			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:276
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:304			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:292
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:320			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:308
	; GFX940-NEXT: s_endpgm			; GFX940-NEXT: s_endpgm
	;			;
	; GFX1010-PAL-LABEL: zero_init_small_offset_kernel:			; GFX1010-PAL-LABEL: zero_init_small_offset_kernel:
	; GFX1010-PAL: ; %bb.0:			; GFX1010-PAL: ; %bb.0:
	; GFX1010-PAL-NEXT: s_getpc_b64 s[2:3]			; GFX1010-PAL-NEXT: s_getpc_b64 s[2:3]
	; GFX1010-PAL-NEXT: s_mov_b32 s2, s0			; GFX1010-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1010-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0			; GFX1010-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
	; GFX1010-PAL-NEXT: s_waitcnt lgkmcnt(0)			; GFX1010-PAL-NEXT: s_waitcnt lgkmcnt(0)
	Show All 9 Lines
	; GFX1010-PAL-NEXT: s_mov_b32 s1, s0			; GFX1010-PAL-NEXT: s_mov_b32 s1, s0
	; GFX1010-PAL-NEXT: s_mov_b32 s2, s0			; GFX1010-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1010-PAL-NEXT: s_mov_b32 s3, s0			; GFX1010-PAL-NEXT: s_mov_b32 s3, s0
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX1010-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX1010-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX1010-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX1010-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0			; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:272			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:260
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0			; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:288			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:276
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0			; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:304			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:292
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0			; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:320			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:308
	; GFX1010-PAL-NEXT: s_endpgm			; GFX1010-PAL-NEXT: s_endpgm
	;			;
	; GFX1030-PAL-LABEL: zero_init_small_offset_kernel:			; GFX1030-PAL-LABEL: zero_init_small_offset_kernel:
	; GFX1030-PAL: ; %bb.0:			; GFX1030-PAL: ; %bb.0:
	; GFX1030-PAL-NEXT: s_getpc_b64 s[2:3]			; GFX1030-PAL-NEXT: s_getpc_b64 s[2:3]
	; GFX1030-PAL-NEXT: s_mov_b32 s2, s0			; GFX1030-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1030-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0			; GFX1030-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
	; GFX1030-PAL-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-PAL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-PAL-NEXT: s_and_b32 s3, s3, 0xffff			; GFX1030-PAL-NEXT: s_and_b32 s3, s3, 0xffff
	; GFX1030-PAL-NEXT: s_add_u32 s2, s2, s1			; GFX1030-PAL-NEXT: s_add_u32 s2, s2, s1
	; GFX1030-PAL-NEXT: s_addc_u32 s3, s3, 0			; GFX1030-PAL-NEXT: s_addc_u32 s3, s3, 0
	; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s2			; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s2
	; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s3			; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s3
	; GFX1030-PAL-NEXT: scratch_load_dword v0, off, off offset:4 glc dlc			; GFX1030-PAL-NEXT: scratch_load_dword v0, off, off offset:4 glc dlc
	; GFX1030-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX1030-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX1030-PAL-NEXT: s_mov_b32 s0, 0			; GFX1030-PAL-NEXT: s_mov_b32 s0, 0
	; GFX1030-PAL-NEXT: s_mov_b32 s1, s0			; GFX1030-PAL-NEXT: s_mov_b32 s1, s0
	; GFX1030-PAL-NEXT: s_mov_b32 s2, s0			; GFX1030-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1030-PAL-NEXT: s_mov_b32 s3, s0			; GFX1030-PAL-NEXT: s_mov_b32 s3, s0
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX1030-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX1030-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX1030-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX1030-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:272			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:260
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:288			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:276
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:304			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:292
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:320			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], off offset:308
	; GFX1030-PAL-NEXT: s_endpgm			; GFX1030-PAL-NEXT: s_endpgm
	;			;
	; GFX11-PAL-LABEL: zero_init_small_offset_kernel:			; GFX11-PAL-LABEL: zero_init_small_offset_kernel:
	; GFX11-PAL: ; %bb.0:			; GFX11-PAL: ; %bb.0:
	; GFX11-PAL-NEXT: scratch_load_b32 v0, off, off offset:4 glc dlc			; GFX11-PAL-NEXT: scratch_load_b32 v0, off, off offset:4 glc dlc
	; GFX11-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX11-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX11-PAL-NEXT: s_mov_b32 s0, 0			; GFX11-PAL-NEXT: s_mov_b32 s0, 0
	; GFX11-PAL-NEXT: s_delay_alu instid0(SALU_CYCLE_1)			; GFX11-PAL-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GFX11-PAL-NEXT: s_mov_b32 s1, s0			; GFX11-PAL-NEXT: s_mov_b32 s1, s0
	; GFX11-PAL-NEXT: s_mov_b32 s2, s0			; GFX11-PAL-NEXT: s_mov_b32 s2, s0
	; GFX11-PAL-NEXT: s_mov_b32 s3, s0			; GFX11-PAL-NEXT: s_mov_b32 s3, s0
	; GFX11-PAL-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; GFX11-PAL-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-PAL-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; GFX11-PAL-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; GFX11-PAL-NEXT: s_clause 0x3			; GFX11-PAL-NEXT: s_clause 0x3
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:272			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:260
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:288			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:276
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:304			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:292
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:320			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], off offset:308
	; GFX11-PAL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-PAL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-PAL-NEXT: s_endpgm			; GFX11-PAL-NEXT: s_endpgm
	%padding = alloca [64 x i32], align 4, addrspace(5)			%padding = alloca [64 x i32], align 4, addrspace(5)
	%alloca = alloca [32 x i16], align 2, addrspace(5)			%alloca = alloca [32 x i16], align 2, addrspace(5)
	%pad_gep = getelementptr inbounds [64 x i32], [64 x i32] addrspace(5)* %padding, i32 0, i32 undef			%pad_gep = getelementptr inbounds [64 x i32], [64 x i32] addrspace(5)* %padding, i32 0, i32 undef
	%pad_load = load volatile i32, i32 addrspace(5)* %pad_gep, align 4			%pad_load = load volatile i32, i32 addrspace(5)* %pad_gep, align 4
	%cast = bitcast [32 x i16] addrspace(5)* %alloca to i8 addrspace(5)*			%cast = bitcast [32 x i16] addrspace(5)* %alloca to i8 addrspace(5)*
	call void @llvm.memset.p5i8.i64(i8 addrspace(5)* align 2 dereferenceable(64) %cast, i8 0, i64 64, i1 false)			call void @llvm.memset.p5i8.i64(i8 addrspace(5)* align 2 dereferenceable(64) %cast, i8 0, i64 64, i1 false)
	▲ Show 20 Lines • Show All 843 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_kernel void @zero_init_large_offset_kernel() {			define amdgpu_kernel void @zero_init_large_offset_kernel() {
	; GFX9-LABEL: zero_init_large_offset_kernel:			; GFX9-LABEL: zero_init_large_offset_kernel:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3			; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3
	; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0			; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0
	; GFX9-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-NEXT: scratch_load_dword v0, off, vcc_hi offset:16 glc			; GFX9-NEXT: scratch_load_dword v0, off, vcc_hi offset:4 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_mov_b32 s0, 0			; GFX9-NEXT: s_mov_b32 s0, 0
	; GFX9-NEXT: s_mov_b32 s1, s0			; GFX9-NEXT: s_mov_b32 s1, s0
	; GFX9-NEXT: s_mov_b32 s2, s0			; GFX9-NEXT: s_mov_b32 s2, s0
	; GFX9-NEXT: s_mov_b32 s3, s0			; GFX9-NEXT: s_mov_b32 s3, s0
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: v_mov_b32_e32 v3, s3			; GFX9-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX9-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi
	; GFX9-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX9-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16
	; GFX9-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX9-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32
	; GFX9-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX9-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: zero_init_large_offset_kernel:			; GFX10-LABEL: zero_init_large_offset_kernel:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_add_u32 s0, s0, s3			; GFX10-NEXT: s_add_u32 s0, s0, s3
	; GFX10-NEXT: s_addc_u32 s1, s1, 0			; GFX10-NEXT: s_addc_u32 s1, s1, 0
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s0			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s0
	; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s1			; GFX10-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s1
	; GFX10-NEXT: scratch_load_dword v0, off, off offset:16 glc dlc			; GFX10-NEXT: scratch_load_dword v0, off, off offset:4 glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: s_mov_b32 s0, 0			; GFX10-NEXT: s_mov_b32 s0, 0
	; GFX10-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX10-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX10-NEXT: s_mov_b32 s1, s0			; GFX10-NEXT: s_mov_b32 s1, s0
	; GFX10-NEXT: s_mov_b32 s2, s0			; GFX10-NEXT: s_mov_b32 s2, s0
	; GFX10-NEXT: s_mov_b32 s3, s0			; GFX10-NEXT: s_mov_b32 s3, s0
	; GFX10-NEXT: v_mov_b32_e32 v0, s0			; GFX10-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: v_mov_b32_e32 v2, s2			; GFX10-NEXT: v_mov_b32_e32 v2, s2
	; GFX10-NEXT: v_mov_b32_e32 v3, s3			; GFX10-NEXT: v_mov_b32_e32 v3, s3
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo
	; GFX10-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX10-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16
	; GFX10-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX10-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32
	; GFX10-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX10-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: zero_init_large_offset_kernel:			; GFX11-LABEL: zero_init_large_offset_kernel:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: scratch_load_b32 v0, off, off offset:16 glc dlc			; GFX11-NEXT: scratch_load_b32 v0, off, off offset:4 glc dlc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_mov_b32 s0, 0			; GFX11-NEXT: s_mov_b32 s0, 0
	; GFX11-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX11-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX11-NEXT: s_mov_b32 s1, s0			; GFX11-NEXT: s_mov_b32 s1, s0
	; GFX11-NEXT: s_mov_b32 s2, s0			; GFX11-NEXT: s_mov_b32 s2, s0
	; GFX11-NEXT: s_mov_b32 s3, s0			; GFX11-NEXT: s_mov_b32 s3, s0
	; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo			; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo
	; GFX11-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX11-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:16			; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:16
	; GFX11-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX11-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:32			; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:32
	; GFX11-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX11-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:48			; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:48
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	;			;
	; GFX9-PAL-LABEL: zero_init_large_offset_kernel:			; GFX9-PAL-LABEL: zero_init_large_offset_kernel:
	; GFX9-PAL: ; %bb.0:			; GFX9-PAL: ; %bb.0:
	; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]			; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]
	; GFX9-PAL-NEXT: s_mov_b32 s2, s0			; GFX9-PAL-NEXT: s_mov_b32 s2, s0
	; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0			; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
	; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0			; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
	; GFX9-PAL-NEXT: s_mov_b32 s0, 0			; GFX9-PAL-NEXT: s_mov_b32 s0, 0
	; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff			; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff
	; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1			; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1
	; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0			; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0
	; GFX9-PAL-NEXT: scratch_load_dword v0, off, vcc_hi offset:16 glc			; GFX9-PAL-NEXT: scratch_load_dword v0, off, vcc_hi offset:4 glc
	; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-PAL-NEXT: s_mov_b32 s1, s0			; GFX9-PAL-NEXT: s_mov_b32 s1, s0
	; GFX9-PAL-NEXT: s_mov_b32 s2, s0			; GFX9-PAL-NEXT: s_mov_b32 s2, s0
	; GFX9-PAL-NEXT: s_mov_b32 s3, s0			; GFX9-PAL-NEXT: s_mov_b32 s3, s0
	; GFX9-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX9-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX9-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-PAL-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX9-PAL-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi
	; GFX9-PAL-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX9-PAL-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16
	; GFX9-PAL-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX9-PAL-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32
	; GFX9-PAL-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX9-PAL-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48
	; GFX9-PAL-NEXT: s_endpgm			; GFX9-PAL-NEXT: s_endpgm
	;			;
	; GFX940-LABEL: zero_init_large_offset_kernel:			; GFX940-LABEL: zero_init_large_offset_kernel:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: scratch_load_dword v0, off, off offset:16 sc0 sc1			; GFX940-NEXT: scratch_load_dword v0, off, off offset:4 sc0 sc1
	; GFX940-NEXT: s_waitcnt vmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0)
	; GFX940-NEXT: s_mov_b32 s0, 0			; GFX940-NEXT: s_mov_b32 s0, 0
	; GFX940-NEXT: s_mov_b32 s1, s0			; GFX940-NEXT: s_mov_b32 s1, s0
	; GFX940-NEXT: s_mov_b32 s2, s0			; GFX940-NEXT: s_mov_b32 s2, s0
	; GFX940-NEXT: s_mov_b32 s3, s0			; GFX940-NEXT: s_mov_b32 s3, s0
	; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]			; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
	; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[2:3]			; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[2:3]
	; GFX940-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX940-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi
	; GFX940-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX940-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16
	; GFX940-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX940-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32
	; GFX940-NEXT: s_movk_i32 vcc_hi, 0x4010			; GFX940-NEXT: s_movk_i32 vcc_hi, 0x4004
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48
	; GFX940-NEXT: s_endpgm			; GFX940-NEXT: s_endpgm
	;			;
	; GFX1010-PAL-LABEL: zero_init_large_offset_kernel:			; GFX1010-PAL-LABEL: zero_init_large_offset_kernel:
	; GFX1010-PAL: ; %bb.0:			; GFX1010-PAL: ; %bb.0:
	; GFX1010-PAL-NEXT: s_getpc_b64 s[2:3]			; GFX1010-PAL-NEXT: s_getpc_b64 s[2:3]
	; GFX1010-PAL-NEXT: s_mov_b32 s2, s0			; GFX1010-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1010-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0			; GFX1010-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
	; GFX1010-PAL-NEXT: s_waitcnt lgkmcnt(0)			; GFX1010-PAL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1010-PAL-NEXT: s_and_b32 s3, s3, 0xffff			; GFX1010-PAL-NEXT: s_and_b32 s3, s3, 0xffff
	; GFX1010-PAL-NEXT: s_add_u32 s2, s2, s1			; GFX1010-PAL-NEXT: s_add_u32 s2, s2, s1
	; GFX1010-PAL-NEXT: s_addc_u32 s3, s3, 0			; GFX1010-PAL-NEXT: s_addc_u32 s3, s3, 0
	; GFX1010-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s2			; GFX1010-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s2
	; GFX1010-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s3			; GFX1010-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s3
	; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0			; GFX1010-PAL-NEXT: s_mov_b32 vcc_lo, 0
	; GFX1010-PAL-NEXT: s_mov_b32 s0, 0			; GFX1010-PAL-NEXT: s_mov_b32 s0, 0
	; GFX1010-PAL-NEXT: scratch_load_dword v0, off, vcc_lo offset:16 glc dlc			; GFX1010-PAL-NEXT: scratch_load_dword v0, off, vcc_lo offset:4 glc dlc
	; GFX1010-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX1010-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX1010-PAL-NEXT: s_mov_b32 s1, s0			; GFX1010-PAL-NEXT: s_mov_b32 s1, s0
	; GFX1010-PAL-NEXT: s_mov_b32 s2, s0			; GFX1010-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1010-PAL-NEXT: s_mov_b32 s3, s0			; GFX1010-PAL-NEXT: s_mov_b32 s3, s0
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX1010-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX1010-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX1010-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX1010-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX1010-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX1010-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX1010-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX1010-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX1010-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48
	; GFX1010-PAL-NEXT: s_endpgm			; GFX1010-PAL-NEXT: s_endpgm
	;			;
	; GFX1030-PAL-LABEL: zero_init_large_offset_kernel:			; GFX1030-PAL-LABEL: zero_init_large_offset_kernel:
	; GFX1030-PAL: ; %bb.0:			; GFX1030-PAL: ; %bb.0:
	; GFX1030-PAL-NEXT: s_getpc_b64 s[2:3]			; GFX1030-PAL-NEXT: s_getpc_b64 s[2:3]
	; GFX1030-PAL-NEXT: s_mov_b32 s2, s0			; GFX1030-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1030-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0			; GFX1030-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
	; GFX1030-PAL-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-PAL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-PAL-NEXT: s_and_b32 s3, s3, 0xffff			; GFX1030-PAL-NEXT: s_and_b32 s3, s3, 0xffff
	; GFX1030-PAL-NEXT: s_add_u32 s2, s2, s1			; GFX1030-PAL-NEXT: s_add_u32 s2, s2, s1
	; GFX1030-PAL-NEXT: s_addc_u32 s3, s3, 0			; GFX1030-PAL-NEXT: s_addc_u32 s3, s3, 0
	; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s2			; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s2
	; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s3			; GFX1030-PAL-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s3
	; GFX1030-PAL-NEXT: scratch_load_dword v0, off, off offset:16 glc dlc			; GFX1030-PAL-NEXT: scratch_load_dword v0, off, off offset:4 glc dlc
	; GFX1030-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX1030-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX1030-PAL-NEXT: s_mov_b32 s0, 0			; GFX1030-PAL-NEXT: s_mov_b32 s0, 0
	; GFX1030-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX1030-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX1030-PAL-NEXT: s_mov_b32 s1, s0			; GFX1030-PAL-NEXT: s_mov_b32 s1, s0
	; GFX1030-PAL-NEXT: s_mov_b32 s2, s0			; GFX1030-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1030-PAL-NEXT: s_mov_b32 s3, s0			; GFX1030-PAL-NEXT: s_mov_b32 s3, s0
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX1030-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX1030-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX1030-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX1030-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo
	; GFX1030-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX1030-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16
	; GFX1030-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX1030-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32
	; GFX1030-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX1030-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48
	; GFX1030-PAL-NEXT: s_endpgm			; GFX1030-PAL-NEXT: s_endpgm
	;			;
	; GFX11-PAL-LABEL: zero_init_large_offset_kernel:			; GFX11-PAL-LABEL: zero_init_large_offset_kernel:
	; GFX11-PAL: ; %bb.0:			; GFX11-PAL: ; %bb.0:
	; GFX11-PAL-NEXT: scratch_load_b32 v0, off, off offset:16 glc dlc			; GFX11-PAL-NEXT: scratch_load_b32 v0, off, off offset:4 glc dlc
	; GFX11-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX11-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX11-PAL-NEXT: s_mov_b32 s0, 0			; GFX11-PAL-NEXT: s_mov_b32 s0, 0
	; GFX11-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX11-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX11-PAL-NEXT: s_mov_b32 s1, s0			; GFX11-PAL-NEXT: s_mov_b32 s1, s0
	; GFX11-PAL-NEXT: s_mov_b32 s2, s0			; GFX11-PAL-NEXT: s_mov_b32 s2, s0
	; GFX11-PAL-NEXT: s_mov_b32 s3, s0			; GFX11-PAL-NEXT: s_mov_b32 s3, s0
	; GFX11-PAL-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; GFX11-PAL-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-PAL-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; GFX11-PAL-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo
	; GFX11-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX11-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:16			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:16
	; GFX11-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX11-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:32			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:32
	; GFX11-PAL-NEXT: s_movk_i32 vcc_lo, 0x4010			; GFX11-PAL-NEXT: s_movk_i32 vcc_lo, 0x4004
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:48			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:48
	; GFX11-PAL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-PAL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-PAL-NEXT: s_endpgm			; GFX11-PAL-NEXT: s_endpgm
	%padding = alloca [4096 x i32], align 4, addrspace(5)			%padding = alloca [4096 x i32], align 4, addrspace(5)
	%alloca = alloca [32 x i16], align 2, addrspace(5)			%alloca = alloca [32 x i16], align 2, addrspace(5)
	%pad_gep = getelementptr inbounds [4096 x i32], [4096 x i32] addrspace(5)* %padding, i32 0, i32 undef			%pad_gep = getelementptr inbounds [4096 x i32], [4096 x i32] addrspace(5)* %padding, i32 0, i32 undef
	%pad_load = load volatile i32, i32 addrspace(5)* %pad_gep, align 4			%pad_load = load volatile i32, i32 addrspace(5)* %pad_gep, align 4
	%cast = bitcast [32 x i16] addrspace(5)* %alloca to i8 addrspace(5)*			%cast = bitcast [32 x i16] addrspace(5)* %alloca to i8 addrspace(5)*
	call void @llvm.memset.p5i8.i64(i8 addrspace(5)* align 2 dereferenceable(64) %cast, i8 0, i64 64, i1 false)			call void @llvm.memset.p5i8.i64(i8 addrspace(5)* align 2 dereferenceable(64) %cast, i8 0, i64 64, i1 false)
	ret void			ret void
	}			}

	define void @zero_init_large_offset_foo() {			define void @zero_init_large_offset_foo() {
	; GFX9-LABEL: zero_init_large_offset_foo:			; GFX9-LABEL: zero_init_large_offset_foo:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: scratch_load_dword v0, off, s32 offset:16 glc			; GFX9-NEXT: scratch_load_dword v0, off, s32 offset:4 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_mov_b32 s0, 0			; GFX9-NEXT: s_mov_b32 s0, 0
	; GFX9-NEXT: s_mov_b32 s1, s0			; GFX9-NEXT: s_mov_b32 s1, s0
	; GFX9-NEXT: s_mov_b32 s2, s0			; GFX9-NEXT: s_mov_b32 s2, s0
	; GFX9-NEXT: s_mov_b32 s3, s0			; GFX9-NEXT: s_mov_b32 s3, s0
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-NEXT: v_mov_b32_e32 v3, s3			; GFX9-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi
	; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16
	; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32
	; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48			; GFX9-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: zero_init_large_offset_foo:			; GFX10-LABEL: zero_init_large_offset_foo:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: scratch_load_dword v0, off, s32 offset:16 glc dlc			; GFX10-NEXT: scratch_load_dword v0, off, s32 offset:4 glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: s_mov_b32 s0, 0			; GFX10-NEXT: s_mov_b32 s0, 0
	; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX10-NEXT: s_mov_b32 s1, s0			; GFX10-NEXT: s_mov_b32 s1, s0
	; GFX10-NEXT: s_mov_b32 s2, s0			; GFX10-NEXT: s_mov_b32 s2, s0
	; GFX10-NEXT: s_mov_b32 s3, s0			; GFX10-NEXT: s_mov_b32 s3, s0
	; GFX10-NEXT: v_mov_b32_e32 v0, s0			; GFX10-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-NEXT: v_mov_b32_e32 v1, s1			; GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-NEXT: v_mov_b32_e32 v2, s2			; GFX10-NEXT: v_mov_b32_e32 v2, s2
	; GFX10-NEXT: v_mov_b32_e32 v3, s3			; GFX10-NEXT: v_mov_b32_e32 v3, s3
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo
	; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16
	; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32
	; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX10-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48			; GFX10-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: zero_init_large_offset_foo:			; GFX11-LABEL: zero_init_large_offset_foo:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: scratch_load_b32 v0, off, s32 offset:16 glc dlc			; GFX11-NEXT: scratch_load_b32 v0, off, s32 offset:4 glc dlc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_mov_b32 s0, 0			; GFX11-NEXT: s_mov_b32 s0, 0
	; GFX11-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX11-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX11-NEXT: s_mov_b32 s1, s0			; GFX11-NEXT: s_mov_b32 s1, s0
	; GFX11-NEXT: s_mov_b32 s2, s0			; GFX11-NEXT: s_mov_b32 s2, s0
	; GFX11-NEXT: s_mov_b32 s3, s0			; GFX11-NEXT: s_mov_b32 s3, s0
	; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo			; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo
	; GFX11-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX11-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:16			; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:16
	; GFX11-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX11-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:32			; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:32
	; GFX11-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX11-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:48			; GFX11-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:48
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-PAL-LABEL: zero_init_large_offset_foo:			; GFX9-PAL-LABEL: zero_init_large_offset_foo:
	; GFX9-PAL: ; %bb.0:			; GFX9-PAL: ; %bb.0:
	; GFX9-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-PAL-NEXT: scratch_load_dword v0, off, s32 offset:16 glc			; GFX9-PAL-NEXT: scratch_load_dword v0, off, s32 offset:4 glc
	; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-PAL-NEXT: s_mov_b32 s0, 0			; GFX9-PAL-NEXT: s_mov_b32 s0, 0
	; GFX9-PAL-NEXT: s_mov_b32 s1, s0			; GFX9-PAL-NEXT: s_mov_b32 s1, s0
	; GFX9-PAL-NEXT: s_mov_b32 s2, s0			; GFX9-PAL-NEXT: s_mov_b32 s2, s0
	; GFX9-PAL-NEXT: s_mov_b32 s3, s0			; GFX9-PAL-NEXT: s_mov_b32 s3, s0
	; GFX9-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX9-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX9-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX9-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX9-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX9-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi
	; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16
	; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32
	; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX9-PAL-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48			; GFX9-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48
	; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-PAL-NEXT: s_setpc_b64 s[30:31]			; GFX9-PAL-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX940-LABEL: zero_init_large_offset_foo:			; GFX940-LABEL: zero_init_large_offset_foo:
	; GFX940: ; %bb.0:			; GFX940: ; %bb.0:
	; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX940-NEXT: scratch_load_dword v0, off, s32 offset:16 sc0 sc1			; GFX940-NEXT: scratch_load_dword v0, off, s32 offset:4 sc0 sc1
	; GFX940-NEXT: s_waitcnt vmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0)
	; GFX940-NEXT: s_mov_b32 s0, 0			; GFX940-NEXT: s_mov_b32 s0, 0
	; GFX940-NEXT: s_mov_b32 s1, s0			; GFX940-NEXT: s_mov_b32 s1, s0
	; GFX940-NEXT: s_mov_b32 s2, s0			; GFX940-NEXT: s_mov_b32 s2, s0
	; GFX940-NEXT: s_mov_b32 s3, s0			; GFX940-NEXT: s_mov_b32 s3, s0
	; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]			; GFX940-NEXT: v_mov_b64_e32 v[0:1], s[0:1]
	; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[2:3]			; GFX940-NEXT: v_mov_b64_e32 v[2:3], s[2:3]
	; GFX940-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX940-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi
	; GFX940-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX940-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:16
	; GFX940-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX940-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:32
	; GFX940-NEXT: s_add_i32 vcc_hi, s32, 0x4010			; GFX940-NEXT: s_add_i32 vcc_hi, s32, 0x4004
	; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48			; GFX940-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_hi offset:48
	; GFX940-NEXT: s_waitcnt vmcnt(0)			; GFX940-NEXT: s_waitcnt vmcnt(0)
	; GFX940-NEXT: s_setpc_b64 s[30:31]			; GFX940-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX1010-PAL-LABEL: zero_init_large_offset_foo:			; GFX1010-PAL-LABEL: zero_init_large_offset_foo:
	; GFX1010-PAL: ; %bb.0:			; GFX1010-PAL: ; %bb.0:
	; GFX1010-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX1010-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX1010-PAL-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1010-PAL-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1010-PAL-NEXT: scratch_load_dword v0, off, s32 offset:16 glc dlc			; GFX1010-PAL-NEXT: scratch_load_dword v0, off, s32 offset:4 glc dlc
	; GFX1010-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX1010-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX1010-PAL-NEXT: s_mov_b32 s0, 0			; GFX1010-PAL-NEXT: s_mov_b32 s0, 0
	; GFX1010-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX1010-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX1010-PAL-NEXT: s_mov_b32 s1, s0			; GFX1010-PAL-NEXT: s_mov_b32 s1, s0
	; GFX1010-PAL-NEXT: s_mov_b32 s2, s0			; GFX1010-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1010-PAL-NEXT: s_mov_b32 s3, s0			; GFX1010-PAL-NEXT: s_mov_b32 s3, s0
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX1010-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX1010-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX1010-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX1010-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX1010-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX1010-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX1010-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32
	; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3			; GFX1010-PAL-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1010-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX1010-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48			; GFX1010-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48
	; GFX1010-PAL-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1010-PAL-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1010-PAL-NEXT: s_setpc_b64 s[30:31]			; GFX1010-PAL-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX1030-PAL-LABEL: zero_init_large_offset_foo:			; GFX1030-PAL-LABEL: zero_init_large_offset_foo:
	; GFX1030-PAL: ; %bb.0:			; GFX1030-PAL: ; %bb.0:
	; GFX1030-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX1030-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX1030-PAL-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1030-PAL-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1030-PAL-NEXT: scratch_load_dword v0, off, s32 offset:16 glc dlc			; GFX1030-PAL-NEXT: scratch_load_dword v0, off, s32 offset:4 glc dlc
	; GFX1030-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX1030-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX1030-PAL-NEXT: s_mov_b32 s0, 0			; GFX1030-PAL-NEXT: s_mov_b32 s0, 0
	; GFX1030-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX1030-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX1030-PAL-NEXT: s_mov_b32 s1, s0			; GFX1030-PAL-NEXT: s_mov_b32 s1, s0
	; GFX1030-PAL-NEXT: s_mov_b32 s2, s0			; GFX1030-PAL-NEXT: s_mov_b32 s2, s0
	; GFX1030-PAL-NEXT: s_mov_b32 s3, s0			; GFX1030-PAL-NEXT: s_mov_b32 s3, s0
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v0, s0			; GFX1030-PAL-NEXT: v_mov_b32_e32 v0, s0
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v1, s1			; GFX1030-PAL-NEXT: v_mov_b32_e32 v1, s1
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v2, s2			; GFX1030-PAL-NEXT: v_mov_b32_e32 v2, s2
	; GFX1030-PAL-NEXT: v_mov_b32_e32 v3, s3			; GFX1030-PAL-NEXT: v_mov_b32_e32 v3, s3
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo
	; GFX1030-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX1030-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:16
	; GFX1030-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX1030-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:32
	; GFX1030-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX1030-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48			; GFX1030-PAL-NEXT: scratch_store_dwordx4 off, v[0:3], vcc_lo offset:48
	; GFX1030-PAL-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1030-PAL-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1030-PAL-NEXT: s_setpc_b64 s[30:31]			; GFX1030-PAL-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-PAL-LABEL: zero_init_large_offset_foo:			; GFX11-PAL-LABEL: zero_init_large_offset_foo:
	; GFX11-PAL: ; %bb.0:			; GFX11-PAL: ; %bb.0:
	; GFX11-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-PAL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-PAL-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-PAL-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-PAL-NEXT: scratch_load_b32 v0, off, s32 offset:16 glc dlc			; GFX11-PAL-NEXT: scratch_load_b32 v0, off, s32 offset:4 glc dlc
	; GFX11-PAL-NEXT: s_waitcnt vmcnt(0)			; GFX11-PAL-NEXT: s_waitcnt vmcnt(0)
	; GFX11-PAL-NEXT: s_mov_b32 s0, 0			; GFX11-PAL-NEXT: s_mov_b32 s0, 0
	; GFX11-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX11-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX11-PAL-NEXT: s_mov_b32 s1, s0			; GFX11-PAL-NEXT: s_mov_b32 s1, s0
	; GFX11-PAL-NEXT: s_mov_b32 s2, s0			; GFX11-PAL-NEXT: s_mov_b32 s2, s0
	; GFX11-PAL-NEXT: s_mov_b32 s3, s0			; GFX11-PAL-NEXT: s_mov_b32 s3, s0
	; GFX11-PAL-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; GFX11-PAL-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GFX11-PAL-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; GFX11-PAL-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo
	; GFX11-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX11-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:16			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:16
	; GFX11-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX11-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:32			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:32
	; GFX11-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4010			; GFX11-PAL-NEXT: s_add_i32 vcc_lo, s32, 0x4004
	; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:48			; GFX11-PAL-NEXT: scratch_store_b128 off, v[0:3], vcc_lo offset:48
	; GFX11-PAL-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-PAL-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-PAL-NEXT: s_setpc_b64 s[30:31]			; GFX11-PAL-NEXT: s_setpc_b64 s[30:31]
	%padding = alloca [4096 x i32], align 4, addrspace(5)			%padding = alloca [4096 x i32], align 4, addrspace(5)
	%alloca = alloca [32 x i16], align 2, addrspace(5)			%alloca = alloca [32 x i16], align 2, addrspace(5)
	%pad_gep = getelementptr inbounds [4096 x i32], [4096 x i32] addrspace(5)* %padding, i32 0, i32 undef			%pad_gep = getelementptr inbounds [4096 x i32], [4096 x i32] addrspace(5)* %padding, i32 0, i32 undef
	%pad_load = load volatile i32, i32 addrspace(5)* %pad_gep, align 4			%pad_load = load volatile i32, i32 addrspace(5)* %pad_gep, align 4
	%cast = bitcast [32 x i16] addrspace(5)* %alloca to i8 addrspace(5)*			%cast = bitcast [32 x i16] addrspace(5)* %alloca to i8 addrspace(5)*
	▲ Show 20 Lines • Show All 1,885 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/memset-sse-stack-realignment.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; Make sure that we realign the stack. Mingw32 uses 4 byte stack alignment, we			; Make sure that we realign the stack. Mingw32 uses 4 byte stack alignment, we
	; need 16 bytes for SSE and 32 bytes for AVX.			; need 16 bytes for SSE and 32 bytes for AVX.

	; RUN: llc < %s -mtriple=i386-pc-mingw32 -mcpu=pentium2 \| FileCheck %s --check-prefix=NOSSE			; RUN: llc < %s -mtriple=i386-pc-mingw32 -mcpu=pentium2 \| FileCheck %s --check-prefix=NOSSE
	; RUN: llc < %s -mtriple=i386-pc-mingw32 -mcpu=pentium3 \| FileCheck %s --check-prefix=SSE			; RUN: llc < %s -stackrealign -mtriple=i386-pc-mingw32 -mcpu=pentium3 \| FileCheck %s --check-prefix=SSE
	; RUN: llc < %s -mtriple=i386-pc-mingw32 -mcpu=yonah \| FileCheck %s --check-prefix=SSE			; RUN: llc < %s -stackrealign -mtriple=i386-pc-mingw32 -mcpu=yonah \| FileCheck %s --check-prefix=SSE
	; RUN: llc < %s -mtriple=i386-pc-mingw32 -mcpu=corei7-avx \| FileCheck %s --check-prefix=AVX			; RUN: llc < %s -stackrealign -mtriple=i386-pc-mingw32 -mcpu=corei7-avx \| FileCheck %s --check-prefix=AVX
	; RUN: llc < %s -mtriple=i386-pc-mingw32 -mcpu=core-avx2 \| FileCheck %s --check-prefix=AVX			; RUN: llc < %s -stackrealign -mtriple=i386-pc-mingw32 -mcpu=core-avx2 \| FileCheck %s --check-prefix=AVX

	define void @test1(i32 %t) nounwind {			define void @test1(i32 %t) nounwind {
	; NOSSE-LABEL: test1:			; NOSSE-LABEL: test1:
	; NOSSE: # %bb.0:			; NOSSE: # %bb.0:
	; NOSSE-NEXT: pushl %ebp			; NOSSE-NEXT: pushl %ebp
	; NOSSE-NEXT: movl %esp, %ebp			; NOSSE-NEXT: movl %esp, %ebp
	; NOSSE-NEXT: subl $32, %esp			; NOSSE-NEXT: subl $32, %esp
	; NOSSE-NEXT: movl 8(%ebp), %eax			; NOSSE-NEXT: movl 8(%ebp), %eax
	▲ Show 20 Lines • Show All 144 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/memset.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mcpu=pentium2 -mtriple=i686-apple-darwin8.8.0 \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mcpu=pentium2 -mtriple=i686-apple-darwin8.8.0 \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mcpu=pentium3 -mtriple=i686-apple-darwin8.8.0 \| FileCheck %s --check-prefix=XMM			; RUN: llc < %s -mcpu=pentium3 -mtriple=i686-apple-darwin8.8.0 \| FileCheck %s --check-prefix=XMM
	; RUN: llc < %s -mcpu=bdver1 -mtriple=i686-apple-darwin8.8.0 \| FileCheck %s --check-prefix=YMM			; RUN: llc < %s -mcpu=bdver1 -mtriple=i686-apple-darwin8.8.0 \| FileCheck %s --check-prefix=YMM
				wxiao3Unsubmitted Not Done Reply Inline Actions do we also need to test "-stackrealign" option to make sure vmovaps is generated? wxiao3: do we also need to test "-stackrealign" option to make sure vmovaps is generated?
				HaohaiWenAuthorUnsubmitted Done Reply Inline Actions We have tested aligned memset in llvm/test/CodeGen/X86/memset-inline.ll. ; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=avx,-avx512f \| FileCheck %s --check-prefixes=GPR,AVX define void @aligned_memset_64(ptr align 64 %a, i8 %value) nounwind { ; AVX-LABEL: aligned_memset_64: ; AVX: # %bb.0: ; AVX-NEXT: vmovd %esi, %xmm0 ; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1 ; AVX-NEXT: vpshufb %xmm1, %xmm0, %xmm0 ; AVX-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0 ; AVX-NEXT: vmovaps %ymm0, 32(%rdi) ; AVX-NEXT: vmovaps %ymm0, (%rdi) ; AVX-NEXT: vzeroupper ; AVX-NEXT: retq tail call void @llvm.memset.inline.p0.i64(ptr align 64 %a, i8 %value, i64 64, i1 0) ret void } HaohaiWen: We have tested aligned memset in llvm/test/CodeGen/X86/memset-inline.ll. ``` ; RUN: llc < %s…

	%struct.x = type { i16, i16 }			%struct.x = type { i16, i16 }

	define void @t() nounwind {			define void @t() nounwind {
	; X86-LABEL: t:			; X86-LABEL: t:
	; X86: ## %bb.0: ## %entry			; X86: ## %bb.0: ## %entry
	; X86-NEXT: subl $44, %esp			; X86-NEXT: subl $44, %esp
	; X86-NEXT: movl $0, {{[0-9]+}}(%esp)			; X86-NEXT: movl $0, {{[0-9]+}}(%esp)
	Show All 19 Lines
	; XMM-NEXT: leal {{[0-9]+}}(%esp), %eax			; XMM-NEXT: leal {{[0-9]+}}(%esp), %eax
	; XMM-NEXT: movl %eax, (%esp)			; XMM-NEXT: movl %eax, (%esp)
	; XMM-NEXT: calll _foo			; XMM-NEXT: calll _foo
	; XMM-NEXT: addl $60, %esp			; XMM-NEXT: addl $60, %esp
	; XMM-NEXT: retl			; XMM-NEXT: retl
	;			;
	; YMM-LABEL: t:			; YMM-LABEL: t:
	; YMM: ## %bb.0: ## %entry			; YMM: ## %bb.0: ## %entry
	; YMM-NEXT: pushl %ebp			; YMM-NEXT: subl $60, %esp
	; YMM-NEXT: movl %esp, %ebp
	; YMM-NEXT: andl $-32, %esp
	; YMM-NEXT: subl $96, %esp
	; YMM-NEXT: leal {{[0-9]+}}(%esp), %eax			; YMM-NEXT: leal {{[0-9]+}}(%esp), %eax
	; YMM-NEXT: vxorps %xmm0, %xmm0, %xmm0			; YMM-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; YMM-NEXT: vmovaps %ymm0, {{[0-9]+}}(%esp)			; YMM-NEXT: vmovups %ymm0, {{[0-9]+}}(%esp)
	; YMM-NEXT: movl %eax, (%esp)			; YMM-NEXT: movl %eax, (%esp)
	; YMM-NEXT: vzeroupper			; YMM-NEXT: vzeroupper
	; YMM-NEXT: calll _foo			; YMM-NEXT: calll _foo
	; YMM-NEXT: movl %ebp, %esp			; YMM-NEXT: addl $60, %esp
	; YMM-NEXT: popl %ebp
	; YMM-NEXT: retl			; YMM-NEXT: retl
	entry:			entry:
	%up_mvd = alloca [8 x %struct.x] ; <ptr> [#uses=2]			%up_mvd = alloca [8 x %struct.x] ; <ptr> [#uses=2]
	%up_mvd116 = getelementptr [8 x %struct.x], ptr %up_mvd, i32 0, i32 0 ; <ptr> [#uses=1]			%up_mvd116 = getelementptr [8 x %struct.x], ptr %up_mvd, i32 0, i32 0 ; <ptr> [#uses=1]

	call void @llvm.memset.p0.i64(ptr align 8 %up_mvd, i8 0, i64 32, i1 false)			call void @llvm.memset.p0.i64(ptr align 8 %up_mvd, i8 0, i64 32, i1 false)
	call void @foo( ptr %up_mvd116 ) nounwind			call void @foo( ptr %up_mvd116 ) nounwind
	ret void			ret void
	Show All 39 Lines

llvm/test/CodeGen/X86/pr42064.ll

	; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-pc-windows-msvc19.11.0 -mattr=+avx,+cx16 \| FileCheck %s			; RUN: llc < %s -verify-machineinstrs -stackrealign -mtriple=x86_64-pc-windows-msvc19.11.0 -mattr=+avx,+cx16 \| FileCheck %s
				RKSimonUnsubmitted Not Done Reply Inline Actions Should we be running tests with/without -stackrealign do you think? RKSimon: Should we be running tests with/without -stackrealign do you think?
				HaohaiWenAuthorUnsubmitted Done Reply Inline Actions This is the first commit message. Looks like this tests want rbx to be used as frame pointer. Therefore we should only test -stackrealign. [X86] Defer the creation of LCMPXCHG16B_SAVE_RBX until finalize-isel We need to use LCMPXCHG16B_SAVE_RBX if RBX/EBX is being used as the frame pointer. We previously checked for this during type legalization, but that's too early to know for sure if the base pointer is needed. This patch adds a new pseudo instruction to emit from isel that uses a virtual register for the RBX input. Then we use the custom inserter hook to emit LCMPXCHG16B if RBX isn't needed as a base pointer or LCMPXCHG16B_SAVE_RBX if it is. Fixes PR42064. Reviewed By: pengfei Differential Revision: https://reviews.llvm.org/D88808 HaohaiWen: This is the first commit message. Looks like this tests want rbx to be used as frame pointer.

	%struct.TestStruct = type { %union.Int128 }			%struct.TestStruct = type { %union.Int128 }
	%union.Int128 = type { i128 }			%union.Int128 = type { i128 }
	%struct.SomeArrays = type { %struct.SillyArray, %struct.SillyArray, %struct.SillyArray }			%struct.SomeArrays = type { %struct.SillyArray, %struct.SillyArray, %struct.SillyArray }
	%struct.SillyArray = type { ptr, i32, i32 }			%struct.SillyArray = type { ptr, i32, i32 }

	declare void @llvm.lifetime.start.p0(i64, ptr)			declare void @llvm.lifetime.start.p0(i64, ptr)

	▲ Show 20 Lines • Show All 84 Lines • Show Last 20 Lines

llvm/test/DebugInfo/COFF/frameproc-flags.ll

	Show First 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; CHECK: local fp reg = EBP, param fp reg = EBP			; CHECK: local fp reg = EBP, param fp reg = EBP
	; CHECK: flags = safe buffers \| opt speed			; CHECK: flags = safe buffers \| opt speed
	; CHECK-LABEL: S_GPROC32_ID [size = 52] `use_naked`			; CHECK-LABEL: S_GPROC32_ID [size = 52] `use_naked`
	; CHECK: S_FRAMEPROC [size = 32]			; CHECK: S_FRAMEPROC [size = 32]
	; CHECK: local fp reg = NONE, param fp reg = NONE			; CHECK: local fp reg = NONE, param fp reg = NONE
	; CHECK: flags = has inline asm \| naked \| safe buffers \| opt speed			; CHECK: flags = has inline asm \| naked \| safe buffers \| opt speed
	; CHECK-LABEL: S_GPROC32_ID [size = 52] `stack_guard`			; CHECK-LABEL: S_GPROC32_ID [size = 52] `stack_guard`
	; CHECK: S_FRAMEPROC [size = 32]			; CHECK: S_FRAMEPROC [size = 32]
	; CHECK: local fp reg = VFRAME, param fp reg = EBP			; CHECK: local fp reg = VFRAME, param fp reg = VFRAME
	; CHECK: flags = secure checks \| strict secure checks \| opt speed			; CHECK: flags = secure checks \| strict secure checks \| opt speed

	; ModuleID = 'frameproc-flags.cpp'			; ModuleID = 'frameproc-flags.cpp'
	source_filename = "frameproc-flags.cpp"			source_filename = "frameproc-flags.cpp"
	target datalayout = "e-m:x-p:32:32-i64:64-f80:32-n8:16:32-a:0:32-S32"			target datalayout = "e-m:x-p:32:32-i64:64-f80:32-n8:16:32-a:0:32-S32"
	target triple = "i386-pc-windows-msvc19.14.26433"			target triple = "i386-pc-windows-msvc19.14.26433"

	%struct._jmp_buf_str = type { [2 x i64] }			%struct._jmp_buf_str = type { [2 x i64] }
	▲ Show 20 Lines • Show All 268 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[SelectionDAG] Clamp stack alignment for memset, memmove
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 470743

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

llvm/test/CodeGen/AMDGPU/flat-scratch.ll

llvm/test/CodeGen/X86/memset-sse-stack-realignment.ll

llvm/test/CodeGen/X86/memset.ll

llvm/test/CodeGen/X86/pr42064.ll

llvm/test/DebugInfo/COFF/frameproc-flags.ll

This is an archive of the discontinued LLVM Phabricator instance.

[SelectionDAG] Clamp stack alignment for memset, memmoveClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 470743

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

llvm/test/CodeGen/AMDGPU/flat-scratch.ll

llvm/test/CodeGen/X86/memset-sse-stack-realignment.ll

llvm/test/CodeGen/X86/memset.ll

llvm/test/CodeGen/X86/pr42064.ll

llvm/test/DebugInfo/COFF/frameproc-flags.ll

[SelectionDAG] Clamp stack alignment for memset, memmove
ClosedPublic