This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Fix ds_{read,write}2_b64 on SI/gfx6
AbandonedPublic

Authored by nhaehnle on May 4 2019, 9:48 AM.

Download Raw Diff

Details

Reviewers

arsenm
rampitec

Summary

Offsets for these instructions are in dwords, like for the b32 variants.

This is exposed by a combination of:

better load / store vectorization in LLVM
an in-flight change in Mesa to specify an increased alignment for LDS in compute shaders, which enables more vectorization opportunities

This has been observed on real hardware in the following tests:

dEQP-GLES31.functional.compute.shared_var.basic_type.mat4_{lowp,mediump,highp}
dEQP-GLES31.functional.compute.shared_var.work_group_size.mat4_{64_1_1, 1_64_1, 1_1_64}

Change-Id: I63c20afd1467b126199be2891ab45451b0430103

Diff Detail

Repository

rL LLVM

Build Status

Buildable 31409
Build 31408: arc lint + arc unit

Event Timeline

nhaehnle created this revision.May 4 2019, 9:48 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 4 2019, 9:48 AM

Herald added subscribers: t-tye, tpr, dstuttard and 4 others. · View Herald Transcript

Harbormaster completed remote builds in B31409: Diff 198145.May 4 2019, 9:48 AM

rampitec added inline comments.May 4 2019, 10:15 AM

lib/Target/AMDGPU/SILoadStoreOptimizer.cpp
319	Was it really changed in CI?

arsenm added inline comments.May 4 2019, 2:04 PM

lib/Target/AMDGPU/SILoadStoreOptimizer.cpp
319	I doubt this changed, and the manual for SI and gfx9 plainly state it uses 8. This should also not use a hardcoded generation check if this is really true

After some more investigation, you're right.

However, there is some SI-specific bug that none of D60459, D61313, and D60457 fix. It's triggered by a trivial modification of an unfortunately relatively complex shader and is extremely sensitive to code changes, so it might be some missing hazard or similar. I'll have to investigate that further.

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

SILoadStoreOptimizer.cpp

18 lines

test/

CodeGen/

AMDGPU/

155 lines

39 lines

10 lines

24 lines

Diff 198145

lib/Target/AMDGPU/SILoadStoreOptimizer.cpp

Show First 20 Lines • Show All 152 Lines • ▼ Show 20 Lines
private:		private:
const GCNSubtarget *STM = nullptr;		const GCNSubtarget *STM = nullptr;
const SIInstrInfo *TII = nullptr;		const SIInstrInfo *TII = nullptr;
const SIRegisterInfo *TRI = nullptr;		const SIRegisterInfo *TRI = nullptr;
MachineRegisterInfo *MRI = nullptr;		MachineRegisterInfo *MRI = nullptr;
AliasAnalysis *AA = nullptr;		AliasAnalysis *AA = nullptr;
bool OptimizeAgain;		bool OptimizeAgain;

static bool offsetsCanBeCombined(CombineInfo &CI);		bool offsetsCanBeCombined(CombineInfo &CI);
static bool widthsFit(const GCNSubtarget &STM, const CombineInfo &CI);		static bool widthsFit(const GCNSubtarget &STM, const CombineInfo &CI);
static unsigned getNewOpcode(const CombineInfo &CI);		static unsigned getNewOpcode(const CombineInfo &CI);
static std::pair<unsigned, unsigned> getSubRegIdxs(const CombineInfo &CI);		static std::pair<unsigned, unsigned> getSubRegIdxs(const CombineInfo &CI);
const TargetRegisterClass *getTargetRegisterClass(const CombineInfo &CI);		const TargetRegisterClass *getTargetRegisterClass(const CombineInfo &CI);
unsigned getOpcodeWidth(const MachineInstr &MI);		unsigned getOpcodeWidth(const MachineInstr &MI);
InstClassEnum getInstClass(unsigned Opc);		InstClassEnum getInstClass(unsigned Opc);
unsigned getRegs(unsigned Opc);		unsigned getRegs(unsigned Opc);

▲ Show 20 Lines • Show All 139 Lines • ▼ Show 20 Lines	bool SILoadStoreOptimizer::offsetsCanBeCombined(CombineInfo &CI) {
// be useful?		// be useful?
if (CI.Offset0 == CI.Offset1)		if (CI.Offset0 == CI.Offset1)
return false;		return false;

// This won't be valid if the offset isn't aligned.		// This won't be valid if the offset isn't aligned.
if ((CI.Offset0 % CI.EltSize != 0) \|\| (CI.Offset1 % CI.EltSize != 0))		if ((CI.Offset0 % CI.EltSize != 0) \|\| (CI.Offset1 % CI.EltSize != 0))
return false;		return false;

unsigned EltOffset0 = CI.Offset0 / CI.EltSize;		unsigned OffsetSize = CI.EltSize;
unsigned EltOffset1 = CI.Offset1 / CI.EltSize;		if ((CI.InstClass == DS_READ \|\| CI.InstClass == DS_WRITE) &&
		(OffsetSize == 8 && STM->getGeneration() == AMDGPUSubtarget::SOUTHERN_ISLANDS))
		rampitecUnsubmitted Not Done Reply Inline Actions Was it really changed in CI? rampitec: Was it really changed in CI?
		arsenmUnsubmitted Not Done Reply Inline Actions I doubt this changed, and the manual for SI and gfx9 plainly state it uses 8. This should also not use a hardcoded generation check if this is really true arsenm: I doubt this changed, and the manual for SI and gfx9 plainly state it uses 8. This should also…
		OffsetSize = 4;
		unsigned EltOffset0 = CI.Offset0 / OffsetSize;
		unsigned EltOffset1 = CI.Offset1 / OffsetSize;
CI.UseST64 = false;		CI.UseST64 = false;
CI.BaseOff = 0;		CI.BaseOff = 0;

// Handle SMEM and VMEM instructions.		// Handle SMEM and VMEM instructions.
if ((CI.InstClass != DS_READ) && (CI.InstClass != DS_WRITE)) {		if ((CI.InstClass != DS_READ) && (CI.InstClass != DS_WRITE)) {
return (EltOffset0 + CI.Width0 == EltOffset1 \|\|		return (EltOffset0 + CI.Width0 == EltOffset1 \|\|
EltOffset1 + CI.Width1 == EltOffset0) &&		EltOffset1 + CI.Width1 == EltOffset0) &&
CI.GLC0 == CI.GLC1 &&		CI.GLC0 == CI.GLC1 &&
Show All 17 Lines	if (isUInt<8>(EltOffset0) && isUInt<8>(EltOffset1)) {
return true;		return true;
}		}

// Try to shift base address to decrease offsets.		// Try to shift base address to decrease offsets.
unsigned OffsetDiff = std::abs((int)EltOffset1 - (int)EltOffset0);		unsigned OffsetDiff = std::abs((int)EltOffset1 - (int)EltOffset0);
CI.BaseOff = std::min(CI.Offset0, CI.Offset1);		CI.BaseOff = std::min(CI.Offset0, CI.Offset1);

if ((OffsetDiff % 64 == 0) && isUInt<8>(OffsetDiff / 64)) {		if ((OffsetDiff % 64 == 0) && isUInt<8>(OffsetDiff / 64)) {
CI.Offset0 = (EltOffset0 - CI.BaseOff / CI.EltSize) / 64;		CI.Offset0 = (EltOffset0 - CI.BaseOff / OffsetSize) / 64;
CI.Offset1 = (EltOffset1 - CI.BaseOff / CI.EltSize) / 64;		CI.Offset1 = (EltOffset1 - CI.BaseOff / OffsetSize) / 64;
CI.UseST64 = true;		CI.UseST64 = true;
return true;		return true;
}		}

if (isUInt<8>(OffsetDiff)) {		if (isUInt<8>(OffsetDiff)) {
CI.Offset0 = EltOffset0 - CI.BaseOff / CI.EltSize;		CI.Offset0 = EltOffset0 - CI.BaseOff / OffsetSize;
CI.Offset1 = EltOffset1 - CI.BaseOff / CI.EltSize;		CI.Offset1 = EltOffset1 - CI.BaseOff / OffsetSize;
return true;		return true;
}		}

return false;		return false;
}		}

bool SILoadStoreOptimizer::widthsFit(const GCNSubtarget &STM,		bool SILoadStoreOptimizer::widthsFit(const GCNSubtarget &STM,
const CombineInfo &CI) {		const CombineInfo &CI) {
▲ Show 20 Lines • Show All 1,171 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/load-local-i16.ll

; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,SI,SICIVI,FUNC %s		; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,SI,SICIVI,FUNC %s
; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,SICIVI,GFX89,FUNC %s		; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,SICIVI,GFX89,CIPLUS,FUNC %s
; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,GFX9,GFX89,FUNC %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,GFX9,GFX89,CIPLUS,FUNC %s
; RUN: llc -march=r600 -mcpu=redwood -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=EG -check-prefix=FUNC %s		; RUN: llc -march=r600 -mcpu=redwood -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=EG -check-prefix=FUNC %s

; Testing for ds_read/write_b128		; Testing for ds_read/write_b128
; RUN: llc -march=amdgcn -mcpu=tonga -mattr=+enable-ds128 < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=CIVI,FUNC %s		; RUN: llc -march=amdgcn -mcpu=tonga -mattr=+enable-ds128 < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=CIVI,FUNC %s
; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=+enable-ds128 < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=CIVI,FUNC %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=+enable-ds128 < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=CIVI,FUNC %s

; FUNC-LABEL: {{^}}local_load_i16:		; FUNC-LABEL: {{^}}local_load_i16:
; GFX9-NOT: m0		; GFX9-NOT: m0
▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines	entry:
store <4 x i16> %ld, <4 x i16> addrspace(3)* %out		store <4 x i16> %ld, <4 x i16> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_load_v8i16:		; FUNC-LABEL: {{^}}local_load_v8i16:
; GFX9-NOT: m0		; GFX9-NOT: m0
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0

; GCN: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; SI: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}
		; CIPLUS: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}

; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
define amdgpu_kernel void @local_load_v8i16(<8 x i16> addrspace(3)* %out, <8 x i16> addrspace(3)* %in) {		define amdgpu_kernel void @local_load_v8i16(<8 x i16> addrspace(3)* %out, <8 x i16> addrspace(3)* %in) {
entry:		entry:
%ld = load <8 x i16>, <8 x i16> addrspace(3)* %in		%ld = load <8 x i16>, <8 x i16> addrspace(3)* %in
store <8 x i16> %ld, <8 x i16> addrspace(3)* %out		store <8 x i16> %ld, <8 x i16> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_load_v16i16:		; FUNC-LABEL: {{^}}local_load_v16i16:
; GFX9-NOT: m0		; GFX9-NOT: m0
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0

; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:6{{$}}
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}

		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}

; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET

; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
▲ Show 20 Lines • Show All 193 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @local_sextload_v4i16_to_v4i32(<4 x i32> addrspace(3)* %out, <4 x i16> addrspace(3)* %in) #0 {
store <4 x i32> %ext, <4 x i32> addrspace(3)* %out		store <4 x i32> %ext, <4 x i32> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_zextload_v8i16_to_v8i32:		; FUNC-LABEL: {{^}}local_zextload_v8i16_to_v8i32:
; GFX9-NOT: m0		; GFX9-NOT: m0
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0

; GCN: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; SI: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}
		; CIPLUS: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}

; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
define amdgpu_kernel void @local_zextload_v8i16_to_v8i32(<8 x i32> addrspace(3)* %out, <8 x i16> addrspace(3)* %in) #0 {		define amdgpu_kernel void @local_zextload_v8i16_to_v8i32(<8 x i32> addrspace(3)* %out, <8 x i16> addrspace(3)* %in) #0 {
%load = load <8 x i16>, <8 x i16> addrspace(3)* %in		%load = load <8 x i16>, <8 x i16> addrspace(3)* %in
%ext = zext <8 x i16> %load to <8 x i32>		%ext = zext <8 x i16> %load to <8 x i32>
store <8 x i32> %ext, <8 x i32> addrspace(3)* %out		store <8 x i32> %ext, <8 x i32> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_sextload_v8i16_to_v8i32:		; FUNC-LABEL: {{^}}local_sextload_v8i16_to_v8i32:
; GFX9-NOT: m0		; GFX9-NOT: m0
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0

; GCN: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; SI: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}
		; CIPLUS: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}

; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG-DAG: BFE_INT		; EG-DAG: BFE_INT
; EG-DAG: BFE_INT		; EG-DAG: BFE_INT
; EG-DAG: BFE_INT		; EG-DAG: BFE_INT
; EG-DAG: BFE_INT		; EG-DAG: BFE_INT
; EG-DAG: BFE_INT		; EG-DAG: BFE_INT
; EG-DAG: BFE_INT		; EG-DAG: BFE_INT
; EG-DAG: BFE_INT		; EG-DAG: BFE_INT
; EG-DAG: BFE_INT		; EG-DAG: BFE_INT
define amdgpu_kernel void @local_sextload_v8i16_to_v8i32(<8 x i32> addrspace(3)* %out, <8 x i16> addrspace(3)* %in) #0 {		define amdgpu_kernel void @local_sextload_v8i16_to_v8i32(<8 x i32> addrspace(3)* %out, <8 x i16> addrspace(3)* %in) #0 {
%load = load <8 x i16>, <8 x i16> addrspace(3)* %in		%load = load <8 x i16>, <8 x i16> addrspace(3)* %in
%ext = sext <8 x i16> %load to <8 x i32>		%ext = sext <8 x i16> %load to <8 x i32>
store <8 x i32> %ext, <8 x i32> addrspace(3)* %out		store <8 x i32> %ext, <8 x i32> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_zextload_v16i16_to_v16i32:		; FUNC-LABEL: {{^}}local_zextload_v16i16_to_v16i32:
; GFX9-NOT: m0		; GFX9-NOT: m0
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0

; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:6{{$}}

		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}

; GCN: ds_write2_b64		; GCN: ds_write2_b64
; GCN: ds_write2_b64		; GCN: ds_write2_b64
; GCN: ds_write2_b64		; GCN: ds_write2_b64
; GCN: ds_write2_b64		; GCN: ds_write2_b64

; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
Show All 9 Lines	define amdgpu_kernel void @local_zextload_v16i16_to_v16i32(<16 x i32> addrspace(3)* %out, <16 x i16> addrspace(3)* %in) #0 {
store <16 x i32> %ext, <16 x i32> addrspace(3)* %out		store <16 x i32> %ext, <16 x i32> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_sextload_v16i16_to_v16i32:		; FUNC-LABEL: {{^}}local_sextload_v16i16_to_v16i32:
; GFX9-NOT: m0		; GFX9-NOT: m0
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0

		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}
		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:6{{$}}

; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}

; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
Show All 20 Lines	define amdgpu_kernel void @local_sextload_v16i16_to_v16i32(<16 x i32> addrspace(3)* %out, <16 x i16> addrspace(3)* %in) #0 {
store <16 x i32> %ext, <16 x i32> addrspace(3)* %out		store <16 x i32> %ext, <16 x i32> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_zextload_v32i16_to_v32i32:		; FUNC-LABEL: {{^}}local_zextload_v32i16_to_v32i32:
; GFX9-NOT: m0		; GFX9-NOT: m0
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0

; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:6
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:5		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:8 offset1:10
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:6 offset1:7		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:12 offset1:14

		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:5
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:6 offset1:7

; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
Show All 12 Lines	define amdgpu_kernel void @local_zextload_v32i16_to_v32i32(<32 x i32> addrspace(3)* %out, <32 x i16> addrspace(3)* %in) #0 {
store <32 x i32> %ext, <32 x i32> addrspace(3)* %out		store <32 x i32> %ext, <32 x i32> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_sextload_v32i16_to_v32i32:		; FUNC-LABEL: {{^}}local_sextload_v32i16_to_v32i32:
; GFX9-NOT: m0		; GFX9-NOT: m0
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0

; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:6{{$}}
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:5		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:8 offset1:10
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:6 offset1:7		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:12 offset1:14
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:14 offset1:15		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:28 offset1:30
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:12 offset1:13		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:24 offset1:26
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:10 offset1:11		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:20 offset1:22
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:8 offset1:9		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:16 offset1:18
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:6 offset1:7		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:12 offset1:14
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:4 offset1:5		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:8 offset1:10
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:2 offset1:3		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:4 offset1:6
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset1:1		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset1:2

		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:5
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:6 offset1:7
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:14 offset1:15
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:12 offset1:13
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:10 offset1:11
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:8 offset1:9
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:6 offset1:7
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:4 offset1:5
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:2 offset1:3
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset1:1

; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
Show All 12 Lines	define amdgpu_kernel void @local_sextload_v32i16_to_v32i32(<32 x i32> addrspace(3)* %out, <32 x i16> addrspace(3)* %in) #0 {
store <32 x i32> %ext, <32 x i32> addrspace(3)* %out		store <32 x i32> %ext, <32 x i32> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_zextload_v64i16_to_v64i32:		; FUNC-LABEL: {{^}}local_zextload_v64i16_to_v64i32:
; GFX9-NOT: m0		; GFX9-NOT: m0
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0

; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:14 offset1:15		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:28 offset1:30
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:6
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:5		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:8 offset1:10
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:6 offset1:7		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:12 offset1:14
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:8 offset1:9		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:16 offset1:18
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:12 offset1:13		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:24 offset1:26
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:10 offset1:11		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:20 offset1:22
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:30 offset1:31		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:60 offset1:62
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:28 offset1:29		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:56 offset1:58
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:26 offset1:27		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:52 offset1:54
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:24 offset1:25		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:48 offset1:50
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:22 offset1:23		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:44 offset1:46
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:20 offset1:21		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:40 offset1:42
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:18 offset1:19		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:36 offset1:38
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:16 offset1:17		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:32 offset1:34
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:14 offset1:15		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:28 offset1:30
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:12 offset1:13		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:24 offset1:26
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:10 offset1:11		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:20 offset1:22
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:8 offset1:9		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:16 offset1:18
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:6 offset1:7		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:12 offset1:14
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:4 offset1:5		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:8 offset1:10
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:2 offset1:3		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:4 offset1:6
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset1:1		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset1:2

		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:14 offset1:15
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:5
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:6 offset1:7
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:8 offset1:9
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:12 offset1:13
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:10 offset1:11
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:30 offset1:31
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:28 offset1:29
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:26 offset1:27
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:24 offset1:25
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:22 offset1:23
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:20 offset1:21
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:18 offset1:19
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:16 offset1:17
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:14 offset1:15
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:12 offset1:13
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:10 offset1:11
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:8 offset1:9
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:6 offset1:7
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:4 offset1:5
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:2 offset1:3
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset1:1

; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
; EG: LDS_READ_RET		; EG: LDS_READ_RET
▲ Show 20 Lines • Show All 443 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/load-local-i32.ll

; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,SICIVI,FUNC %s		; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,SICIVI,FUNC %s
; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,SICIVI,FUNC %s		; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,SICIVI,CIPLUS,FUNC %s
; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,VI,FUNC %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,VI,CIPLUS,FUNC %s
; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s		; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s

; Testing for ds_read/write_128		; Testing for ds_read/write_128
; RUN: llc -march=amdgcn -mcpu=tahiti -mattr=+enable-ds128 < %s \| FileCheck -check-prefixes=SI,FUNC %s		; RUN: llc -march=amdgcn -mcpu=tahiti -mattr=+enable-ds128 < %s \| FileCheck -check-prefixes=SI,FUNC %s
; RUN: llc -march=amdgcn -mcpu=tonga -mattr=+enable-ds128 < %s \| FileCheck -check-prefixes=CIVI,FUNC %s		; RUN: llc -march=amdgcn -mcpu=tonga -mattr=+enable-ds128 < %s \| FileCheck -check-prefixes=CIVI,FUNC %s
; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=+enable-ds128 < %s \| FileCheck -check-prefixes=CIVI,FUNC %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=+enable-ds128 < %s \| FileCheck -check-prefixes=CIVI,FUNC %s

; FUNC-LABEL: {{^}}local_load_i32:		; FUNC-LABEL: {{^}}local_load_i32:
Show All 34 Lines	entry:
store <3 x i32> %ld, <3 x i32> addrspace(3)* %out		store <3 x i32> %ld, <3 x i32> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_load_v4i32:		; FUNC-LABEL: {{^}}local_load_v4i32:
; SICIVI: s_mov_b32 m0, -1		; SICIVI: s_mov_b32 m0, -1
; GFX9-NOT: m0		; GFX9-NOT: m0

; GCN: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; SI: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}
		; CIPLUS: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}

define amdgpu_kernel void @local_load_v4i32(<4 x i32> addrspace(3)* %out, <4 x i32> addrspace(3)* %in) #0 {		define amdgpu_kernel void @local_load_v4i32(<4 x i32> addrspace(3)* %out, <4 x i32> addrspace(3)* %in) #0 {
entry:		entry:
%ld = load <4 x i32>, <4 x i32> addrspace(3)* %in		%ld = load <4 x i32>, <4 x i32> addrspace(3)* %in
store <4 x i32> %ld, <4 x i32> addrspace(3)* %out		store <4 x i32> %ld, <4 x i32> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_load_v8i32:		; FUNC-LABEL: {{^}}local_load_v8i32:
; SICIVI: s_mov_b32 m0, -1		; SICIVI: s_mov_b32 m0, -1
; GFX9-NOT: m0		; GFX9-NOT: m0

; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:6{{$}}
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}

		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}
define amdgpu_kernel void @local_load_v8i32(<8 x i32> addrspace(3)* %out, <8 x i32> addrspace(3)* %in) #0 {		define amdgpu_kernel void @local_load_v8i32(<8 x i32> addrspace(3)* %out, <8 x i32> addrspace(3)* %in) #0 {
entry:		entry:
%ld = load <8 x i32>, <8 x i32> addrspace(3)* %in		%ld = load <8 x i32>, <8 x i32> addrspace(3)* %in
store <8 x i32> %ld, <8 x i32> addrspace(3)* %out		store <8 x i32> %ld, <8 x i32> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_load_v16i32:		; FUNC-LABEL: {{^}}local_load_v16i32:
; SICIVI: s_mov_b32 m0, -1		; SICIVI: s_mov_b32 m0, -1
; GFX9-NOT: m0		; GFX9-NOT: m0

; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:6 offset1:7{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:12 offset1:14{{$}}
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:5{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:8 offset1:10{{$}}
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:6{{$}}
; GCN-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}		; SI-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:2{{$}}
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:6 offset1:7		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:12 offset1:14
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:4 offset1:5		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:8 offset1:10
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:2 offset1:3		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:4 offset1:6
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset1:1		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset1:2

		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:6 offset1:7{{$}}
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:4 offset1:5{{$}}
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset0:2 offset1:3{{$}}
		; CIPLUS-DAG: ds_read2_b64 v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset1:1{{$}}
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:6 offset1:7
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:4 offset1:5
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset0:2 offset1:3
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}} offset1:1
define amdgpu_kernel void @local_load_v16i32(<16 x i32> addrspace(3)* %out, <16 x i32> addrspace(3)* %in) #0 {		define amdgpu_kernel void @local_load_v16i32(<16 x i32> addrspace(3)* %out, <16 x i32> addrspace(3)* %in) #0 {
entry:		entry:
%ld = load <16 x i32>, <16 x i32> addrspace(3)* %in		%ld = load <16 x i32>, <16 x i32> addrspace(3)* %in
store <16 x i32> %ld, <16 x i32> addrspace(3)* %out		store <16 x i32> %ld, <16 x i32> addrspace(3)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}local_zextload_i32_to_i64:		; FUNC-LABEL: {{^}}local_zextload_i32_to_i64:
▲ Show 20 Lines • Show All 183 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/load-local-i8.ll

	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,SI,SICIVI,FUNC %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,SI,SICIVI,FUNC %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,VI,SICIVI,FUNC %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,VI,SICIVI,CIPLUS,FUNC %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,GFX9,FUNC %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-- -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,GFX9,CIPLUS,FUNC %s
	; RUN: llc -march=r600 -mtriple=r600-- -mcpu=redwood -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=EG -check-prefix=FUNC %s			; RUN: llc -march=r600 -mtriple=r600-- -mcpu=redwood -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=EG -check-prefix=FUNC %s

	; Testing for ds_read/write_b128			; Testing for ds_read/write_b128
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=+enable-ds128 < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=CIVI,FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=+enable-ds128 < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=CIVI,FUNC %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=+enable-ds128 < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=CIVI,FUNC %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=+enable-ds128 < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=CIVI,FUNC %s

	; FUNC-LABEL: {{^}}local_load_i8:			; FUNC-LABEL: {{^}}local_load_i8:
	; GCN-NOT: s_wqm_b64			; GCN-NOT: s_wqm_b64
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	entry:			entry:
	%ld = load <8 x i8>, <8 x i8> addrspace(3)* %in			%ld = load <8 x i8>, <8 x i8> addrspace(3)* %in
	store <8 x i8> %ld, <8 x i8> addrspace(3)* %out			store <8 x i8> %ld, <8 x i8> addrspace(3)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}local_load_v16i8:			; FUNC-LABEL: {{^}}local_load_v16i8:
	; GFX9-NOT: m0			; GFX9-NOT: m0
	; GCN: ds_read2_b64 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, v{{[0-9]+}} offset1:1{{$}}			; SI: ds_read2_b64 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, v{{[0-9]+}} offset1:2{{$}}
	; GCN: ds_write2_b64 v{{[0-9]+}}, v{{\[}}[[LO]]:{{[0-9]+}}], v[{{[0-9]+}}:[[HI]]{{\]}} offset1:1{{$}}			; SI: ds_write2_b64 v{{[0-9]+}}, v{{\[}}[[LO]]:{{[0-9]+}}], v[{{[0-9]+}}:[[HI]]{{\]}} offset1:2{{$}}
				; CIPLUS: ds_read2_b64 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}, v{{[0-9]+}} offset1:1{{$}}
				; CIPLUS: ds_write2_b64 v{{[0-9]+}}, v{{\[}}[[LO]]:{{[0-9]+}}], v[{{[0-9]+}}:[[HI]]{{\]}} offset1:1{{$}}

	; EG: LDS_READ_RET			; EG: LDS_READ_RET
	; EG: LDS_READ_RET			; EG: LDS_READ_RET
	; EG: LDS_READ_RET			; EG: LDS_READ_RET
	; EG: LDS_READ_RET			; EG: LDS_READ_RET
	define amdgpu_kernel void @local_load_v16i8(<16 x i8> addrspace(3)* %out, <16 x i8> addrspace(3)* %in) #0 {			define amdgpu_kernel void @local_load_v16i8(<16 x i8> addrspace(3)* %out, <16 x i8> addrspace(3)* %in) #0 {
	entry:			entry:
	%ld = load <16 x i8>, <16 x i8> addrspace(3)* %in			%ld = load <16 x i8>, <16 x i8> addrspace(3)* %in
	▲ Show 20 Lines • Show All 960 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/local-64.ll

; RUN: llc -march=amdgcn -verify-machineinstrs< %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI,SICIVI %s		; RUN: llc -march=amdgcn -verify-machineinstrs< %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI,SICIVI %s
; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs< %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI,SICIVI %s		; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs< %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI,SICIVI,CIPLUS %s
; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs< %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,SICIVI %s		; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs< %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,SICIVI,CIPLUS %s
; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs< %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs< %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,CIPLUS %s

; GCN-LABEL: {{^}}local_i32_load		; GCN-LABEL: {{^}}local_i32_load
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0
; GFX9-NOT: m0		; GFX9-NOT: m0

; GCN: ds_read_b32 [[REG:v[0-9]+]], v{{[0-9]+}} offset:28		; GCN: ds_read_b32 [[REG:v[0-9]+]], v{{[0-9]+}} offset:28
; GCN: buffer_store_dword [[REG]],		; GCN: buffer_store_dword [[REG]],
define amdgpu_kernel void @local_i32_load(i32 addrspace(1)* %out, i32 addrspace(3)* %in) nounwind {		define amdgpu_kernel void @local_i32_load(i32 addrspace(1)* %out, i32 addrspace(3)* %in) nounwind {
▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @local_f64_store_0_offset(double addrspace(3)* %out) nounwind {
ret void		ret void
}		}

; GCN-LABEL: {{^}}local_v2i64_store:		; GCN-LABEL: {{^}}local_v2i64_store:
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0
; GFX9-NOT: m0		; GFX9-NOT: m0

; GCN-NOT: add		; GCN-NOT: add
; GCN: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:14 offset1:15		; SI: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:28 offset1:30
		; CIPLUS: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:14 offset1:15
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @local_v2i64_store(<2 x i64> addrspace(3)* %out) nounwind {		define amdgpu_kernel void @local_v2i64_store(<2 x i64> addrspace(3)* %out) nounwind {
%gep = getelementptr <2 x i64>, <2 x i64> addrspace(3)* %out, i32 7		%gep = getelementptr <2 x i64>, <2 x i64> addrspace(3)* %out, i32 7
store <2 x i64> <i64 5678, i64 5678>, <2 x i64> addrspace(3)* %gep, align 16		store <2 x i64> <i64 5678, i64 5678>, <2 x i64> addrspace(3)* %gep, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}local_v2i64_store_0_offset:		; GCN-LABEL: {{^}}local_v2i64_store_0_offset:
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0
; GFX9-NOT: m0		; GFX9-NOT: m0

; GCN-NOT: add		; GCN-NOT: add
; GCN: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset1:1		; SI: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset1:2
		; CIPLUS: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset1:1
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @local_v2i64_store_0_offset(<2 x i64> addrspace(3)* %out) nounwind {		define amdgpu_kernel void @local_v2i64_store_0_offset(<2 x i64> addrspace(3)* %out) nounwind {
store <2 x i64> <i64 1234, i64 1234>, <2 x i64> addrspace(3)* %out, align 16		store <2 x i64> <i64 1234, i64 1234>, <2 x i64> addrspace(3)* %out, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}local_v4i64_store:		; GCN-LABEL: {{^}}local_v4i64_store:
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0
; GFX9-NOT: m0		; GFX9-NOT: m0

; GCN-NOT: add		; GCN-NOT: add
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:30 offset1:31		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:60 offset1:62
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:28 offset1:29		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:56 offset1:58
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:30 offset1:31
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:28 offset1:29
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @local_v4i64_store(<4 x i64> addrspace(3)* %out) nounwind {		define amdgpu_kernel void @local_v4i64_store(<4 x i64> addrspace(3)* %out) nounwind {
%gep = getelementptr <4 x i64>, <4 x i64> addrspace(3)* %out, i32 7		%gep = getelementptr <4 x i64>, <4 x i64> addrspace(3)* %out, i32 7
store <4 x i64> <i64 5678, i64 5678, i64 5678, i64 5678>, <4 x i64> addrspace(3)* %gep, align 16		store <4 x i64> <i64 5678, i64 5678, i64 5678, i64 5678>, <4 x i64> addrspace(3)* %gep, align 16
ret void		ret void
}		}

; GCN-LABEL: {{^}}local_v4i64_store_0_offset:		; GCN-LABEL: {{^}}local_v4i64_store_0_offset:
; SICIVI: s_mov_b32 m0		; SICIVI: s_mov_b32 m0
; GFX9-NOT: m0		; GFX9-NOT: m0

; GCN-NOT: add		; GCN-NOT: add
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:2 offset1:3		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:4 offset1:6
; GCN-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset1:1		; SI-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset1:2
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset0:2 offset1:3
		; CIPLUS-DAG: ds_write2_b64 v{{[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}} offset1:1
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @local_v4i64_store_0_offset(<4 x i64> addrspace(3)* %out) nounwind {		define amdgpu_kernel void @local_v4i64_store_0_offset(<4 x i64> addrspace(3)* %out) nounwind {
store <4 x i64> <i64 1234, i64 1234, i64 1234, i64 1234>, <4 x i64> addrspace(3)* %out, align 16		store <4 x i64> <i64 1234, i64 1234, i64 1234, i64 1234>, <4 x i64> addrspace(3)* %out, align 16
ret void		ret void
}		}