This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
-
SIInstrInfo.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
7
legalize-soffset-mbuf.ll

Differential D139817

[AMDGPU] Legalize soffset of buffer instruction
AcceptedPublic

Authored by skc7 on Dec 12 2022, 1:15 AM.

Download Raw Diff

Details

Reviewers

alex-t
foad
arsenm
bcahoon
cdevadas

Summary

Legalize soffset of buffer instructions. If vgpr is assigned to soffset, use readlaneVGPRToSGPR to copy value from vgpr to sgpr.

Diff Detail

Unit TestsFailed

	Time	Test
	60,040 ms	x64 debian > libFuzzer.libFuzzer::minimize_crash.test

Event Timeline

skc7 created this revision.Dec 12 2022, 1:15 AM

Herald added a project: Restricted Project. · View Herald TranscriptDec 12 2022, 1:15 AM

Herald added subscribers: kosarev, kerbowa, hiraditya and 5 others. · View Herald Transcript

skc7 requested review of this revision.Dec 12 2022, 1:15 AM

Herald added a project: Restricted Project. · View Herald TranscriptDec 12 2022, 1:15 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

Harbormaster completed remote builds in B202509: Diff 482021.Dec 12 2022, 2:08 AM

Looks good.

llvm/test/CodeGen/AMDGPU/legalize-soffset-mbuf.ll
4	Remove `inreg` throughout? I don't think it does anything unless you use one of the graphics calling conventionsl like `amdgpu_ps`. Also, you are using a non-uniform %rsrc so the compiler is (correctly) generating a waterfall loop, but that's not what you're testing for here. So could you change the test to use a uniform %rsrc, and then the generated code would be much simpler, and you could use `update_mir_test_checks.py`.

Removed inreg to params of tests. Made srsrc operand undef.

Harbormaster completed remote builds in B202783: Diff 482391.Dec 13 2022, 2:28 AM

LGTM, thanks.

This revision is now accepted and ready to land.Dec 13 2022, 5:37 AM

In D139817#3991276, @skc7 wrote:

Made srsrc operand undef.

We're being told to use poison instead of undef in new tests, wherever possible.

arsenm added inline comments.Dec 13 2022, 5:38 AM

llvm/test/CodeGen/AMDGPU/legalize-soffset-mbuf.ll
14	I still think this is just a flat out wrong lowering that needs to use a waterfall loop

foad added inline comments.Dec 13 2022, 5:41 AM

llvm/test/CodeGen/AMDGPU/legalize-soffset-mbuf.ll
14	What's the use case for that? My understanding is that isel will never put a divergent value in soffset, and for the intrinsics we can define that soffset has to be uniform.

arsenm added inline comments.Dec 13 2022, 5:42 AM

llvm/test/CodeGen/AMDGPU/legalize-soffset-mbuf.ll
14	You cannot define that a value has to be uniform. Every transform would need to be aware of that concept and apply it. load constant 32-bit is similarly broken in pretending to provide a uniformity guarantee

foad added inline comments.Dec 13 2022, 6:08 AM

llvm/test/CodeGen/AMDGPU/legalize-soffset-mbuf.ll
14	Hmm. I guess you could define that an input had to be uniform if you marked the intrinsic as the-opposite-of-convergent, to say it cannot be hoisted out of an "if"?

arsenm added inline comments.Dec 13 2022, 2:43 PM

llvm/test/CodeGen/AMDGPU/legalize-soffset-mbuf.ll
14	I don't think we would want to do that. I think we just need to be able to handle waterfall loops for anything and have optimizations to avoid this kind of problem. We don't need a hard constraint

foad added inline comments.Dec 14 2022, 2:06 AM

llvm/test/CodeGen/AMDGPU/legalize-soffset-mbuf.ll
14	OK, well I have no objections to someone working on that approach. But it does feel like the optimization that you would need to implement to avoid hurting performance by introducing a waterfall loop where you don't really need one, would be very very similar to the hard constraint imposed by marking the intrinsic as the-opposite-of-convergent.

Rebase. Use poison for srsrc operands.

Harbormaster completed remote builds in B203291: Diff 483102.Dec 15 2022, 3:13 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SIInstrInfo.cpp

6 lines

test/

CodeGen/

AMDGPU/

legalize-soffset-mbuf.ll

375 lines

Diff 482391

llvm/lib/Target/AMDGPU/SIInstrInfo.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,999 Lines • ▼ Show 20 Lines	if (MI.getOpcode() == AMDGPU::SI_CALL_ISEL) {
}		}
}		}

// Legalize MUBUF* instructions.		// Legalize MUBUF* instructions.
int RsrcIdx =		int RsrcIdx =
AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::srsrc);		AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::srsrc);
if (RsrcIdx != -1) {		if (RsrcIdx != -1) {
// We have an MUBUF instruction		// We have an MUBUF instruction
		// Legalize soffset.
		MachineOperand *SOff = getNamedOperand(MI, AMDGPU::OpName::soffset);
		if (SOff->isReg() && !RI.isSGPRClass(MRI.getRegClass(SOff->getReg()))) {
		Register SGPR = readlaneVGPRToSGPR(SOff->getReg(), MI, MRI);
		SOff->setReg(SGPR);
		}
MachineOperand *Rsrc = &MI.getOperand(RsrcIdx);		MachineOperand *Rsrc = &MI.getOperand(RsrcIdx);
unsigned RsrcRC = get(MI.getOpcode()).OpInfo[RsrcIdx].RegClass;		unsigned RsrcRC = get(MI.getOpcode()).OpInfo[RsrcIdx].RegClass;
if (RI.getCommonSubClass(MRI.getRegClass(Rsrc->getReg()),		if (RI.getCommonSubClass(MRI.getRegClass(Rsrc->getReg()),
RI.getRegClass(RsrcRC))) {		RI.getRegClass(RsrcRC))) {
// The operands are legal.		// The operands are legal.
// FIXME: We may need to legalize operands besides srsrc.		// FIXME: We may need to legalize operands besides srsrc.
return CreatedBB;		return CreatedBB;
}		}
▲ Show 20 Lines • Show All 2,603 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/legalize-soffset-mbuf.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				; RUN: llc < %s -march=amdgcn -mcpu=gfx906 -stop-after=si-fix-sgpr-copies -verify-machineinstrs \| FileCheck %s

				define float @llvm_amdgcn_raw_buffer_load_f32(i32 %voffset, i32 %soffset) {
				foadUnsubmitted Not Done Reply Inline Actions Remove `inreg` throughout? I don't think it does anything unless you use one of the graphics calling conventionsl like `amdgpu_ps`. Also, you are using a non-uniform %rsrc so the compiler is (correctly) generating a waterfall loop, but that's not what you're testing for here. So could you change the test to use a uniform %rsrc, and then the generated code would be much simpler, and you could use `update_mir_test_checks.py`. foad: Remove `inreg` throughout? I don't think it does anything unless you use one of the graphics…
				; CHECK-LABEL: name: llvm_amdgcn_raw_buffer_load_f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: [[BUFFER_LOAD_DWORD_OFFEN:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_DWORD_OFFEN [[COPY1]], killed [[DEF]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, implicit $exec :: (dereferenceable load (s32), align 1, addrspace 7)
				arsenmUnsubmitted Not Done Reply Inline Actions I still think this is just a flat out wrong lowering that needs to use a waterfall loop arsenm: I still think this is just a flat out wrong lowering that needs to use a waterfall loop
				foadUnsubmitted Not Done Reply Inline Actions What's the use case for that? My understanding is that isel will never put a divergent value in soffset, and for the intrinsics we can define that soffset has to be uniform. foad: What's the use case for that? My understanding is that isel will never put a divergent value in…
				arsenmUnsubmitted Not Done Reply Inline Actions You cannot define that a value has to be uniform. Every transform would need to be aware of that concept and apply it. load constant 32-bit is similarly broken in pretending to provide a uniformity guarantee arsenm: You cannot define that a value has to be uniform. Every transform would need to be aware of…
				foadUnsubmitted Not Done Reply Inline Actions Hmm. I guess you could define that an input had to be uniform if you marked the intrinsic as the-opposite-of-convergent, to say it cannot be hoisted out of an "if"? foad: Hmm. I guess you could define that an input had to be uniform if you marked the intrinsic as…
				arsenmUnsubmitted Not Done Reply Inline Actions I don't think we would want to do that. I think we just need to be able to handle waterfall loops for anything and have optimizations to avoid this kind of problem. We don't need a hard constraint arsenm: I don't think we would want to do that. I think we just need to be able to handle waterfall…
				foadUnsubmitted Not Done Reply Inline Actions OK, well I have no objections to someone working on that approach. But it does feel like the optimization that you would need to implement to avoid hurting performance by introducing a waterfall loop where you don't really need one, would be very very similar to the hard constraint imposed by marking the intrinsic as the-opposite-of-convergent. foad: OK, well I have no objections to someone working on that approach. But it does feel like the…
				; CHECK-NEXT: $vgpr0 = COPY [[BUFFER_LOAD_DWORD_OFFEN]]
				; CHECK-NEXT: SI_RETURN implicit $vgpr0
				%val = call float @llvm.amdgcn.raw.buffer.load.f32(<4 x i32> undef, i32 %voffset, i32 %soffset, i32 0)
				ret float %val
				}

				define float @llvm_amdgcn_raw_tbuffer_load_f32(i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_tbuffer_load_f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: [[TBUFFER_LOAD_FORMAT_X_OFFEN:%[0-9]+]]:vgpr_32 = TBUFFER_LOAD_FORMAT_X_OFFEN [[COPY1]], killed [[DEF]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32), align 1, addrspace 7)
				; CHECK-NEXT: $vgpr0 = COPY [[TBUFFER_LOAD_FORMAT_X_OFFEN]]
				; CHECK-NEXT: SI_RETURN implicit $vgpr0
				%val = call float @llvm.amdgcn.raw.tbuffer.load.f32(<4 x i32> undef, i32 %voffset, i32 %soffset, i32 0, i32 0)
				ret float %val
				}

				define <2 x float> @llvm_amdgcn_raw_buffer_load_v2f32(i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_buffer_load_v2f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: [[BUFFER_LOAD_DWORDX2_OFFEN:%[0-9]+]]:vreg_64 = BUFFER_LOAD_DWORDX2_OFFEN [[COPY1]], killed [[DEF]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, implicit $exec :: (dereferenceable load (s64), align 1, addrspace 7)
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_DWORDX2_OFFEN]].sub0
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_DWORDX2_OFFEN]].sub1
				; CHECK-NEXT: $vgpr0 = COPY [[COPY2]]
				; CHECK-NEXT: $vgpr1 = COPY [[COPY3]]
				; CHECK-NEXT: SI_RETURN implicit $vgpr0, implicit $vgpr1
				%val = call <2 x float> @llvm.amdgcn.raw.buffer.load.v2f32(<4 x i32> undef, i32 %voffset, i32 %soffset, i32 0)
				ret <2 x float> %val
				}

				define <2 x float> @llvm_amdgcn_raw_tbuffer_load_v2f32(i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_tbuffer_load_v2f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: [[TBUFFER_LOAD_FORMAT_XY_OFFEN:%[0-9]+]]:vreg_64 = TBUFFER_LOAD_FORMAT_XY_OFFEN [[COPY1]], killed [[DEF]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s64), align 1, addrspace 7)
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[TBUFFER_LOAD_FORMAT_XY_OFFEN]].sub0
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY [[TBUFFER_LOAD_FORMAT_XY_OFFEN]].sub1
				; CHECK-NEXT: $vgpr0 = COPY [[COPY2]]
				; CHECK-NEXT: $vgpr1 = COPY [[COPY3]]
				; CHECK-NEXT: SI_RETURN implicit $vgpr0, implicit $vgpr1
				%val = call <2 x float> @llvm.amdgcn.raw.tbuffer.load.v2f32(<4 x i32> undef, i32 %voffset, i32 %soffset, i32 0, i32 0)
				ret <2 x float> %val
				}

				define <3 x float> @llvm_amdgcn_raw_buffer_load_v3f32(i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_buffer_load_v3f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: [[BUFFER_LOAD_DWORDX3_OFFEN:%[0-9]+]]:vreg_96 = BUFFER_LOAD_DWORDX3_OFFEN [[COPY1]], killed [[DEF]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 1, addrspace 7)
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_DWORDX3_OFFEN]].sub0
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_DWORDX3_OFFEN]].sub1
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_DWORDX3_OFFEN]].sub2
				; CHECK-NEXT: $vgpr0 = COPY [[COPY2]]
				; CHECK-NEXT: $vgpr1 = COPY [[COPY3]]
				; CHECK-NEXT: $vgpr2 = COPY [[COPY4]]
				; CHECK-NEXT: SI_RETURN implicit $vgpr0, implicit $vgpr1, implicit $vgpr2
				%val = call <3 x float> @llvm.amdgcn.raw.buffer.load.v3f32(<4 x i32> undef, i32 %voffset, i32 %soffset, i32 0)
				ret <3 x float> %val
				}

				define <3 x float> @llvm_amdgcn_raw_tbuffer_load_v3f32(i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_tbuffer_load_v3f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: [[TBUFFER_LOAD_FORMAT_XYZ_OFFEN:%[0-9]+]]:vreg_96 = TBUFFER_LOAD_FORMAT_XYZ_OFFEN [[COPY1]], killed [[DEF]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s96), align 1, addrspace 7)
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[TBUFFER_LOAD_FORMAT_XYZ_OFFEN]].sub0
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY [[TBUFFER_LOAD_FORMAT_XYZ_OFFEN]].sub1
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[TBUFFER_LOAD_FORMAT_XYZ_OFFEN]].sub2
				; CHECK-NEXT: $vgpr0 = COPY [[COPY2]]
				; CHECK-NEXT: $vgpr1 = COPY [[COPY3]]
				; CHECK-NEXT: $vgpr2 = COPY [[COPY4]]
				; CHECK-NEXT: SI_RETURN implicit $vgpr0, implicit $vgpr1, implicit $vgpr2
				%val = call <3 x float> @llvm.amdgcn.raw.tbuffer.load.v3f32(<4 x i32> undef, i32 %voffset, i32 %soffset, i32 0, i32 0)
				ret <3 x float> %val
				}

				define <4 x float> @llvm_amdgcn_raw_buffer_load_v4f32(i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_buffer_load_v4f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: [[BUFFER_LOAD_DWORDX4_OFFEN:%[0-9]+]]:vreg_128 = BUFFER_LOAD_DWORDX4_OFFEN [[COPY1]], killed [[DEF]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, implicit $exec :: (dereferenceable load (s128), align 1, addrspace 7)
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_DWORDX4_OFFEN]].sub0
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_DWORDX4_OFFEN]].sub1
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_DWORDX4_OFFEN]].sub2
				; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[BUFFER_LOAD_DWORDX4_OFFEN]].sub3
				; CHECK-NEXT: $vgpr0 = COPY [[COPY2]]
				; CHECK-NEXT: $vgpr1 = COPY [[COPY3]]
				; CHECK-NEXT: $vgpr2 = COPY [[COPY4]]
				; CHECK-NEXT: $vgpr3 = COPY [[COPY5]]
				; CHECK-NEXT: SI_RETURN implicit $vgpr0, implicit $vgpr1, implicit $vgpr2, implicit $vgpr3
				%val = call <4 x float> @llvm.amdgcn.raw.buffer.load.v4f32(<4 x i32> undef, i32 %voffset, i32 %soffset, i32 0)
				ret <4 x float> %val
				}

				define <4 x float> @llvm_amdgcn_raw_tbuffer_load_v4f32(i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_tbuffer_load_v4f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: [[TBUFFER_LOAD_FORMAT_XYZW_OFFEN:%[0-9]+]]:vreg_128 = TBUFFER_LOAD_FORMAT_XYZW_OFFEN [[COPY1]], killed [[DEF]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s128), align 1, addrspace 7)
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[TBUFFER_LOAD_FORMAT_XYZW_OFFEN]].sub0
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY [[TBUFFER_LOAD_FORMAT_XYZW_OFFEN]].sub1
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[TBUFFER_LOAD_FORMAT_XYZW_OFFEN]].sub2
				; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[TBUFFER_LOAD_FORMAT_XYZW_OFFEN]].sub3
				; CHECK-NEXT: $vgpr0 = COPY [[COPY2]]
				; CHECK-NEXT: $vgpr1 = COPY [[COPY3]]
				; CHECK-NEXT: $vgpr2 = COPY [[COPY4]]
				; CHECK-NEXT: $vgpr3 = COPY [[COPY5]]
				; CHECK-NEXT: SI_RETURN implicit $vgpr0, implicit $vgpr1, implicit $vgpr2, implicit $vgpr3
				%val = call <4 x float> @llvm.amdgcn.raw.tbuffer.load.v4f32(<4 x i32> undef, i32 %voffset, i32 %soffset, i32 0, i32 0)
				ret <4 x float> %val
				}

				define void @llvm_amdgcn_raw_buffer_store_f32(float %val, i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_buffer_store_f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: BUFFER_STORE_DWORD_OFFEN_exact [[COPY2]], [[COPY1]], killed [[DEF]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, implicit $exec :: (dereferenceable store (s32), align 1, addrspace 7)
				; CHECK-NEXT: SI_RETURN
				call void @llvm.amdgcn.raw.buffer.store.f32(float %val, <4 x i32> undef, i32 %voffset, i32 %soffset, i32 0)
				ret void
				}

				define void @llvm_amdgcn_raw_tbuffer_store_f32(float %val, i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_tbuffer_store_f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: TBUFFER_STORE_FORMAT_X_OFFEN_exact [[COPY2]], [[COPY1]], killed [[DEF]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, 0, implicit $exec :: (dereferenceable store (s32), align 1, addrspace 7)
				; CHECK-NEXT: SI_RETURN
				call void @llvm.amdgcn.raw.tbuffer.store.f32(float %val, <4 x i32> undef, i32 %voffset, i32 %soffset, i32 0, i32 0)
				ret void
				}

				define void @llvm_amdgcn_raw_buffer_store_v2f32(<2 x float> %val, i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_buffer_store_v2f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[COPY3]], implicit $exec
				; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE killed [[COPY4]], %subreg.sub0, [[COPY2]], %subreg.sub1
				; CHECK-NEXT: [[COPY5:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; CHECK-NEXT: [[DEF2:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF3:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: BUFFER_STORE_DWORDX2_OFFEN_exact killed [[COPY5]], [[COPY1]], killed [[DEF2]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, implicit $exec :: (dereferenceable store (s64), align 1, addrspace 7)
				; CHECK-NEXT: SI_RETURN
				call void @llvm.amdgcn.raw.buffer.store.v2f32(<2 x float> %val, <4 x i32> undef, i32 %voffset, i32 %soffset, i32 0)
				ret void
				}

				define void @llvm_amdgcn_raw_tbuffer_store_v2f32(<2 x float> %val, i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_tbuffer_store_v2f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[COPY3]], implicit $exec
				; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_64 = REG_SEQUENCE killed [[COPY4]], %subreg.sub0, [[COPY2]], %subreg.sub1
				; CHECK-NEXT: [[COPY5:%[0-9]+]]:vreg_64 = COPY [[REG_SEQUENCE]]
				; CHECK-NEXT: [[DEF2:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF3:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: TBUFFER_STORE_FORMAT_XY_OFFEN_exact killed [[COPY5]], [[COPY1]], killed [[DEF2]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, 0, implicit $exec :: (dereferenceable store (s64), align 1, addrspace 7)
				; CHECK-NEXT: SI_RETURN
				call void @llvm.amdgcn.raw.tbuffer.store.v2f32(<2 x float> %val, <4 x i32> undef, i32 %voffset, i32 %soffset, i32 0, i32 0)
				ret void
				}

				define void @llvm_amdgcn_raw_buffer_store_v3f32(<3 x float> %val, i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_buffer_store_v3f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr4
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF2:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[COPY4]], implicit $exec
				; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY [[COPY3]], implicit $exec
				; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_96 = REG_SEQUENCE killed [[COPY5]], %subreg.sub0, killed [[COPY6]], %subreg.sub1, [[COPY2]], %subreg.sub2
				; CHECK-NEXT: [[COPY7:%[0-9]+]]:vreg_96 = COPY [[REG_SEQUENCE]]
				; CHECK-NEXT: [[DEF3:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF4:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: BUFFER_STORE_DWORDX3_OFFEN_exact killed [[COPY7]], [[COPY1]], killed [[DEF3]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, implicit $exec :: (dereferenceable store (s96), align 1, addrspace 7)
				; CHECK-NEXT: SI_RETURN
				call void @llvm.amdgcn.raw.buffer.store.v3f32(<3 x float> %val, <4 x i32> undef, i32 %voffset, i32 %soffset, i32 0)
				ret void
				}

				define void @llvm_amdgcn_raw_tbuffer_store_v3f32(<3 x float> %val, i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_tbuffer_store_v3f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr4
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF2:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[COPY4]], implicit $exec
				; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY [[COPY2]], implicit $exec
				; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_96 = REG_SEQUENCE killed [[COPY5]], %subreg.sub0, [[COPY3]], %subreg.sub1, killed [[COPY6]], %subreg.sub2
				; CHECK-NEXT: [[COPY7:%[0-9]+]]:vreg_96 = COPY [[REG_SEQUENCE]]
				; CHECK-NEXT: [[DEF3:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF4:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: TBUFFER_STORE_FORMAT_XYZ_OFFEN_exact killed [[COPY7]], [[COPY1]], killed [[DEF3]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, 0, implicit $exec :: (dereferenceable store (s96), align 1, addrspace 7)
				; CHECK-NEXT: SI_RETURN
				call void @llvm.amdgcn.raw.tbuffer.store.v3f32(<3 x float> %val, <4 x i32> undef, i32 %voffset, i32 %soffset, i32 0, i32 0)
				ret void
				}

				define void @llvm_amdgcn_raw_buffer_store_v4f32(<4 x float> %val, i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_buffer_store_v4f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr5
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr4
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF2:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF3:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY [[COPY5]], implicit $exec
				; CHECK-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY [[COPY4]], implicit $exec
				; CHECK-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY [[COPY2]], implicit $exec
				; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_128 = REG_SEQUENCE killed [[COPY6]], %subreg.sub0, killed [[COPY7]], %subreg.sub1, [[COPY3]], %subreg.sub2, killed [[COPY8]], %subreg.sub3
				; CHECK-NEXT: [[COPY9:%[0-9]+]]:vreg_128 = COPY [[REG_SEQUENCE]]
				; CHECK-NEXT: [[DEF4:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF5:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: BUFFER_STORE_DWORDX4_OFFEN_exact killed [[COPY9]], [[COPY1]], killed [[DEF4]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, implicit $exec :: (dereferenceable store (s128), align 1, addrspace 7)
				; CHECK-NEXT: SI_RETURN
				call void @llvm.amdgcn.raw.buffer.store.v4f32(<4 x float> %val, <4 x i32> undef, i32 %voffset, i32 %soffset, i32 0)
				ret void
				}

				define void @llvm_amdgcn_raw_tbuffer_store_v4f32(<4 x float> %val, i32 %voffset, i32 %soffset) {
				; CHECK-LABEL: name: llvm_amdgcn_raw_tbuffer_store_v4f32
				; CHECK: bb.0 (%ir-block.0):
				; CHECK-NEXT: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr5
				; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr4
				; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF1:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF2:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF3:%[0-9]+]]:sgpr_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY [[COPY5]], implicit $exec
				; CHECK-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY [[COPY3]], implicit $exec
				; CHECK-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY [[COPY2]], implicit $exec
				; CHECK-NEXT: [[REG_SEQUENCE:%[0-9]+]]:vreg_128 = REG_SEQUENCE killed [[COPY6]], %subreg.sub0, [[COPY4]], %subreg.sub1, killed [[COPY7]], %subreg.sub2, killed [[COPY8]], %subreg.sub3
				; CHECK-NEXT: [[COPY9:%[0-9]+]]:vreg_128 = COPY [[REG_SEQUENCE]]
				; CHECK-NEXT: [[DEF4:%[0-9]+]]:sgpr_128 = IMPLICIT_DEF
				; CHECK-NEXT: [[DEF5:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
				; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[COPY]], implicit $exec
				; CHECK-NEXT: TBUFFER_STORE_FORMAT_XYZW_OFFEN_exact killed [[COPY9]], [[COPY1]], killed [[DEF4]], [[V_READFIRSTLANE_B32_]], 0, 0, 0, 0, implicit $exec :: (dereferenceable store (s128), align 1, addrspace 7)
				; CHECK-NEXT: SI_RETURN
				call void @llvm.amdgcn.raw.tbuffer.store.v4f32(<4 x float> %val, <4 x i32> undef, i32 %voffset, i32 %soffset, i32 0, i32 0)
				ret void
				}

				declare float @llvm.amdgcn.raw.buffer.load.f32(<4 x i32>, i32, i32, i32 )
				declare float @llvm.amdgcn.raw.tbuffer.load.f32(<4 x i32>, i32, i32, i32, i32)
				declare <2 x float> @llvm.amdgcn.raw.buffer.load.v2f32(<4 x i32>, i32, i32, i32)
				declare <2 x float> @llvm.amdgcn.raw.tbuffer.load.v2f32(<4 x i32>, i32, i32, i32, i32)
				declare <3 x float> @llvm.amdgcn.raw.buffer.load.v3f32(<4 x i32>, i32, i32, i32)
				declare <3 x float> @llvm.amdgcn.raw.tbuffer.load.v3f32(<4 x i32>, i32, i32, i32, i32)
				declare <4 x float> @llvm.amdgcn.raw.buffer.load.v4f32(<4 x i32>, i32, i32, i32)
				declare <4 x float> @llvm.amdgcn.raw.tbuffer.load.v4f32(<4 x i32>, i32, i32, i32, i32)
				declare void @llvm.amdgcn.raw.buffer.store.f32(float, <4 x i32>, i32, i32, i32)
				declare void @llvm.amdgcn.raw.tbuffer.store.f32(float, <4 x i32>, i32, i32, i32, i32)
				declare void @llvm.amdgcn.raw.buffer.store.v2f32(<2 x float>, <4 x i32>, i32, i32, i32)
				declare void @llvm.amdgcn.raw.tbuffer.store.v2f32(<2 x float>, <4 x i32>, i32, i32, i32, i32)
				declare void @llvm.amdgcn.raw.buffer.store.v3f32(<3 x float>, <4 x i32>, i32, i32, i32)
				declare void @llvm.amdgcn.raw.tbuffer.store.v3f32(<3 x float>, <4 x i32>, i32, i32, i32, i32)
				declare void @llvm.amdgcn.raw.buffer.store.v4f32(<4 x float>, <4 x i32>, i32, i32, i32)
				declare void @llvm.amdgcn.raw.tbuffer.store.v4f32(<4 x float>, <4 x i32>, i32, i32, i32, i32)