This is an archive of the discontinued LLVM Phabricator instance.

Differential D120265

AMDGPU: Use the implicit kernargs for code object version 5
ClosedPublic

Authored by cfang on Feb 21 2022, 11:23 AM.

Download Raw Diff

Details

Reviewers

b-sumner
tony-tye
arsenm
sameerds
bcahoon
yaxunl
kzhuravl
jdoerfert
sstefan1
baziotis

Group Reviewers

Restricted Project

Commits

rGdd5895cc3986: AMDGPU: Use the implicit kernargs for code object version 5

Summary

Specifically, for trap handling, for targets that do not support getDoorbellID,
we load the queue_ptr from the implicit kernarg, and move queue_ptr to s[0:1].
To get aperture bases when targets do not have aperture registers, we load
private_base or shared_base directly from the implicit kernarg. In clang, we use
implicitarg_ptr + offsets to implement __builtin_amdgcn_workgroup_size_{xyz}.

Diff Detail

Unit TestsFailed

	Time	Test
	60,050 ms	x64 debian > libFuzzer.libFuzzer::large.test

Event Timeline

cfang created this revision.Feb 21 2022, 11:23 AM

Herald added subscribers: foad, okura, kuter and 7 others. · View Herald TranscriptFeb 21 2022, 11:23 AM

cfang requested review of this revision.Feb 21 2022, 11:23 AM

Herald added a reviewer: jdoerfert. · View Herald TranscriptFeb 21 2022, 11:23 AM

Herald added a reviewer: sstefan1. · View Herald Transcript

Herald added a reviewer: baziotis. · View Herald Transcript

Herald added a project: Restricted Project. · View Herald Transcript

Herald added a subscriber: wdng. · View Herald Transcript

Harbormaster completed remote builds in B150727: Diff 410341.Feb 21 2022, 12:35 PM

yaxunl added inline comments.Feb 21 2022, 2:59 PM

clang/lib/CodeGen/CGBuiltin.cpp
16253–16254	Is the logic reversed?

cfang added inline comments.Feb 21 2022, 3:17 PM

clang/lib/CodeGen/CGBuiltin.cpp
16253–16254	You are right. Will correct it. Thanks

Correct the logic ordering error in selecting the intrinsic based on code object version.
Also update the code based on clang-format check and Lint suggestions.

Harbormaster completed remote builds in B150781: Diff 410415.Feb 21 2022, 5:00 PM

arsenm added inline comments.Feb 21 2022, 5:40 PM

clang/lib/CodeGen/CGBuiltin.cpp
16252–16254	Given that it's an offset from a different base, I think it would be cleaner to just branch around the two cases
llvm/lib/Target/AMDGPU/AMDGPUAttributor.cpp
410–412 ↗	(On Diff #410415)	This isn't covered by any test changes
llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h
326–328	You shouldn't merge these into the same enum. This enum should be renamed, this is for a different clover ABI
llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
4876	You're repeating this long sequence to get the queue pointer in two places, should common these into a function to get the queue pointer. Alternatively, emit the intrinsic and move this expansion into a lowering of the queue pointer intrinsic
llvm/lib/Target/AMDGPU/Utils/AMDGPUBaseInfo.cpp
155 ↗	(On Diff #410415)	The code object version should probably come from the IR, not a global opt

arsenm added inline comments.Feb 21 2022, 5:46 PM

clang/lib/CodeGen/CGBuiltin.cpp
16243	Isn't the total size 256?
16244	If I remember correctly we require 8 byte alignment (not that it makes much difference)

Please fix the commit description so that the first line is self-contained and separated from the rest by a blank line. This matters a lot when looking at the output of "git log ---oneline". In particular, the start with "in this work we implement" is pretty much unnecessary.

cfang added inline comments.Feb 21 2022, 9:32 PM

llvm/lib/Target/AMDGPU/Utils/AMDGPUBaseInfo.cpp
155 ↗	(On Diff #410415)	Can you be explicit how to get code object version from the IR?

cfang added inline comments.Feb 21 2022, 9:53 PM

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
4876	We are loading different implicit kernel arguments in these two place, one is for queue_ptr, and another is for private_base/shared_base. I can try to figure out whether we can factor out some common part.

scott.linder added a subscriber: scott.linder.Feb 22 2022, 1:11 PM

scott.linder added inline comments.

clang/lib/CodeGen/CGBuiltin.cpp
16255	I agree with Matt above; this comment seems like it should also be updated for the v5 case?
llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp
4388	typo
llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1817	These parens are redundant
llvm/lib/Target/AMDGPU/Utils/AMDGPUBaseInfo.cpp
155 ↗	(On Diff #410415)	IIUC the global opt var is the best we have right now, and any improvement to that situation is orthogonal to this change. I would vote that this not block the patch under review

cfang added inline comments.Feb 22 2022, 2:26 PM

llvm/lib/Target/AMDGPU/AMDGPUAttributor.cpp
410–412 ↗	(On Diff #410415)	Are the tests of @llvm_amdgcn_is_private, @llvm_amdgcn_is_shared and @addrspacecast under v5 covering this? For example, for @llvm_amdgcn_is_shared, "s_load_dword s0, s[6:7], 0xcc" is generated to load the shared_base and s[6:7] holds the argument ptr.

cfang added inline comments.Feb 22 2022, 2:30 PM

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h
326–328	I am not clear what is the clover ABI. But GRID_DIM and GRID_OFFSET have never been used. Can we simply remove them?

cfang edited the summary of this revision. (Show Details)Feb 22 2022, 2:36 PM

Update based on review feedback

Update EmitAMDGPUImplicitArgPtr: DereferenceableBytes=256 and Align=8
Branch around v5 to emit ImplicitArgPtr or DispatchPtr,
Remove unused entries (GROD_DIM and GRID_OFFSET) in ImplicitParameter enum
Fix typos and remove unnecessary "(" and ")".

Harbormaster completed remote builds in B151139: Diff 410933.Feb 23 2022, 3:15 PM

pspchandra added a subscriber: pspchandra.Mar 7 2022, 11:57 AM

Herald added a project: Restricted Project. · View Herald TranscriptMar 7 2022, 11:57 AM

Rebase and update LIT tests.

Harbormaster completed remote builds in B153811: Diff 414711.Mar 11 2022, 1:06 PM

Please remove the JIRA ticket number from the commit description.

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
4876	There is still a lot common between this hunk and the previous hunk. It should be refactored into a common function.

cfang marked an inline comment as done.Mar 14 2022, 3:50 PM

Introduce a common function, SITargetLowering::loadImplicitKernelArgument, which is used

in both getSegmentAperture and lowerTrapHsaQueuePtr.

Define enum ImplicitKernargOffset to get implicit kernel argument offset directly.
- This eliminates the functions to get the offset.

arsenm added inline comments.Mar 14 2022, 4:08 PM

clang/lib/CodeGen/CGBuiltin.cpp
16259	Extra space after (
llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1839	Use buildPtrAdd (not sure why we still have materializePtrAdd)
4850	ST is available in the class
llvm/lib/Target/AMDGPU/SIDefines.h
784 ↗	(On Diff #415256)	Add a COV5 suffix? Probably should also wrap in a namespace

Harbormaster completed remote builds in B154209: Diff 415256.Mar 14 2022, 5:34 PM

Ping!

cfang marked 4 inline comments as done.Mar 16 2022, 3:06 PM

cfang added inline comments.

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1839	Use buildPtrAdd ! Thanks.
4850	Remove it. Thanks.
llvm/lib/Target/AMDGPU/SIDefines.h
784 ↗	(On Diff #415256)	Add COV5 suffix, and wrap in a namespace of ImplicitArg. Rename the type to Offset. So it is of AMDGPU::ImplicitArg::Offset type.

Update based on Matt's comments:

Use buildPtrAdd
Remove a space
Add suffix for the enum definition and also wrap with a namespace
Remove the redundant def of ST (SubTarget)
Updated according to clang-format

arsenm added inline comments.Mar 16 2022, 4:46 PM

llvm/lib/Target/AMDGPU/SIDefines.h
784 ↗	(On Diff #415256)	I meant suffix on the enum itself, not on each individual field

Harbormaster completed remote builds in B154733: Diff 416017.Mar 16 2022, 4:58 PM

sameerds added inline comments.Mar 16 2022, 9:34 PM

llvm/lib/Target/AMDGPU/AMDGPUAttributor.cpp
546 ↗	(On Diff #416017)	I think we should keep using the original getHeapPtrImplicitArgPosition(). Hardcoding the enum here doesn't necessarily make the code more readable. And later if we have a different value in COV6, we will end up reintroducing a check for the code-object-version anyway. That check can be encapsulated within the get...ArgPosition() family of functions.
llvm/lib/Target/AMDGPU/SIDefines.h
786 ↗	(On Diff #416017)	This should be "UPTO_COV4". Or if we really want to say COV5, then "BEFORE_COV5" or "PRE_COV5". But to me, "UPTO_COV4" is the clearest.

cfang marked 2 inline comments as done.Mar 17 2022, 12:07 AM

cfang added inline comments.

llvm/lib/Target/AMDGPU/AMDGPUAttributor.cpp
546 ↗	(On Diff #416017)	I personally do not have any preference here to use the offset enum or a function. Similarly I also could not understand why the offset of an existing argument changes its value across code object versions. However, I do think this should not block the current work of code object 5.
llvm/lib/Target/AMDGPU/SIDefines.h
786 ↗	(On Diff #416017)	This issue does not exist if the _COV5 suffix is for the type of this enum because we only consider COV5 in this definition.
784 ↗	(On Diff #415256)	OK, will change to the suffix of the enum itself.

A minor change: add suffix to the enum itself instead of the individual field.
Also remove the "Fixes" field in the summary (commit message).

Harbormaster completed remote builds in B154775: Diff 416080.Mar 17 2022, 1:07 AM

arsenm accepted this revision.Mar 17 2022, 1:33 PM

arsenm added inline comments.

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h
323–325	This isn't FIRST_IMPLICIT unless you reuse the same value. There's also no use of FIRST_IMPLICIT so you might as well remove it

This revision is now accepted and ready to land.Mar 17 2022, 1:33 PM

cfang added inline comments.Mar 17 2022, 1:59 PM

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h
323–325	FIRST_IMPLICIT is used in multiple places, for example, getImplicitArgPtr, which is used to lower Intrinsic::amdgcn_implicitarg_ptr. WE need amdgcn_implicitarg_ptr + offset to reference the implicit kernel argument.

This revision was landed with ongoing or failed builds.Mar 17 2022, 2:13 PM

Closed by commit rGdd5895cc3986: AMDGPU: Use the implicit kernargs for code object version 5 (authored by cfang). · Explain Why

This revision was automatically updated to reflect the committed changes.

cfang added a commit: rGdd5895cc3986: AMDGPU: Use the implicit kernargs for code object version 5.

Herald added a project: Restricted Project. · View Herald TranscriptMar 17 2022, 2:13 PM

Herald added a subscriber: cfe-commits. · View Herald Transcript

Revision Contents

Path

Size

clang/

lib/

CodeGen/

CGBuiltin.cpp

27 lines

test/

CodeGenCUDA/

amdgpu-workgroup-size.cu

32 lines

llvm/

lib/

Target/

AMDGPU/

AMDGPUISelLowering.h

5 lines

AMDGPUISelLowering.cpp

10 lines

AMDGPULegalizerInfo.cpp

74 lines

SIISelLowering.cpp

46 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

implicit-kernarg-backend-usage-global-isel.ll

546 lines

implicit-kernarg-backend-usage.ll

550 lines

Diff 414711

clang/lib/CodeGen/CGBuiltin.cpp

	Show All 21 Lines
	if (!E)			if (!E)
	return Call;			return Call;
	QualType BuiltinRetType = E->getType();			QualType BuiltinRetType = E->getType();
	auto *RetTy = cast<llvm::PointerType>(CGF.ConvertType(BuiltinRetType));			auto *RetTy = cast<llvm::PointerType>(CGF.ConvertType(BuiltinRetType));
	if (RetTy == Call->getType())			if (RetTy == Call->getType())
	return Call;			return Call;
	return CGF.Builder.CreateAddrSpaceCast(Call, RetTy);			return CGF.Builder.CreateAddrSpaceCast(Call, RetTy);
	}			}

				arsenmUnsubmitted Not Done Reply Inline Actions Isn't the total size 256? arsenm: Isn't the total size 256?
				Value *EmitAMDGPUImplicitArgPtr(CodeGenFunction &CGF) {
				arsenmUnsubmitted Not Done Reply Inline Actions If I remember correctly we require 8 byte alignment (not that it makes much difference) arsenm: If I remember correctly we require 8 byte alignment (not that it makes much difference)
				auto *F = CGF.CGM.getIntrinsic(Intrinsic::amdgcn_implicitarg_ptr);
				auto *Call = CGF.Builder.CreateCall(F);
				Call->addRetAttr(
				Attribute::getWithDereferenceableBytes(Call->getContext(), 256));
				Call->addRetAttr(Attribute::getWithAlignment(Call->getContext(), Align(8)));
				return Call;
				}

	// \p Index is 0, 1, and 2 for x, y, and z dimension, respectively.			// \p Index is 0, 1, and 2 for x, y, and z dimension, respectively.
	Value *EmitAMDGPUWorkGroupSize(CodeGenFunction &CGF, unsigned Index) {			Value *EmitAMDGPUWorkGroupSize(CodeGenFunction &CGF, unsigned Index) {
				yaxunlUnsubmitted Done Reply Inline Actions Is the logic reversed? yaxunl: Is the logic reversed?
				arsenmUnsubmitted Not Done Reply Inline Actions Given that it's an offset from a different base, I think it would be cleaner to just branch around the two cases arsenm: Given that it's an offset from a different base, I think it would be cleaner to just branch…
				cfangAuthorUnsubmitted Done Reply Inline Actions You are right. Will correct it. Thanks cfang: You are right. Will correct it. Thanks
	const unsigned XOffset = 4;			bool IsCOV_5 = CGF.getTarget().getTargetOpts().CodeObjectVersion ==
				scott.linderUnsubmitted Not Done Reply Inline Actions I agree with Matt above; this comment seems like it should also be updated for the v5 case? scott.linder: I agree with Matt above; this comment seems like it should also be updated for the v5 case?
	auto *DP = EmitAMDGPUDispatchPtr(CGF);			clang::TargetOptions::COV_5;
	// Indexing the HSA kernel_dispatch_packet struct.			Constant *Offset;
	auto Offset = llvm::ConstantInt::get(CGF.Int32Ty, XOffset + Index 2);			Value *DP;
				if ( IsCOV_5) {
				Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - if ( IsCOV_5) { + if (IsCOV_5) { Lint: Pre-merge checks: clang-format: please reformat the code ``` - if ( IsCOV_5) { + if (IsCOV_5) { ```
				arsenmUnsubmitted Done Reply Inline Actions Extra space after ( arsenm: Extra space after (
				// Indexing the implicit kernarg segment.
				Offset = llvm::ConstantInt::get(CGF.Int32Ty, 12 + Index * 2);
				DP = EmitAMDGPUImplicitArgPtr(CGF);
				} else {
				// Indexing the HSA kernel_dispatch_packet struct.
				Offset = llvm::ConstantInt::get(CGF.Int32Ty, 4 + Index * 2);
				DP = EmitAMDGPUDispatchPtr(CGF);
				}

	auto *GEP = CGF.Builder.CreateGEP(CGF.Int8Ty, DP, Offset);			auto *GEP = CGF.Builder.CreateGEP(CGF.Int8Ty, DP, Offset);
	auto *DstTy =			auto *DstTy =
	CGF.Int16Ty->getPointerTo(GEP->getType()->getPointerAddressSpace());			CGF.Int16Ty->getPointerTo(GEP->getType()->getPointerAddressSpace());
	auto *Cast = CGF.Builder.CreateBitCast(GEP, DstTy);			auto *Cast = CGF.Builder.CreateBitCast(GEP, DstTy);
	auto *LD = CGF.Builder.CreateLoad(			auto *LD = CGF.Builder.CreateLoad(
	Address(Cast, CGF.Int16Ty, CharUnits::fromQuantity(2)));			Address(Cast, CGF.Int16Ty, CharUnits::fromQuantity(2)));
	llvm::MDBuilder MDHelper(CGF.getLLVMContext());			llvm::MDBuilder MDHelper(CGF.getLLVMContext());
	llvm::MDNode *RNode = MDHelper.createRange(APInt(16, 1),			llvm::MDNode *RNode = MDHelper.createRange(APInt(16, 1),
	Show All 22 Lines

clang/test/CodeGenCUDA/amdgpu-workgroup-size.cu

	// RUN: %clang_cc1 -triple amdgcn-amd-amdhsa \			// RUN: %clang_cc1 -triple amdgcn-amd-amdhsa \
	// RUN: -fcuda-is-device -emit-llvm -o - -x hip %s \			// RUN: -fcuda-is-device -emit-llvm -o - -x hip %s \
	// RUN: \| FileCheck %s			// RUN: \| FileCheck -check-prefix=PRECOV5 %s


				// RUN: %clang_cc1 -triple amdgcn-amd-amdhsa \
				// RUN: -fcuda-is-device -mcode-object-version=5 -emit-llvm -o - -x hip %s \
				// RUN: \| FileCheck -check-prefix=COV5 %s

	#include "Inputs/cuda.h"			#include "Inputs/cuda.h"

	// CHECK-LABEL: test_get_workgroup_size			// PRECOV5-LABEL: test_get_workgroup_size
	// CHECK: call align 4 dereferenceable(64) i8 addrspace(4)* @llvm.amdgcn.dispatch.ptr()			// PRECOV5: call align 4 dereferenceable(64) i8 addrspace(4)* @llvm.amdgcn.dispatch.ptr()
	// CHECK: getelementptr i8, i8 addrspace(4)* %{{.*}}, i32 4			// PRECOV5: getelementptr i8, i8 addrspace(4)* %{{.*}}, i32 4
	// CHECK: load i16, i16 addrspace(4)* %{{.}}, align 2, !range [[$WS_RANGE:![0-9]]], !invariant.load			// PRECOV5: load i16, i16 addrspace(4)* %{{.}}, align 2, !range [[$WS_RANGE:![0-9]]], !invariant.load
	// CHECK: getelementptr i8, i8 addrspace(4)* %{{.*}}, i32 6			// PRECOV5: getelementptr i8, i8 addrspace(4)* %{{.*}}, i32 6
	// CHECK: load i16, i16 addrspace(4)* %{{.}}, align 2, !range [[$WS_RANGE:![0-9]]], !invariant.load			// PRECOV5: load i16, i16 addrspace(4)* %{{.}}, align 2, !range [[$WS_RANGE:![0-9]]], !invariant.load
	// CHECK: getelementptr i8, i8 addrspace(4)* %{{.*}}, i32 8			// PRECOV5: getelementptr i8, i8 addrspace(4)* %{{.*}}, i32 8
	// CHECK: load i16, i16 addrspace(4)* %{{.}}, align 2, !range [[$WS_RANGE:![0-9]]], !invariant.load			// PRECOV5: load i16, i16 addrspace(4)* %{{.}}, align 2, !range [[$WS_RANGE:![0-9]]], !invariant.load

				// COV5-LABEL: test_get_workgroup_size
				// COV5: call align 8 dereferenceable(256) i8 addrspace(4)* @llvm.amdgcn.implicitarg.ptr()
				// COV5: getelementptr i8, i8 addrspace(4)* %{{.*}}, i32 12
				// COV5: load i16, i16 addrspace(4)* %{{.}}, align 2, !range [[$WS_RANGE:![0-9]]], !invariant.load
				// COV5: getelementptr i8, i8 addrspace(4)* %{{.*}}, i32 14
				// COV5: load i16, i16 addrspace(4)* %{{.}}, align 2, !range [[$WS_RANGE:![0-9]]], !invariant.load
				// COV5: getelementptr i8, i8 addrspace(4)* %{{.*}}, i32 16
				// COV5: load i16, i16 addrspace(4)* %{{.}}, align 2, !range [[$WS_RANGE:![0-9]]], !invariant.load
	__device__ void test_get_workgroup_size(int d, int *out)			__device__ void test_get_workgroup_size(int d, int *out)
	{			{
	switch (d) {			switch (d) {
	case 0: *out = __builtin_amdgcn_workgroup_size_x(); break;			case 0: *out = __builtin_amdgcn_workgroup_size_x(); break;
	case 1: *out = __builtin_amdgcn_workgroup_size_y(); break;			case 1: *out = __builtin_amdgcn_workgroup_size_y(); break;
	case 2: *out = __builtin_amdgcn_workgroup_size_z(); break;			case 2: *out = __builtin_amdgcn_workgroup_size_z(); break;
	default: *out = 0;			default: *out = 0;
	}			}
	}			}

	// CHECK-DAG: [[$WS_RANGE]] = !{i16 1, i16 1025}			// CHECK-DAG: [[$WS_RANGE]] = !{i16 1, i16 1025}

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h

	Show All 22 Lines

	SDValue loadInputValue(SelectionDAG &DAG,			SDValue loadInputValue(SelectionDAG &DAG,
	const TargetRegisterClass *RC,			const TargetRegisterClass *RC,
	EVT VT, const SDLoc &SL,			EVT VT, const SDLoc &SL,
	const ArgDescriptor &Arg) const;			const ArgDescriptor &Arg) const;

	enum ImplicitParameter {			enum ImplicitParameter {
	FIRST_IMPLICIT,			FIRST_IMPLICIT,
	GRID_DIM = FIRST_IMPLICIT,			PRIVATE_BASE,
	GRID_OFFSET,			SHARED_BASE,
				QUEUE_PTR,
				arsenmUnsubmitted Not Done Reply Inline Actions This isn't FIRST_IMPLICIT unless you reuse the same value. There's also no use of FIRST_IMPLICIT so you might as well remove it arsenm: This isn't FIRST_IMPLICIT unless you reuse the same value. There's also no use of…
				cfangAuthorUnsubmitted Done Reply Inline Actions FIRST_IMPLICIT is used in multiple places, for example, getImplicitArgPtr, which is used to lower Intrinsic::amdgcn_implicitarg_ptr. WE need amdgcn_implicitarg_ptr + offset to reference the implicit kernel argument. cfang: FIRST_IMPLICIT is used in multiple places, for example, getImplicitArgPtr, which is used to…
	};			};

	/// Helper function that returns the byte offset of the given			/// Helper function that returns the byte offset of the given
				arsenmUnsubmitted Not Done Reply Inline Actions You shouldn't merge these into the same enum. This enum should be renamed, this is for a different clover ABI arsenm: You shouldn't merge these into the same enum. This enum should be renamed, this is for a…
				cfangAuthorUnsubmitted Done Reply Inline Actions I am not clear what is the clover ABI. But GRID_DIM and GRID_OFFSET have never been used. Can we simply remove them? cfang: I am not clear what is the clover ABI. But GRID_DIM and GRID_OFFSET have never been used. Can…
	/// type of implicit parameter.			/// type of implicit parameter.
	uint32_t getImplicitParameterOffset(const MachineFunction &MF,			uint32_t getImplicitParameterOffset(const MachineFunction &MF,
	const ImplicitParameter Param) const;			const ImplicitParameter Param) const;

	MVT getFenceOperandTy(const DataLayout &DL) const override {			MVT getFenceOperandTy(const DataLayout &DL) const override {
	return MVT::i32;			return MVT::i32;
	}			}

	Show All 19 Lines

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

	Show All 22 Lines
	const AMDGPUMachineFunction *MFI = MF.getInfo<AMDGPUMachineFunction>();			const AMDGPUMachineFunction *MFI = MF.getInfo<AMDGPUMachineFunction>();
	const AMDGPUSubtarget &ST =			const AMDGPUSubtarget &ST =
	AMDGPUSubtarget::get(getTargetMachine(), MF.getFunction());			AMDGPUSubtarget::get(getTargetMachine(), MF.getFunction());
	unsigned ExplicitArgOffset = ST.getExplicitKernelArgOffset(MF.getFunction());			unsigned ExplicitArgOffset = ST.getExplicitKernelArgOffset(MF.getFunction());
	const Align Alignment = ST.getAlignmentForImplicitArgPtr();			const Align Alignment = ST.getAlignmentForImplicitArgPtr();
	uint64_t ArgOffset = alignTo(MFI->getExplicitKernArgSize(), Alignment) +			uint64_t ArgOffset = alignTo(MFI->getExplicitKernArgSize(), Alignment) +
	ExplicitArgOffset;			ExplicitArgOffset;
	switch (Param) {			switch (Param) {
	case GRID_DIM:			case FIRST_IMPLICIT:
	return ArgOffset;			return ArgOffset;
	case GRID_OFFSET:			case PRIVATE_BASE:
	return ArgOffset + 4;			return ArgOffset + 192;
				case SHARED_BASE:
				scott.linderUnsubmitted Not Done Reply Inline Actions typo scott.linder: typo
				return ArgOffset + 196;
				case QUEUE_PTR:
				return ArgOffset + 200;
	}			}
	llvm_unreachable("unexpected implicit parameter type");			llvm_unreachable("unexpected implicit parameter type");
	}			}

	#define NODE_NAME_CASE(node) case AMDGPUISD::node: return #node;			#define NODE_NAME_CASE(node) case AMDGPUISD::node: return #node;

	const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {			const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {
	switch ((AMDGPUISD::NodeType)Opcode) {			switch ((AMDGPUISD::NodeType)Opcode) {
	Show All 22 Lines

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

	Show All 22 Lines
	.addDef(GetReg)			.addDef(GetReg)
	.addImm(Encoding);			.addImm(Encoding);
	MRI.setType(GetReg, S32);			MRI.setType(GetReg, S32);

	auto ShiftAmt = B.buildConstant(S32, WidthM1 + 1);			auto ShiftAmt = B.buildConstant(S32, WidthM1 + 1);
	return B.buildShl(S32, GetReg, ShiftAmt).getReg(0);			return B.buildShl(S32, GetReg, ShiftAmt).getReg(0);
	}			}

				// TODO: can we be smarter about machine pointer info?
				MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);
				// For code object version 5, private_base and shared_base are passed through
				// implicit kernargs.
				if (AMDGPU::getAmdhsaCodeObjectVersion() == 5) {
				scott.linderUnsubmitted Not Done Reply Inline Actions These parens are redundant scott.linder: These parens are redundant
				AMDGPUTargetLowering::ImplicitParameter Param =
				AS == AMDGPUAS::LOCAL_ADDRESS ? AMDGPUTargetLowering::SHARED_BASE
				: AMDGPUTargetLowering::PRIVATE_BASE;
				uint64_t Offset =
				ST.getTargetLowering()->getImplicitParameterOffset(B.getMF(), Param);

				Register KernargPtrReg = MRI.createGenericVirtualRegister(
				LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));

				if (!loadInputValue(KernargPtrReg, B,
				AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR))
				return Register();

				MachineMemOperand *MMO = MF.getMachineMemOperand(
				PtrInfo,
				MachineMemOperand::MOLoad \| MachineMemOperand::MODereferenceable \|
				MachineMemOperand::MOInvariant,
				LLT::scalar(32), commonAlignment(Align(64), Offset));

				Register LoadAddr;
				// Pointer address
				B.materializePtrAdd(LoadAddr, KernargPtrReg, LLT::scalar(64), Offset);
				arsenmUnsubmitted Done Reply Inline Actions Use buildPtrAdd (not sure why we still have materializePtrAdd) arsenm: Use buildPtrAdd (not sure why we still have materializePtrAdd)
				cfangAuthorUnsubmitted Done Reply Inline Actions Use buildPtrAdd ! Thanks. cfang: Use buildPtrAdd ! Thanks.
				// Load address
				return B.buildLoad(S32, LoadAddr, *MMO).getReg(0);
				}

	Register QueuePtr = MRI.createGenericVirtualRegister(			Register QueuePtr = MRI.createGenericVirtualRegister(
	LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));			LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));

	if (!loadInputValue(QueuePtr, B, AMDGPUFunctionArgInfo::QUEUE_PTR))			if (!loadInputValue(QueuePtr, B, AMDGPUFunctionArgInfo::QUEUE_PTR))
	return Register();			return Register();

	// Offset into amd_queue_t for group_segment_aperture_base_hi /			// Offset into amd_queue_t for group_segment_aperture_base_hi /
	// private_segment_aperture_base_hi.			// private_segment_aperture_base_hi.
	uint32_t StructOffset = (AS == AMDGPUAS::LOCAL_ADDRESS) ? 0x40 : 0x44;			uint32_t StructOffset = (AS == AMDGPUAS::LOCAL_ADDRESS) ? 0x40 : 0x44;

	// TODO: can we be smarter about machine pointer info?
	MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);
	MachineMemOperand *MMO = MF.getMachineMemOperand(			MachineMemOperand *MMO = MF.getMachineMemOperand(
	PtrInfo,			PtrInfo,
	MachineMemOperand::MOLoad \| MachineMemOperand::MODereferenceable \|			MachineMemOperand::MOLoad \| MachineMemOperand::MODereferenceable \|
	MachineMemOperand::MOInvariant,			MachineMemOperand::MOInvariant,
	LLT::scalar(32), commonAlignment(Align(64), StructOffset));			LLT::scalar(32), commonAlignment(Align(64), StructOffset));

	Register LoadAddr;			Register LoadAddr;

	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const {			MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const {
	B.buildInstr(AMDGPU::S_ENDPGM).addImm(0);			B.buildInstr(AMDGPU::S_ENDPGM).addImm(0);
	MI.eraseFromParent();			MI.eraseFromParent();
	return true;			return true;
	}			}

	bool AMDGPULegalizerInfo::legalizeTrapHsaQueuePtr(			bool AMDGPULegalizerInfo::legalizeTrapHsaQueuePtr(
	MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const {			MachineInstr &MI, MachineRegisterInfo &MRI, MachineIRBuilder &B) const {
				MachineFunction &MF = B.getMF();
				const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();
				arsenmUnsubmitted Done Reply Inline Actions ST is available in the class arsenm: ST is available in the class
				cfangAuthorUnsubmitted Done Reply Inline Actions Remove it. Thanks. cfang: Remove it. Thanks.
				const LLT S64 = LLT::scalar(64);

				Register SGPR01(AMDGPU::SGPR0_SGPR1);
				// For code object version 5, queue_ptr is passed through implicit kernarg.
				if (AMDGPU::getAmdhsaCodeObjectVersion() == 5) {
				AMDGPUTargetLowering::ImplicitParameter Param =
				AMDGPUTargetLowering::QUEUE_PTR;
				uint64_t Offset =
				ST.getTargetLowering()->getImplicitParameterOffset(B.getMF(), Param);

				Register KernargPtrReg = MRI.createGenericVirtualRegister(
				LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));

				if (!loadInputValue(KernargPtrReg, B,
				AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR))
				return false;

				// TODO: can we be smarter about machine pointer info?
				MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);
				MachineMemOperand *MMO = MF.getMachineMemOperand(
				PtrInfo,
				MachineMemOperand::MOLoad \| MachineMemOperand::MODereferenceable \|
				MachineMemOperand::MOInvariant,
				LLT::scalar(64), commonAlignment(Align(64), Offset));

				// Pointer address
				arsenmUnsubmitted Not Done Reply Inline Actions You're repeating this long sequence to get the queue pointer in two places, should common these into a function to get the queue pointer. Alternatively, emit the intrinsic and move this expansion into a lowering of the queue pointer intrinsic arsenm: You're repeating this long sequence to get the queue pointer in two places, should common these…
				cfangAuthorUnsubmitted Done Reply Inline Actions We are loading different implicit kernel arguments in these two place, one is for queue_ptr, and another is for private_base/shared_base. I can try to figure out whether we can factor out some common part. cfang: We are loading different implicit kernel arguments in these two place, one is for queue_ptr…
				sameerdsUnsubmitted Done Reply Inline Actions There is still a lot common between this hunk and the previous hunk. It should be refactored into a common function. sameerds: There is still a lot common between this hunk and the previous hunk. It should be refactored…
				Register LoadAddr;
				B.materializePtrAdd(LoadAddr, KernargPtrReg, LLT::scalar(64), Offset);
				// Load address
				Register Temp = B.buildLoad(S64, LoadAddr, *MMO).getReg(0);
				B.buildCopy(SGPR01, Temp);
				B.buildInstr(AMDGPU::S_TRAP)
				.addImm(static_cast<unsigned>(GCNSubtarget::TrapID::LLVMAMDHSATrap))
				.addReg(SGPR01, RegState::Implicit);
				MI.eraseFromParent();
				return true;
				}

	// Pass queue pointer to trap handler as input, and insert trap instruction			// Pass queue pointer to trap handler as input, and insert trap instruction
	// Reference: https://llvm.org/docs/AMDGPUUsage.html#trap-handler-abi			// Reference: https://llvm.org/docs/AMDGPUUsage.html#trap-handler-abi
	Register LiveIn =			Register LiveIn =
	MRI.createGenericVirtualRegister(LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));			MRI.createGenericVirtualRegister(LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));
	if (!loadInputValue(LiveIn, B, AMDGPUFunctionArgInfo::QUEUE_PTR))			if (!loadInputValue(LiveIn, B, AMDGPUFunctionArgInfo::QUEUE_PTR))
	return false;			return false;

	Register SGPR01(AMDGPU::SGPR0_SGPR1);
	B.buildCopy(SGPR01, LiveIn);			B.buildCopy(SGPR01, LiveIn);
	B.buildInstr(AMDGPU::S_TRAP)			B.buildInstr(AMDGPU::S_TRAP)
	.addImm(static_cast<unsigned>(GCNSubtarget::TrapID::LLVMAMDHSATrap))			.addImm(static_cast<unsigned>(GCNSubtarget::TrapID::LLVMAMDHSATrap))
	.addReg(SGPR01, RegState::Implicit);			.addReg(SGPR01, RegState::Implicit);

	MI.eraseFromParent();			MI.eraseFromParent();
	return true;			return true;
	}			}
	Show All 22 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

	Show All 22 Lines
	}			}

	SDValue SITargetLowering::lowerTrapHsaQueuePtr(			SDValue SITargetLowering::lowerTrapHsaQueuePtr(
	SDValue Op, SelectionDAG &DAG) const {			SDValue Op, SelectionDAG &DAG) const {
	SDLoc SL(Op);			SDLoc SL(Op);
	SDValue Chain = Op.getOperand(0);			SDValue Chain = Op.getOperand(0);

	MachineFunction &MF = DAG.getMachineFunction();			MachineFunction &MF = DAG.getMachineFunction();
	SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();
	Register UserSGPR = Info->getQueuePtrUserSGPR();

	SDValue QueuePtr;			SDValue QueuePtr;
	if (UserSGPR == AMDGPU::NoRegister) {			// For code object version 5, QueuePtr is passed through implicit kernarg.
	// We probably are in a function incorrectly marked with			if (AMDGPU::getAmdhsaCodeObjectVersion() == 5) {
	// amdgpu-no-queue-ptr. This is undefined. We don't want to delete the trap,			uint64_t Offset = getImplicitParameterOffset(MF, QUEUE_PTR);
	// so just use a null pointer.			SDValue ArgPtr =
	QueuePtr = DAG.getConstant(0, SL, MVT::i64);			lowerKernArgParameterPtr(DAG, SL, DAG.getEntryNode(), Offset);
				MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);
				QueuePtr = DAG.getLoad(
				MVT::i64, SL, DAG.getEntryNode(), ArgPtr, PtrInfo, Align(8),
				MachineMemOperand::MODereferenceable \| MachineMemOperand::MOInvariant);
	} else {			} else {
	QueuePtr = CreateLiveInRegister(			SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();
	DAG, &AMDGPU::SReg_64RegClass, UserSGPR, MVT::i64);			Register UserSGPR = Info->getQueuePtrUserSGPR();

				if (UserSGPR == AMDGPU::NoRegister) {
				// We probably are in a function incorrectly marked with
				// amdgpu-no-queue-ptr. This is undefined. We don't want to delete the trap,
				Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - // amdgpu-no-queue-ptr. This is undefined. We don't want to delete the trap, - // so just use a null pointer. + // amdgpu-no-queue-ptr. This is undefined. We don't want to delete the + // trap, so just use a null pointer. Lint: Pre-merge checks: clang-format: please reformat the code ``` - // amdgpu-no-queue-ptr. This is undefined. We…
				// so just use a null pointer.
				QueuePtr = DAG.getConstant(0, SL, MVT::i64);
				} else {
				QueuePtr = CreateLiveInRegister(DAG, &AMDGPU::SReg_64RegClass, UserSGPR,
				MVT::i64);
				}
	}			}

	SDValue SGPR01 = DAG.getRegister(AMDGPU::SGPR0_SGPR1, MVT::i64);			SDValue SGPR01 = DAG.getRegister(AMDGPU::SGPR0_SGPR1, MVT::i64);
	SDValue ToReg = DAG.getCopyToReg(Chain, SL, SGPR01,			SDValue ToReg = DAG.getCopyToReg(Chain, SL, SGPR01,
	QueuePtr, SDValue());			QueuePtr, SDValue());

	uint64_t TrapID = static_cast<uint64_t>(GCNSubtarget::TrapID::LLVMAMDHSATrap);			uint64_t TrapID = static_cast<uint64_t>(GCNSubtarget::TrapID::LLVMAMDHSATrap);
	SDValue Ops[] = {			SDValue Ops[] = {
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	SDValue EncodingImm = DAG.getTargetConstant(Encoding, DL, MVT::i16);			SDValue EncodingImm = DAG.getTargetConstant(Encoding, DL, MVT::i16);
	SDValue ApertureReg = SDValue(			SDValue ApertureReg = SDValue(
	DAG.getMachineNode(AMDGPU::S_GETREG_B32, DL, MVT::i32, EncodingImm), 0);			DAG.getMachineNode(AMDGPU::S_GETREG_B32, DL, MVT::i32, EncodingImm), 0);
	SDValue ShiftAmount = DAG.getTargetConstant(WidthM1 + 1, DL, MVT::i32);			SDValue ShiftAmount = DAG.getTargetConstant(WidthM1 + 1, DL, MVT::i32);
	return DAG.getNode(ISD::SHL, DL, MVT::i32, ApertureReg, ShiftAmount);			return DAG.getNode(ISD::SHL, DL, MVT::i32, ApertureReg, ShiftAmount);
	}			}

	MachineFunction &MF = DAG.getMachineFunction();			MachineFunction &MF = DAG.getMachineFunction();
				MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);

				// For code object version 5, private_base and shared_base are passed through
				// implicit kernargs.
				if (AMDGPU::getAmdhsaCodeObjectVersion() == 5) {
				ImplicitParameter Param =
				(AS == AMDGPUAS::LOCAL_ADDRESS) ? SHARED_BASE : PRIVATE_BASE;
				uint64_t Offset = getImplicitParameterOffset(MF, Param);
				SDValue Ptr = lowerKernArgParameterPtr(DAG, DL, DAG.getEntryNode(), Offset);
				return DAG.getLoad(MVT::i32, DL, DAG.getEntryNode(), Ptr, PtrInfo, Align(4),
				MachineMemOperand::MODereferenceable \|
				MachineMemOperand::MOInvariant);
				}

	SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();			SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();
	Register UserSGPR = Info->getQueuePtrUserSGPR();			Register UserSGPR = Info->getQueuePtrUserSGPR();
	if (UserSGPR == AMDGPU::NoRegister) {			if (UserSGPR == AMDGPU::NoRegister) {
	// We probably are in a function incorrectly marked with			// We probably are in a function incorrectly marked with
	// amdgpu-no-queue-ptr. This is undefined.			// amdgpu-no-queue-ptr. This is undefined.
	return DAG.getUNDEF(MVT::i32);			return DAG.getUNDEF(MVT::i32);
	}			}

	SDValue QueuePtr = CreateLiveInRegister(			SDValue QueuePtr = CreateLiveInRegister(
	DAG, &AMDGPU::SReg_64RegClass, UserSGPR, MVT::i64);			DAG, &AMDGPU::SReg_64RegClass, UserSGPR, MVT::i64);

	// Offset into amd_queue_t for group_segment_aperture_base_hi /			// Offset into amd_queue_t for group_segment_aperture_base_hi /
	// private_segment_aperture_base_hi.			// private_segment_aperture_base_hi.
	uint32_t StructOffset = (AS == AMDGPUAS::LOCAL_ADDRESS) ? 0x40 : 0x44;			uint32_t StructOffset = (AS == AMDGPUAS::LOCAL_ADDRESS) ? 0x40 : 0x44;

	SDValue Ptr =			SDValue Ptr =
	DAG.getObjectPtrOffset(DL, QueuePtr, TypeSize::Fixed(StructOffset));			DAG.getObjectPtrOffset(DL, QueuePtr, TypeSize::Fixed(StructOffset));

	// TODO: Use custom target PseudoSourceValue.			// TODO: Use custom target PseudoSourceValue.
	// TODO: We should use the value from the IR intrinsic call, but it might not			// TODO: We should use the value from the IR intrinsic call, but it might not
	// be available and how do we get it?			// be available and how do we get it?
	MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);
	return DAG.getLoad(MVT::i32, DL, QueuePtr.getValue(1), Ptr, PtrInfo,			return DAG.getLoad(MVT::i32, DL, QueuePtr.getValue(1), Ptr, PtrInfo,
	commonAlignment(Align(64), StructOffset),			commonAlignment(Align(64), StructOffset),
	MachineMemOperand::MODereferenceable \|			MachineMemOperand::MODereferenceable \|
	MachineMemOperand::MOInvariant);			MachineMemOperand::MOInvariant);
	}			}

	/// Return true if the value is a known valid address, such that a null check is			/// Return true if the value is a known valid address, such that a null check is
	/// not necessary.			/// not necessary.
	Show All 22 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/implicit-kernarg-backend-usage-global-isel.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 --amdhsa-code-object-version=3 < %s \| FileCheck --check-prefix=GFX8V3 %s
				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 --amdhsa-code-object-version=4 < %s \| FileCheck --check-prefix=GFX8V4 %s
				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 --amdhsa-code-object-version=5 < %s \| FileCheck --check-prefix=GFX8V5 %s

				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx906 --amdhsa-code-object-version=3 < %s \| FileCheck --check-prefixes=GFX9V3 %s
				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx906 --amdhsa-code-object-version=4 < %s \| FileCheck --check-prefixes=GFX9V4 %s
				; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx906 --amdhsa-code-object-version=5 < %s \| FileCheck --check-prefixes=GFX9V5 %s

				define amdgpu_kernel void @addrspacecast(i32 addrspace(5)* %ptr.private, i32 addrspace(3)* %ptr.local) {
				; GFX8V3-LABEL: addrspacecast:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX8V3-NEXT: s_load_dword s3, s[4:5], 0x44
				; GFX8V3-NEXT: s_load_dword s5, s[4:5], 0x40
				; GFX8V3-NEXT: v_mov_b32_e32 v2, 1
				; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V3-NEXT: s_mov_b32 s2, s0
				; GFX8V3-NEXT: s_cmp_lg_u32 s0, -1
				; GFX8V3-NEXT: s_cselect_b64 s[2:3], s[2:3], 0
				; GFX8V3-NEXT: s_mov_b32 s4, s1
				; GFX8V3-NEXT: s_cmp_lg_u32 s1, -1
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s2
				; GFX8V3-NEXT: s_cselect_b64 s[0:1], s[4:5], 0
				; GFX8V3-NEXT: v_mov_b32_e32 v1, s3
				; GFX8V3-NEXT: flat_store_dword v[0:1], v2
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V3-NEXT: v_mov_b32_e32 v2, 2
				; GFX8V3-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V3-NEXT: flat_store_dword v[0:1], v2
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: s_endpgm
				;
				; GFX8V4-LABEL: addrspacecast:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX8V4-NEXT: s_load_dword s3, s[4:5], 0x44
				; GFX8V4-NEXT: s_load_dword s5, s[4:5], 0x40
				; GFX8V4-NEXT: v_mov_b32_e32 v2, 1
				; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V4-NEXT: s_mov_b32 s2, s0
				; GFX8V4-NEXT: s_cmp_lg_u32 s0, -1
				; GFX8V4-NEXT: s_cselect_b64 s[2:3], s[2:3], 0
				; GFX8V4-NEXT: s_mov_b32 s4, s1
				; GFX8V4-NEXT: s_cmp_lg_u32 s1, -1
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s2
				; GFX8V4-NEXT: s_cselect_b64 s[0:1], s[4:5], 0
				; GFX8V4-NEXT: v_mov_b32_e32 v1, s3
				; GFX8V4-NEXT: flat_store_dword v[0:1], v2
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V4-NEXT: v_mov_b32_e32 v2, 2
				; GFX8V4-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V4-NEXT: flat_store_dword v[0:1], v2
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: s_endpgm
				;
				; GFX8V5-LABEL: addrspacecast:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX8V5-NEXT: s_load_dword s3, s[4:5], 0xc8
				; GFX8V5-NEXT: s_load_dword s5, s[4:5], 0xcc
				; GFX8V5-NEXT: v_mov_b32_e32 v2, 1
				; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V5-NEXT: s_mov_b32 s2, s0
				; GFX8V5-NEXT: s_cmp_lg_u32 s0, -1
				; GFX8V5-NEXT: s_cselect_b64 s[2:3], s[2:3], 0
				; GFX8V5-NEXT: s_mov_b32 s4, s1
				; GFX8V5-NEXT: s_cmp_lg_u32 s1, -1
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s2
				; GFX8V5-NEXT: s_cselect_b64 s[0:1], s[4:5], 0
				; GFX8V5-NEXT: v_mov_b32_e32 v1, s3
				; GFX8V5-NEXT: flat_store_dword v[0:1], v2
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V5-NEXT: v_mov_b32_e32 v2, 2
				; GFX8V5-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V5-NEXT: flat_store_dword v[0:1], v2
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: s_endpgm
				;
				; GFX9V3-LABEL: addrspacecast:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V3-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V3-NEXT: s_lshl_b32 s3, s2, 16
				; GFX9V3-NEXT: s_getreg_b32 s4, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V3-NEXT: v_mov_b32_e32 v2, 1
				; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V3-NEXT: s_mov_b32 s2, s0
				; GFX9V3-NEXT: s_cmp_lg_u32 s0, -1
				; GFX9V3-NEXT: s_cselect_b64 s[2:3], s[2:3], 0
				; GFX9V3-NEXT: s_lshl_b32 s5, s4, 16
				; GFX9V3-NEXT: s_mov_b32 s4, s1
				; GFX9V3-NEXT: s_cmp_lg_u32 s1, -1
				; GFX9V3-NEXT: v_mov_b32_e32 v0, s2
				; GFX9V3-NEXT: s_cselect_b64 s[0:1], s[4:5], 0
				; GFX9V3-NEXT: v_mov_b32_e32 v1, s3
				; GFX9V3-NEXT: flat_store_dword v[0:1], v2
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V3-NEXT: v_mov_b32_e32 v2, 2
				; GFX9V3-NEXT: v_mov_b32_e32 v1, s1
				; GFX9V3-NEXT: flat_store_dword v[0:1], v2
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: s_endpgm
				;
				; GFX9V4-LABEL: addrspacecast:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V4-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V4-NEXT: s_lshl_b32 s3, s2, 16
				; GFX9V4-NEXT: s_getreg_b32 s4, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V4-NEXT: v_mov_b32_e32 v2, 1
				; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V4-NEXT: s_mov_b32 s2, s0
				; GFX9V4-NEXT: s_cmp_lg_u32 s0, -1
				; GFX9V4-NEXT: s_cselect_b64 s[2:3], s[2:3], 0
				; GFX9V4-NEXT: s_lshl_b32 s5, s4, 16
				; GFX9V4-NEXT: s_mov_b32 s4, s1
				; GFX9V4-NEXT: s_cmp_lg_u32 s1, -1
				; GFX9V4-NEXT: v_mov_b32_e32 v0, s2
				; GFX9V4-NEXT: s_cselect_b64 s[0:1], s[4:5], 0
				; GFX9V4-NEXT: v_mov_b32_e32 v1, s3
				; GFX9V4-NEXT: flat_store_dword v[0:1], v2
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V4-NEXT: v_mov_b32_e32 v2, 2
				; GFX9V4-NEXT: v_mov_b32_e32 v1, s1
				; GFX9V4-NEXT: flat_store_dword v[0:1], v2
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: s_endpgm
				;
				; GFX9V5-LABEL: addrspacecast:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V5-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V5-NEXT: s_lshl_b32 s3, s2, 16
				; GFX9V5-NEXT: s_getreg_b32 s4, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V5-NEXT: v_mov_b32_e32 v2, 1
				; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V5-NEXT: s_mov_b32 s2, s0
				; GFX9V5-NEXT: s_cmp_lg_u32 s0, -1
				; GFX9V5-NEXT: s_cselect_b64 s[2:3], s[2:3], 0
				; GFX9V5-NEXT: s_lshl_b32 s5, s4, 16
				; GFX9V5-NEXT: s_mov_b32 s4, s1
				; GFX9V5-NEXT: s_cmp_lg_u32 s1, -1
				; GFX9V5-NEXT: v_mov_b32_e32 v0, s2
				; GFX9V5-NEXT: s_cselect_b64 s[0:1], s[4:5], 0
				; GFX9V5-NEXT: v_mov_b32_e32 v1, s3
				; GFX9V5-NEXT: flat_store_dword v[0:1], v2
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V5-NEXT: v_mov_b32_e32 v2, 2
				; GFX9V5-NEXT: v_mov_b32_e32 v1, s1
				; GFX9V5-NEXT: flat_store_dword v[0:1], v2
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: s_endpgm
				%flat.private = addrspacecast i32 addrspace(5)* %ptr.private to i32*
				%flat.local = addrspacecast i32 addrspace(3)* %ptr.local to i32*
				store volatile i32 1, i32* %flat.private
				store volatile i32 2, i32* %flat.local
				ret void
				}

				define amdgpu_kernel void @llvm_amdgcn_is_shared(i8* %ptr) {
				; GFX8V3-LABEL: llvm_amdgcn_is_shared:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V3-NEXT: s_load_dword s0, s[4:5], 0x40
				; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V3-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V3-NEXT: s_cselect_b32 s0, 1, 0
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V3-NEXT: flat_store_dword v[0:1], v0
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: s_endpgm
				;
				; GFX8V4-LABEL: llvm_amdgcn_is_shared:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V4-NEXT: s_load_dword s0, s[4:5], 0x40
				; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V4-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V4-NEXT: s_cselect_b32 s0, 1, 0
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V4-NEXT: flat_store_dword v[0:1], v0
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: s_endpgm
				;
				; GFX8V5-LABEL: llvm_amdgcn_is_shared:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V5-NEXT: s_load_dword s0, s[4:5], 0xcc
				; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V5-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V5-NEXT: s_cselect_b32 s0, 1, 0
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V5-NEXT: flat_store_dword v[0:1], v0
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: s_endpgm
				;
				; GFX9V3-LABEL: llvm_amdgcn_is_shared:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V3-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V3-NEXT: s_lshl_b32 s0, s0, 16
				; GFX9V3-NEXT: s_cmp_eq_u32 s1, s0
				; GFX9V3-NEXT: s_cselect_b32 s0, 1, 0
				; GFX9V3-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V3-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: s_endpgm
				;
				; GFX9V4-LABEL: llvm_amdgcn_is_shared:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V4-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V4-NEXT: s_lshl_b32 s0, s0, 16
				; GFX9V4-NEXT: s_cmp_eq_u32 s1, s0
				; GFX9V4-NEXT: s_cselect_b32 s0, 1, 0
				; GFX9V4-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V4-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: s_endpgm
				;
				; GFX9V5-LABEL: llvm_amdgcn_is_shared:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V5-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V5-NEXT: s_lshl_b32 s0, s0, 16
				; GFX9V5-NEXT: s_cmp_eq_u32 s1, s0
				; GFX9V5-NEXT: s_cselect_b32 s0, 1, 0
				; GFX9V5-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V5-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: s_endpgm
				%is.shared = call i1 @llvm.amdgcn.is.shared(i8* %ptr)
				%zext = zext i1 %is.shared to i32
				store volatile i32 %zext, i32 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @llvm_amdgcn_is_private(i8* %ptr) {
				; GFX8V3-LABEL: llvm_amdgcn_is_private:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V3-NEXT: s_load_dword s0, s[4:5], 0x44
				; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V3-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V3-NEXT: s_cselect_b32 s0, 1, 0
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V3-NEXT: flat_store_dword v[0:1], v0
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: s_endpgm
				;
				; GFX8V4-LABEL: llvm_amdgcn_is_private:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V4-NEXT: s_load_dword s0, s[4:5], 0x44
				; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V4-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V4-NEXT: s_cselect_b32 s0, 1, 0
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V4-NEXT: flat_store_dword v[0:1], v0
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: s_endpgm
				;
				; GFX8V5-LABEL: llvm_amdgcn_is_private:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V5-NEXT: s_load_dword s0, s[4:5], 0xc8
				; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V5-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V5-NEXT: s_cselect_b32 s0, 1, 0
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V5-NEXT: flat_store_dword v[0:1], v0
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: s_endpgm
				;
				; GFX9V3-LABEL: llvm_amdgcn_is_private:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V3-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V3-NEXT: s_lshl_b32 s0, s0, 16
				; GFX9V3-NEXT: s_cmp_eq_u32 s1, s0
				; GFX9V3-NEXT: s_cselect_b32 s0, 1, 0
				; GFX9V3-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V3-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: s_endpgm
				;
				; GFX9V4-LABEL: llvm_amdgcn_is_private:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V4-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V4-NEXT: s_lshl_b32 s0, s0, 16
				; GFX9V4-NEXT: s_cmp_eq_u32 s1, s0
				; GFX9V4-NEXT: s_cselect_b32 s0, 1, 0
				; GFX9V4-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V4-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: s_endpgm
				;
				; GFX9V5-LABEL: llvm_amdgcn_is_private:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V5-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V5-NEXT: s_lshl_b32 s0, s0, 16
				; GFX9V5-NEXT: s_cmp_eq_u32 s1, s0
				; GFX9V5-NEXT: s_cselect_b32 s0, 1, 0
				; GFX9V5-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V5-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: s_endpgm
				%is.private = call i1 @llvm.amdgcn.is.private(i8* %ptr)
				%zext = zext i1 %is.private to i32
				store volatile i32 %zext, i32 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @llvm_trap() {
				; GFX8V3-LABEL: llvm_trap:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: s_mov_b64 s[0:1], s[4:5]
				; GFX8V3-NEXT: s_trap 2
				;
				; GFX8V4-LABEL: llvm_trap:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: s_mov_b64 s[0:1], s[4:5]
				; GFX8V4-NEXT: s_trap 2
				;
				; GFX8V5-LABEL: llvm_trap:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0xc8
				; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V5-NEXT: s_trap 2
				;
				; GFX9V3-LABEL: llvm_trap:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: s_mov_b64 s[0:1], s[4:5]
				; GFX9V3-NEXT: s_trap 2
				;
				; GFX9V4-LABEL: llvm_trap:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: s_trap 2
				;
				; GFX9V5-LABEL: llvm_trap:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: s_trap 2
				call void @llvm.trap()
				unreachable
				}

				define amdgpu_kernel void @llvm_debugtrap() {
				; GFX8V3-LABEL: llvm_debugtrap:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: s_trap 3
				;
				; GFX8V4-LABEL: llvm_debugtrap:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: s_trap 3
				;
				; GFX8V5-LABEL: llvm_debugtrap:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_trap 3
				;
				; GFX9V3-LABEL: llvm_debugtrap:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: s_trap 3
				;
				; GFX9V4-LABEL: llvm_debugtrap:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: s_trap 3
				;
				; GFX9V5-LABEL: llvm_debugtrap:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: s_trap 3
				call void @llvm.debugtrap()
				unreachable
				}

				define amdgpu_kernel void @llvm_amdgcn_queue_ptr(i64 addrspace(1)* %ptr) {
				; GFX8V3-LABEL: llvm_amdgcn_queue_ptr:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s6
				; GFX8V3-NEXT: v_mov_b32_e32 v1, s7
				; GFX8V3-NEXT: s_add_u32 s0, s8, 8
				; GFX8V3-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V3-NEXT: s_addc_u32 s1, s9, 0
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V3-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V3-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s4
				; GFX8V3-NEXT: v_mov_b32_e32 v1, s5
				; GFX8V3-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V3-NEXT: s_load_dwordx2 s[0:1], s[8:9], 0x0
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s10
				; GFX8V3-NEXT: v_mov_b32_e32 v1, s11
				; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V3-NEXT: v_mov_b32_e32 v3, s1
				; GFX8V3-NEXT: v_mov_b32_e32 v2, s0
				; GFX8V3-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: s_endpgm
				;
				; GFX8V4-LABEL: llvm_amdgcn_queue_ptr:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s6
				; GFX8V4-NEXT: v_mov_b32_e32 v1, s7
				; GFX8V4-NEXT: s_add_u32 s0, s8, 8
				; GFX8V4-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V4-NEXT: s_addc_u32 s1, s9, 0
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V4-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V4-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s4
				; GFX8V4-NEXT: v_mov_b32_e32 v1, s5
				; GFX8V4-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V4-NEXT: s_load_dwordx2 s[0:1], s[8:9], 0x0
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s10
				; GFX8V4-NEXT: v_mov_b32_e32 v1, s11
				; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V4-NEXT: v_mov_b32_e32 v3, s1
				; GFX8V4-NEXT: v_mov_b32_e32 v2, s0
				; GFX8V4-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: s_endpgm
				;
				; GFX8V5-LABEL: llvm_amdgcn_queue_ptr:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_add_u32 s0, s6, 8
				; GFX8V5-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V5-NEXT: s_addc_u32 s1, s7, 0
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V5-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V5-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s4
				; GFX8V5-NEXT: v_mov_b32_e32 v1, s5
				; GFX8V5-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s8
				; GFX8V5-NEXT: v_mov_b32_e32 v1, s9
				; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V5-NEXT: v_mov_b32_e32 v3, s1
				; GFX8V5-NEXT: v_mov_b32_e32 v2, s0
				; GFX8V5-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: s_endpgm
				;
				; GFX9V3-LABEL: llvm_amdgcn_queue_ptr:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: v_mov_b32_e32 v2, 0
				; GFX9V3-NEXT: global_load_ubyte v0, v2, s[6:7] glc
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: global_load_ubyte v0, v2, s[8:9] offset:8 glc
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: global_load_ubyte v0, v2, s[4:5] glc
				; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[8:9], 0x0
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: v_mov_b32_e32 v0, s10
				; GFX9V3-NEXT: v_mov_b32_e32 v1, s11
				; GFX9V3-NEXT: ; kill: killed $sgpr6_sgpr7
				; GFX9V3-NEXT: ; kill: killed $sgpr4_sgpr5
				; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V3-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: s_endpgm
				;
				; GFX9V4-LABEL: llvm_amdgcn_queue_ptr:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: v_mov_b32_e32 v2, 0
				; GFX9V4-NEXT: global_load_ubyte v0, v2, s[6:7] glc
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: global_load_ubyte v0, v2, s[8:9] offset:8 glc
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: global_load_ubyte v0, v2, s[4:5] glc
				; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[8:9], 0x0
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: v_mov_b32_e32 v0, s10
				; GFX9V4-NEXT: v_mov_b32_e32 v1, s11
				; GFX9V4-NEXT: ; kill: killed $sgpr6_sgpr7
				; GFX9V4-NEXT: ; kill: killed $sgpr4_sgpr5
				; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V4-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: s_endpgm
				;
				; GFX9V5-LABEL: llvm_amdgcn_queue_ptr:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: v_mov_b32_e32 v2, 0
				; GFX9V5-NEXT: global_load_ubyte v0, v[0:1], off glc
				; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: global_load_ubyte v0, v2, s[6:7] offset:8 glc
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: global_load_ubyte v0, v2, s[4:5] glc
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: v_mov_b32_e32 v0, s8
				; GFX9V5-NEXT: v_mov_b32_e32 v1, s9
				; GFX9V5-NEXT: ; kill: killed $sgpr4_sgpr5
				; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V5-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: s_endpgm
				%queue.ptr = call i8 addrspace(4)* @llvm.amdgcn.queue.ptr()
				%implicitarg.ptr = call i8 addrspace(4)* @llvm.amdgcn.implicitarg.ptr()
				%dispatch.ptr = call i8 addrspace(4)* @llvm.amdgcn.dispatch.ptr()
				%dispatch.id = call i64 @llvm.amdgcn.dispatch.id()
				%queue.load = load volatile i8, i8 addrspace(4)* %queue.ptr
				%implicitarg.load = load volatile i8, i8 addrspace(4)* %implicitarg.ptr
				%dispatch.load = load volatile i8, i8 addrspace(4)* %dispatch.ptr
				store volatile i64 %dispatch.id, i64 addrspace(1)* %ptr
				ret void
				}

				declare noalias i8 addrspace(4)* @llvm.amdgcn.queue.ptr()
				declare noalias i8 addrspace(4)* @llvm.amdgcn.implicitarg.ptr()
				declare i64 @llvm.amdgcn.dispatch.id()
				declare noalias i8 addrspace(4)* @llvm.amdgcn.dispatch.ptr()
				declare i1 @llvm.amdgcn.is.shared(i8*)
				declare i1 @llvm.amdgcn.is.private(i8*)
				declare void @llvm.trap()
				declare void @llvm.debugtrap()

llvm/test/CodeGen/AMDGPU/implicit-kernarg-backend-usage.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 --amdhsa-code-object-version=3 < %s \| FileCheck --check-prefix=GFX8V3 %s
				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 --amdhsa-code-object-version=4 < %s \| FileCheck --check-prefix=GFX8V4 %s
				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 --amdhsa-code-object-version=5 < %s \| FileCheck --check-prefix=GFX8V5 %s

				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx906 --amdhsa-code-object-version=3 < %s \| FileCheck --check-prefixes=GFX9V3 %s
				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx906 --amdhsa-code-object-version=4 < %s \| FileCheck --check-prefixes=GFX9V4 %s
				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx906 --amdhsa-code-object-version=5 < %s \| FileCheck --check-prefixes=GFX9V5 %s

				define amdgpu_kernel void @addrspacecast(i32 addrspace(5)* %ptr.private, i32 addrspace(3)* %ptr.local) {
				; GFX8V3-LABEL: addrspacecast:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX8V3-NEXT: s_load_dword s2, s[4:5], 0x44
				; GFX8V3-NEXT: s_load_dword s3, s[4:5], 0x40
				; GFX8V3-NEXT: v_mov_b32_e32 v4, 1
				; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V3-NEXT: s_cmp_lg_u32 s0, -1
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s2
				; GFX8V3-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX8V3-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V3-NEXT: s_cmp_lg_u32 s1, -1
				; GFX8V3-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
				; GFX8V3-NEXT: v_mov_b32_e32 v2, s3
				; GFX8V3-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX8V3-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
				; GFX8V3-NEXT: v_mov_b32_e32 v2, s1
				; GFX8V3-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc
				; GFX8V3-NEXT: flat_store_dword v[0:1], v4
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: v_mov_b32_e32 v0, 2
				; GFX8V3-NEXT: flat_store_dword v[2:3], v0
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: s_endpgm
				;
				; GFX8V4-LABEL: addrspacecast:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX8V4-NEXT: s_load_dword s2, s[4:5], 0x44
				; GFX8V4-NEXT: s_load_dword s3, s[4:5], 0x40
				; GFX8V4-NEXT: v_mov_b32_e32 v4, 1
				; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V4-NEXT: s_cmp_lg_u32 s0, -1
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s2
				; GFX8V4-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX8V4-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V4-NEXT: s_cmp_lg_u32 s1, -1
				; GFX8V4-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
				; GFX8V4-NEXT: v_mov_b32_e32 v2, s3
				; GFX8V4-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX8V4-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
				; GFX8V4-NEXT: v_mov_b32_e32 v2, s1
				; GFX8V4-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc
				; GFX8V4-NEXT: flat_store_dword v[0:1], v4
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: v_mov_b32_e32 v0, 2
				; GFX8V4-NEXT: flat_store_dword v[2:3], v0
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: s_endpgm
				;
				; GFX8V5-LABEL: addrspacecast:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX8V5-NEXT: s_load_dword s2, s[4:5], 0xc8
				; GFX8V5-NEXT: s_load_dword s3, s[4:5], 0xcc
				; GFX8V5-NEXT: v_mov_b32_e32 v4, 1
				; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V5-NEXT: s_cmp_lg_u32 s0, -1
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s2
				; GFX8V5-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX8V5-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V5-NEXT: s_cmp_lg_u32 s1, -1
				; GFX8V5-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
				; GFX8V5-NEXT: v_mov_b32_e32 v2, s3
				; GFX8V5-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX8V5-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
				; GFX8V5-NEXT: v_mov_b32_e32 v2, s1
				; GFX8V5-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc
				; GFX8V5-NEXT: flat_store_dword v[0:1], v4
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: v_mov_b32_e32 v0, 2
				; GFX8V5-NEXT: flat_store_dword v[2:3], v0
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: s_endpgm
				;
				; GFX9V3-LABEL: addrspacecast:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V3-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V3-NEXT: s_lshl_b32 s2, s2, 16
				; GFX9V3-NEXT: v_mov_b32_e32 v0, s2
				; GFX9V3-NEXT: v_mov_b32_e32 v4, 1
				; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V3-NEXT: s_cmp_lg_u32 s0, -1
				; GFX9V3-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9V3-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
				; GFX9V3-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V3-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V3-NEXT: s_lshl_b32 s0, s0, 16
				; GFX9V3-NEXT: s_cmp_lg_u32 s1, -1
				; GFX9V3-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
				; GFX9V3-NEXT: v_mov_b32_e32 v2, s0
				; GFX9V3-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9V3-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
				; GFX9V3-NEXT: v_mov_b32_e32 v2, s1
				; GFX9V3-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc
				; GFX9V3-NEXT: flat_store_dword v[0:1], v4
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: v_mov_b32_e32 v0, 2
				; GFX9V3-NEXT: flat_store_dword v[2:3], v0
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: s_endpgm
				;
				; GFX9V4-LABEL: addrspacecast:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V4-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V4-NEXT: s_lshl_b32 s2, s2, 16
				; GFX9V4-NEXT: v_mov_b32_e32 v0, s2
				; GFX9V4-NEXT: v_mov_b32_e32 v4, 1
				; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V4-NEXT: s_cmp_lg_u32 s0, -1
				; GFX9V4-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9V4-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
				; GFX9V4-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V4-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V4-NEXT: s_lshl_b32 s0, s0, 16
				; GFX9V4-NEXT: s_cmp_lg_u32 s1, -1
				; GFX9V4-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
				; GFX9V4-NEXT: v_mov_b32_e32 v2, s0
				; GFX9V4-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9V4-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
				; GFX9V4-NEXT: v_mov_b32_e32 v2, s1
				; GFX9V4-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc
				; GFX9V4-NEXT: flat_store_dword v[0:1], v4
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: v_mov_b32_e32 v0, 2
				; GFX9V4-NEXT: flat_store_dword v[2:3], v0
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: s_endpgm
				;
				; GFX9V5-LABEL: addrspacecast:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V5-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V5-NEXT: s_lshl_b32 s2, s2, 16
				; GFX9V5-NEXT: v_mov_b32_e32 v0, s2
				; GFX9V5-NEXT: v_mov_b32_e32 v4, 1
				; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V5-NEXT: s_cmp_lg_u32 s0, -1
				; GFX9V5-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9V5-NEXT: v_cndmask_b32_e32 v1, 0, v0, vcc
				; GFX9V5-NEXT: v_mov_b32_e32 v0, s0
				; GFX9V5-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V5-NEXT: s_lshl_b32 s0, s0, 16
				; GFX9V5-NEXT: s_cmp_lg_u32 s1, -1
				; GFX9V5-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
				; GFX9V5-NEXT: v_mov_b32_e32 v2, s0
				; GFX9V5-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9V5-NEXT: v_cndmask_b32_e32 v3, 0, v2, vcc
				; GFX9V5-NEXT: v_mov_b32_e32 v2, s1
				; GFX9V5-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc
				; GFX9V5-NEXT: flat_store_dword v[0:1], v4
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: v_mov_b32_e32 v0, 2
				; GFX9V5-NEXT: flat_store_dword v[2:3], v0
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: s_endpgm
				%flat.private = addrspacecast i32 addrspace(5)* %ptr.private to i32*
				%flat.local = addrspacecast i32 addrspace(3)* %ptr.local to i32*
				store volatile i32 1, i32* %flat.private
				store volatile i32 2, i32* %flat.local
				ret void
				}

				define amdgpu_kernel void @llvm_amdgcn_is_shared(i8* %ptr) {
				; GFX8V3-LABEL: llvm_amdgcn_is_shared:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: s_load_dword s0, s[4:5], 0x40
				; GFX8V3-NEXT: s_load_dword s1, s[6:7], 0x4
				; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V3-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V3-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX8V3-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX8V3-NEXT: flat_store_dword v[0:1], v0
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: s_endpgm
				;
				; GFX8V4-LABEL: llvm_amdgcn_is_shared:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: s_load_dword s0, s[4:5], 0x40
				; GFX8V4-NEXT: s_load_dword s1, s[6:7], 0x4
				; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V4-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V4-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX8V4-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX8V4-NEXT: flat_store_dword v[0:1], v0
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: s_endpgm
				;
				; GFX8V5-LABEL: llvm_amdgcn_is_shared:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_load_dword s0, s[4:5], 0xcc
				; GFX8V5-NEXT: s_load_dword s1, s[4:5], 0x4
				; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V5-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V5-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX8V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX8V5-NEXT: flat_store_dword v[0:1], v0
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: s_endpgm
				;
				; GFX9V3-LABEL: llvm_amdgcn_is_shared:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: s_load_dword s0, s[4:5], 0x4
				; GFX9V3-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V3-NEXT: s_lshl_b32 s1, s1, 16
				; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V3-NEXT: s_cmp_eq_u32 s0, s1
				; GFX9V3-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX9V3-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX9V3-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: s_endpgm
				;
				; GFX9V4-LABEL: llvm_amdgcn_is_shared:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: s_load_dword s0, s[4:5], 0x4
				; GFX9V4-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V4-NEXT: s_lshl_b32 s1, s1, 16
				; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V4-NEXT: s_cmp_eq_u32 s0, s1
				; GFX9V4-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX9V4-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX9V4-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: s_endpgm
				;
				; GFX9V5-LABEL: llvm_amdgcn_is_shared:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: s_load_dword s0, s[4:5], 0x4
				; GFX9V5-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
				; GFX9V5-NEXT: s_lshl_b32 s1, s1, 16
				; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V5-NEXT: s_cmp_eq_u32 s0, s1
				; GFX9V5-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX9V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX9V5-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: s_endpgm
				%is.shared = call i1 @llvm.amdgcn.is.shared(i8* %ptr)
				%zext = zext i1 %is.shared to i32
				store volatile i32 %zext, i32 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @llvm_amdgcn_is_private(i8* %ptr) {
				; GFX8V3-LABEL: llvm_amdgcn_is_private:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: s_load_dword s0, s[4:5], 0x44
				; GFX8V3-NEXT: s_load_dword s1, s[6:7], 0x4
				; GFX8V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V3-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V3-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX8V3-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX8V3-NEXT: flat_store_dword v[0:1], v0
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: s_endpgm
				;
				; GFX8V4-LABEL: llvm_amdgcn_is_private:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: s_load_dword s0, s[4:5], 0x44
				; GFX8V4-NEXT: s_load_dword s1, s[6:7], 0x4
				; GFX8V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V4-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V4-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX8V4-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX8V4-NEXT: flat_store_dword v[0:1], v0
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: s_endpgm
				;
				; GFX8V5-LABEL: llvm_amdgcn_is_private:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_load_dword s0, s[4:5], 0xc8
				; GFX8V5-NEXT: s_load_dword s1, s[4:5], 0x4
				; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V5-NEXT: s_cmp_eq_u32 s1, s0
				; GFX8V5-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX8V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX8V5-NEXT: flat_store_dword v[0:1], v0
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: s_endpgm
				;
				; GFX9V3-LABEL: llvm_amdgcn_is_private:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: s_load_dword s0, s[4:5], 0x4
				; GFX9V3-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V3-NEXT: s_lshl_b32 s1, s1, 16
				; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V3-NEXT: s_cmp_eq_u32 s0, s1
				; GFX9V3-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX9V3-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX9V3-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: s_endpgm
				;
				; GFX9V4-LABEL: llvm_amdgcn_is_private:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: s_load_dword s0, s[4:5], 0x4
				; GFX9V4-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V4-NEXT: s_lshl_b32 s1, s1, 16
				; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V4-NEXT: s_cmp_eq_u32 s0, s1
				; GFX9V4-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX9V4-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX9V4-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: s_endpgm
				;
				; GFX9V5-LABEL: llvm_amdgcn_is_private:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: s_load_dword s0, s[4:5], 0x4
				; GFX9V5-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 0, 16)
				; GFX9V5-NEXT: s_lshl_b32 s1, s1, 16
				; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V5-NEXT: s_cmp_eq_u32 s0, s1
				; GFX9V5-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX9V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
				; GFX9V5-NEXT: global_store_dword v[0:1], v0, off
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: s_endpgm
				%is.private = call i1 @llvm.amdgcn.is.private(i8* %ptr)
				%zext = zext i1 %is.private to i32
				store volatile i32 %zext, i32 addrspace(1)* undef
				ret void
				}

				define amdgpu_kernel void @llvm_trap() {
				; GFX8V3-LABEL: llvm_trap:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: s_mov_b64 s[0:1], s[4:5]
				; GFX8V3-NEXT: s_trap 2
				;
				; GFX8V4-LABEL: llvm_trap:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: s_mov_b64 s[0:1], s[4:5]
				; GFX8V4-NEXT: s_trap 2
				;
				; GFX8V5-LABEL: llvm_trap:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0xc8
				; GFX8V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8V5-NEXT: s_trap 2
				;
				; GFX9V3-LABEL: llvm_trap:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: s_mov_b64 s[0:1], s[4:5]
				; GFX9V3-NEXT: s_trap 2
				;
				; GFX9V4-LABEL: llvm_trap:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: s_trap 2
				;
				; GFX9V5-LABEL: llvm_trap:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: s_trap 2
				call void @llvm.trap()
				unreachable
				}

				define amdgpu_kernel void @llvm_debugtrap() {
				; GFX8V3-LABEL: llvm_debugtrap:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: s_trap 3
				;
				; GFX8V4-LABEL: llvm_debugtrap:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: s_trap 3
				;
				; GFX8V5-LABEL: llvm_debugtrap:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_trap 3
				;
				; GFX9V3-LABEL: llvm_debugtrap:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: s_trap 3
				;
				; GFX9V4-LABEL: llvm_debugtrap:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: s_trap 3
				;
				; GFX9V5-LABEL: llvm_debugtrap:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: s_trap 3
				call void @llvm.debugtrap()
				unreachable
				}

				define amdgpu_kernel void @llvm_amdgcn_queue_ptr(i64 addrspace(1)* %ptr) {
				; GFX8V3-LABEL: llvm_amdgcn_queue_ptr:
				; GFX8V3: ; %bb.0:
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s6
				; GFX8V3-NEXT: v_mov_b32_e32 v1, s7
				; GFX8V3-NEXT: s_add_u32 s0, s8, 8
				; GFX8V3-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V3-NEXT: s_addc_u32 s1, s9, 0
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V3-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V3-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s4
				; GFX8V3-NEXT: v_mov_b32_e32 v1, s5
				; GFX8V3-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V3-NEXT: s_load_dwordx2 s[0:1], s[8:9], 0x0
				; GFX8V3-NEXT: v_mov_b32_e32 v2, s10
				; GFX8V3-NEXT: v_mov_b32_e32 v3, s11
				; GFX8V3-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX8V3-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V3-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V3-NEXT: flat_store_dwordx2 v[0:1], v[2:3]
				; GFX8V3-NEXT: s_waitcnt vmcnt(0)
				; GFX8V3-NEXT: s_endpgm
				;
				; GFX8V4-LABEL: llvm_amdgcn_queue_ptr:
				; GFX8V4: ; %bb.0:
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s6
				; GFX8V4-NEXT: v_mov_b32_e32 v1, s7
				; GFX8V4-NEXT: s_add_u32 s0, s8, 8
				; GFX8V4-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V4-NEXT: s_addc_u32 s1, s9, 0
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V4-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V4-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s4
				; GFX8V4-NEXT: v_mov_b32_e32 v1, s5
				; GFX8V4-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V4-NEXT: s_load_dwordx2 s[0:1], s[8:9], 0x0
				; GFX8V4-NEXT: v_mov_b32_e32 v2, s10
				; GFX8V4-NEXT: v_mov_b32_e32 v3, s11
				; GFX8V4-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX8V4-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V4-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V4-NEXT: flat_store_dwordx2 v[0:1], v[2:3]
				; GFX8V4-NEXT: s_waitcnt vmcnt(0)
				; GFX8V4-NEXT: s_endpgm
				;
				; GFX8V5-LABEL: llvm_amdgcn_queue_ptr:
				; GFX8V5: ; %bb.0:
				; GFX8V5-NEXT: s_add_u32 s0, s6, 8
				; GFX8V5-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V5-NEXT: s_addc_u32 s1, s7, 0
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V5-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V5-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s4
				; GFX8V5-NEXT: v_mov_b32_e32 v1, s5
				; GFX8V5-NEXT: flat_load_ubyte v0, v[0:1] glc
				; GFX8V5-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX8V5-NEXT: v_mov_b32_e32 v2, s8
				; GFX8V5-NEXT: v_mov_b32_e32 v3, s9
				; GFX8V5-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
				; GFX8V5-NEXT: v_mov_b32_e32 v1, s1
				; GFX8V5-NEXT: flat_store_dwordx2 v[0:1], v[2:3]
				; GFX8V5-NEXT: s_waitcnt vmcnt(0)
				; GFX8V5-NEXT: s_endpgm
				;
				; GFX9V3-LABEL: llvm_amdgcn_queue_ptr:
				; GFX9V3: ; %bb.0:
				; GFX9V3-NEXT: v_mov_b32_e32 v2, 0
				; GFX9V3-NEXT: global_load_ubyte v0, v2, s[6:7] glc
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: global_load_ubyte v0, v2, s[8:9] offset:8 glc
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: global_load_ubyte v0, v2, s[4:5] glc
				; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[8:9], 0x0
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: v_mov_b32_e32 v0, s10
				; GFX9V3-NEXT: v_mov_b32_e32 v1, s11
				; GFX9V3-NEXT: ; kill: killed $sgpr6_sgpr7
				; GFX9V3-NEXT: ; kill: killed $sgpr4_sgpr5
				; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V3-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
				; GFX9V3-NEXT: s_waitcnt vmcnt(0)
				; GFX9V3-NEXT: s_endpgm
				;
				; GFX9V4-LABEL: llvm_amdgcn_queue_ptr:
				; GFX9V4: ; %bb.0:
				; GFX9V4-NEXT: v_mov_b32_e32 v2, 0
				; GFX9V4-NEXT: global_load_ubyte v0, v2, s[6:7] glc
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: global_load_ubyte v0, v2, s[8:9] offset:8 glc
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: global_load_ubyte v0, v2, s[4:5] glc
				; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[8:9], 0x0
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: v_mov_b32_e32 v0, s10
				; GFX9V4-NEXT: v_mov_b32_e32 v1, s11
				; GFX9V4-NEXT: ; kill: killed $sgpr6_sgpr7
				; GFX9V4-NEXT: ; kill: killed $sgpr4_sgpr5
				; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V4-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
				; GFX9V4-NEXT: s_waitcnt vmcnt(0)
				; GFX9V4-NEXT: s_endpgm
				;
				; GFX9V5-LABEL: llvm_amdgcn_queue_ptr:
				; GFX9V5: ; %bb.0:
				; GFX9V5-NEXT: v_mov_b32_e32 v2, 0
				; GFX9V5-NEXT: global_load_ubyte v0, v2, s[0:1] glc
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: global_load_ubyte v0, v2, s[6:7] offset:8 glc
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: global_load_ubyte v0, v2, s[4:5] glc
				; GFX9V5-NEXT: ; kill: killed $sgpr0_sgpr1
				; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[6:7], 0x0
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: v_mov_b32_e32 v0, s8
				; GFX9V5-NEXT: v_mov_b32_e32 v1, s9
				; GFX9V5-NEXT: ; kill: killed $sgpr4_sgpr5
				; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9V5-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
				; GFX9V5-NEXT: s_waitcnt vmcnt(0)
				; GFX9V5-NEXT: s_endpgm
				%queue.ptr = call i8 addrspace(4)* @llvm.amdgcn.queue.ptr()
				%implicitarg.ptr = call i8 addrspace(4)* @llvm.amdgcn.implicitarg.ptr()
				%dispatch.ptr = call i8 addrspace(4)* @llvm.amdgcn.dispatch.ptr()
				%dispatch.id = call i64 @llvm.amdgcn.dispatch.id()
				%queue.load = load volatile i8, i8 addrspace(4)* %queue.ptr
				%implicitarg.load = load volatile i8, i8 addrspace(4)* %implicitarg.ptr
				%dispatch.load = load volatile i8, i8 addrspace(4)* %dispatch.ptr
				store volatile i64 %dispatch.id, i64 addrspace(1)* %ptr
				ret void
				}

				declare noalias i8 addrspace(4)* @llvm.amdgcn.queue.ptr()
				declare noalias i8 addrspace(4)* @llvm.amdgcn.implicitarg.ptr()
				declare i64 @llvm.amdgcn.dispatch.id()
				declare noalias i8 addrspace(4)* @llvm.amdgcn.dispatch.ptr()
				declare i1 @llvm.amdgcn.is.shared(i8*)
				declare i1 @llvm.amdgcn.is.private(i8*)
				declare void @llvm.trap()
				declare void @llvm.debugtrap()