This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
2/3
AMDGPULegalizerInfo.cpp
-
SIDefines.h
1/1
SIISelLowering.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
flat-scratch-init.gfx.ll
-
implicit-kernarg-backend-usage-global-isel.ll
-
legalize-addrspacecast.mir
-
llvm.amdgcn.is.private.ll
-
llvm.amdgcn.is.shared.ll
-
addrspacecast-known-non-null.ll
-
addrspacecast.ll
-
atomicrmw-expand.ll
-
callee-special-input-sgprs-fixed-abi.ll
-
flat-scratch-init.ll
-
implicit-kernarg-backend-usage.ll
-
llvm.amdgcn.is.private.ll
-
llvm.amdgcn.is.shared.ll

Differential D137542

[AMDGPU] Use aperture registers instead of S_GETREG
ClosedPublic

Authored by Pierre-vh on Nov 7 2022, 5:03 AM.

Download Raw Diff

Details

Reviewers

kzhuravl
arsenm
foad

Commits

rGa88deb4b65f8: [AMDGPU] Use aperture registers instead of S_GETREG

Summary

Fixes a longstanding TODO in the codebase where we were using S_GETREG + shift to do something that could simply be done with an inline constant (register).

Patch based on D31874 by @kzhuravl
Depends on D137767

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

Pierre-vh created this revision.Nov 7 2022, 5:03 AM

Herald added a project: Restricted Project. · View Herald TranscriptNov 7 2022, 5:03 AM

Herald added subscribers: kosarev, foad, kerbowa and 5 others. · View Herald Transcript

Pierre-vh requested review of this revision.Nov 7 2022, 5:03 AM

Herald added a project: Restricted Project. · View Herald TranscriptNov 7 2022, 5:03 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

Note: I'm unsure if codegen is actually correct for this. I don't understand this bit particularly well but instead of leaving this one the side I thought I would give it a shot and discuss whether it's correct during review.

foad added a comment.Nov 7 2022, 5:38 AM

This comment was removed by foad.

Harbormaster completed remote builds in B196448: Diff 473623.Nov 7 2022, 5:49 AM

Restore ID_MEM_BASE, it is needed to support parsing/rewriting getreg

Harbormaster completed remote builds in B196467: Diff 473645.Nov 7 2022, 6:48 AM

I'm assuming you haven't tried running this. I have another attempt for this I did about 2 years ago I can send you. My conclusion then was this is a broken feature, and it's not really a 32-bit register. Instead, this seems to be a 64-bit register and any 32-bit operand ends up reading the low bits (which are always 0). We should still try to use them, but you have to extract the high bits with a shift

This revision now requires changes to proceed.Nov 7 2022, 7:15 AM

In D137542#3912195, @arsenm wrote:

I'm assuming you haven't tried running this. I have another attempt for this I did about 2 years ago I can send you.

I can't find the piece that was anymore than what you have. I know I had a patch emitting a 64-bit shift somewhere

In D137542#3912195, @arsenm wrote:

I'm assuming you haven't tried running this. I have another attempt for this I did about 2 years ago I can send you. My conclusion then was this is a broken feature, and it's not really a 32-bit register. Instead, this seems to be a 64-bit register and any 32-bit operand ends up reading the low bits (which are always 0). We should still try to use them, but you have to extract the high bits with a shift

I indeed haven't tried running it yet, I planned too but some issues prevented me from doing it.
Do you mean that we need to add a 32 bits right-shift to src_shared_based before using it?
Should we just store it in a SGPR pair and use the high register maybe? (e.g. s_mov_b64 s[0:1], src_shared_base then use s0 (or is it s1? I always forget)

So I indeed checked ocltst and the previous version crashed.
Now it looks fine, but the verifier crashes in a lot of tests, especially GISel ones.
The issue is that we need to use this register as a 64 bit operand but it's a 32 bit register, so the verifier complains on S_MOV_B64.

How can I solve this? Is there another instruction I could use or do we have to change the RC of the src_shared/private_base register to 64 bit? (ideally it should be available for both, no?)

Note: tests haven't all been updated yet because of the verifier crashes.

do we have to change the RC of the src_shared/private_base register to 64 bit?

Yes that sounds right.

(ideally it should be available for both, no?)

That would be useful bu apparently it's not how the hardware works. I guess it gives you the 32 low bits which is not very useful because it will always be 0 for src_*_base and -1 for src_*_limit.

In D137542#3917196, @foad wrote:

do we have to change the RC of the src_shared/private_base register to 64 bit?

Yes that sounds right.

(ideally it should be available for both, no?)

That would be useful bu apparently it's not how the hardware works. I guess it gives you the 32 low bits which is not very useful because it will always be 0 for src_*_base and -1 for src_*_limit.

Which RegisterClass should I use for it? Just SGPR64?

In D137542#3917197, @Pierre-vh wrote:

In D137542#3917196, @foad wrote:

do we have to change the RC of the src_shared/private_base register to 64 bit?

Yes that sounds right.

(ideally it should be available for both, no?)

That would be useful bu apparently it's not how the hardware works. I guess it gives you the 32 low bits which is not very useful because it will always be 0 for src_*_base and -1 for src_*_limit.

Which RegisterClass should I use for it? Just SGPR64?

I don't know. I'm not too familiar with that stuff. Can you copy what we do for SGPR_NULL64?

Harbormaster completed remote builds in B196887: Diff 474243.Nov 9 2022, 6:47 AM

Need to be rebased on a future patch that will add the 64 bit variant of the aperture registers (almost done, just need to get tests to pass)

Rebase on D137767

Pierre-vh edited the summary of this revision. (Show Details)Nov 10 2022, 12:18 AM

Pierre-vh added a reviewer: foad.

Pierre-vh added a parent revision: D137767: [AMDGPU] Make aperture registers 64 bit.

Harbormaster completed remote builds in B197034: Diff 474463.Nov 10 2022, 1:40 AM

How have you tested this? OpenCL conformance flat tests with -O0 and -O2 should be good enough

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1830	You can just build a copy at this point. We should use copies and mark it as a constant register

In D137542#3920654, @arsenm wrote:

How have you tested this? OpenCL conformance flat tests with -O0 and -O2 should be good enough

I used https://github.com/RadeonOpenCompute/ROCm-OpenCL-Runtime/tree/develop/tests/ocltst, do you mean I should use https://github.com/KhronosGroup/OpenCL-CTS?
Which test should I run? All of them? I don't see a "flat" category

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1830	If I use a COPY it'll think it's okay to eliminate it and use the _HI register directly (which is not supposed to exist but I had to declare it to fix tablegen issues) How can I prevent that? I'm not fully satisfied with how things are done in D137767 - I'd really like to eliminate that "HI" register but I'm not sure how.

Use COPY (restricting to SGPR works, I got confused and was restricting to SREG)

Harbormaster completed remote builds in B197927: Diff 475712.Nov 16 2022, 2:28 AM

arsenm added inline comments.Nov 16 2022, 8:56 AM

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
1830	It's too early to set a register class here. In principle it should work, but it would be better to let the selection constrain the register class normally

In D137542#3927137, @Pierre-vh wrote:

In D137542#3920654, @arsenm wrote:

How have you tested this? OpenCL conformance flat tests with -O0 and -O2 should be good enough

I used https://github.com/RadeonOpenCompute/ROCm-OpenCL-Runtime/tree/develop/tests/ocltst, do you mean I should use https://github.com/KhronosGroup/OpenCL-CTS?
Which test should I run? All of them? I don't see a "flat" category

https://github.com/KhronosGroup/OpenCL-CTS/tree/main/test_conformance/generic_address_space

Pierre-vh mentioned this in rG220147d536f3: [AMDGPU] Make aperture registers 64 bit.Nov 22 2022, 1:18 AM

Rebase, constrain in select instead

Note: the machine where my full dev setup is is down at the moment so I can't run OCLTst right now, will do it as soon as possible (and before landing definitely)

Harbormaster completed remote builds in B198931: Diff 477113.Nov 22 2022, 4:27 AM

arsenm added inline comments.Nov 22 2022, 6:24 AM

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
119 ↗	(On Diff #477113)	Lowercase is
149–150 ↗	(On Diff #477113)	You shouldn't need to special case this (also note there's no equivalent for the DAG). Either it needs to belong to a different class from SReg_64, or you need to reserve the high bits
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
5521–5524	This will get combined later to bitcast and extract later, but I guess that's more annoying to emit
llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-copy.mir
485–488 ↗	(On Diff #477113)	A basic selection test shouldn't have pre-set register classes

arsenm requested changes to this revision.Nov 22 2022, 6:25 AM

This revision now requires changes to proceed.Nov 22 2022, 6:25 AM

Pierre-vh added inline comments.Nov 22 2022, 6:34 AM

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
149–150 ↗	(On Diff #477113)	or you need to reserve the high bits Aren't they reserved with `reserveRegisterTuples`? If I create a different class, do you mean I should exclude those aperture registers from SReg and create a superclass with both SReg and the apertures? I'm not sure I understand how the class will help if I shouldn't special-case the uses of those aperture registers

arsenm added inline comments.Nov 22 2022, 7:33 AM

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
149–150 ↗	(On Diff #477113)	If the reserve didn't do it, then yes. Using different classes is the correct way to represent use restrictions. Really what we want is a class without the sub1 subregister, but has a hack we're trying to avoid that, so a class that excludes the aperture regs is the next best thing. Not sure if you really need the reserve after that.

Pierre-vh added inline comments.Nov 23 2022, 4:06 AM

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
149–150 ↗	(On Diff #477113)	Do I need to do something similar to SRegOrLds, then? Also: Do I need to do this for 32 bit apertures or 64 bit apertures only? If I remove Aperture registers from SReg and create a superclass, won't I need to update instruction definitions to use that superclass instead of SReg? Won't that require a lot of changes? And I suppose all those changes should be in a separate patch, right?

arsenm added inline comments.Nov 23 2022, 10:23 AM

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
149–150 ↗	(On Diff #477113)	Do I need to do this for 32 bit apertures or 64 bit apertures only? Well the 32-bit register cases are purely artificial. I'd assume these are included only by the broadest set of SGPRs (ideally wouldn't be in any allocatable set) If I remove Aperture registers from SReg and create a superclass, won't I need to update instruction definitions to use that superclass instead of SReg? Won't that require a lot of changes? This is a question of naming. I'd probably lean towards leaving the SReg name/operands as-is, and introducing an allocatable subclass that excludes them (e.g. like SReg_64_XEXEC)

Addressing comments following discussion

LGTM assuming this actually works

This revision is now accepted and ready to land.Nov 28 2022, 6:44 AM

Harbormaster completed remote builds in B199738: Diff 478210.Nov 28 2022, 6:49 AM

This revision was landed with ongoing or failed builds.Nov 30 2022, 4:25 AM

Closed by commit rGa88deb4b65f8: [AMDGPU] Use aperture registers instead of S_GETREG (authored by Pierre-vh). · Explain Why

This revision was automatically updated to reflect the committed changes.

Pierre-vh added a commit: rGa88deb4b65f8: [AMDGPU] Use aperture registers instead of S_GETREG.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPULegalizerInfo.cpp

33 lines

SIDefines.h

6 lines

SIISelLowering.cpp

35 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

flat-scratch-init.gfx.ll

10 lines

implicit-kernarg-backend-usage-global-isel.ll

48 lines

legalize-addrspacecast.mir

62 lines

llvm.amdgcn.is.private.ll

33 lines

llvm.amdgcn.is.shared.ll

33 lines

addrspacecast-known-non-null.ll

21 lines

addrspacecast.ll

37 lines

atomicrmw-expand.ll

30 lines

callee-special-input-sgprs-fixed-abi.ll

9 lines

flat-scratch-init.ll

10 lines

implicit-kernarg-backend-usage.ll

78 lines

llvm.amdgcn.is.private.ll

16 lines

llvm.amdgcn.is.shared.ll

14 lines

Diff 474463

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

	Show First 20 Lines • Show All 1,808 Lines • ▼ Show 20 Lines

	Register AMDGPULegalizerInfo::getSegmentAperture(			Register AMDGPULegalizerInfo::getSegmentAperture(
	unsigned AS,			unsigned AS,
	MachineRegisterInfo &MRI,			MachineRegisterInfo &MRI,
	MachineIRBuilder &B) const {			MachineIRBuilder &B) const {
	MachineFunction &MF = B.getMF();			MachineFunction &MF = B.getMF();
	const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();			const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();
	const LLT S32 = LLT::scalar(32);			const LLT S32 = LLT::scalar(32);
				const LLT S64 = LLT::scalar(64);

	assert(AS == AMDGPUAS::LOCAL_ADDRESS \|\| AS == AMDGPUAS::PRIVATE_ADDRESS);			assert(AS == AMDGPUAS::LOCAL_ADDRESS \|\| AS == AMDGPUAS::PRIVATE_ADDRESS);

	if (ST.hasApertureRegs()) {			if (ST.hasApertureRegs()) {
	// FIXME: Use inline constants (src_{shared, private}_base) instead of			// Note: this register is somewhat broken. When used as a 32-bit operand,
	// getreg.			// it only returns zeroes. The real value is in the upper 32 bits.
	unsigned Offset = AS == AMDGPUAS::LOCAL_ADDRESS ?			// Thus, we must emit a S_MOV_B64 & extract the high 32 bits.
	AMDGPU::Hwreg::OFFSET_SRC_SHARED_BASE :			const unsigned ApertureRegNo = (AS == AMDGPUAS::LOCAL_ADDRESS)
	AMDGPU::Hwreg::OFFSET_SRC_PRIVATE_BASE;			? AMDGPU::SRC_SHARED_BASE64
	unsigned WidthM1 = AS == AMDGPUAS::LOCAL_ADDRESS ?			: AMDGPU::SRC_PRIVATE_BASE64;
	AMDGPU::Hwreg::WIDTH_M1_SRC_SHARED_BASE :			Register Tmp = MRI.createGenericVirtualRegister(S64);
	AMDGPU::Hwreg::WIDTH_M1_SRC_PRIVATE_BASE;			MRI.setRegClass(Tmp, &AMDGPU::SReg_64_XEXECRegClass);
	unsigned Encoding =			B.buildInstr(AMDGPU::S_MOV_B64).addDef(Tmp).addReg(Register(ApertureRegNo));
				arsenmUnsubmitted Done Reply Inline Actions You can just build a copy at this point. We should use copies and mark it as a constant register arsenm: You can just build a copy at this point. We should use copies and mark it as a constant…
				Pierre-vhAuthorUnsubmitted Done Reply Inline Actions If I use a COPY it'll think it's okay to eliminate it and use the _HI register directly (which is not supposed to exist but I had to declare it to fix tablegen issues) How can I prevent that? I'm not fully satisfied with how things are done in D137767 - I'd really like to eliminate that "HI" register but I'm not sure how. Pierre-vh: If I use a COPY it'll think it's okay to eliminate it and use the _HI register directly (which…
				arsenmUnsubmitted Not Done Reply Inline Actions It's too early to set a register class here. In principle it should work, but it would be better to let the selection constrain the register class normally arsenm: It's too early to set a register class here. In principle it should work, but it would be…
	AMDGPU::Hwreg::ID_MEM_BASES << AMDGPU::Hwreg::ID_SHIFT_ \|			return B.buildUnmerge(S32, Tmp).getReg(1);
	Offset << AMDGPU::Hwreg::OFFSET_SHIFT_ \|
	WidthM1 << AMDGPU::Hwreg::WIDTH_M1_SHIFT_;

	Register GetReg = MRI.createVirtualRegister(&AMDGPU::SReg_32RegClass);

	B.buildInstr(AMDGPU::S_GETREG_B32)
	.addDef(GetReg)
	.addImm(Encoding);
	MRI.setType(GetReg, S32);

	auto ShiftAmt = B.buildConstant(S32, WidthM1 + 1);
	return B.buildShl(S32, GetReg, ShiftAmt).getReg(0);
	}			}

	// TODO: can we be smarter about machine pointer info?			// TODO: can we be smarter about machine pointer info?
	MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);			MachinePointerInfo PtrInfo(AMDGPUAS::CONSTANT_ADDRESS);
	Register LoadAddr = MRI.createGenericVirtualRegister(			Register LoadAddr = MRI.createGenericVirtualRegister(
	LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));			LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64));
	// For code object version 5, private_base and shared_base are passed through			// For code object version 5, private_base and shared_base are passed through
	// implicit kernargs.			// implicit kernargs.
	▲ Show 20 Lines • Show All 3,927 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIDefines.h

	Show First 20 Lines • Show All 414 Lines • ▼ Show 20 Lines

	enum Offset : unsigned { // Offset, (5) [10:6]			enum Offset : unsigned { // Offset, (5) [10:6]
	OFFSET_DEFAULT_ = 0,			OFFSET_DEFAULT_ = 0,
	OFFSET_SHIFT_ = 6,			OFFSET_SHIFT_ = 6,
	OFFSET_WIDTH_ = 5,			OFFSET_WIDTH_ = 5,
	OFFSET_MASK_ = (((1 << OFFSET_WIDTH_) - 1) << OFFSET_SHIFT_),			OFFSET_MASK_ = (((1 << OFFSET_WIDTH_) - 1) << OFFSET_SHIFT_),

	OFFSET_MEM_VIOL = 8,			OFFSET_MEM_VIOL = 8,

	OFFSET_SRC_SHARED_BASE = 16,
	OFFSET_SRC_PRIVATE_BASE = 0
	};			};

	enum WidthMinusOne : unsigned { // WidthMinusOne, (5) [15:11]			enum WidthMinusOne : unsigned { // WidthMinusOne, (5) [15:11]
	WIDTH_M1_DEFAULT_ = 31,			WIDTH_M1_DEFAULT_ = 31,
	WIDTH_M1_SHIFT_ = 11,			WIDTH_M1_SHIFT_ = 11,
	WIDTH_M1_WIDTH_ = 5,			WIDTH_M1_WIDTH_ = 5,
	WIDTH_M1_MASK_ = (((1 << WIDTH_M1_WIDTH_) - 1) << WIDTH_M1_SHIFT_),			WIDTH_M1_MASK_ = (((1 << WIDTH_M1_WIDTH_) - 1) << WIDTH_M1_SHIFT_),

	WIDTH_M1_SRC_SHARED_BASE = 15,
	WIDTH_M1_SRC_PRIVATE_BASE = 15
	};			};

	// Some values from WidthMinusOne mapped into Width domain.			// Some values from WidthMinusOne mapped into Width domain.
	enum Width : unsigned {			enum Width : unsigned {
	WIDTH_DEFAULT_ = WIDTH_M1_DEFAULT_ + 1,			WIDTH_DEFAULT_ = WIDTH_M1_DEFAULT_ + 1,
	};			};

	enum ModeRegisterMasks : uint32_t {			enum ModeRegisterMasks : uint32_t {
	▲ Show 20 Lines • Show All 619 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,497 Lines • ▼ Show 20 Lines	SDValue Ops[] = {
Chain,		Chain,
DAG.getTargetConstant(TrapID, SL, MVT::i16)		DAG.getTargetConstant(TrapID, SL, MVT::i16)
};		};
return DAG.getNode(AMDGPUISD::TRAP, SL, MVT::Other, Ops);		return DAG.getNode(AMDGPUISD::TRAP, SL, MVT::Other, Ops);
}		}

SDValue SITargetLowering::getSegmentAperture(unsigned AS, const SDLoc &DL,		SDValue SITargetLowering::getSegmentAperture(unsigned AS, const SDLoc &DL,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
// FIXME: Use inline constants (src_{shared, private}_base) instead.
if (Subtarget->hasApertureRegs()) {		if (Subtarget->hasApertureRegs()) {
unsigned Offset = AS == AMDGPUAS::LOCAL_ADDRESS ?		const unsigned ApertureRegNo = (AS == AMDGPUAS::LOCAL_ADDRESS)
AMDGPU::Hwreg::OFFSET_SRC_SHARED_BASE :		? AMDGPU::SRC_SHARED_BASE64
AMDGPU::Hwreg::OFFSET_SRC_PRIVATE_BASE;		: AMDGPU::SRC_PRIVATE_BASE64;
unsigned WidthM1 = AS == AMDGPUAS::LOCAL_ADDRESS ?		// Note: this feature (register) is broken. When used as a 32-bit operand,
AMDGPU::Hwreg::WIDTH_M1_SRC_SHARED_BASE :		// it returns a wrong value (all zeroes?). The real value is in the upper 32
AMDGPU::Hwreg::WIDTH_M1_SRC_PRIVATE_BASE;		// bits.
unsigned Encoding =		//
AMDGPU::Hwreg::ID_MEM_BASES << AMDGPU::Hwreg::ID_SHIFT_ \|		// To work around the issue, directly emit a 64 bit mov from this register
Offset << AMDGPU::Hwreg::OFFSET_SHIFT_ \|		// then extract the high bits. Note that this shouldn't even result in a
WidthM1 << AMDGPU::Hwreg::WIDTH_M1_SHIFT_;		// shift being emitted and simply become a pair of registers (e.g.):
		// s_mov_b64 s[6:7], src_shared_base
SDValue EncodingImm = DAG.getTargetConstant(Encoding, DL, MVT::i16);		// v_mov_b32_e32 v1, s7
SDValue ApertureReg = SDValue(		SDNode *Mov = DAG.getMachineNode(AMDGPU::S_MOV_B64, DL, MVT::i64,
DAG.getMachineNode(AMDGPU::S_GETREG_B32, DL, MVT::i32, EncodingImm), 0);		DAG.getRegister(ApertureRegNo, MVT::i64));
SDValue ShiftAmount = DAG.getTargetConstant(WidthM1 + 1, DL, MVT::i32);		return DAG.getNode(
return DAG.getNode(ISD::SHL, DL, MVT::i32, ApertureReg, ShiftAmount);		ISD::TRUNCATE, DL, MVT::i32,
		DAG.getNode(ISD::SRL, DL, MVT::i64,
		{SDValue(Mov, 0), DAG.getConstant(32, DL, MVT::i64)}));
		arsenmUnsubmitted Done Reply Inline Actions This will get combined later to bitcast and extract later, but I guess that's more annoying to emit arsenm: This will get combined later to bitcast and extract later, but I guess that's more annoying to…
}		}

// For code object version 5, private_base and shared_base are passed through		// For code object version 5, private_base and shared_base are passed through
// implicit kernargs.		// implicit kernargs.
if (AMDGPU::getAmdhsaCodeObjectVersion() == 5) {		if (AMDGPU::getAmdhsaCodeObjectVersion() == 5) {
ImplicitParameter Param =		ImplicitParameter Param =
(AS == AMDGPUAS::LOCAL_ADDRESS) ? SHARED_BASE : PRIVATE_BASE;		(AS == AMDGPUAS::LOCAL_ADDRESS) ? SHARED_BASE : PRIVATE_BASE;
return loadImplicitKernelArgument(DAG, MVT::i32, DL, Align(4), Param);		return loadImplicitKernelArgument(DAG, MVT::i32, DL, Align(4), Param);
▲ Show 20 Lines • Show All 7,691 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-scratch-init.gfx.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mattr=+enable-flat-scratch -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 < %s \| FileCheck -check-prefix=MESA %s			; RUN: llc -global-isel -mattr=+enable-flat-scratch -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 < %s \| FileCheck -check-prefix=MESA %s
	; RUN: llc -global-isel -mattr=+enable-flat-scratch -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 < %s \| FileCheck -check-prefix=PAL %s			; RUN: llc -global-isel -mattr=+enable-flat-scratch -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 < %s \| FileCheck -check-prefix=PAL %s

	; Test that the initialization for flat_scratch doesn't crash. PAL			; Test that the initialization for flat_scratch doesn't crash. PAL
	; doesn't add a user SGPR for initializing flat_scratch, mesa does			; doesn't add a user SGPR for initializing flat_scratch, mesa does
	; (although this probably isn't actually defined).			; (although this probably isn't actually defined).

	define amdgpu_ps void @amdgpu_ps() {			define amdgpu_ps void @amdgpu_ps() {
	; MESA-LABEL: amdgpu_ps:			; MESA-LABEL: amdgpu_ps:
	; MESA: ; %bb.0:			; MESA: ; %bb.0:
	; MESA-NEXT: s_add_u32 flat_scratch_lo, s2, s4			; MESA-NEXT: s_add_u32 flat_scratch_lo, s2, s4
	; MESA-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; MESA-NEXT: s_mov_b64 s[0:1], src_private_base
	; MESA-NEXT: s_addc_u32 flat_scratch_hi, s3, 0			; MESA-NEXT: s_addc_u32 flat_scratch_hi, s3, 0
	; MESA-NEXT: s_lshl_b32 s0, s0, 16
	; MESA-NEXT: v_mov_b32_e32 v0, 4			; MESA-NEXT: v_mov_b32_e32 v0, 4
	; MESA-NEXT: v_mov_b32_e32 v1, s0			; MESA-NEXT: v_mov_b32_e32 v1, s1
	; MESA-NEXT: v_mov_b32_e32 v2, 0			; MESA-NEXT: v_mov_b32_e32 v2, 0
	; MESA-NEXT: flat_store_dword v[0:1], v2			; MESA-NEXT: flat_store_dword v[0:1], v2
	; MESA-NEXT: s_waitcnt vmcnt(0)			; MESA-NEXT: s_waitcnt vmcnt(0)
	; MESA-NEXT: s_endpgm			; MESA-NEXT: s_endpgm
	;			;
	; PAL-LABEL: amdgpu_ps:			; PAL-LABEL: amdgpu_ps:
	; PAL: ; %bb.0:			; PAL: ; %bb.0:
	; PAL-NEXT: s_getpc_b64 s[2:3]			; PAL-NEXT: s_getpc_b64 s[2:3]
	; PAL-NEXT: s_mov_b32 s2, s0			; PAL-NEXT: s_mov_b32 s2, s0
	; PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0			; PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
	; PAL-NEXT: v_mov_b32_e32 v0, 4			; PAL-NEXT: v_mov_b32_e32 v0, 4
	; PAL-NEXT: v_mov_b32_e32 v2, 0			; PAL-NEXT: v_mov_b32_e32 v2, 0
	; PAL-NEXT: s_waitcnt lgkmcnt(0)			; PAL-NEXT: s_waitcnt lgkmcnt(0)
	; PAL-NEXT: s_and_b32 s3, s3, 0xffff			; PAL-NEXT: s_and_b32 s3, s3, 0xffff
	; PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s0			; PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s0
	; PAL-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; PAL-NEXT: s_mov_b64 s[0:1], src_private_base
	; PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0			; PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0
	; PAL-NEXT: s_lshl_b32 s0, s0, 16			; PAL-NEXT: v_mov_b32_e32 v1, s1
	; PAL-NEXT: v_mov_b32_e32 v1, s0
	; PAL-NEXT: flat_store_dword v[0:1], v2			; PAL-NEXT: flat_store_dword v[0:1], v2
	; PAL-NEXT: s_waitcnt vmcnt(0)			; PAL-NEXT: s_waitcnt vmcnt(0)
	; PAL-NEXT: s_endpgm			; PAL-NEXT: s_endpgm
	%alloca = alloca i32, addrspace(5)			%alloca = alloca i32, addrspace(5)
	%cast = addrspacecast i32 addrspace(5)* %alloca to i32*			%cast = addrspacecast i32 addrspace(5)* %alloca to i32*
	store volatile i32 0, i32* %cast			store volatile i32 0, i32* %cast
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/GlobalISel/implicit-kernarg-backend-usage-global-isel.ll

	Show First 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; GFX8V5-NEXT: v_mov_b32_e32 v1, s1			; GFX8V5-NEXT: v_mov_b32_e32 v1, s1
	; GFX8V5-NEXT: flat_store_dword v[0:1], v2			; GFX8V5-NEXT: flat_store_dword v[0:1], v2
	; GFX8V5-NEXT: s_waitcnt vmcnt(0)			; GFX8V5-NEXT: s_waitcnt vmcnt(0)
	; GFX8V5-NEXT: s_endpgm			; GFX8V5-NEXT: s_endpgm
	;			;
	; GFX9V3-LABEL: addrspacecast:			; GFX9V3-LABEL: addrspacecast:
	; GFX9V3: ; %bb.0:			; GFX9V3: ; %bb.0:
	; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V3-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V3-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX9V3-NEXT: s_lshl_b32 s3, s2, 16			; GFX9V3-NEXT: s_mov_b64 s[4:5], src_shared_base
	; GFX9V3-NEXT: s_getreg_b32 s4, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
	; GFX9V3-NEXT: v_mov_b32_e32 v2, 1			; GFX9V3-NEXT: v_mov_b32_e32 v2, 1
	; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V3-NEXT: s_mov_b32 s2, s0			; GFX9V3-NEXT: s_mov_b32 s2, s0
	; GFX9V3-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V3-NEXT: s_cmp_lg_u32 s0, -1
	; GFX9V3-NEXT: s_cselect_b64 s[2:3], s[2:3], 0			; GFX9V3-NEXT: s_cselect_b64 s[2:3], s[2:3], 0
	; GFX9V3-NEXT: s_lshl_b32 s5, s4, 16
	; GFX9V3-NEXT: s_mov_b32 s4, s1			; GFX9V3-NEXT: s_mov_b32 s4, s1
	; GFX9V3-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V3-NEXT: s_cmp_lg_u32 s1, -1
	; GFX9V3-NEXT: v_mov_b32_e32 v0, s2			; GFX9V3-NEXT: v_mov_b32_e32 v0, s2
	; GFX9V3-NEXT: s_cselect_b64 s[0:1], s[4:5], 0			; GFX9V3-NEXT: s_cselect_b64 s[0:1], s[4:5], 0
	; GFX9V3-NEXT: v_mov_b32_e32 v1, s3			; GFX9V3-NEXT: v_mov_b32_e32 v1, s3
	; GFX9V3-NEXT: flat_store_dword v[0:1], v2			; GFX9V3-NEXT: flat_store_dword v[0:1], v2
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: v_mov_b32_e32 v0, s0			; GFX9V3-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V3-NEXT: v_mov_b32_e32 v2, 2			; GFX9V3-NEXT: v_mov_b32_e32 v2, 2
	; GFX9V3-NEXT: v_mov_b32_e32 v1, s1			; GFX9V3-NEXT: v_mov_b32_e32 v1, s1
	; GFX9V3-NEXT: flat_store_dword v[0:1], v2			; GFX9V3-NEXT: flat_store_dword v[0:1], v2
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: s_endpgm			; GFX9V3-NEXT: s_endpgm
	;			;
	; GFX9V4-LABEL: addrspacecast:			; GFX9V4-LABEL: addrspacecast:
	; GFX9V4: ; %bb.0:			; GFX9V4: ; %bb.0:
	; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V4-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V4-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX9V4-NEXT: s_lshl_b32 s3, s2, 16			; GFX9V4-NEXT: s_mov_b64 s[4:5], src_shared_base
	; GFX9V4-NEXT: s_getreg_b32 s4, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
	; GFX9V4-NEXT: v_mov_b32_e32 v2, 1			; GFX9V4-NEXT: v_mov_b32_e32 v2, 1
	; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V4-NEXT: s_mov_b32 s2, s0			; GFX9V4-NEXT: s_mov_b32 s2, s0
	; GFX9V4-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V4-NEXT: s_cmp_lg_u32 s0, -1
	; GFX9V4-NEXT: s_cselect_b64 s[2:3], s[2:3], 0			; GFX9V4-NEXT: s_cselect_b64 s[2:3], s[2:3], 0
	; GFX9V4-NEXT: s_lshl_b32 s5, s4, 16
	; GFX9V4-NEXT: s_mov_b32 s4, s1			; GFX9V4-NEXT: s_mov_b32 s4, s1
	; GFX9V4-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V4-NEXT: s_cmp_lg_u32 s1, -1
	; GFX9V4-NEXT: v_mov_b32_e32 v0, s2			; GFX9V4-NEXT: v_mov_b32_e32 v0, s2
	; GFX9V4-NEXT: s_cselect_b64 s[0:1], s[4:5], 0			; GFX9V4-NEXT: s_cselect_b64 s[0:1], s[4:5], 0
	; GFX9V4-NEXT: v_mov_b32_e32 v1, s3			; GFX9V4-NEXT: v_mov_b32_e32 v1, s3
	; GFX9V4-NEXT: flat_store_dword v[0:1], v2			; GFX9V4-NEXT: flat_store_dword v[0:1], v2
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: v_mov_b32_e32 v0, s0			; GFX9V4-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V4-NEXT: v_mov_b32_e32 v2, 2			; GFX9V4-NEXT: v_mov_b32_e32 v2, 2
	; GFX9V4-NEXT: v_mov_b32_e32 v1, s1			; GFX9V4-NEXT: v_mov_b32_e32 v1, s1
	; GFX9V4-NEXT: flat_store_dword v[0:1], v2			; GFX9V4-NEXT: flat_store_dword v[0:1], v2
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: s_endpgm			; GFX9V4-NEXT: s_endpgm
	;			;
	; GFX9V5-LABEL: addrspacecast:			; GFX9V5-LABEL: addrspacecast:
	; GFX9V5: ; %bb.0:			; GFX9V5: ; %bb.0:
	; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V5-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V5-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX9V5-NEXT: s_lshl_b32 s3, s2, 16			; GFX9V5-NEXT: s_mov_b64 s[4:5], src_shared_base
	; GFX9V5-NEXT: s_getreg_b32 s4, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
	; GFX9V5-NEXT: v_mov_b32_e32 v2, 1			; GFX9V5-NEXT: v_mov_b32_e32 v2, 1
	; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V5-NEXT: s_mov_b32 s2, s0			; GFX9V5-NEXT: s_mov_b32 s2, s0
	; GFX9V5-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V5-NEXT: s_cmp_lg_u32 s0, -1
	; GFX9V5-NEXT: s_cselect_b64 s[2:3], s[2:3], 0			; GFX9V5-NEXT: s_cselect_b64 s[2:3], s[2:3], 0
	; GFX9V5-NEXT: s_lshl_b32 s5, s4, 16
	; GFX9V5-NEXT: s_mov_b32 s4, s1			; GFX9V5-NEXT: s_mov_b32 s4, s1
	; GFX9V5-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V5-NEXT: s_cmp_lg_u32 s1, -1
	; GFX9V5-NEXT: v_mov_b32_e32 v0, s2			; GFX9V5-NEXT: v_mov_b32_e32 v0, s2
	; GFX9V5-NEXT: s_cselect_b64 s[0:1], s[4:5], 0			; GFX9V5-NEXT: s_cselect_b64 s[0:1], s[4:5], 0
	; GFX9V5-NEXT: v_mov_b32_e32 v1, s3			; GFX9V5-NEXT: v_mov_b32_e32 v1, s3
	; GFX9V5-NEXT: flat_store_dword v[0:1], v2			; GFX9V5-NEXT: flat_store_dword v[0:1], v2
	; GFX9V5-NEXT: s_waitcnt vmcnt(0)			; GFX9V5-NEXT: s_waitcnt vmcnt(0)
	; GFX9V5-NEXT: v_mov_b32_e32 v0, s0			; GFX9V5-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; GFX8V5-NEXT: v_mov_b32_e32 v0, s0			; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V5-NEXT: flat_store_dword v[0:1], v0			; GFX8V5-NEXT: flat_store_dword v[0:1], v0
	; GFX8V5-NEXT: s_waitcnt vmcnt(0)			; GFX8V5-NEXT: s_waitcnt vmcnt(0)
	; GFX8V5-NEXT: s_endpgm			; GFX8V5-NEXT: s_endpgm
	;			;
	; GFX9V3-LABEL: llvm_amdgcn_is_shared:			; GFX9V3-LABEL: llvm_amdgcn_is_shared:
	; GFX9V3: ; %bb.0:			; GFX9V3: ; %bb.0:
	; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V3-NEXT: s_mov_b64 s[2:3], src_shared_base
	; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V3-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V3-NEXT: s_cmp_eq_u32 s1, s3
	; GFX9V3-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V3-NEXT: s_cmp_eq_u32 s1, s0
	; GFX9V3-NEXT: s_cselect_b32 s0, 1, 0			; GFX9V3-NEXT: s_cselect_b32 s0, 1, 0
	; GFX9V3-NEXT: v_mov_b32_e32 v0, s0			; GFX9V3-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V3-NEXT: global_store_dword v[0:1], v0, off			; GFX9V3-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: s_endpgm			; GFX9V3-NEXT: s_endpgm
	;			;
	; GFX9V4-LABEL: llvm_amdgcn_is_shared:			; GFX9V4-LABEL: llvm_amdgcn_is_shared:
	; GFX9V4: ; %bb.0:			; GFX9V4: ; %bb.0:
	; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V4-NEXT: s_mov_b64 s[2:3], src_shared_base
	; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V4-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V4-NEXT: s_cmp_eq_u32 s1, s3
	; GFX9V4-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V4-NEXT: s_cmp_eq_u32 s1, s0
	; GFX9V4-NEXT: s_cselect_b32 s0, 1, 0			; GFX9V4-NEXT: s_cselect_b32 s0, 1, 0
	; GFX9V4-NEXT: v_mov_b32_e32 v0, s0			; GFX9V4-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V4-NEXT: global_store_dword v[0:1], v0, off			; GFX9V4-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: s_endpgm			; GFX9V4-NEXT: s_endpgm
	;			;
	; GFX9V5-LABEL: llvm_amdgcn_is_shared:			; GFX9V5-LABEL: llvm_amdgcn_is_shared:
	; GFX9V5: ; %bb.0:			; GFX9V5: ; %bb.0:
	; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V5-NEXT: s_mov_b64 s[2:3], src_shared_base
	; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V5-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V5-NEXT: s_cmp_eq_u32 s1, s3
	; GFX9V5-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V5-NEXT: s_cmp_eq_u32 s1, s0
	; GFX9V5-NEXT: s_cselect_b32 s0, 1, 0			; GFX9V5-NEXT: s_cselect_b32 s0, 1, 0
	; GFX9V5-NEXT: v_mov_b32_e32 v0, s0			; GFX9V5-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V5-NEXT: global_store_dword v[0:1], v0, off			; GFX9V5-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V5-NEXT: s_waitcnt vmcnt(0)			; GFX9V5-NEXT: s_waitcnt vmcnt(0)
	; GFX9V5-NEXT: s_endpgm			; GFX9V5-NEXT: s_endpgm
	%is.shared = call i1 @llvm.amdgcn.is.shared(i8* %ptr)			%is.shared = call i1 @llvm.amdgcn.is.shared(i8* %ptr)
	%zext = zext i1 %is.shared to i32			%zext = zext i1 %is.shared to i32
	store volatile i32 %zext, i32 addrspace(1)* undef			store volatile i32 %zext, i32 addrspace(1)* undef
	Show All 38 Lines
	; GFX8V5-NEXT: v_mov_b32_e32 v0, s0			; GFX8V5-NEXT: v_mov_b32_e32 v0, s0
	; GFX8V5-NEXT: flat_store_dword v[0:1], v0			; GFX8V5-NEXT: flat_store_dword v[0:1], v0
	; GFX8V5-NEXT: s_waitcnt vmcnt(0)			; GFX8V5-NEXT: s_waitcnt vmcnt(0)
	; GFX8V5-NEXT: s_endpgm			; GFX8V5-NEXT: s_endpgm
	;			;
	; GFX9V3-LABEL: llvm_amdgcn_is_private:			; GFX9V3-LABEL: llvm_amdgcn_is_private:
	; GFX9V3: ; %bb.0:			; GFX9V3: ; %bb.0:
	; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V3-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V3-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V3-NEXT: s_cmp_eq_u32 s1, s3
	; GFX9V3-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V3-NEXT: s_cmp_eq_u32 s1, s0
	; GFX9V3-NEXT: s_cselect_b32 s0, 1, 0			; GFX9V3-NEXT: s_cselect_b32 s0, 1, 0
	; GFX9V3-NEXT: v_mov_b32_e32 v0, s0			; GFX9V3-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V3-NEXT: global_store_dword v[0:1], v0, off			; GFX9V3-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: s_endpgm			; GFX9V3-NEXT: s_endpgm
	;			;
	; GFX9V4-LABEL: llvm_amdgcn_is_private:			; GFX9V4-LABEL: llvm_amdgcn_is_private:
	; GFX9V4: ; %bb.0:			; GFX9V4: ; %bb.0:
	; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V4-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V4-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V4-NEXT: s_cmp_eq_u32 s1, s3
	; GFX9V4-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V4-NEXT: s_cmp_eq_u32 s1, s0
	; GFX9V4-NEXT: s_cselect_b32 s0, 1, 0			; GFX9V4-NEXT: s_cselect_b32 s0, 1, 0
	; GFX9V4-NEXT: v_mov_b32_e32 v0, s0			; GFX9V4-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V4-NEXT: global_store_dword v[0:1], v0, off			; GFX9V4-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: s_endpgm			; GFX9V4-NEXT: s_endpgm
	;			;
	; GFX9V5-LABEL: llvm_amdgcn_is_private:			; GFX9V5-LABEL: llvm_amdgcn_is_private:
	; GFX9V5: ; %bb.0:			; GFX9V5: ; %bb.0:
	; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9V5-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V5-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V5-NEXT: s_cmp_eq_u32 s1, s3
	; GFX9V5-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V5-NEXT: s_cmp_eq_u32 s1, s0
	; GFX9V5-NEXT: s_cselect_b32 s0, 1, 0			; GFX9V5-NEXT: s_cselect_b32 s0, 1, 0
	; GFX9V5-NEXT: v_mov_b32_e32 v0, s0			; GFX9V5-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V5-NEXT: global_store_dword v[0:1], v0, off			; GFX9V5-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V5-NEXT: s_waitcnt vmcnt(0)			; GFX9V5-NEXT: s_waitcnt vmcnt(0)
	; GFX9V5-NEXT: s_endpgm			; GFX9V5-NEXT: s_endpgm
	%is.private = call i1 @llvm.amdgcn.is.private(i8* %ptr)			%is.private = call i1 @llvm.amdgcn.is.private(i8* %ptr)
	%zext = zext i1 %is.private to i32			%zext = zext i1 %is.private to i32
	store volatile i32 %zext, i32 addrspace(1)* undef			store volatile i32 %zext, i32 addrspace(1)* undef
	▲ Show 20 Lines • Show All 215 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-addrspacecast.mir

Show First 20 Lines • Show All 222 Lines • ▼ Show 20 Lines	bb.0:
; VI-NEXT: [[C2:%[0-9]+]]:_(p0) = G_CONSTANT i64 0		; VI-NEXT: [[C2:%[0-9]+]]:_(p0) = G_CONSTANT i64 0
; VI-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[COPY1]](p5), [[C1]]		; VI-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[COPY1]](p5), [[C1]]
; VI-NEXT: [[SELECT:%[0-9]+]]:_(p0) = G_SELECT [[ICMP]](s1), [[MV]], [[C2]]		; VI-NEXT: [[SELECT:%[0-9]+]]:_(p0) = G_SELECT [[ICMP]](s1), [[MV]], [[C2]]
; VI-NEXT: $vgpr0_vgpr1 = COPY [[SELECT]](p0)		; VI-NEXT: $vgpr0_vgpr1 = COPY [[SELECT]](p0)
; GFX9-LABEL: name: test_addrspacecast_p5_to_p0		; GFX9-LABEL: name: test_addrspacecast_p5_to_p0
; GFX9: liveins: $vgpr0		; GFX9: liveins: $vgpr0
; GFX9-NEXT: {{ $}}		; GFX9-NEXT: {{ $}}
; GFX9-NEXT: [[COPY:%[0-9]+]]:_(p5) = COPY $vgpr0		; GFX9-NEXT: [[COPY:%[0-9]+]]:_(p5) = COPY $vgpr0
; GFX9-NEXT: [[S_GETREG_B32_:%[0-9]+]]:sreg_32(s32) = S_GETREG_B32 30735		; GFX9-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64_xexec(s64) = S_MOV_B64 $src_private_base64
; GFX9-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 16		; GFX9-NEXT: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[S_MOV_B64_]](s64)
; GFX9-NEXT: [[SHL:%[0-9]+]]:_(s32) = G_SHL [[S_GETREG_B32_]], [[C]](s32)
; GFX9-NEXT: [[PTRTOINT:%[0-9]+]]:_(s32) = G_PTRTOINT [[COPY]](p5)		; GFX9-NEXT: [[PTRTOINT:%[0-9]+]]:_(s32) = G_PTRTOINT [[COPY]](p5)
; GFX9-NEXT: [[MV:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT]](s32), [[SHL]](s32)		; GFX9-NEXT: [[MV:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT]](s32), [[UV1]](s32)
; GFX9-NEXT: [[C1:%[0-9]+]]:_(p5) = G_CONSTANT i32 -1		; GFX9-NEXT: [[C:%[0-9]+]]:_(p5) = G_CONSTANT i32 -1
; GFX9-NEXT: [[C2:%[0-9]+]]:_(p0) = G_CONSTANT i64 0		; GFX9-NEXT: [[C1:%[0-9]+]]:_(p0) = G_CONSTANT i64 0
; GFX9-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[COPY]](p5), [[C1]]		; GFX9-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[COPY]](p5), [[C]]
; GFX9-NEXT: [[SELECT:%[0-9]+]]:_(p0) = G_SELECT [[ICMP]](s1), [[MV]], [[C2]]		; GFX9-NEXT: [[SELECT:%[0-9]+]]:_(p0) = G_SELECT [[ICMP]](s1), [[MV]], [[C1]]
; GFX9-NEXT: $vgpr0_vgpr1 = COPY [[SELECT]](p0)		; GFX9-NEXT: $vgpr0_vgpr1 = COPY [[SELECT]](p0)
; SI-LABEL: name: test_addrspacecast_p5_to_p0		; SI-LABEL: name: test_addrspacecast_p5_to_p0
; SI: liveins: $vgpr0		; SI: liveins: $vgpr0
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: [[COPY:%[0-9]+]]:_(p5) = COPY $vgpr0		; SI-NEXT: [[COPY:%[0-9]+]]:_(p5) = COPY $vgpr0
; SI-NEXT: [[ADDRSPACE_CAST:%[0-9]+]]:_(p0) = G_ADDRSPACE_CAST [[COPY]](p5)		; SI-NEXT: [[ADDRSPACE_CAST:%[0-9]+]]:_(p0) = G_ADDRSPACE_CAST [[COPY]](p5)
; SI-NEXT: $vgpr0_vgpr1 = COPY [[ADDRSPACE_CAST]](p0)		; SI-NEXT: $vgpr0_vgpr1 = COPY [[ADDRSPACE_CAST]](p0)
%0:_(p5) = COPY $vgpr0		%0:_(p5) = COPY $vgpr0
▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	bb.0:
; VI-NEXT: [[C2:%[0-9]+]]:_(p0) = G_CONSTANT i64 0		; VI-NEXT: [[C2:%[0-9]+]]:_(p0) = G_CONSTANT i64 0
; VI-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[COPY1]](p3), [[C1]]		; VI-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[COPY1]](p3), [[C1]]
; VI-NEXT: [[SELECT:%[0-9]+]]:_(p0) = G_SELECT [[ICMP]](s1), [[MV]], [[C2]]		; VI-NEXT: [[SELECT:%[0-9]+]]:_(p0) = G_SELECT [[ICMP]](s1), [[MV]], [[C2]]
; VI-NEXT: $vgpr0_vgpr1 = COPY [[SELECT]](p0)		; VI-NEXT: $vgpr0_vgpr1 = COPY [[SELECT]](p0)
; GFX9-LABEL: name: test_addrspacecast_p3_to_p0		; GFX9-LABEL: name: test_addrspacecast_p3_to_p0
; GFX9: liveins: $vgpr0		; GFX9: liveins: $vgpr0
; GFX9-NEXT: {{ $}}		; GFX9-NEXT: {{ $}}
; GFX9-NEXT: [[COPY:%[0-9]+]]:_(p3) = COPY $vgpr0		; GFX9-NEXT: [[COPY:%[0-9]+]]:_(p3) = COPY $vgpr0
; GFX9-NEXT: [[S_GETREG_B32_:%[0-9]+]]:sreg_32(s32) = S_GETREG_B32 31759		; GFX9-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64_xexec(s64) = S_MOV_B64 $src_shared_base64
; GFX9-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 16		; GFX9-NEXT: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[S_MOV_B64_]](s64)
; GFX9-NEXT: [[SHL:%[0-9]+]]:_(s32) = G_SHL [[S_GETREG_B32_]], [[C]](s32)
; GFX9-NEXT: [[PTRTOINT:%[0-9]+]]:_(s32) = G_PTRTOINT [[COPY]](p3)		; GFX9-NEXT: [[PTRTOINT:%[0-9]+]]:_(s32) = G_PTRTOINT [[COPY]](p3)
; GFX9-NEXT: [[MV:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT]](s32), [[SHL]](s32)		; GFX9-NEXT: [[MV:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT]](s32), [[UV1]](s32)
; GFX9-NEXT: [[C1:%[0-9]+]]:_(p3) = G_CONSTANT i32 -1		; GFX9-NEXT: [[C:%[0-9]+]]:_(p3) = G_CONSTANT i32 -1
; GFX9-NEXT: [[C2:%[0-9]+]]:_(p0) = G_CONSTANT i64 0		; GFX9-NEXT: [[C1:%[0-9]+]]:_(p0) = G_CONSTANT i64 0
; GFX9-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[COPY]](p3), [[C1]]		; GFX9-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[COPY]](p3), [[C]]
; GFX9-NEXT: [[SELECT:%[0-9]+]]:_(p0) = G_SELECT [[ICMP]](s1), [[MV]], [[C2]]		; GFX9-NEXT: [[SELECT:%[0-9]+]]:_(p0) = G_SELECT [[ICMP]](s1), [[MV]], [[C1]]
; GFX9-NEXT: $vgpr0_vgpr1 = COPY [[SELECT]](p0)		; GFX9-NEXT: $vgpr0_vgpr1 = COPY [[SELECT]](p0)
; SI-LABEL: name: test_addrspacecast_p3_to_p0		; SI-LABEL: name: test_addrspacecast_p3_to_p0
; SI: liveins: $vgpr0		; SI: liveins: $vgpr0
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: [[COPY:%[0-9]+]]:_(p3) = COPY $vgpr0		; SI-NEXT: [[COPY:%[0-9]+]]:_(p3) = COPY $vgpr0
; SI-NEXT: [[ADDRSPACE_CAST:%[0-9]+]]:_(p0) = G_ADDRSPACE_CAST [[COPY]](p3)		; SI-NEXT: [[ADDRSPACE_CAST:%[0-9]+]]:_(p0) = G_ADDRSPACE_CAST [[COPY]](p3)
; SI-NEXT: $vgpr0_vgpr1 = COPY [[ADDRSPACE_CAST]](p0)		; SI-NEXT: $vgpr0_vgpr1 = COPY [[ADDRSPACE_CAST]](p0)
%0:_(p3) = COPY $vgpr0		%0:_(p3) = COPY $vgpr0
▲ Show 20 Lines • Show All 220 Lines • ▼ Show 20 Lines	bb.0:
; VI-NEXT: [[SELECT1:%[0-9]+]]:_(p0) = G_SELECT [[ICMP1]](s1), [[MV1]], [[C2]]		; VI-NEXT: [[SELECT1:%[0-9]+]]:_(p0) = G_SELECT [[ICMP1]](s1), [[MV1]], [[C2]]
; VI-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<2 x p0>) = G_BUILD_VECTOR [[SELECT]](p0), [[SELECT1]](p0)		; VI-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<2 x p0>) = G_BUILD_VECTOR [[SELECT]](p0), [[SELECT1]](p0)
; VI-NEXT: $vgpr0_vgpr1_vgpr2_vgpr3 = COPY [[BUILD_VECTOR]](<2 x p0>)		; VI-NEXT: $vgpr0_vgpr1_vgpr2_vgpr3 = COPY [[BUILD_VECTOR]](<2 x p0>)
; GFX9-LABEL: name: test_addrspacecast_v2p3_to_v2p0		; GFX9-LABEL: name: test_addrspacecast_v2p3_to_v2p0
; GFX9: liveins: $vgpr0_vgpr1		; GFX9: liveins: $vgpr0_vgpr1
; GFX9-NEXT: {{ $}}		; GFX9-NEXT: {{ $}}
; GFX9-NEXT: [[COPY:%[0-9]+]]:_(<2 x p3>) = COPY $vgpr0_vgpr1		; GFX9-NEXT: [[COPY:%[0-9]+]]:_(<2 x p3>) = COPY $vgpr0_vgpr1
; GFX9-NEXT: [[UV:%[0-9]+]]:_(p3), [[UV1:%[0-9]+]]:_(p3) = G_UNMERGE_VALUES [[COPY]](<2 x p3>)		; GFX9-NEXT: [[UV:%[0-9]+]]:_(p3), [[UV1:%[0-9]+]]:_(p3) = G_UNMERGE_VALUES [[COPY]](<2 x p3>)
; GFX9-NEXT: [[S_GETREG_B32_:%[0-9]+]]:sreg_32(s32) = S_GETREG_B32 31759		; GFX9-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64_xexec(s64) = S_MOV_B64 $src_shared_base64
; GFX9-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 16		; GFX9-NEXT: [[UV2:%[0-9]+]]:_(s32), [[UV3:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[S_MOV_B64_]](s64)
; GFX9-NEXT: [[SHL:%[0-9]+]]:_(s32) = G_SHL [[S_GETREG_B32_]], [[C]](s32)
; GFX9-NEXT: [[PTRTOINT:%[0-9]+]]:_(s32) = G_PTRTOINT [[UV]](p3)		; GFX9-NEXT: [[PTRTOINT:%[0-9]+]]:_(s32) = G_PTRTOINT [[UV]](p3)
; GFX9-NEXT: [[MV:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT]](s32), [[SHL]](s32)		; GFX9-NEXT: [[MV:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT]](s32), [[UV3]](s32)
; GFX9-NEXT: [[C1:%[0-9]+]]:_(p3) = G_CONSTANT i32 -1		; GFX9-NEXT: [[C:%[0-9]+]]:_(p3) = G_CONSTANT i32 -1
; GFX9-NEXT: [[C2:%[0-9]+]]:_(p0) = G_CONSTANT i64 0		; GFX9-NEXT: [[C1:%[0-9]+]]:_(p0) = G_CONSTANT i64 0
; GFX9-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[UV]](p3), [[C1]]		; GFX9-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[UV]](p3), [[C]]
; GFX9-NEXT: [[SELECT:%[0-9]+]]:_(p0) = G_SELECT [[ICMP]](s1), [[MV]], [[C2]]		; GFX9-NEXT: [[SELECT:%[0-9]+]]:_(p0) = G_SELECT [[ICMP]](s1), [[MV]], [[C1]]
; GFX9-NEXT: [[S_GETREG_B32_1:%[0-9]+]]:sreg_32(s32) = S_GETREG_B32 31759		; GFX9-NEXT: [[S_MOV_B64_1:%[0-9]+]]:sreg_64_xexec(s64) = S_MOV_B64 $src_shared_base64
; GFX9-NEXT: [[SHL1:%[0-9]+]]:_(s32) = G_SHL [[S_GETREG_B32_1]], [[C]](s32)		; GFX9-NEXT: [[UV4:%[0-9]+]]:_(s32), [[UV5:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[S_MOV_B64_1]](s64)
; GFX9-NEXT: [[PTRTOINT1:%[0-9]+]]:_(s32) = G_PTRTOINT [[UV1]](p3)		; GFX9-NEXT: [[PTRTOINT1:%[0-9]+]]:_(s32) = G_PTRTOINT [[UV1]](p3)
; GFX9-NEXT: [[MV1:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT1]](s32), [[SHL1]](s32)		; GFX9-NEXT: [[MV1:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT1]](s32), [[UV5]](s32)
; GFX9-NEXT: [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[UV1]](p3), [[C1]]		; GFX9-NEXT: [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[UV1]](p3), [[C]]
; GFX9-NEXT: [[SELECT1:%[0-9]+]]:_(p0) = G_SELECT [[ICMP1]](s1), [[MV1]], [[C2]]		; GFX9-NEXT: [[SELECT1:%[0-9]+]]:_(p0) = G_SELECT [[ICMP1]](s1), [[MV1]], [[C1]]
; GFX9-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<2 x p0>) = G_BUILD_VECTOR [[SELECT]](p0), [[SELECT1]](p0)		; GFX9-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<2 x p0>) = G_BUILD_VECTOR [[SELECT]](p0), [[SELECT1]](p0)
; GFX9-NEXT: $vgpr0_vgpr1_vgpr2_vgpr3 = COPY [[BUILD_VECTOR]](<2 x p0>)		; GFX9-NEXT: $vgpr0_vgpr1_vgpr2_vgpr3 = COPY [[BUILD_VECTOR]](<2 x p0>)
; SI-LABEL: name: test_addrspacecast_v2p3_to_v2p0		; SI-LABEL: name: test_addrspacecast_v2p3_to_v2p0
; SI: liveins: $vgpr0_vgpr1		; SI: liveins: $vgpr0_vgpr1
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: [[COPY:%[0-9]+]]:_(<2 x p3>) = COPY $vgpr0_vgpr1		; SI-NEXT: [[COPY:%[0-9]+]]:_(<2 x p3>) = COPY $vgpr0_vgpr1
; SI-NEXT: [[UV:%[0-9]+]]:_(p3), [[UV1:%[0-9]+]]:_(p3) = G_UNMERGE_VALUES [[COPY]](<2 x p3>)		; SI-NEXT: [[UV:%[0-9]+]]:_(p3), [[UV1:%[0-9]+]]:_(p3) = G_UNMERGE_VALUES [[COPY]](<2 x p3>)
; SI-NEXT: [[ADDRSPACE_CAST:%[0-9]+]]:_(p0) = G_ADDRSPACE_CAST [[UV]](p3)		; SI-NEXT: [[ADDRSPACE_CAST:%[0-9]+]]:_(p0) = G_ADDRSPACE_CAST [[UV]](p3)
▲ Show 20 Lines • Show All 179 Lines • ▼ Show 20 Lines	bb.0:
; VI-NEXT: [[PTR_ADD:%[0-9]+]]:_(p4) = G_PTR_ADD [[COPY1]], [[C]](s64)		; VI-NEXT: [[PTR_ADD:%[0-9]+]]:_(p4) = G_PTR_ADD [[COPY1]], [[C]](s64)
; VI-NEXT: [[LOAD:%[0-9]+]]:_(s32) = G_LOAD [[PTR_ADD]](p4) :: (dereferenceable invariant load (s32), addrspace 4)		; VI-NEXT: [[LOAD:%[0-9]+]]:_(s32) = G_LOAD [[PTR_ADD]](p4) :: (dereferenceable invariant load (s32), addrspace 4)
; VI-NEXT: [[PTRTOINT:%[0-9]+]]:_(s32) = G_PTRTOINT [[FRAME_INDEX]](p5)		; VI-NEXT: [[PTRTOINT:%[0-9]+]]:_(s32) = G_PTRTOINT [[FRAME_INDEX]](p5)
; VI-NEXT: [[MV:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT]](s32), [[LOAD]](s32)		; VI-NEXT: [[MV:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT]](s32), [[LOAD]](s32)
; VI-NEXT: [[COPY2:%[0-9]+]]:_(p0) = COPY [[MV]](p0)		; VI-NEXT: [[COPY2:%[0-9]+]]:_(p0) = COPY [[MV]](p0)
; VI-NEXT: $vgpr0_vgpr1 = COPY [[COPY2]](p0)		; VI-NEXT: $vgpr0_vgpr1 = COPY [[COPY2]](p0)
; GFX9-LABEL: name: test_addrspacecast_p5_fi_to_p0		; GFX9-LABEL: name: test_addrspacecast_p5_fi_to_p0
; GFX9: [[FRAME_INDEX:%[0-9]+]]:_(p5) = G_FRAME_INDEX %stack.0		; GFX9: [[FRAME_INDEX:%[0-9]+]]:_(p5) = G_FRAME_INDEX %stack.0
; GFX9-NEXT: [[S_GETREG_B32_:%[0-9]+]]:sreg_32(s32) = S_GETREG_B32 30735		; GFX9-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64_xexec(s64) = S_MOV_B64 $src_private_base64
; GFX9-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 16		; GFX9-NEXT: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[S_MOV_B64_]](s64)
; GFX9-NEXT: [[SHL:%[0-9]+]]:_(s32) = G_SHL [[S_GETREG_B32_]], [[C]](s32)
; GFX9-NEXT: [[PTRTOINT:%[0-9]+]]:_(s32) = G_PTRTOINT [[FRAME_INDEX]](p5)		; GFX9-NEXT: [[PTRTOINT:%[0-9]+]]:_(s32) = G_PTRTOINT [[FRAME_INDEX]](p5)
; GFX9-NEXT: [[MV:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT]](s32), [[SHL]](s32)		; GFX9-NEXT: [[MV:%[0-9]+]]:_(p0) = G_MERGE_VALUES [[PTRTOINT]](s32), [[UV1]](s32)
; GFX9-NEXT: [[COPY:%[0-9]+]]:_(p0) = COPY [[MV]](p0)		; GFX9-NEXT: [[COPY:%[0-9]+]]:_(p0) = COPY [[MV]](p0)
; GFX9-NEXT: $vgpr0_vgpr1 = COPY [[COPY]](p0)		; GFX9-NEXT: $vgpr0_vgpr1 = COPY [[COPY]](p0)
; SI-LABEL: name: test_addrspacecast_p5_fi_to_p0		; SI-LABEL: name: test_addrspacecast_p5_fi_to_p0
; SI: [[FRAME_INDEX:%[0-9]+]]:_(p5) = G_FRAME_INDEX %stack.0		; SI: [[FRAME_INDEX:%[0-9]+]]:_(p5) = G_FRAME_INDEX %stack.0
; SI-NEXT: [[ADDRSPACE_CAST:%[0-9]+]]:_(p0) = G_ADDRSPACE_CAST [[FRAME_INDEX]](p5)		; SI-NEXT: [[ADDRSPACE_CAST:%[0-9]+]]:_(p0) = G_ADDRSPACE_CAST [[FRAME_INDEX]](p5)
; SI-NEXT: $vgpr0_vgpr1 = COPY [[ADDRSPACE_CAST]](p0)		; SI-NEXT: $vgpr0_vgpr1 = COPY [[ADDRSPACE_CAST]](p0)
%0:_(p5) = G_FRAME_INDEX %stack.0		%0:_(p5) = G_FRAME_INDEX %stack.0
%1:_(p0) = G_ADDRSPACE_CAST %0		%1:_(p0) = G_ADDRSPACE_CAST %0
$vgpr0_vgpr1 = COPY %1		$vgpr0_vgpr1 = COPY %1
...		...

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.is.private.ll

	Show All 26 Lines
	;			;
	; GFX9-LABEL: is_private_vgpr:			; GFX9-LABEL: is_private_vgpr:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v0, s[0:1] glc			; GFX9-NEXT: global_load_dwordx2 v[0:1], v0, s[0:1] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9-NEXT: s_mov_b64 s[0:1], src_private_base
	; GFX9-NEXT: s_lshl_b32 s0, s0, 16			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s1, v1
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s0, v1
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc
	; GFX9-NEXT: global_store_dword v[0:1], v0, off			; GFX9-NEXT: global_store_dword v[0:1], v0, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: is_private_vgpr:			; GFX10-LABEL: is_private_vgpr:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v0, s[0:1] glc dlc			; GFX10-NEXT: global_load_dwordx2 v[0:1], v0, s[0:1] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: s_waitcnt_depctr 0xffe3			; GFX10-NEXT: s_waitcnt_depctr 0xffe3
	; GFX10-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX10-NEXT: s_mov_b64 s[0:1], src_private_base
	; GFX10-NEXT: s_lshl_b32 s0, s0, 16			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, s1, v1
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, s0, v1
	; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc_lo
	; GFX10-NEXT: global_store_dword v[0:1], v0, off			; GFX10-NEXT: global_store_dword v[0:1], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: is_private_vgpr:			; GFX11-LABEL: is_private_vgpr:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0
	; GFX11-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: global_load_b64 v[0:1], v0, s[0:1] glc dlc			; GFX11-NEXT: global_load_b64 v[0:1], v0, s[0:1] glc dlc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX11-NEXT: s_mov_b64 s[0:1], src_private_base
	; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)			; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GFX11-NEXT: s_lshl_b32 s0, s0, 16			; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, s1, v1
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, s0, v1
	; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc_lo			; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc_lo
	; GFX11-NEXT: global_store_b32 v[0:1], v0, off			; GFX11-NEXT: global_store_b32 v[0:1], v0, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%id = call i32 @llvm.amdgcn.workitem.id.x()			%id = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr inbounds i8, i8 addrspace(1)* %ptr.ptr, i32 %id			%gep = getelementptr inbounds i8, i8 addrspace(1)* %ptr.ptr, i32 %id
	%ptr = load volatile i8, i8 addrspace(1)* %gep			%ptr = load volatile i8, i8 addrspace(1)* %gep
	%val = call i1 @llvm.amdgcn.is.private(i8* %ptr)			%val = call i1 @llvm.amdgcn.is.private(i8* %ptr)
	Show All 16 Lines
	; CI-NEXT: flat_store_dword v[0:1], v0			; CI-NEXT: flat_store_dword v[0:1], v0
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: .LBB1_2: ; %bb1			; CI-NEXT: .LBB1_2: ; %bb1
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: is_private_sgpr:			; GFX9-LABEL: is_private_sgpr:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9-NEXT: s_cmp_lg_u32 s1, s3
	; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_cmp_lg_u32 s1, s0
	; GFX9-NEXT: s_cbranch_scc1 .LBB1_2			; GFX9-NEXT: s_cbranch_scc1 .LBB1_2
	; GFX9-NEXT: ; %bb.1: ; %bb0			; GFX9-NEXT: ; %bb.1: ; %bb0
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: global_store_dword v[0:1], v0, off			; GFX9-NEXT: global_store_dword v[0:1], v0, off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: .LBB1_2: ; %bb1			; GFX9-NEXT: .LBB1_2: ; %bb1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: is_private_sgpr:			; GFX10-LABEL: is_private_sgpr:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX10-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX10-NEXT: s_cmp_lg_u32 s1, s3
	; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_cmp_lg_u32 s1, s0
	; GFX10-NEXT: s_cbranch_scc1 .LBB1_2			; GFX10-NEXT: s_cbranch_scc1 .LBB1_2
	; GFX10-NEXT: ; %bb.1: ; %bb0			; GFX10-NEXT: ; %bb.1: ; %bb0
	; GFX10-NEXT: v_mov_b32_e32 v0, 0			; GFX10-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-NEXT: global_store_dword v[0:1], v0, off			; GFX10-NEXT: global_store_dword v[0:1], v0, off
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: .LBB1_2: ; %bb1			; GFX10-NEXT: .LBB1_2: ; %bb1
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: is_private_sgpr:			; GFX11-LABEL: is_private_sgpr:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0
				; GFX11-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX11-NEXT: s_cmp_lg_u32 s1, s3
	; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
	; GFX11-NEXT: s_lshl_b32 s0, s0, 16
	; GFX11-NEXT: s_cmp_lg_u32 s1, s0
	; GFX11-NEXT: s_cbranch_scc1 .LBB1_2			; GFX11-NEXT: s_cbranch_scc1 .LBB1_2
	; GFX11-NEXT: ; %bb.1: ; %bb0			; GFX11-NEXT: ; %bb.1: ; %bb0
	; GFX11-NEXT: v_mov_b32_e32 v0, 0			; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: global_store_b32 v[0:1], v0, off dlc			; GFX11-NEXT: global_store_b32 v[0:1], v0, off dlc
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: .LBB1_2: ; %bb1			; GFX11-NEXT: .LBB1_2: ; %bb1
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	Show All 15 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.is.shared.ll

	Show All 26 Lines
	;			;
	; GFX9-LABEL: is_local_vgpr:			; GFX9-LABEL: is_local_vgpr:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v0, s[0:1] glc			; GFX9-NEXT: global_load_dwordx2 v[0:1], v0, s[0:1] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9-NEXT: s_mov_b64 s[0:1], src_shared_base
	; GFX9-NEXT: s_lshl_b32 s0, s0, 16			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s1, v1
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s0, v1
	; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc
	; GFX9-NEXT: global_store_dword v[0:1], v0, off			; GFX9-NEXT: global_store_dword v[0:1], v0, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: is_local_vgpr:			; GFX10-LABEL: is_local_vgpr:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v0, s[0:1] glc dlc			; GFX10-NEXT: global_load_dwordx2 v[0:1], v0, s[0:1] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: s_waitcnt_depctr 0xffe3			; GFX10-NEXT: s_waitcnt_depctr 0xffe3
	; GFX10-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX10-NEXT: s_mov_b64 s[0:1], src_shared_base
	; GFX10-NEXT: s_lshl_b32 s0, s0, 16			; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, s1, v1
	; GFX10-NEXT: v_cmp_eq_u32_e32 vcc_lo, s0, v1
	; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc_lo
	; GFX10-NEXT: global_store_dword v[0:1], v0, off			; GFX10-NEXT: global_store_dword v[0:1], v0, off
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: is_local_vgpr:			; GFX11-LABEL: is_local_vgpr:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0
	; GFX11-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: global_load_b64 v[0:1], v0, s[0:1] glc dlc			; GFX11-NEXT: global_load_b64 v[0:1], v0, s[0:1] glc dlc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX11-NEXT: s_mov_b64 s[0:1], src_shared_base
	; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)			; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GFX11-NEXT: s_lshl_b32 s0, s0, 16			; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, s1, v1
	; GFX11-NEXT: v_cmp_eq_u32_e32 vcc_lo, s0, v1
	; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc_lo			; GFX11-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc_lo
	; GFX11-NEXT: global_store_b32 v[0:1], v0, off			; GFX11-NEXT: global_store_b32 v[0:1], v0, off
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	%id = call i32 @llvm.amdgcn.workitem.id.x()			%id = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr inbounds i8, i8 addrspace(1)* %ptr.ptr, i32 %id			%gep = getelementptr inbounds i8, i8 addrspace(1)* %ptr.ptr, i32 %id
	%ptr = load volatile i8, i8 addrspace(1)* %gep			%ptr = load volatile i8, i8 addrspace(1)* %gep
	%val = call i1 @llvm.amdgcn.is.shared(i8* %ptr)			%val = call i1 @llvm.amdgcn.is.shared(i8* %ptr)
	Show All 16 Lines
	; CI-NEXT: flat_store_dword v[0:1], v0			; CI-NEXT: flat_store_dword v[0:1], v0
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: .LBB1_2: ; %bb1			; CI-NEXT: .LBB1_2: ; %bb1
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: is_local_sgpr:			; GFX9-LABEL: is_local_sgpr:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX9-NEXT: s_mov_b64 s[2:3], src_shared_base
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9-NEXT: s_cmp_lg_u32 s1, s3
	; GFX9-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9-NEXT: s_cmp_lg_u32 s1, s0
	; GFX9-NEXT: s_cbranch_scc1 .LBB1_2			; GFX9-NEXT: s_cbranch_scc1 .LBB1_2
	; GFX9-NEXT: ; %bb.1: ; %bb0			; GFX9-NEXT: ; %bb.1: ; %bb0
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: global_store_dword v[0:1], v0, off			; GFX9-NEXT: global_store_dword v[0:1], v0, off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: .LBB1_2: ; %bb1			; GFX9-NEXT: .LBB1_2: ; %bb1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: is_local_sgpr:			; GFX10-LABEL: is_local_sgpr:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
				; GFX10-NEXT: s_mov_b64 s[2:3], src_shared_base
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX10-NEXT: s_cmp_lg_u32 s1, s3
	; GFX10-NEXT: s_lshl_b32 s0, s0, 16
	; GFX10-NEXT: s_cmp_lg_u32 s1, s0
	; GFX10-NEXT: s_cbranch_scc1 .LBB1_2			; GFX10-NEXT: s_cbranch_scc1 .LBB1_2
	; GFX10-NEXT: ; %bb.1: ; %bb0			; GFX10-NEXT: ; %bb.1: ; %bb0
	; GFX10-NEXT: v_mov_b32_e32 v0, 0			; GFX10-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-NEXT: global_store_dword v[0:1], v0, off			; GFX10-NEXT: global_store_dword v[0:1], v0, off
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: .LBB1_2: ; %bb1			; GFX10-NEXT: .LBB1_2: ; %bb1
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: is_local_sgpr:			; GFX11-LABEL: is_local_sgpr:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x0
				; GFX11-NEXT: s_mov_b64 s[2:3], src_shared_base
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX11-NEXT: s_cmp_lg_u32 s1, s3
	; GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1) \| instskip(NEXT) \| instid1(SALU_CYCLE_1)
	; GFX11-NEXT: s_lshl_b32 s0, s0, 16
	; GFX11-NEXT: s_cmp_lg_u32 s1, s0
	; GFX11-NEXT: s_cbranch_scc1 .LBB1_2			; GFX11-NEXT: s_cbranch_scc1 .LBB1_2
	; GFX11-NEXT: ; %bb.1: ; %bb0			; GFX11-NEXT: ; %bb.1: ; %bb0
	; GFX11-NEXT: v_mov_b32_e32 v0, 0			; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: global_store_b32 v[0:1], v0, off dlc			; GFX11-NEXT: global_store_b32 v[0:1], v0, off dlc
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: .LBB1_2: ; %bb1			; GFX11-NEXT: .LBB1_2: ; %bb1
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	Show All 15 Lines

llvm/test/CodeGen/AMDGPU/addrspacecast-known-non-null.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -o - %s \| FileCheck %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -o - %s \| FileCheck %s
	; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -o - %s \| FileCheck %s			; RUN: llc -global-isel -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -o - %s \| FileCheck %s

	; Test that a null check is not emitted for lowered addrspacecast			; Test that a null check is not emitted for lowered addrspacecast


	define void @flat_user(i8* %ptr) {			define void @flat_user(i8* %ptr) {
	store i8 0, i8* %ptr			store i8 0, i8* %ptr
	ret void			ret void
	}			}

	; CHECK-LABEL: {{^}}cast_alloca:			; CHECK-LABEL: {{^}}cast_alloca:
	; CHECK: s_getreg_b32 [[GETREG:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; CHECK: s_mov_b64 s[{{[0-9]+}}:[[HIREG:[0-9]+]]], src_private_base
	; CHECK: s_lshl_b32 [[APERTURE:s[0-9]+]], [[GETREG]], 16			; CHECK: v_mov_b32_e32 v1, s[[HIREG]]
	; CHECK: v_lshrrev_b32_e64 v0, 6, s33
	; CHECK-NEXT: v_mov_b32_e32 v1, [[APERTURE]]
	; CHECK-NOT: v0			; CHECK-NOT: v0
	; CHECK-NOT: v1			; CHECK-NOT: v1
	define void @cast_alloca() {			define void @cast_alloca() {
	%alloca = alloca i8, addrspace(5)			%alloca = alloca i8, addrspace(5)
	%cast = addrspacecast i8 addrspace(5)* %alloca to i8*			%cast = addrspacecast i8 addrspace(5)* %alloca to i8*
	call void @flat_user(i8* %cast)			call void @flat_user(i8* %cast)
	ret void			ret void
	}			}

	@lds = internal unnamed_addr addrspace(3) global i8 undef, align 4			@lds = internal unnamed_addr addrspace(3) global i8 undef, align 4

	; CHECK-LABEL: {{^}}cast_lds_gv:			; CHECK-LABEL: {{^}}cast_lds_gv:
	; CHECK: s_getreg_b32 [[GETREG:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; CHECK: s_mov_b64 s[{{[0-9]+}}:[[HIREG:[0-9]+]]], src_shared_base
	; CHECK: s_lshl_b32 [[APERTURE:s[0-9]+]], [[GETREG]], 16
	; CHECK: v_mov_b32_e32 v0, 0			; CHECK: v_mov_b32_e32 v0, 0
	; CHECK: v_mov_b32_e32 v1, [[APERTURE]]			; CHECK: v_mov_b32_e32 v1, s[[HIREG]]
	; CHECK-NOT: v0			; CHECK-NOT: v0
	; CHECK-NOT: v1			; CHECK-NOT: v1
	define void @cast_lds_gv() {			define void @cast_lds_gv() {
	%cast = addrspacecast i8 addrspace(3)* @lds to i8*			%cast = addrspacecast i8 addrspace(3)* @lds to i8*
	call void @flat_user(i8* %cast)			call void @flat_user(i8* %cast)
	ret void			ret void
	}			}

	Show All 9 Lines
	; CHECK: v_mov_b32_e32 v0, 0			; CHECK: v_mov_b32_e32 v0, 0
	; CHECK: v_mov_b32_e32 v1, 0			; CHECK: v_mov_b32_e32 v1, 0
	define void @cast_constant_private_neg1_gv() {			define void @cast_constant_private_neg1_gv() {
	call void @flat_user(i8* addrspacecast (i8 addrspace(5)* inttoptr (i32 -1 to i8 addrspace(5)) to i8))			call void @flat_user(i8* addrspacecast (i8 addrspace(5)* inttoptr (i32 -1 to i8 addrspace(5)) to i8))
	ret void			ret void
	}			}

	; CHECK-LABEL: {{^}}cast_constant_lds_other_gv:			; CHECK-LABEL: {{^}}cast_constant_lds_other_gv:
	; CHECK: s_getreg_b32 [[GETREG:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; CHECK: s_mov_b64 s[{{[0-9]+}}:[[HIREG:[0-9]+]]], src_shared_base
	; CHECK: s_lshl_b32 [[APERTURE:s[0-9]+]], [[GETREG]], 16
	; CHECK: v_mov_b32_e32 v0, 0x7b			; CHECK: v_mov_b32_e32 v0, 0x7b
	; CHECK: v_mov_b32_e32 v1, [[APERTURE]]			; CHECK: v_mov_b32_e32 v1, s[[HIREG]]
	define void @cast_constant_lds_other_gv() {			define void @cast_constant_lds_other_gv() {
	call void @flat_user(i8* addrspacecast (i8 addrspace(3)* inttoptr (i32 123 to i8 addrspace(3)) to i8))			call void @flat_user(i8* addrspacecast (i8 addrspace(3)* inttoptr (i32 123 to i8 addrspace(3)) to i8))
	ret void			ret void
	}			}

	; CHECK-LABEL: {{^}}cast_constant_private_other_gv:			; CHECK-LABEL: {{^}}cast_constant_private_other_gv:
	; CHECK: s_getreg_b32 [[GETREG:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; CHECK: s_mov_b64 s[{{[0-9]+}}:[[HIREG:[0-9]+]]], src_private_base
	; CHECK: s_lshl_b32 [[APERTURE:s[0-9]+]], [[GETREG]], 16
	; CHECK: v_mov_b32_e32 v0, 0x7b			; CHECK: v_mov_b32_e32 v0, 0x7b
	; CHECK: v_mov_b32_e32 v1, [[APERTURE]]			; CHECK: v_mov_b32_e32 v1, s[[HIREG]]
	define void @cast_constant_private_other_gv() {			define void @cast_constant_private_other_gv() {
	call void @flat_user(i8* addrspacecast (i8 addrspace(5)* inttoptr (i32 123 to i8 addrspace(5)) to i8))			call void @flat_user(i8* addrspacecast (i8 addrspace(5)* inttoptr (i32 123 to i8 addrspace(5)) to i8))
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/addrspacecast.ll

; RUN: llc -march=amdgcn -mtriple=amdgcn-amd-amdhsa -mcpu=kaveri --amdhsa-code-object-version=2 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=HSA -check-prefix=CI %s		; RUN: llc -march=amdgcn -mtriple=amdgcn-amd-amdhsa -mcpu=kaveri --amdhsa-code-object-version=2 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=HSA -check-prefix=CI %s
; RUN: llc -march=amdgcn -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 --amdhsa-code-object-version=2 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=HSA -check-prefix=GFX9 %s		; RUN: llc -march=amdgcn -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 --amdhsa-code-object-version=2 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=HSA -check-prefix=GFX9 %s

; HSA-LABEL: {{^}}use_group_to_flat_addrspacecast:		; HSA-LABEL: {{^}}use_group_to_flat_addrspacecast:
; HSA: enable_sgpr_private_segment_buffer = 1		; HSA: enable_sgpr_private_segment_buffer = 1
; HSA: enable_sgpr_dispatch_ptr = 0		; HSA: enable_sgpr_dispatch_ptr = 0
; CI: enable_sgpr_queue_ptr = 1		; CI: enable_sgpr_queue_ptr = 1
; GFX9: enable_sgpr_queue_ptr = 0		; GFX9: enable_sgpr_queue_ptr = 0

; CI-DAG: s_load_dword [[PTR:s[0-9]+]], s[6:7], 0x0{{$}}		; CI-DAG: s_load_dword [[PTR:s[0-9]+]], s[6:7], 0x0{{$}}
; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x10{{$}}		; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x10{{$}}
; CI-DAG: s_cmp_lg_u32 [[PTR]], -1		; CI-DAG: s_cmp_lg_u32 [[PTR]], -1
; CI-DAG: s_cselect_b32 s[[HI:[0-9]+]], [[APERTURE]], 0		; CI-DAG: s_cselect_b32 s[[HI:[0-9]+]], [[APERTURE]], 0
; CI-DAG: s_cselect_b32 s[[LO:[0-9]+]], [[PTR]], 0		; CI-DAG: s_cselect_b32 s[[LO:[0-9]+]], [[PTR]], 0

		; GFX9-DAG: s_mov_b64 s[{{[0-9]+}}:[[HIBASE:[0-9]+]]], src_shared_base

; HSA-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7		; HSA-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7
; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}		; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}
; GFX9-DAG: s_getreg_b32 [[SSRC_SHARED:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 16, 16)
; GFX9-DAG: s_lshl_b32 [[SSRC_SHARED_BASE:s[0-9]+]], [[SSRC_SHARED]], 16

; GFX9-XXX: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], src_shared_base
; GFX9: s_cmp_lg_u32 [[PTR]], -1		; GFX9: s_cmp_lg_u32 [[PTR]], -1
; GFX9-DAG: s_cselect_b32 s[[HI:[0-9]+]], [[SSRC_SHARED_BASE]], 0		; GFX9-DAG: s_cselect_b32 s[[LO:[0-9]+]], s[[HIBASE]], 0
; GFX9-DAG: s_cselect_b32 s[[LO:[0-9]+]], [[PTR]], 0		; GFX9-DAG: s_cselect_b32 s[[HI:[0-9]+]], [[PTR]], 0

; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]		; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]

; At most 2 digits. Make sure src_shared_base is not counted as a high		; At most 2 digits. Make sure src_shared_base is not counted as a high
; number SGPR.		; number SGPR.

; HSA: NumSgprs: {{[0-9]+}}		; HSA: NumSgprs: {{[0-9]+}}
define amdgpu_kernel void @use_group_to_flat_addrspacecast(i32 addrspace(3)* %ptr) #0 {		define amdgpu_kernel void @use_group_to_flat_addrspacecast(i32 addrspace(3)* %ptr) #0 {
%stof = addrspacecast i32 addrspace(3)* %ptr to i32*		%stof = addrspacecast i32 addrspace(3)* %ptr to i32*
store volatile i32 7, i32* %stof		store volatile i32 7, i32* %stof
ret void		ret void
}		}

; Test handling inside a non-kernel		; Test handling inside a non-kernel
; HSA-LABEL: {{^}}use_group_to_flat_addrspacecast_func:		; HSA-LABEL: {{^}}use_group_to_flat_addrspacecast_func:
; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[6:7], 0x10{{$}}		; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[6:7], 0x10{{$}}
; CI-DAG: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], [[APERTURE]]		; CI-DAG: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], [[APERTURE]]
; CI-DAG: v_cmp_ne_u32_e32 vcc, -1, v0		; CI-DAG: v_cmp_ne_u32_e32 vcc, -1, v0
; CI-DAG: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc		; CI-DAG: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc
; CI-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, v0		; CI-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, v0

		; GFX9-DAG: s_mov_b64 s[{{[0-9]+}}:[[HIBASE:[0-9]+]]], src_shared_base

; HSA-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7		; HSA-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7
; GFX9-DAG: s_getreg_b32 [[SSRC_SHARED:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 16, 16)
; GFX9-DAG: s_lshl_b32 [[SSRC_SHARED_BASE:s[0-9]+]], [[SSRC_SHARED]], 16
; GFX9-DAG: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], [[SSRC_SHARED_BASE]]

; GFX9-XXX: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], src_shared_base		; GFX9-DAG: v_mov_b32_e32 v[[VREG_HIBASE:[0-9]+]], s[[HIBASE]]
; GFX9-DAG: v_cmp_ne_u32_e32 vcc, -1, v0		; GFX9-DAG: v_cmp_ne_u32_e32 vcc, -1, v0
; GFX9-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, v0, vcc		; GFX9-DAG: v_cndmask_b32_e32 v[[LO:[0-9]+]], 0, v0, vcc
; GFX9-DAG: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, [[VAPERTURE]], vcc		; GFX9-DAG: v_cndmask_b32_e32 v[[HI:[0-9]+]], 0, v[[VREG_HIBASE]], vcc

; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]		; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]
define void @use_group_to_flat_addrspacecast_func(i32 addrspace(3)* %ptr) #0 {		define void @use_group_to_flat_addrspacecast_func(i32 addrspace(3)* %ptr) #0 {
%stof = addrspacecast i32 addrspace(3)* %ptr to i32*		%stof = addrspacecast i32 addrspace(3)* %ptr to i32*
store volatile i32 7, i32* %stof		store volatile i32 7, i32* %stof
ret void		ret void
}		}

; HSA-LABEL: {{^}}use_private_to_flat_addrspacecast:		; HSA-LABEL: {{^}}use_private_to_flat_addrspacecast:
; HSA: enable_sgpr_private_segment_buffer = 1		; HSA: enable_sgpr_private_segment_buffer = 1
; HSA: enable_sgpr_dispatch_ptr = 0		; HSA: enable_sgpr_dispatch_ptr = 0
; CI: enable_sgpr_queue_ptr = 1		; CI: enable_sgpr_queue_ptr = 1
; GFX9: enable_sgpr_queue_ptr = 0		; GFX9: enable_sgpr_queue_ptr = 0

; CI-DAG: s_load_dword [[PTR:s[0-9]+]], s[6:7], 0x0{{$}}		; CI-DAG: s_load_dword [[PTR:s[0-9]+]], s[6:7], 0x0{{$}}
; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x11{{$}}		; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x11{{$}}

; CI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7		; CI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7
; CI-DAG: s_cmp_lg_u32 [[PTR]], -1		; CI-DAG: s_cmp_lg_u32 [[PTR]], -1
; CI-DAG: s_cselect_b32 s[[HI:[0-9]+]], [[APERTURE]], 0		; CI-DAG: s_cselect_b32 s[[HI:[0-9]+]], [[APERTURE]], 0
; CI-DAG: s_cselect_b32 s[[LO:[0-9]+]], [[PTR]], 0		; CI-DAG: s_cselect_b32 s[[LO:[0-9]+]], [[PTR]], 0

; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}		; GFX9-DAG: s_load_dword [[PTR:s[0-9]+]], s[4:5], 0x0{{$}}
; GFX9-DAG: s_getreg_b32 [[SSRC_PRIVATE:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 0, 16)		; GFX9-DAG: s_mov_b64 s[{{[0-9]+}}:[[HIBASE:[0-9]+]]], src_private_base
; GFX9-DAG: s_lshl_b32 [[SSRC_PRIVATE_BASE:s[0-9]+]], [[SSRC_PRIVATE]], 16

; GFX9-XXX: v_mov_b32_e32 [[VAPERTURE:v[0-9]+]], src_private_base

; GFX9-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7		; GFX9-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 7
; GFX9: s_cmp_lg_u32 [[PTR]], -1		; GFX9: s_cmp_lg_u32 [[PTR]], -1
; GFX9: s_cselect_b32 s[[HI:[0-9]+]], [[SSRC_PRIVATE_BASE]], 0		; GFX9: s_cselect_b32 s[[LO:[0-9]+]], s[[HIBASE]], 0
; GFX9: s_cselect_b32 s[[LO:[0-9]+]], [[PTR]], 0		; GFX9: s_cselect_b32 s[[HI:[0-9]+]], [[PTR]], 0

; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]		; HSA: flat_store_dword v[[[LO]]:[[HI]]], [[K]]

; HSA: NumSgprs: {{[0-9]+}}		; HSA: NumSgprs: {{[0-9]+}}
define amdgpu_kernel void @use_private_to_flat_addrspacecast(i32 addrspace(5)* %ptr) #0 {		define amdgpu_kernel void @use_private_to_flat_addrspacecast(i32 addrspace(5)* %ptr) #0 {
%stof = addrspacecast i32 addrspace(5)* %ptr to i32*		%stof = addrspacecast i32 addrspace(5)* %ptr to i32*
store volatile i32 7, i32* %stof		store volatile i32 7, i32* %stof
ret void		ret void
▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @use_flat_to_constant_addrspacecast(i32* %ptr) #0 {
%ftos = addrspacecast i32* %ptr to i32 addrspace(4)*		%ftos = addrspacecast i32* %ptr to i32 addrspace(4)*
load volatile i32, i32 addrspace(4)* %ftos		load volatile i32, i32 addrspace(4)* %ftos
ret void		ret void
}		}

; HSA-LABEL: {{^}}cast_0_group_to_flat_addrspacecast:		; HSA-LABEL: {{^}}cast_0_group_to_flat_addrspacecast:
; CI: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x10		; CI: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x10
; CI-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[APERTURE]]		; CI-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[APERTURE]]
; GFX9-DAG: s_getreg_b32 [[SSRC_SHARED:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 16, 16)
; GFX9-DAG: s_lshl_b32 [[SSRC_SHARED_BASE:s[0-9]+]], [[SSRC_SHARED]], 16
; GFX9-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[SSRC_SHARED_BASE]]

; GFX9-XXX: v_mov_b32_e32 v[[HI:[0-9]+]], src_shared_base		; GFX9-DAG: s_mov_b64 s[{{[0-9]+}}:[[HI:[0-9]+]]], src_shared_base

; HSA-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; HSA-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; HSA-DAG: v_mov_b32_e32 v[[K:[0-9]+]], 7{{$}}		; HSA-DAG: v_mov_b32_e32 v[[K:[0-9]+]], 7{{$}}
; HSA: {{flat\|global}}_store_dword v[[[LO]]:[[HI]]], v[[K]]		; HSA: {{flat\|global}}_store_dword v[[[LO]]:[[HI]]], v[[K]]
define amdgpu_kernel void @cast_0_group_to_flat_addrspacecast() #0 {		define amdgpu_kernel void @cast_0_group_to_flat_addrspacecast() #0 {
%cast = addrspacecast i32 addrspace(3)* null to i32*		%cast = addrspacecast i32 addrspace(3)* null to i32*
store volatile i32 7, i32* %cast		store volatile i32 7, i32* %cast
ret void		ret void
Show All 29 Lines	define amdgpu_kernel void @cast_neg1_flat_to_group_addrspacecast() #0 {
store volatile i32 7, i32 addrspace(3)* %cast		store volatile i32 7, i32 addrspace(3)* %cast
ret void		ret void
}		}

; FIXME: Shouldn't need to enable queue ptr		; FIXME: Shouldn't need to enable queue ptr
; HSA-LABEL: {{^}}cast_0_private_to_flat_addrspacecast:		; HSA-LABEL: {{^}}cast_0_private_to_flat_addrspacecast:
; CI: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x11		; CI: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x11
; CI-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[APERTURE]]		; CI-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[APERTURE]]
; GFX9-DAG: s_getreg_b32 [[SSRC_SHARED:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 0, 16)
; GFX9-DAG: s_lshl_b32 [[SSRC_SHARED_BASE:s[0-9]+]], [[SSRC_SHARED]], 16
; GFX9-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[SSRC_SHARED_BASE]]

; GFX9-XXX: v_mov_b32_e32 v[[HI:[0-9]+]], src_shared_base		; GFX9-DAG: s_mov_b64 s[{{[0-9]+}}:[[HI:[0-9]+]]], src_private_base

; HSA-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; HSA-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; HSA-DAG: v_mov_b32_e32 v[[K:[0-9]+]], 7{{$}}		; HSA-DAG: v_mov_b32_e32 v[[K:[0-9]+]], 7{{$}}
; HSA: {{flat\|global}}_store_dword v[[[LO]]:[[HI]]], v[[K]]		; HSA: {{flat\|global}}_store_dword v[[[LO]]:[[HI]]], v[[K]]
define amdgpu_kernel void @cast_0_private_to_flat_addrspacecast() #0 {		define amdgpu_kernel void @cast_0_private_to_flat_addrspacecast() #0 {
%cast = addrspacecast i32 addrspace(5)* null to i32*		%cast = addrspacecast i32 addrspace(5)* null to i32*
store volatile i32 7, i32* %cast		store volatile i32 7, i32* %cast
ret void		ret void
▲ Show 20 Lines • Show All 151 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/atomicrmw-expand.ll

Show First 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
; GFX908-NEXT: ; %bb.2: ; %atomicrmw.end		; GFX908-NEXT: ; %bb.2: ; %atomicrmw.end
; GFX908-NEXT: s_or_b64 exec, exec, s[4:5]		; GFX908-NEXT: s_or_b64 exec, exec, s[4:5]
; GFX908-NEXT: v_mov_b32_e32 v0, v3		; GFX908-NEXT: v_mov_b32_e32 v0, v3
; GFX908-NEXT: s_setpc_b64 s[30:31]		; GFX908-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX90A-LABEL: syncscope_workgroup_rtn:		; GFX90A-LABEL: syncscope_workgroup_rtn:
; GFX90A: ; %bb.0: ; %atomicrmw.check.shared		; GFX90A: ; %bb.0: ; %atomicrmw.check.shared
; GFX90A-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX90A-NEXT: s_getreg_b32 s4, hwreg(HW_REG_SH_MEM_BASES, 16, 16)		; GFX90A-NEXT: s_mov_b64 s[4:5], src_shared_base
; GFX90A-NEXT: s_lshl_b32 s4, s4, 16		; GFX90A-NEXT: v_cmp_ne_u32_e32 vcc, s5, v1
; GFX90A-NEXT: v_cmp_ne_u32_e32 vcc, s4, v1
; GFX90A-NEXT: ; implicit-def: $vgpr3		; GFX90A-NEXT: ; implicit-def: $vgpr3
; GFX90A-NEXT: s_and_saveexec_b64 s[4:5], vcc		; GFX90A-NEXT: s_and_saveexec_b64 s[4:5], vcc
; GFX90A-NEXT: s_xor_b64 s[4:5], exec, s[4:5]		; GFX90A-NEXT: s_xor_b64 s[4:5], exec, s[4:5]
; GFX90A-NEXT: s_cbranch_execz .LBB1_6		; GFX90A-NEXT: s_cbranch_execz .LBB1_6
; GFX90A-NEXT: ; %bb.1: ; %atomicrmw.check.private		; GFX90A-NEXT: ; %bb.1: ; %atomicrmw.check.private
; GFX90A-NEXT: s_getreg_b32 s6, hwreg(HW_REG_SH_MEM_BASES, 0, 16)		; GFX90A-NEXT: s_mov_b64 s[6:7], src_private_base
; GFX90A-NEXT: s_lshl_b32 s6, s6, 16		; GFX90A-NEXT: v_cmp_ne_u32_e32 vcc, s7, v1
; GFX90A-NEXT: v_cmp_ne_u32_e32 vcc, s6, v1
; GFX90A-NEXT: ; implicit-def: $vgpr3		; GFX90A-NEXT: ; implicit-def: $vgpr3
; GFX90A-NEXT: s_and_saveexec_b64 s[6:7], vcc		; GFX90A-NEXT: s_and_saveexec_b64 s[6:7], vcc
; GFX90A-NEXT: s_xor_b64 s[6:7], exec, s[6:7]		; GFX90A-NEXT: s_xor_b64 s[6:7], exec, s[6:7]
; GFX90A-NEXT: s_cbranch_execz .LBB1_3		; GFX90A-NEXT: s_cbranch_execz .LBB1_3
; GFX90A-NEXT: ; %bb.2: ; %atomicrmw.global		; GFX90A-NEXT: ; %bb.2: ; %atomicrmw.global
; GFX90A-NEXT: s_waitcnt lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt lgkmcnt(0)
; GFX90A-NEXT: global_atomic_add_f32 v3, v[0:1], v2, off glc		; GFX90A-NEXT: global_atomic_add_f32 v3, v[0:1], v2, off glc
; GFX90A-NEXT: ; implicit-def: $vgpr0_vgpr1		; GFX90A-NEXT: ; implicit-def: $vgpr0_vgpr1
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	; GFX1100-NEXT: s_setpc_b64 s[30:31]
%res = atomicrmw fadd float* %addr, float %val syncscope("workgroup") seq_cst		%res = atomicrmw fadd float* %addr, float %val syncscope("workgroup") seq_cst
ret float %res		ret float %res
}		}

define void @syncscope_workgroup_nortn(float* %addr, float %val) #0 {		define void @syncscope_workgroup_nortn(float* %addr, float %val) #0 {
; GFX908-LABEL: syncscope_workgroup_nortn:		; GFX908-LABEL: syncscope_workgroup_nortn:
; GFX908: ; %bb.0: ; %atomicrmw.check.shared		; GFX908: ; %bb.0: ; %atomicrmw.check.shared
; GFX908-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX908-NEXT: s_getreg_b32 s4, hwreg(HW_REG_SH_MEM_BASES, 16, 16)		; GFX908-NEXT: s_mov_b64 s[4:5], src_shared_base
; GFX908-NEXT: s_lshl_b32 s4, s4, 16		; GFX908-NEXT: v_cmp_ne_u32_e32 vcc, s5, v1
; GFX908-NEXT: v_cmp_ne_u32_e32 vcc, s4, v1
; GFX908-NEXT: s_and_saveexec_b64 s[4:5], vcc		; GFX908-NEXT: s_and_saveexec_b64 s[4:5], vcc
; GFX908-NEXT: s_xor_b64 s[4:5], exec, s[4:5]		; GFX908-NEXT: s_xor_b64 s[4:5], exec, s[4:5]
; GFX908-NEXT: s_cbranch_execnz .LBB2_3		; GFX908-NEXT: s_cbranch_execnz .LBB2_3
; GFX908-NEXT: ; %bb.1: ; %Flow2		; GFX908-NEXT: ; %bb.1: ; %Flow2
; GFX908-NEXT: s_andn2_saveexec_b64 s[4:5], s[4:5]		; GFX908-NEXT: s_andn2_saveexec_b64 s[4:5], s[4:5]
; GFX908-NEXT: s_cbranch_execnz .LBB2_8		; GFX908-NEXT: s_cbranch_execnz .LBB2_8
; GFX908-NEXT: .LBB2_2: ; %atomicrmw.phi		; GFX908-NEXT: .LBB2_2: ; %atomicrmw.phi
; GFX908-NEXT: s_or_b64 exec, exec, s[4:5]		; GFX908-NEXT: s_or_b64 exec, exec, s[4:5]
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: s_setpc_b64 s[30:31]		; GFX908-NEXT: s_setpc_b64 s[30:31]
; GFX908-NEXT: .LBB2_3: ; %atomicrmw.check.private		; GFX908-NEXT: .LBB2_3: ; %atomicrmw.check.private
; GFX908-NEXT: s_getreg_b32 s6, hwreg(HW_REG_SH_MEM_BASES, 0, 16)		; GFX908-NEXT: s_mov_b64 s[6:7], src_private_base
; GFX908-NEXT: s_lshl_b32 s6, s6, 16		; GFX908-NEXT: v_cmp_ne_u32_e32 vcc, s7, v1
; GFX908-NEXT: v_cmp_ne_u32_e32 vcc, s6, v1
; GFX908-NEXT: s_and_saveexec_b64 s[6:7], vcc		; GFX908-NEXT: s_and_saveexec_b64 s[6:7], vcc
; GFX908-NEXT: s_xor_b64 s[6:7], exec, s[6:7]		; GFX908-NEXT: s_xor_b64 s[6:7], exec, s[6:7]
; GFX908-NEXT: s_cbranch_execz .LBB2_5		; GFX908-NEXT: s_cbranch_execz .LBB2_5
; GFX908-NEXT: ; %bb.4: ; %atomicrmw.global		; GFX908-NEXT: ; %bb.4: ; %atomicrmw.global
; GFX908-NEXT: s_waitcnt lgkmcnt(0)		; GFX908-NEXT: s_waitcnt lgkmcnt(0)
; GFX908-NEXT: global_atomic_add_f32 v[0:1], v2, off		; GFX908-NEXT: global_atomic_add_f32 v[0:1], v2, off
; GFX908-NEXT: ; implicit-def: $vgpr0_vgpr1		; GFX908-NEXT: ; implicit-def: $vgpr0_vgpr1
; GFX908-NEXT: ; implicit-def: $vgpr2		; GFX908-NEXT: ; implicit-def: $vgpr2
Show All 21 Lines
; GFX908-NEXT: s_waitcnt lgkmcnt(0)		; GFX908-NEXT: s_waitcnt lgkmcnt(0)
; GFX908-NEXT: s_or_b64 exec, exec, s[4:5]		; GFX908-NEXT: s_or_b64 exec, exec, s[4:5]
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: s_setpc_b64 s[30:31]		; GFX908-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX90A-LABEL: syncscope_workgroup_nortn:		; GFX90A-LABEL: syncscope_workgroup_nortn:
; GFX90A: ; %bb.0: ; %atomicrmw.check.shared		; GFX90A: ; %bb.0: ; %atomicrmw.check.shared
; GFX90A-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX90A-NEXT: s_getreg_b32 s4, hwreg(HW_REG_SH_MEM_BASES, 16, 16)		; GFX90A-NEXT: s_mov_b64 s[4:5], src_shared_base
; GFX90A-NEXT: s_lshl_b32 s4, s4, 16		; GFX90A-NEXT: v_cmp_ne_u32_e32 vcc, s5, v1
; GFX90A-NEXT: v_cmp_ne_u32_e32 vcc, s4, v1
; GFX90A-NEXT: s_and_saveexec_b64 s[4:5], vcc		; GFX90A-NEXT: s_and_saveexec_b64 s[4:5], vcc
; GFX90A-NEXT: s_xor_b64 s[4:5], exec, s[4:5]		; GFX90A-NEXT: s_xor_b64 s[4:5], exec, s[4:5]
; GFX90A-NEXT: s_cbranch_execnz .LBB2_3		; GFX90A-NEXT: s_cbranch_execnz .LBB2_3
; GFX90A-NEXT: ; %bb.1: ; %Flow2		; GFX90A-NEXT: ; %bb.1: ; %Flow2
; GFX90A-NEXT: s_andn2_saveexec_b64 s[4:5], s[4:5]		; GFX90A-NEXT: s_andn2_saveexec_b64 s[4:5], s[4:5]
; GFX90A-NEXT: s_cbranch_execnz .LBB2_8		; GFX90A-NEXT: s_cbranch_execnz .LBB2_8
; GFX90A-NEXT: .LBB2_2: ; %atomicrmw.phi		; GFX90A-NEXT: .LBB2_2: ; %atomicrmw.phi
; GFX90A-NEXT: s_or_b64 exec, exec, s[4:5]		; GFX90A-NEXT: s_or_b64 exec, exec, s[4:5]
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: s_setpc_b64 s[30:31]		; GFX90A-NEXT: s_setpc_b64 s[30:31]
; GFX90A-NEXT: .LBB2_3: ; %atomicrmw.check.private		; GFX90A-NEXT: .LBB2_3: ; %atomicrmw.check.private
; GFX90A-NEXT: s_getreg_b32 s6, hwreg(HW_REG_SH_MEM_BASES, 0, 16)		; GFX90A-NEXT: s_mov_b64 s[6:7], src_private_base
; GFX90A-NEXT: s_lshl_b32 s6, s6, 16		; GFX90A-NEXT: v_cmp_ne_u32_e32 vcc, s7, v1
; GFX90A-NEXT: v_cmp_ne_u32_e32 vcc, s6, v1
; GFX90A-NEXT: s_and_saveexec_b64 s[6:7], vcc		; GFX90A-NEXT: s_and_saveexec_b64 s[6:7], vcc
; GFX90A-NEXT: s_xor_b64 s[6:7], exec, s[6:7]		; GFX90A-NEXT: s_xor_b64 s[6:7], exec, s[6:7]
; GFX90A-NEXT: s_cbranch_execz .LBB2_5		; GFX90A-NEXT: s_cbranch_execz .LBB2_5
; GFX90A-NEXT: ; %bb.4: ; %atomicrmw.global		; GFX90A-NEXT: ; %bb.4: ; %atomicrmw.global
; GFX90A-NEXT: s_waitcnt lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt lgkmcnt(0)
; GFX90A-NEXT: global_atomic_add_f32 v[0:1], v2, off		; GFX90A-NEXT: global_atomic_add_f32 v[0:1], v2, off
; GFX90A-NEXT: ; implicit-def: $vgpr0_vgpr1		; GFX90A-NEXT: ; implicit-def: $vgpr0_vgpr1
; GFX90A-NEXT: ; implicit-def: $vgpr2		; GFX90A-NEXT: ; implicit-def: $vgpr2
▲ Show 20 Lines • Show All 144 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/callee-special-input-sgprs-fixed-abi.ll

	Show All 33 Lines
	; GCN: .amdhsa_user_sgpr_queue_ptr 1			; GCN: .amdhsa_user_sgpr_queue_ptr 1
	define amdgpu_kernel void @kern_indirect_use_queue_ptr(i32) #1 {			define amdgpu_kernel void @kern_indirect_use_queue_ptr(i32) #1 {
	call void @use_queue_ptr()			call void @use_queue_ptr()
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}use_queue_ptr_addrspacecast:			; GCN-LABEL: {{^}}use_queue_ptr_addrspacecast:
	; CIVI: s_load_dword [[APERTURE_LOAD:s[0-9]+]], s[6:7], 0x10			; CIVI: s_load_dword [[APERTURE_LOAD:s[0-9]+]], s[6:7], 0x10
	; GFX9: s_getreg_b32 [[APERTURE_LOAD:s[0-9]+]]
	; CIVI: v_mov_b32_e32 v[[LO:[0-9]+]], 16			; CIVI: v_mov_b32_e32 v[[LO:[0-9]+]], 16
	; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[APERTURE_LOAD]]			; CIVI-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[APERTURE_LOAD]]
	; GFX9: {{flat\|global}}_store_dword v{{\[[0-9]+}}:[[HI]]]
				; GFX9: s_mov_b64 s[{{[0-9]+}}:[[HI:[0-9]+]]], src_shared_base
				; GFX9-DAG: v_mov_b32_e32 v[[VGPR_HI:[0-9]+]], s[[HI]]
				; GFX9: {{flat\|global}}_store_dword v{{\[[0-9]+}}:[[VGPR_HI]]]

	; CIVI: {{flat\|global}}_store_dword v[[[LO]]:[[HI]]]			; CIVI: {{flat\|global}}_store_dword v[[[LO]]:[[HI]]]
	define hidden void @use_queue_ptr_addrspacecast() #1 {			define hidden void @use_queue_ptr_addrspacecast() #1 {
	%asc = addrspacecast i32 addrspace(3)* inttoptr (i32 16 to i32 addrspace(3)) to i32			%asc = addrspacecast i32 addrspace(3)* inttoptr (i32 16 to i32 addrspace(3)) to i32
	store volatile i32 0, i32* %asc			store volatile i32 0, i32* %asc
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}kern_indirect_use_queue_ptr_addrspacecast:			; GCN-LABEL: {{^}}kern_indirect_use_queue_ptr_addrspacecast:
	▲ Show 20 Lines • Show All 540 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/flat-scratch-init.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 --mattr=+enable-flat-scratch < %s \| FileCheck -check-prefixes=GCN,FLAT_SCR_OPT %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 --mattr=+enable-flat-scratch < %s \| FileCheck -check-prefixes=GCN,FLAT_SCR_OPT %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 --mattr=+architected-flat-scratch < %s \| FileCheck -check-prefixes=GCN,FLAT_SCR_ARCH %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1010 --mattr=+architected-flat-scratch < %s \| FileCheck -check-prefixes=GCN,FLAT_SCR_ARCH %s

	declare void @extern_func() #0			declare void @extern_func() #0

	define amdgpu_kernel void @stack_object_addrspacecast_in_kernel_no_calls() {			define amdgpu_kernel void @stack_object_addrspacecast_in_kernel_no_calls() {
	; FLAT_SCR_OPT-LABEL: stack_object_addrspacecast_in_kernel_no_calls:			; FLAT_SCR_OPT-LABEL: stack_object_addrspacecast_in_kernel_no_calls:
	; FLAT_SCR_OPT: ; %bb.0:			; FLAT_SCR_OPT: ; %bb.0:
	; FLAT_SCR_OPT-NEXT: s_add_u32 s0, s0, s3			; FLAT_SCR_OPT-NEXT: s_add_u32 s0, s0, s3
	; FLAT_SCR_OPT-NEXT: s_addc_u32 s1, s1, 0			; FLAT_SCR_OPT-NEXT: s_addc_u32 s1, s1, 0
	; FLAT_SCR_OPT-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s0			; FLAT_SCR_OPT-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_LO), s0
	; FLAT_SCR_OPT-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s1			; FLAT_SCR_OPT-NEXT: s_setreg_b32 hwreg(HW_REG_FLAT_SCR_HI), s1
	; FLAT_SCR_OPT-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; FLAT_SCR_OPT-NEXT: s_mov_b64 s[0:1], src_private_base
	; FLAT_SCR_OPT-NEXT: v_mov_b32_e32 v0, 4			; FLAT_SCR_OPT-NEXT: v_mov_b32_e32 v0, 4
	; FLAT_SCR_OPT-NEXT: s_lshl_b32 s0, s0, 16			; FLAT_SCR_OPT-NEXT: v_mov_b32_e32 v1, s1
	; FLAT_SCR_OPT-NEXT: v_mov_b32_e32 v2, 0			; FLAT_SCR_OPT-NEXT: v_mov_b32_e32 v2, 0
	; FLAT_SCR_OPT-NEXT: v_mov_b32_e32 v1, s0
	; FLAT_SCR_OPT-NEXT: flat_store_dword v[0:1], v2			; FLAT_SCR_OPT-NEXT: flat_store_dword v[0:1], v2
	; FLAT_SCR_OPT-NEXT: s_waitcnt_vscnt null, 0x0			; FLAT_SCR_OPT-NEXT: s_waitcnt_vscnt null, 0x0
	; FLAT_SCR_OPT-NEXT: s_endpgm			; FLAT_SCR_OPT-NEXT: s_endpgm
	;			;
	; FLAT_SCR_ARCH-LABEL: stack_object_addrspacecast_in_kernel_no_calls:			; FLAT_SCR_ARCH-LABEL: stack_object_addrspacecast_in_kernel_no_calls:
	; FLAT_SCR_ARCH: ; %bb.0:			; FLAT_SCR_ARCH: ; %bb.0:
	; FLAT_SCR_ARCH-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; FLAT_SCR_ARCH-NEXT: s_mov_b64 s[0:1], src_private_base
	; FLAT_SCR_ARCH-NEXT: v_mov_b32_e32 v0, 4			; FLAT_SCR_ARCH-NEXT: v_mov_b32_e32 v0, 4
	; FLAT_SCR_ARCH-NEXT: s_lshl_b32 s0, s0, 16			; FLAT_SCR_ARCH-NEXT: v_mov_b32_e32 v1, s1
	; FLAT_SCR_ARCH-NEXT: v_mov_b32_e32 v2, 0			; FLAT_SCR_ARCH-NEXT: v_mov_b32_e32 v2, 0
	; FLAT_SCR_ARCH-NEXT: v_mov_b32_e32 v1, s0
	; FLAT_SCR_ARCH-NEXT: flat_store_dword v[0:1], v2			; FLAT_SCR_ARCH-NEXT: flat_store_dword v[0:1], v2
	; FLAT_SCR_ARCH-NEXT: s_waitcnt_vscnt null, 0x0			; FLAT_SCR_ARCH-NEXT: s_waitcnt_vscnt null, 0x0
	; FLAT_SCR_ARCH-NEXT: s_endpgm			; FLAT_SCR_ARCH-NEXT: s_endpgm
	%alloca = alloca i32, addrspace(5)			%alloca = alloca i32, addrspace(5)
	%cast = addrspacecast i32 addrspace(5)* %alloca to i32*			%cast = addrspacecast i32 addrspace(5)* %alloca to i32*
	store volatile i32 0, i32* %cast			store volatile i32 0, i32* %cast
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 407 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/implicit-kernarg-backend-usage.ll

	Show First 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; GFX8V5-NEXT: v_mov_b32_e32 v0, 2			; GFX8V5-NEXT: v_mov_b32_e32 v0, 2
	; GFX8V5-NEXT: flat_store_dword v[2:3], v0			; GFX8V5-NEXT: flat_store_dword v[2:3], v0
	; GFX8V5-NEXT: s_waitcnt vmcnt(0)			; GFX8V5-NEXT: s_waitcnt vmcnt(0)
	; GFX8V5-NEXT: s_endpgm			; GFX8V5-NEXT: s_endpgm
	;			;
	; GFX9V3-LABEL: addrspacecast:			; GFX9V3-LABEL: addrspacecast:
	; GFX9V3: ; %bb.0:			; GFX9V3: ; %bb.0:
	; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V3-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V3-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V3-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX9V3-NEXT: s_lshl_b32 s2, s2, 16			; GFX9V3-NEXT: s_mov_b64 s[4:5], src_shared_base
	; GFX9V3-NEXT: v_mov_b32_e32 v4, 1			; GFX9V3-NEXT: v_mov_b32_e32 v4, 1
	; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V3-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V3-NEXT: s_cmp_lg_u32 s0, -1
				; GFX9V3-NEXT: s_cselect_b32 s2, s3, 0
	; GFX9V3-NEXT: s_cselect_b32 s0, s0, 0			; GFX9V3-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V3-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V3-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
	; GFX9V3-NEXT: s_cselect_b32 s2, s2, 0
	; GFX9V3-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V3-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V3-NEXT: s_cmp_lg_u32 s1, -1
				; GFX9V3-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V3-NEXT: v_mov_b32_e32 v1, s2			; GFX9V3-NEXT: v_mov_b32_e32 v1, s2
	; GFX9V3-NEXT: s_cselect_b32 s0, s0, 0			; GFX9V3-NEXT: s_cselect_b32 s0, s5, 0
	; GFX9V3-NEXT: s_cselect_b32 s1, s1, 0			; GFX9V3-NEXT: s_cselect_b32 s1, s1, 0
	; GFX9V3-NEXT: v_mov_b32_e32 v2, s1			; GFX9V3-NEXT: v_mov_b32_e32 v2, s1
	; GFX9V3-NEXT: v_mov_b32_e32 v3, s0			; GFX9V3-NEXT: v_mov_b32_e32 v3, s0
	; GFX9V3-NEXT: flat_store_dword v[0:1], v4			; GFX9V3-NEXT: flat_store_dword v[0:1], v4
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: v_mov_b32_e32 v0, 2			; GFX9V3-NEXT: v_mov_b32_e32 v0, 2
	; GFX9V3-NEXT: flat_store_dword v[2:3], v0			; GFX9V3-NEXT: flat_store_dword v[2:3], v0
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: s_endpgm			; GFX9V3-NEXT: s_endpgm
	;			;
	; GFX9V4-LABEL: addrspacecast:			; GFX9V4-LABEL: addrspacecast:
	; GFX9V4: ; %bb.0:			; GFX9V4: ; %bb.0:
	; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V4-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V4-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V4-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX9V4-NEXT: s_lshl_b32 s2, s2, 16			; GFX9V4-NEXT: s_mov_b64 s[4:5], src_shared_base
	; GFX9V4-NEXT: v_mov_b32_e32 v4, 1			; GFX9V4-NEXT: v_mov_b32_e32 v4, 1
	; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V4-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V4-NEXT: s_cmp_lg_u32 s0, -1
				; GFX9V4-NEXT: s_cselect_b32 s2, s3, 0
	; GFX9V4-NEXT: s_cselect_b32 s0, s0, 0			; GFX9V4-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V4-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V4-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
	; GFX9V4-NEXT: s_cselect_b32 s2, s2, 0
	; GFX9V4-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V4-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V4-NEXT: s_cmp_lg_u32 s1, -1
				; GFX9V4-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V4-NEXT: v_mov_b32_e32 v1, s2			; GFX9V4-NEXT: v_mov_b32_e32 v1, s2
	; GFX9V4-NEXT: s_cselect_b32 s0, s0, 0			; GFX9V4-NEXT: s_cselect_b32 s0, s5, 0
	; GFX9V4-NEXT: s_cselect_b32 s1, s1, 0			; GFX9V4-NEXT: s_cselect_b32 s1, s1, 0
	; GFX9V4-NEXT: v_mov_b32_e32 v2, s1			; GFX9V4-NEXT: v_mov_b32_e32 v2, s1
	; GFX9V4-NEXT: v_mov_b32_e32 v3, s0			; GFX9V4-NEXT: v_mov_b32_e32 v3, s0
	; GFX9V4-NEXT: flat_store_dword v[0:1], v4			; GFX9V4-NEXT: flat_store_dword v[0:1], v4
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: v_mov_b32_e32 v0, 2			; GFX9V4-NEXT: v_mov_b32_e32 v0, 2
	; GFX9V4-NEXT: flat_store_dword v[2:3], v0			; GFX9V4-NEXT: flat_store_dword v[2:3], v0
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: s_endpgm			; GFX9V4-NEXT: s_endpgm
	;			;
	; GFX9V5-LABEL: addrspacecast:			; GFX9V5-LABEL: addrspacecast:
	; GFX9V5: ; %bb.0:			; GFX9V5: ; %bb.0:
	; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX9V5-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX9V5-NEXT: s_getreg_b32 s2, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V5-NEXT: s_mov_b64 s[2:3], src_private_base
	; GFX9V5-NEXT: s_lshl_b32 s2, s2, 16			; GFX9V5-NEXT: s_mov_b64 s[4:5], src_shared_base
	; GFX9V5-NEXT: v_mov_b32_e32 v4, 1			; GFX9V5-NEXT: v_mov_b32_e32 v4, 1
	; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V5-NEXT: s_cmp_lg_u32 s0, -1			; GFX9V5-NEXT: s_cmp_lg_u32 s0, -1
				; GFX9V5-NEXT: s_cselect_b32 s2, s3, 0
	; GFX9V5-NEXT: s_cselect_b32 s0, s0, 0			; GFX9V5-NEXT: s_cselect_b32 s0, s0, 0
	; GFX9V5-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V5-NEXT: s_getreg_b32 s0, hwreg(HW_REG_SH_MEM_BASES, 16, 16)
	; GFX9V5-NEXT: s_cselect_b32 s2, s2, 0
	; GFX9V5-NEXT: s_lshl_b32 s0, s0, 16
	; GFX9V5-NEXT: s_cmp_lg_u32 s1, -1			; GFX9V5-NEXT: s_cmp_lg_u32 s1, -1
				; GFX9V5-NEXT: v_mov_b32_e32 v0, s0
	; GFX9V5-NEXT: v_mov_b32_e32 v1, s2			; GFX9V5-NEXT: v_mov_b32_e32 v1, s2
	; GFX9V5-NEXT: s_cselect_b32 s0, s0, 0			; GFX9V5-NEXT: s_cselect_b32 s0, s5, 0
	; GFX9V5-NEXT: s_cselect_b32 s1, s1, 0			; GFX9V5-NEXT: s_cselect_b32 s1, s1, 0
	; GFX9V5-NEXT: v_mov_b32_e32 v2, s1			; GFX9V5-NEXT: v_mov_b32_e32 v2, s1
	; GFX9V5-NEXT: v_mov_b32_e32 v3, s0			; GFX9V5-NEXT: v_mov_b32_e32 v3, s0
	; GFX9V5-NEXT: flat_store_dword v[0:1], v4			; GFX9V5-NEXT: flat_store_dword v[0:1], v4
	; GFX9V5-NEXT: s_waitcnt vmcnt(0)			; GFX9V5-NEXT: s_waitcnt vmcnt(0)
	; GFX9V5-NEXT: v_mov_b32_e32 v0, 2			; GFX9V5-NEXT: v_mov_b32_e32 v0, 2
	; GFX9V5-NEXT: flat_store_dword v[2:3], v0			; GFX9V5-NEXT: flat_store_dword v[2:3], v0
	; GFX9V5-NEXT: s_waitcnt vmcnt(0)			; GFX9V5-NEXT: s_waitcnt vmcnt(0)
	Show All 39 Lines
	; GFX8V5-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX8V5-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX8V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; GFX8V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; GFX8V5-NEXT: flat_store_dword v[0:1], v0			; GFX8V5-NEXT: flat_store_dword v[0:1], v0
	; GFX8V5-NEXT: s_waitcnt vmcnt(0)			; GFX8V5-NEXT: s_waitcnt vmcnt(0)
	; GFX8V5-NEXT: s_endpgm			; GFX8V5-NEXT: s_endpgm
	;			;
	; GFX9V3-LABEL: llvm_amdgcn_is_shared:			; GFX9V3-LABEL: llvm_amdgcn_is_shared:
	; GFX9V3: ; %bb.0:			; GFX9V3: ; %bb.0:
	; GFX9V3-NEXT: s_load_dword s0, s[4:5], 0x4			; GFX9V3-NEXT: s_load_dword s2, s[4:5], 0x4
	; GFX9V3-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V3-NEXT: s_mov_b64 s[0:1], src_shared_base
	; GFX9V3-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V3-NEXT: s_cmp_eq_u32 s0, s1			; GFX9V3-NEXT: s_cmp_eq_u32 s2, s1
	; GFX9V3-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9V3-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9V3-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; GFX9V3-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; GFX9V3-NEXT: global_store_dword v[0:1], v0, off			; GFX9V3-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: s_endpgm			; GFX9V3-NEXT: s_endpgm
	;			;
	; GFX9V4-LABEL: llvm_amdgcn_is_shared:			; GFX9V4-LABEL: llvm_amdgcn_is_shared:
	; GFX9V4: ; %bb.0:			; GFX9V4: ; %bb.0:
	; GFX9V4-NEXT: s_load_dword s0, s[4:5], 0x4			; GFX9V4-NEXT: s_load_dword s2, s[4:5], 0x4
	; GFX9V4-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V4-NEXT: s_mov_b64 s[0:1], src_shared_base
	; GFX9V4-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V4-NEXT: s_cmp_eq_u32 s0, s1			; GFX9V4-NEXT: s_cmp_eq_u32 s2, s1
	; GFX9V4-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9V4-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9V4-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; GFX9V4-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; GFX9V4-NEXT: global_store_dword v[0:1], v0, off			; GFX9V4-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: s_endpgm			; GFX9V4-NEXT: s_endpgm
	;			;
	; GFX9V5-LABEL: llvm_amdgcn_is_shared:			; GFX9V5-LABEL: llvm_amdgcn_is_shared:
	; GFX9V5: ; %bb.0:			; GFX9V5: ; %bb.0:
	; GFX9V5-NEXT: s_load_dword s0, s[4:5], 0x4			; GFX9V5-NEXT: s_load_dword s2, s[4:5], 0x4
	; GFX9V5-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 16, 16)			; GFX9V5-NEXT: s_mov_b64 s[0:1], src_shared_base
	; GFX9V5-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V5-NEXT: s_cmp_eq_u32 s0, s1			; GFX9V5-NEXT: s_cmp_eq_u32 s2, s1
	; GFX9V5-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9V5-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; GFX9V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; GFX9V5-NEXT: global_store_dword v[0:1], v0, off			; GFX9V5-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V5-NEXT: s_waitcnt vmcnt(0)			; GFX9V5-NEXT: s_waitcnt vmcnt(0)
	; GFX9V5-NEXT: s_endpgm			; GFX9V5-NEXT: s_endpgm
	%is.shared = call i1 @llvm.amdgcn.is.shared(i8* %ptr)			%is.shared = call i1 @llvm.amdgcn.is.shared(i8* %ptr)
	%zext = zext i1 %is.shared to i32			%zext = zext i1 %is.shared to i32
	store volatile i32 %zext, i32 addrspace(1)* undef			store volatile i32 %zext, i32 addrspace(1)* undef
	Show All 34 Lines
	; GFX8V5-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX8V5-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX8V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; GFX8V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; GFX8V5-NEXT: flat_store_dword v[0:1], v0			; GFX8V5-NEXT: flat_store_dword v[0:1], v0
	; GFX8V5-NEXT: s_waitcnt vmcnt(0)			; GFX8V5-NEXT: s_waitcnt vmcnt(0)
	; GFX8V5-NEXT: s_endpgm			; GFX8V5-NEXT: s_endpgm
	;			;
	; GFX9V3-LABEL: llvm_amdgcn_is_private:			; GFX9V3-LABEL: llvm_amdgcn_is_private:
	; GFX9V3: ; %bb.0:			; GFX9V3: ; %bb.0:
	; GFX9V3-NEXT: s_load_dword s0, s[4:5], 0x4			; GFX9V3-NEXT: s_load_dword s2, s[4:5], 0x4
	; GFX9V3-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V3-NEXT: s_mov_b64 s[0:1], src_private_base
	; GFX9V3-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V3-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V3-NEXT: s_cmp_eq_u32 s0, s1			; GFX9V3-NEXT: s_cmp_eq_u32 s2, s1
	; GFX9V3-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9V3-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9V3-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; GFX9V3-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; GFX9V3-NEXT: global_store_dword v[0:1], v0, off			; GFX9V3-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V3-NEXT: s_waitcnt vmcnt(0)			; GFX9V3-NEXT: s_waitcnt vmcnt(0)
	; GFX9V3-NEXT: s_endpgm			; GFX9V3-NEXT: s_endpgm
	;			;
	; GFX9V4-LABEL: llvm_amdgcn_is_private:			; GFX9V4-LABEL: llvm_amdgcn_is_private:
	; GFX9V4: ; %bb.0:			; GFX9V4: ; %bb.0:
	; GFX9V4-NEXT: s_load_dword s0, s[4:5], 0x4			; GFX9V4-NEXT: s_load_dword s2, s[4:5], 0x4
	; GFX9V4-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V4-NEXT: s_mov_b64 s[0:1], src_private_base
	; GFX9V4-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V4-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V4-NEXT: s_cmp_eq_u32 s0, s1			; GFX9V4-NEXT: s_cmp_eq_u32 s2, s1
	; GFX9V4-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9V4-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9V4-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; GFX9V4-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; GFX9V4-NEXT: global_store_dword v[0:1], v0, off			; GFX9V4-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V4-NEXT: s_waitcnt vmcnt(0)			; GFX9V4-NEXT: s_waitcnt vmcnt(0)
	; GFX9V4-NEXT: s_endpgm			; GFX9V4-NEXT: s_endpgm
	;			;
	; GFX9V5-LABEL: llvm_amdgcn_is_private:			; GFX9V5-LABEL: llvm_amdgcn_is_private:
	; GFX9V5: ; %bb.0:			; GFX9V5: ; %bb.0:
	; GFX9V5-NEXT: s_load_dword s0, s[4:5], 0x4			; GFX9V5-NEXT: s_load_dword s2, s[4:5], 0x4
	; GFX9V5-NEXT: s_getreg_b32 s1, hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; GFX9V5-NEXT: s_mov_b64 s[0:1], src_private_base
	; GFX9V5-NEXT: s_lshl_b32 s1, s1, 16
	; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)			; GFX9V5-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9V5-NEXT: s_cmp_eq_u32 s0, s1			; GFX9V5-NEXT: s_cmp_eq_u32 s2, s1
	; GFX9V5-NEXT: s_cselect_b64 s[0:1], -1, 0			; GFX9V5-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; GFX9V5-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; GFX9V5-NEXT: global_store_dword v[0:1], v0, off			; GFX9V5-NEXT: global_store_dword v[0:1], v0, off
	; GFX9V5-NEXT: s_waitcnt vmcnt(0)			; GFX9V5-NEXT: s_waitcnt vmcnt(0)
	; GFX9V5-NEXT: s_endpgm			; GFX9V5-NEXT: s_endpgm
	%is.private = call i1 @llvm.amdgcn.is.private(i8* %ptr)			%is.private = call i1 @llvm.amdgcn.is.private(i8* %ptr)
	%zext = zext i1 %is.private to i32			%zext = zext i1 %is.private to i32
	store volatile i32 %zext, i32 addrspace(1)* undef			store volatile i32 %zext, i32 addrspace(1)* undef
	▲ Show 20 Lines • Show All 213 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.is.private.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s

	; GCN-LABEL: {{^}}is_private_vgpr:			; GCN-LABEL: {{^}}is_private_vgpr:
	; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[[0-9]+}}:[[PTR_HI:[0-9]+]]]			; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[[0-9]+}}:[[PTR_HI:[0-9]+]]]
	; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x11			; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x11
	; GFX9-DAG: s_getreg_b32 [[APERTURE:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 0, 16)			; CI: v_cmp_eq_u32_e32 vcc, [[APERTURE]], v[[PTR_HI]]
	; GFX9: s_lshl_b32 [[APERTURE]], [[APERTURE]], 16
	; GCN: v_cmp_eq_u32_e32 vcc, [[APERTURE]], v[[PTR_HI]]			; GFX9: s_mov_b64 s[{{[0-9]+}}:[[HI:[0-9]+]]], src_private_base
				; GFX9: v_cmp_eq_u32_e32 vcc, s[[HI]], v[[PTR_HI]]

	; GCN: v_cndmask_b32_e64 v{{[0-9]+}}, 0, 1, vcc			; GCN: v_cndmask_b32_e64 v{{[0-9]+}}, 0, 1, vcc
	define amdgpu_kernel void @is_private_vgpr(i8* addrspace(1)* %ptr.ptr) {			define amdgpu_kernel void @is_private_vgpr(i8* addrspace(1)* %ptr.ptr) {
	%id = call i32 @llvm.amdgcn.workitem.id.x()			%id = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr inbounds i8, i8 addrspace(1)* %ptr.ptr, i32 %id			%gep = getelementptr inbounds i8, i8 addrspace(1)* %ptr.ptr, i32 %id
	%ptr = load volatile i8, i8 addrspace(1)* %gep			%ptr = load volatile i8, i8 addrspace(1)* %gep
	%val = call i1 @llvm.amdgcn.is.private(i8* %ptr)			%val = call i1 @llvm.amdgcn.is.private(i8* %ptr)
	%ext = zext i1 %val to i32			%ext = zext i1 %val to i32
	store i32 %ext, i32 addrspace(1)* undef			store i32 %ext, i32 addrspace(1)* undef
	ret void			ret void
	}			}

	; FIXME: setcc (zero_extend (setcc)), 1) not folded out, resulting in			; FIXME: setcc (zero_extend (setcc)), 1) not folded out, resulting in
	; select and vcc branch.			; select and vcc branch.

	; GCN-LABEL: {{^}}is_private_sgpr:			; GCN-LABEL: {{^}}is_private_sgpr:
	; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x11{{$}}			; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x11{{$}}
	; GFX9-DAG: s_getreg_b32 [[APERTURE:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 0, 16)

	; CI-DAG: s_load_dword [[PTR_HI:s[0-9]+]], s[6:7], 0x1{{$}}			; CI-DAG: s_load_dword [[PTR_HI:s[0-9]+]], s[6:7], 0x1{{$}}
	; GFX9-DAG: s_load_dword [[PTR_HI:s[0-9]+]], s[4:5], 0x4{{$}}			; GFX9-DAG: s_load_dword [[PTR_HI:s[0-9]+]], s[4:5], 0x4{{$}}
	; GFX9: s_lshl_b32 [[APERTURE]], [[APERTURE]], 16

	; GCN: s_cmp_eq_u32 [[PTR_HI]], [[APERTURE]]			; CI: s_cmp_eq_u32 [[PTR_HI]], [[APERTURE]]

				; GFX9: s_mov_b64 s[{{[0-9]+}}:[[HI:[0-9]+]]], src_private_base
				; GFX9: s_cmp_eq_u32 [[PTR_HI]], s[[HI]]

	; GCN: s_cbranch_vccnz			; GCN: s_cbranch_vccnz
	define amdgpu_kernel void @is_private_sgpr(i8* %ptr) {			define amdgpu_kernel void @is_private_sgpr(i8* %ptr) {
	%val = call i1 @llvm.amdgcn.is.private(i8* %ptr)			%val = call i1 @llvm.amdgcn.is.private(i8* %ptr)
	br i1 %val, label %bb0, label %bb1			br i1 %val, label %bb0, label %bb1

	bb0:			bb0:
	store volatile i32 0, i32 addrspace(1)* undef			store volatile i32 0, i32 addrspace(1)* undef
	br label %bb1			br label %bb1
	Show All 9 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.is.shared.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CI %s
	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s

	; GCN-LABEL: {{^}}is_local_vgpr:			; GCN-LABEL: {{^}}is_local_vgpr:
	; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[[0-9]+}}:[[PTR_HI:[0-9]+]]]			; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[[0-9]+}}:[[PTR_HI:[0-9]+]]]
	; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x10			; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x10
	; GFX9-DAG: s_getreg_b32 [[APERTURE:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 16, 16)
	; GFX9: s_lshl_b32 [[APERTURE]], [[APERTURE]], 16

	; GCN: v_cmp_eq_u32_e32 vcc, [[APERTURE]], v[[PTR_HI]]			; GFX9: s_mov_b64 s[{{[0-9]+}}:[[HI:[0-9]+]]], src_shared_base
				; GFX9: v_cmp_eq_u32_e32 vcc, s[[HI]], v[[PTR_HI]]

				; CI: v_cmp_eq_u32_e32 vcc, [[APERTURE]], v[[PTR_HI]]
	; GCN: v_cndmask_b32_e64 v{{[0-9]+}}, 0, 1, vcc			; GCN: v_cndmask_b32_e64 v{{[0-9]+}}, 0, 1, vcc
	define amdgpu_kernel void @is_local_vgpr(i8* addrspace(1)* %ptr.ptr) {			define amdgpu_kernel void @is_local_vgpr(i8* addrspace(1)* %ptr.ptr) {
	%id = call i32 @llvm.amdgcn.workitem.id.x()			%id = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr inbounds i8, i8 addrspace(1)* %ptr.ptr, i32 %id			%gep = getelementptr inbounds i8, i8 addrspace(1)* %ptr.ptr, i32 %id
	%ptr = load volatile i8, i8 addrspace(1)* %gep			%ptr = load volatile i8, i8 addrspace(1)* %gep
	%val = call i1 @llvm.amdgcn.is.shared(i8* %ptr)			%val = call i1 @llvm.amdgcn.is.shared(i8* %ptr)
	%ext = zext i1 %val to i32			%ext = zext i1 %val to i32
	store i32 %ext, i32 addrspace(1)* undef			store i32 %ext, i32 addrspace(1)* undef
	ret void			ret void
	}			}

	; FIXME: setcc (zero_extend (setcc)), 1) not folded out, resulting in			; FIXME: setcc (zero_extend (setcc)), 1) not folded out, resulting in
	; select and vcc branch.			; select and vcc branch.

	; GCN-LABEL: {{^}}is_local_sgpr:			; GCN-LABEL: {{^}}is_local_sgpr:
	; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x10{{$}}			; CI-DAG: s_load_dword [[APERTURE:s[0-9]+]], s[4:5], 0x10{{$}}
	; GFX9-DAG: s_getreg_b32 [[APERTURE:s[0-9]+]], hwreg(HW_REG_SH_MEM_BASES, 16, 16)
	; GFX9-DAG: s_lshl_b32 [[APERTURE]], [[APERTURE]], 16

	; CI-DAG: s_load_dword [[PTR_HI:s[0-9]+]], s[6:7], 0x1{{$}}			; CI-DAG: s_load_dword [[PTR_HI:s[0-9]+]], s[6:7], 0x1{{$}}
	; GFX9-DAG: s_load_dword [[PTR_HI:s[0-9]+]], s[4:5], 0x4{{$}}			; GFX9-DAG: s_load_dword [[PTR_HI:s[0-9]+]], s[4:5], 0x4{{$}}

	; GCN: s_cmp_eq_u32 [[PTR_HI]], [[APERTURE]]			; GFX9: s_mov_b64 s[{{[0-9]+}}:[[HI:[0-9]+]]], src_shared_base
				; GFX9: s_cmp_eq_u32 [[PTR_HI]], s[[HI]]

				; CI: s_cmp_eq_u32 [[PTR_HI]], [[APERTURE]]
	; GCN: s_cbranch_vccnz			; GCN: s_cbranch_vccnz
	define amdgpu_kernel void @is_local_sgpr(i8* %ptr) {			define amdgpu_kernel void @is_local_sgpr(i8* %ptr) {
	%val = call i1 @llvm.amdgcn.is.shared(i8* %ptr)			%val = call i1 @llvm.amdgcn.is.shared(i8* %ptr)
	br i1 %val, label %bb0, label %bb1			br i1 %val, label %bb0, label %bb1

	bb0:			bb0:
	store volatile i32 0, i32 addrspace(1)* undef			store volatile i32 0, i32 addrspace(1)* undef
	br label %bb1			br label %bb1
	Show All 9 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Use aperture registers instead of S_GETREGClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 474463

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

llvm/lib/Target/AMDGPU/SIDefines.h

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-scratch-init.gfx.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/implicit-kernarg-backend-usage-global-isel.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-addrspacecast.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.is.private.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.is.shared.ll

llvm/test/CodeGen/AMDGPU/addrspacecast-known-non-null.ll

llvm/test/CodeGen/AMDGPU/addrspacecast.ll

llvm/test/CodeGen/AMDGPU/atomicrmw-expand.ll

llvm/test/CodeGen/AMDGPU/callee-special-input-sgprs-fixed-abi.ll

llvm/test/CodeGen/AMDGPU/flat-scratch-init.ll

llvm/test/CodeGen/AMDGPU/implicit-kernarg-backend-usage.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.is.private.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.is.shared.ll

[AMDGPU] Use aperture registers instead of S_GETREG
ClosedPublic